寒假三

爬取北京市政百姓信件内容

目标网址:http://www.beijing.gov.cn/hudong/hdjl/com.web.search.mailList.flow

将该网站中的所有网页代码进行获取

package util;

import java.io.IOException;
import java.util.ArrayList;
import java.util.LinkedList;
import java.util.List;

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.ImmediateRefreshHandler;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlElement;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

public class 首都之窗 {
static List<String> lines_zi=new LinkedList<String>();
static List<String> lines_jian=new LinkedList<String>();
static List<String> lines_tou=new LinkedList<String>();

static String line;
public static void Value_start()
{
// TODO 自动生成的方法存根
WebClient webClient=new WebClient(BrowserVersion.CHROME); // 实例化Web客户端

System.out.println("AAAAAA");
try {
webClient.getOptions().setActiveXNative(false);
//webClient.getOptions().setCssEnabled(false);
//webClient.getOptions().setRedirectEnabled(true);
webClient.getOptions().setJavaScriptEnabled(true);
webClient.getOptions().setDoNotTrackEnabled(true);
webClient.getOptions().setThrowExceptionOnScriptError(false);
webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
webClient.getCache().setMaxSize(100);
webClient.getOptions().setJavaScriptEnabled(true);//运行js脚本执行
webClient.setAjaxController(new NicelyResynchronizingAjaxController());//设置支持AJAX
webClient.getOptions().setCssEnabled(false);//忽略css
webClient.getOptions().setUseInsecureSSL(true);//ssl安全访问
webClient.getOptions().setThrowExceptionOnScriptError(false); //解析js出错时不抛异常
//webClient.getOptions().setTimeout(50000); //超时时间 ms
webClient.getCookieManager().setCookiesEnabled(true);
webClient.getCache().clear();
webClient.setRefreshHandler(new ImmediateRefreshHandler());
webClient.getOptions().setTimeout(2*1000); //网页多少ms超时响应
webClient.setJavaScriptTimeout(600*1000); //javaScript多少ms超时
webClient.setAjaxController(new NicelyResynchronizingAjaxController());
//webClient.setJavaScriptTimeout(600*1000);
//webClient.getOptions().setRedirectEnabled(true);
webClient.waitForBackgroundJavaScript(60*1000);

HtmlPage page=webClient.getPage("http://www.beijing.gov.cn/hudong/hdjl/com.web.search.mailList.flow"); // 解析获取页面
HtmlElement a=page.getElementByName("nextPage");
int j=1,lastj=0;
FileHandle fh=new FileHandle();
StringHandle sh=new StringHandle();
List<String> lastInfo_zi=new ArrayList<String>();
List<String> lastInfo_jian=new ArrayList<String>();
List<String> lastInfo_tou=new ArrayList<String>();
System.out.println("asdfsdaf");
fh.outFile(""+"\r\n", "E:\\578095023\\FileRecv\\寒假作业\\大三寒假作业\\北京市政百姓信件分析实战\\list.txt", false);

while(j!=600)
{

String nowInfo=page.asXml();

List<String> infoList_zi=sh.getExpString("letterdetail\\(‘.*?‘,‘.*?‘\\)", nowInfo);
int g_size_zi=infoList_zi.size();
if(sh.StringListSameOutStringList(infoList_zi, lastInfo_zi).size()!=g_size_zi&&g_size_zi==7)
{
//System.out.println(g_size);
for(int i=0;i<g_size_zi;i++)
{
String theWeb=infoList_zi.get(i).replaceAll("letterdetail\\(‘.*?‘,‘", "").replace("‘)", "");
System.out.println(theWeb);
lines_zi.add(theWeb);
fh.outFile(theWeb+"\r\n", "E:\\578095023\\FileRecv\\寒假作业\\大三寒假作业\\北京市政百姓信件分析实战\\list.txt", true);

if(i==g_size_zi-1)
{
lastInfo_zi=infoList_zi;
System.out.println(j);
j++;
break;
}

}
page=a.click();
}
//page=a.click();
}

}catch (FailingHttpStatusCodeException | IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} finally{
webClient.close(); // 关闭客户端,释放内存
}

}
public static void main(String[] args) {
Value_start();
}

}

getPass

原文地址:https://www.cnblogs.com/zjm15511858030/p/12243526.html

时间: 2024-08-02 01:42:15

寒假三的相关文章

PTA寒假三

抓老鼠啊~亏了还是赚了? (20 分) 某地老鼠成灾,现悬赏抓老鼠,每抓到一只奖励10元,于是开始跟老鼠斗智斗勇:每天在墙角可选择以下三个操作:放置一个带有一块奶酪的捕鼠夹(T),或者放置一块奶酪(C),或者什么也不放(X).捕鼠夹可重复利用,不计成本,奶酪每块3元. 聪明的老鼠呢?它们每天可能会派出一只老鼠到墙角,看看墙角有啥: 若什么也没有(X),老鼠们就不高兴了(Unhappy),会有长达一天(也就是第二天)的不高兴期.在不高兴期间,不派出老鼠.不高兴期结束之后,派出老鼠. 若有捕鼠夹(T

寒假第三周反思

寒假已经结束,而我也已经开始了新的学习,希望2019年的自己会更加优秀吧 一.学习 本周的计划是学习js,到目前算是对js理解的差不多了,进度还是可以,先去看菜鸟教程上的,如果又不懂的在结合视频,效率还是比较高的. 二.生活 1.很不幸的事情便是我的电脑又出现了问题,从昨天下午开始,就开始蓝屏,说采集错误信息.我便让大三的学长帮忙修理一下,结果很麻烦.而且上网百度也不是很详细,学长说如果再次蓝屏就给我重装系统.诶,真是麻烦!电脑还是没有手机轻松 2.我从五楼调到了六楼,选择了一个面朝太阳的地方,

16级第三周寒假作业E题

兵队列训练问题 TimeLimit:1000MS  MemoryLimit:32768KB 64-bit integer IO format:%I64d Problem Description 某部队进行新兵队列训练,将新兵从一开始按顺序依次编号,并排成一行横队,训练的规则如下:从头开始一至二报数,凡报到二的出列,剩下的向小序号方向靠拢,再从头开始进行一至三报数,凡报到三的出列,剩下的向小序号方向靠拢,继续从头开始进行一至二报数...,以后从头开始轮流进行一至二报数.一至三报数直到剩下的人数不超

寒假集训日志(三)——数论

今天听得简直要崩溃...没听懂啥... 主要内容: 1.欧几里得(稍微懂了点) 2.中国剩余定理( 稍微懂了点) 3.博弈( 看智商的玩意儿) (一)欧几里得算法(及其扩展算法) 欧几里得定理就是gcd(辗转相除法)的原理(不懂,只会用). 扩展算法的运用大概就是用来解一个 ax + by = gcd( a, b )的不定方程. 大致证明步骤: 将a 替换为b, 将b 替换为gcd(b, a%b),又gcd(a,b) = gcd( b, a%b),就可以化为一个等式巴拉巴拉的.然后算法实现的花就

hiho一下 第二十九周 最小生成树三&#183;堆优化的Prim算法【14年寒假弄了好长时间没搞懂的prim优化:prim算法+堆优化 】

题目1 : 最小生成树三·堆优化的Prim算法 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 回到两个星期之前,在成功的使用Kruscal算法解决了问题之后,小Ho产生了一个疑问,究竟这样的算法在稀疏图上比Prim优化之处在哪里呢? 提示:没有无缘无故的优化! 输入 每个测试点(输入文件)有且仅有一组测试数据. 在一组测试数据中: 第1行为2个整数N.M,表示小Hi拥有的城市数量和小Hi筛选出路线的条数. 接下来的M行,每行描述一条路线,其中第i行为3个整数N1_

18寒假第三测

第一题:找LCA,两点之间的距离=他们各自到起点的距离 - 2*LCA到起点的距离 #include<bits/stdc++.h> using namespace std; const int maxn = 100015, P = 20; int head[2 * maxn],to[2 * maxn],last[2 *maxn],co[2 * maxn],dep[maxn], idx, anc[maxn][P+1],dis[maxn]; void dfs(int u,int from){ //

寒假文献阅读(三)

目录 文章名称 来源 时间 概要 贡献 文章名称 Delayed Installation and Expedited Eviction:An Alternative Approach to Reduce Flow Table Occupancy in SDN Switches 来源 IEEE/ACM TRANSACTIONS ON NETWORKING 时间 2018.08 概要 为了减少流表的占用率,将问题转化为一个背包模型,其中代价函数是hit ratio而目标函数是average tab

PTA寒假编程第三题

抓老鼠啊~亏了还是赚了? 某地老鼠成灾,现悬赏抓老鼠,每抓到一只奖励10元,于是开始跟老鼠斗智斗勇:每天在墙角可选择以下三个操作:放置一个带有一块奶酪的捕鼠夹(T),或者放置一块奶酪(C),或者什么也不放(X).捕鼠夹可重复利用,不计成本,奶酪每块3元. 聪明的老鼠呢?它们每天可能会派出一只老鼠到墙角,看看墙角有啥: 若什么也没有(X),老鼠们就不高兴了(Unhappy),会有长达一天(也就是第二天)的不高兴期.在不高兴期间,不派出老鼠.不高兴期结束之后,派出老鼠. 若有捕鼠夹(T),这只老鼠被

我的快乐寒假-第三天-王梓烨

第三天 2020年1月10日星期五     今天的经历可谓是一波三折. 最令人激动的,也是最令人伤心的,那就是去学校领成绩.我信誓旦旦的来到学校,感觉自己的成绩应该不会太差,可是理想和显示总是相反的. 当我拿到成绩条时,我马上用手遮住了成绩,然后一点一点打开,“语文.....89.5,哎,太差了!数学......什么?我考了94分?还可以,还可以.英语......哼,才94,哎.”我和班上一些成绩很好的同学对比了一下,发现我居然是全班第一!可是,命运的龙卷风一下子又把我刮回了现实. 突然,邱老师