webMagic 爬虫

public class MoviePaperPageProcessor implements PageProcessor {
private Site page = Site.me().setRetryTimes(3).setSleepTime(1000);

public Site getSite() {
return page;
}
String url = "jdbc:oracle:thin:@192.168.2.161:1521:orcl" ;
String username = "hecv_ay" ;
String password = "000000" ;

public void process(Page page) {
ChineseCharToEn cte = new ChineseCharToEn();
// System.out.println("获取拼音首字母:"+ cte.getAllFirstLetter("西琉璃村委会"));

// String xml = page.getHtml().toString();
List<String> codes=page.getHtml().xpath("//table[@class=‘villagetable‘]//tr[@class=‘villagetr‘]/td[1]/text()").all();
List<String> names=page.getHtml().xpath("//table[@class=‘villagetable‘]//tr[@class=‘villagetr‘]/td[3]/text()").all();
System.out.println(codes.get(3)+"---"+names.get(3));

try{
Connection conn =
DriverManager.getConnection(url , username , password ) ;
conn.setAutoCommit(false);
PreparedStatement ps =conn.prepareStatement("INSERT INTO HECV_AY.CM_ADMINISTRATIVE_AREA (ID, CODE, NAME, SHORTNAME, LOOKUP, DEGREE, POS, PARENT, ANCESTOR, DEPTH, TERMINAL, DELETED, CREATED_TIME, LAST_MODIFIED_TIME)" +
"VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)");
for(int i=0;i<codes.size();i++){
ps.setString(1, UUID.randomUUID().toString());
ps.setString(2, codes.get(i));
ps.setString(3, names.get(i));
ps.setString(4, names.get(i));
ps.setString(5, cte.getAllFirstLetter(names.get(i)));
ps.setString(6, "70");
ps.setString(7, 10*(i+1)+"");
ps.setString(8, "f3505dfd-b255-4df6-84e5-09dd03b666db");
ps.setString(9, "(0d0c03f6-934f-40b2-bb4c-b27846f5e987),(12f196e1-d4b8-4c87-8e37-a5bf15d69222),(14ea5270-8e17-4071-9e2f-b34434be1b4b),(40043731-734c-4e65-aba9-5e5928644931),(f3505dfd-b255-4df6-84e5-09dd03b666db)");
ps.setInt(10, 6);
ps.setInt(11, 0);
ps.setInt(12, 0);
ps.setDate(13, new java.sql.Date(new Date().getTime()));
ps.setDate(14, new java.sql.Date(new Date().getTime()));

ps.addBatch();
}
ps.executeBatch();
conn.commit();
conn.close();
}catch(SQLException se){
System.out.println("数据库连接失败!");
se.printStackTrace() ;
}

}

public static void main(String[] args) {
Spider.create(new MoviePaperPageProcessor())
.addUrl("http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/41/05/26/410526103.html")
.thread(5).run();
}

}

//获取 汉字首字母

public class ChineseCharToEn {

private final static int[] li_SecPosValue = { 1601, 1637, 1833, 2078, 2274,
2302, 2433, 2594, 2787, 3106, 3212, 3472, 3635, 3722, 3730, 3858,
4027, 4086, 4390, 4558, 4684, 4925, 5249, 5590 };
private final static String[] lc_FirstLetter = { "a", "b", "c", "d", "e",
"f", "g", "h", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s",
"t", "w", "x", "y", "z" };

/**
* 取得给定汉字串的首字母串,即声母串
* @param str 给定汉字串
* @return 声母串
*/
public String getAllFirstLetter(String str) {
if (str == null || str.trim().length() == 0) {
return "";
}

String _str = "";
for (int i = 0; i < str.length(); i++) {
_str = _str + this.getFirstLetter(str.substring(i, i + 1));
}

return _str;
}

/**
* 取得给定汉字的首字母,即声母
* @param chinese 给定的汉字
* @return 给定汉字的声母
*/
public String getFirstLetter(String chinese) {
if (chinese == null || chinese.trim().length() == 0) {
return "";
}
chinese = this.conversionStr(chinese, "GB2312", "ISO8859-1");

if (chinese.length() > 1) // 判断是不是汉字
{
int li_SectorCode = (int) chinese.charAt(0); // 汉字区码
int li_PositionCode = (int) chinese.charAt(1); // 汉字位码
li_SectorCode = li_SectorCode - 160;
li_PositionCode = li_PositionCode - 160;
int li_SecPosCode = li_SectorCode * 100 + li_PositionCode; // 汉字区位码
if (li_SecPosCode > 1600 && li_SecPosCode < 5590) {
for (int i = 0; i < 23; i++) {
if (li_SecPosCode >= li_SecPosValue[i]
&& li_SecPosCode < li_SecPosValue[i + 1]) {
chinese = lc_FirstLetter[i];
break;
}
}
} else // 非汉字字符,如图形符号或ASCII码
{
chinese = this.conversionStr(chinese, "ISO8859-1", "GB2312");
chinese = chinese.substring(0, 1);
}
}

return chinese;
}

/**
* 字符串编码转换
* @param str 要转换编码的字符串
* @param charsetName 原来的编码
* @param toCharsetName 转换后的编码
* @return 经过编码转换后的字符串
*/
private String conversionStr(String str, String charsetName,String toCharsetName) {
try {
str = new String(str.getBytes(charsetName), toCharsetName);
} catch (UnsupportedEncodingException ex) {
System.out.println("字符串编码转换异常:" + ex.getMessage());
}
return str;
}

public static void main(String[] args) {
ChineseCharToEn cte = new ChineseCharToEn();
System.out.println("获取拼音首字母:"+ cte.getAllFirstLetter("西琉璃村委会"));
}

}

时间: 2024-10-15 05:29:26

webMagic 爬虫的相关文章

webmagic爬虫程序

package com.letv.cloud.spider;import java.util.HashSet;import java.util.List;import us.codecraft.webmagic.Page;import us.codecraft.webmagic.Site;import us.codecraft.webmagic.Spider;import us.codecraft.webmagic.processor.PageProcessor;public class Mov

WebMagic爬虫框架及javaEE SSH框架将数据保存到数据库(二)

关于一些基本内容可查看上一篇博客:http://blog.csdn.net/u013082989/article/details/51176073 一.首先看一下爬虫的内容: (1)学科类型.课程.课程对应章节.课程对应参考教材(主要是要将课程章节对应到上一级爬取的课程上,还有就是课程教材的爬取比较麻烦,下面会讲到) 课程章节: 课程教材 教材内容 二.实体类的设计: (1)课程类.课程对应章节类(一对多),课程对应教材类(一对多),关于hibernate映射文件就不说明了. 三.爬取课程及对应

webmagic爬虫报错,求解答!

2016-12-29 22:00:05 [pool-44-thread-1] WARN  HttpClientDownloader:104 - download page http://news.fx678.com errorjava.net.SocketTimeoutException: Read timed out at java.net.SocketInputStream.socketRead0(Native Method) ~[?:1.7.0_79] at java.net.Socket

基于webmagic的爬虫小应用--爬取知乎用户信息

听到“爬虫”,是不是第一时间想到Python/php ? 多少想玩爬虫的Java学习者就因为语言不通而止步.Java是真的不能做爬虫吗? 当然不是. 只不过python的3行代码能解决的问题,而Java要30行. 这里推荐大家一个大牛做的java爬虫框架 [WebMagic] 文档简单易懂!java爬虫开发的福利啊! 一起来动手做一个小应用吧! 爬虫小应用–知乎用户信息 爬虫思想有3步 1. 抽取目标链接 2. 抽取需要的信息 3. 处理数据 一. 抽取目标链接 (确定入口地址,这里的入口是ht

使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图)

初学Scrapy,实现爬取网络图片并保存本地功能 一.先看最终效果 保存在F:\pics文件夹下 二.安装scrapy 1.python的安装就不说了,我用的python2.7,执行命令pip install scrapy,或者使用easy_install 命令都可以 2.可能会报如下错误 *********************************************************** Could not find function xmlCheckVersion in l

前后端分离的爬虫小项目

前后端分离的爬虫小项目-----EncycProject EncycProject项目使用现在流行的前后端分离技术:此项目创作目的是实践.利用此项目快速搭建环境和快速入门.该项目的主线是建立宠物社区网站.目前该项目完成第一个模块:宠物百科:剩余模块陆续开发中.(此项目可以变更,第一模块耦合度低) 项目地址 项目GitHub地址 1 项目效果 1.1 效果图: 爬虫数据数据库数据前端 待续 2 项目结构图 3.1 框架整合 3.1.1 pom.xml <?xml version="1.0&q

Java 解析chm文件实战(原创)

需求:java解析chm文件,并将内容插入数据库和redis. Java解析chm文件,网上除了github上有个家伙只言片语了一下,没有啥资料参考,包括chm4j这东西,没啥介绍,本着服务大众的精神,整理了下流程, 时间仓促,错误之处在所难免,望指正. 第一步:下载chm4j.jar以及依赖 http://sourceforge.net/projects/chm4j/ 第二步:新建java工程,建一个解析ParseChm类,建一个解析测试类,类似: ParseChm类: //下面的包,请导入c

github清理,记录一些有趣的项目

1. rhino 一种java做的开源javascript引擎 https://github.com/mozilla/rhino 2. jeewx 国人写的公众号管理后台,集成度有些高,不好剥离.还是 weixin-sdk更好些,jar包导入,想用就用. https://github.com/zhangdaiscott/jeewx 3. Compiler 加拿大大学生写的一个简单的编译器材料.不是很大,以前大学时都是用c做的编译原理课程设计. https://github.com/danyalr

Movie Hell诞生之路

平时电影看的比较多(记得当时学校内网睿思上的电影都快被我看光了),所以觉得应该为这个兴趣做点什么. 首先归纳一下过程中涉及到的相关知识点:linux(ubuntu), mysql, spring, mybatis, webmagic(爬虫), js/html/css/jsp, nginx.大概就这么多吧,另外就是还有一些域名绑定之类的操作. 服务器选择 要搭建一个网站,首先你需要一台有公网地址的服务器,这里有很多云计算厂商可以选择,调研下来比较推荐的有这些,国内有阿里云.网易蜂巢.国外的有aws