动态网页爬取例子(WebCollector+selenium+phantomjs)

目标:动态网页爬取

说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作;2)网页通过JS /
AJAX动态生成,如一个html里有<div id="test"></div>,通过JS生成<div
id="test"><span>aaa</span></div>。

这里用了WebCollector 2进行爬虫,这东东也方便,不过要支持动态关键还是要靠另外一个API -- selenium 2(集成htmlunit 和 phantomjs).

1)需要登录后的爬取,如新浪微博

[java] view plain copy

  1. import java.util.Set;
  2. import cn.edu.hfut.dmic.webcollector.crawler.DeepCrawler;
  3. import cn.edu.hfut.dmic.webcollector.model.Links;
  4. import cn.edu.hfut.dmic.webcollector.model.Page;
  5. import cn.edu.hfut.dmic.webcollector.net.HttpRequesterImpl;
  6. import org.openqa.selenium.Cookie;
  7. import org.openqa.selenium.WebElement;
  8. import org.openqa.selenium.htmlunit.HtmlUnitDriver;
  9. import org.jsoup.nodes.Element;
  10. import org.jsoup.select.Elements;
  11. /*
  12. * 登录后爬取
  13. * Refer: http://nutcher.org/topics/33
  14. * https://github.com/CrawlScript/WebCollector/blob/master/README.zh-cn.md
  15. * Lib required: webcollector-2.07-bin, selenium-java-2.44.0 & its lib
  16. */
  17. public class WebCollector1 extends DeepCrawler {
  18. public WebCollector1(String crawlPath) {
  19. super(crawlPath);
  20. /*获取新浪微博的cookie,账号密码以明文形式传输,请使用小号*/
  21. try {
  22. String cookie=WebCollector1.WeiboCN.getSinaCookie("yourAccount", "yourPwd");
  23. HttpRequesterImpl myRequester=(HttpRequesterImpl) this.getHttpRequester();
  24. myRequester.setCookie(cookie);
  25. } catch (Exception e) {
  26. e.printStackTrace();
  27. }
  28. }
  29. @Override
  30. public Links visitAndGetNextLinks(Page page) {
  31. /*抽取微博*/
  32. Elements weibos=page.getDoc().select("div.c");
  33. for(Element weibo:weibos){
  34. System.out.println(weibo.text());
  35. }
  36. /*如果要爬取评论,这里可以抽取评论页面的URL,返回*/
  37. return null;
  38. }
  39. public static void main(String[] args) {
  40. WebCollector1 crawler=new WebCollector1("/home/hu/data/weibo");
  41. crawler.setThreads(3);
  42. /*对某人微博前5页进行爬取*/
  43. for(int i=0;i<5;i++){
  44. crawler.addSeed("http://weibo.cn/zhouhongyi?vt=4&page="+i);
  45. }
  46. try {
  47. crawler.start(1);
  48. } catch (Exception e) {
  49. e.printStackTrace();
  50. }
  51. }
  52. public static class WeiboCN {
  53. /**
  54. * 获取新浪微博的cookie,这个方法针对weibo.cn有效,对weibo.com无效
  55. * weibo.cn以明文形式传输数据,请使用小号
  56. * @param username 新浪微博用户名
  57. * @param password 新浪微博密码
  58. * @return
  59. * @throws Exception
  60. */
  61. public static String getSinaCookie(String username, String password) throws Exception{
  62. StringBuilder sb = new StringBuilder();
  63. HtmlUnitDriver driver = new HtmlUnitDriver();
  64. driver.setJavascriptEnabled(true);
  65. driver.get("http://login.weibo.cn/login/");
  66. WebElement mobile = driver.findElementByCssSelector("input[name=mobile]");
  67. mobile.sendKeys(username);
  68. WebElement pass = driver.findElementByCssSelector("input[name^=password]");
  69. pass.sendKeys(password);
  70. WebElement rem = driver.findElementByCssSelector("input[name=remember]");
  71. rem.click();
  72. WebElement submit = driver.findElementByCssSelector("input[name=submit]");
  73. submit.click();
  74. Set<Cookie> cookieSet = driver.manage().getCookies();
  75. driver.close();
  76. for (Cookie cookie : cookieSet) {
  77. sb.append(cookie.getName()+"="+cookie.getValue()+";");
  78. }
  79. String result=sb.toString();
  80. if(result.contains("gsid_CTandWM")){
  81. return result;
  82. }else{
  83. throw new Exception("weibo login failed");
  84. }
  85. }
  86. }
  87. }

* 这里有个自定义路径/home/hu/data/weibo(WebCollector1 crawler=new WebCollector1("/home/hu/data/weibo");),是用来保存到嵌入式数据库Berkeley DB。

* 总体上来自Webcollector 作者的sample。

2)JS动态生成HTML元素的爬取

[java] view plain copy

  1. import java.util.List;
  2. import org.openqa.selenium.By;
  3. import org.openqa.selenium.WebDriver;
  4. import org.openqa.selenium.WebElement;
  5. import cn.edu.hfut.dmic.webcollector.crawler.DeepCrawler;
  6. import cn.edu.hfut.dmic.webcollector.model.Links;
  7. import cn.edu.hfut.dmic.webcollector.model.Page;
  8. /*
  9. * JS爬取
  10. * Refer: http://blog.csdn.net/smilings/article/details/7395509
  11. */
  12. public class WebCollector3 extends DeepCrawler {
  13. public WebCollector3(String crawlPath) {
  14. super(crawlPath);
  15. // TODO Auto-generated constructor stub
  16. }
  17. @Override
  18. public Links visitAndGetNextLinks(Page page) {
  19. /*HtmlUnitDriver可以抽取JS生成的数据*/
  20. //      HtmlUnitDriver driver=PageUtils.getDriver(page,BrowserVersion.CHROME);
  21. //      String content = PageUtils.getPhantomJSDriver(page);
  22. WebDriver driver = PageUtils.getWebDriver(page);
  23. //        List<WebElement> divInfos=driver.findElementsByCssSelector("#feed_content");
  24. List<WebElement> divInfos=driver.findElements(By.cssSelector("#feed_content span"));
  25. for(WebElement divInfo:divInfos){
  26. System.out.println("Text是:" + divInfo.getText());
  27. }
  28. return null;
  29. }
  30. public static void main(String[] args) {
  31. WebCollector3 crawler=new WebCollector3("/home/hu/data/wb");
  32. for(int page=1;page<=5;page++)
  33. //        crawler.addSeed("http://www.sogou.com/web?query="+URLEncoder.encode("编程")+"&page="+page);
  34. crawler.addSeed("http://cq.qq.com/baoliao/detail.htm?294064");
  35. try {
  36. crawler.start(1);
  37. } catch (Exception e) {
  38. e.printStackTrace();
  39. }
  40. }
  41. }

PageUtils.java

[java] view plain copy

  1. import java.io.BufferedReader;
  2. import java.io.IOException;
  3. import java.io.InputStream;
  4. import java.io.InputStreamReader;
  5. import org.openqa.selenium.JavascriptExecutor;
  6. import org.openqa.selenium.WebDriver;
  7. import org.openqa.selenium.chrome.ChromeDriver;
  8. import org.openqa.selenium.htmlunit.HtmlUnitDriver;
  9. import org.openqa.selenium.ie.InternetExplorerDriver;
  10. import org.openqa.selenium.phantomjs.PhantomJSDriver;
  11. import com.gargoylesoftware.htmlunit.BrowserVersion;
  12. import cn.edu.hfut.dmic.webcollector.model.Page;
  13. public class PageUtils {
  14. public static HtmlUnitDriver getDriver(Page page) {
  15. HtmlUnitDriver driver = new HtmlUnitDriver();
  16. driver.setJavascriptEnabled(true);
  17. driver.get(page.getUrl());
  18. return driver;
  19. }
  20. public static HtmlUnitDriver getDriver(Page page, BrowserVersion browserVersion) {
  21. HtmlUnitDriver driver = new HtmlUnitDriver(browserVersion);
  22. driver.setJavascriptEnabled(true);
  23. driver.get(page.getUrl());
  24. return driver;
  25. }
  26. public static WebDriver getWebDriver(Page page) {
  27. //      WebDriver driver = new HtmlUnitDriver(true);
  28. //      System.setProperty("webdriver.chrome.driver", "D:\\Installs\\Develop\\crawling\\chromedriver.exe");
  29. //      WebDriver driver = new ChromeDriver();
  30. System.setProperty("phantomjs.binary.path", "D:\\Installs\\Develop\\crawling\\phantomjs-2.0.0-windows\\bin\\phantomjs.exe");
  31. WebDriver driver = new PhantomJSDriver();
  32. driver.get(page.getUrl());
  33. //      JavascriptExecutor js = (JavascriptExecutor) driver;
  34. //      js.executeScript("function(){}");
  35. return driver;
  36. }
  37. public static String getPhantomJSDriver(Page page) {
  38. Runtime rt = Runtime.getRuntime();
  39. Process process = null;
  40. try {
  41. process = rt.exec("D:\\Installs\\Develop\\crawling\\phantomjs-2.0.0-windows\\bin\\phantomjs.exe " +
  42. "D:\\workspace\\crawlTest1\\src\\crawlTest1\\parser.js " +
  43. page.getUrl().trim());
  44. InputStream in = process.getInputStream();
  45. InputStreamReader reader = new InputStreamReader(
  46. in, "UTF-8");
  47. BufferedReader br = new BufferedReader(reader);
  48. StringBuffer sbf = new StringBuffer();
  49. String tmp = "";
  50. while((tmp = br.readLine())!=null){
  51. sbf.append(tmp);
  52. }
  53. return sbf.toString();
  54. } catch (IOException e) {
  55. e.printStackTrace();
  56. }
  57. return null;
  58. }
  59. }

2.1)HtmlUnitDriver getDriver是selenium 1.x的作法,已经outdate了,现在用WebDriver getWebDriver

2.2)这里用了几种方法:HtmlUnitDriver, ChromeDriver, PhantomJSDriver,
PhantomJS,参考 http://blog.csdn.net/five3/article/details/19085303,各自之间的优缺
点如下:

driver类型 优点 缺点 应用
真实浏览器driver 真实模拟用户行为 效率、稳定性低 兼容性测试
HtmlUnit 速度快 js引擎不是主流的浏览器支持的 包含少量js的页面测试
PhantomJS 速度中等、模拟行为接近真实 不能模拟不同/特定浏览器的行为 非GUI的功能性测试

* 真实浏览器driver 包括 Firefox, Chrome, IE

2.3)用PhantomJSDriver的时候,遇上错
误:ClassNotFoundException: org.openqa.selenium.browserlaunchers.Proxies,原
因竟然是selenium 2.44 的bug,后来通过maven找到phantomjsdriver-1.2.1.jar 才解决了。

2.4)另外,我还试了PhantomJS 原生调用(也就是不用selenium,直接调用PhantomJS,见上面的方法),原生要调用JS,这里的parser.js代码如下:

[javascript] view plain copy

  1. system = require(‘system‘)
  2. address = system.args[1];//获得命令行第二个参数 接下来会用到
  3. //console.log(‘Loading a web page‘);
  4. var page = require(‘webpage‘).create();
  5. var url = address;
  6. //console.log(url);
  7. page.open(url, function (status) {
  8. //Page is loaded!
  9. if (status !== ‘success‘) {
  10. console.log(‘Unable to post!‘);
  11. } else {
  12. //此处的打印,是将结果一流的形式output到java中,java通过InputStream可以获取该输出内容
  13. console.log(page.content);
  14. }
  15. phantom.exit();
  16. });

3)后话

3.1)HtmlUnitDriver + PhantomJSDriver是当前最可靠的动态抓取方案。

3.2)这过程中用到很多包、exe,遇到很多的墙~,有需要的朋友可以找我要。

Reference

http://www.ibm.com/developerworks/cn/web/1309_fengyq_seleniumvswebdriver/
http://blog.csdn.net/smilings/article/details/7395509
http://phantomjs.org/download.html
http://blog.csdn.net/five3/article/details/19085303
http://phantomjs.org/quick-start.html

时间: 2025-01-14 10:33:30

动态网页爬取例子(WebCollector+selenium+phantomjs)的相关文章

python动态网页爬取——四六级成绩爬取

需求: 四六级成绩查询网站我所知道的有两个:学信网(http://www.chsi.com.cn/cet/)和99宿舍(http://cet.99sushe.com/),这两个网站采用的都是动态网页.我使用的是学信网,好了,网站截图如下: 网站的代码如下: 1 <form method="get" name="form1" id="form1" action="/cet/query"> 2 3 <table

动态网页爬取

四六级成绩查询网站我所知道的有两个:学信网(http://www.chsi.com.cn/cet/)和99宿舍(http://cet.99sushe.com/),这两个网站采用的都是动态网页.我使用的是学信网,好了,网站截图如下: 网站的代码如下: 1 <form method="get" name="form1" id="form1" action="/cet/query"> 2 3 <table bord

动态网页爬取样例(WebCollector+selenium+phantomjs)

目标:动态网页爬取 说明:这里的动态网页指几种可能:1)须要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成.如一个html里有<div id="test"></div>,通过JS生成<div id="test"><span>aaa</span></div>. 这里用了WebCollector 2进行爬虫,这东东也方便,只是要支持动态关键还是要靠另外一个API -- selen

WebFetch 是无依赖极简网页爬取组件

WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫. WebFetch 要达到的目标: 没有第三方依赖jar包 减少内存使用 提高CPU利用率 加快网络爬取速度 简洁明了的api接口 能在Android设备上稳定运行 小巧灵活可以方便集成的网页抓取组件 使用文档 WebFetch的使用非常简单,让小白用户快速上手,WebFetch为用户配置默认页面处理方法,默认将抓取到的页面信息使用System.out.print输出到控制台(通过配置PageHandler修改默认操作).

使用selenium动态渲染爬取拉勾网上450个java职位的信息

开始这个小项目的时候要确保你的电脑中有装上selenium以及相应的浏览器驱动,还有别忘了Mongodb数据库 我们首先打开拉勾网的官网查看下基本的页面元素 当我在搜索框中输入java的时候,url如下,当我想用下面的url进行抓取的时候,我发现事情并不简单. 我点击下一页的时候发现,url并没有变化,所以并不能用最基本的抓取方法了,而改为ajax请求进行抓取 当我查看ajax请求的时候,发现事情又不简单的了,这个分页的请求带的参数时Form data,也就是表单形式的参数, 所以,拉勾网上的a

Python开发爬虫之动态网页抓取篇:爬取博客评论数据

以爬取<Python 网络爬虫:从入门到实践>一书作者的个人博客评论为例.网址:http://www.santostang.com/2017/03/02/hello-world/ 1)"抓包":找到真实的数据地址 右键点击"检查",点击"network",选择"js".刷新一下页面,选中页面刷新时返回的数据list?callback....这个js文件.右边再选中Header.如图: 其中,Request URL即

为采集动态网页安装和测试Python Selenium库

1. 引言 上一篇<为编写网络爬虫程序安装Python3.5>中测试小例子对静态网页做了一个简单的采集程序,而动态网页因为需要动态加载js获取数据,所以使用urllib直接openurl已经不能满足采集的需求了.这里我们使用selenium库,通过它我们可以很简单的使用浏览器来为我们加载动态内容,从而获取采集结果. 在很多案例中,Selenium与PhantomJS搭配采集动态网页内容(可以参看我以前发表的案例文章),直接与Firefox或者Chrome搭配,可以应对一些更加复杂的采集情形,比

网络爬虫之动态内容爬取

根据联合国网站可访问性审计报告,73%的主流网站都在其重要功能中依赖JavaScript.和单页面应用的简单表单事件不通,使用JavaScript时,不再是加载后立即下载所有页面内容.这样会造成许多网页在浏览其中展示的内容不会出现在HTML源码中,针对于这种依赖于JavaScript的动态网站,我们需要采取相应方法,比如JavaScript逆向工程.渲染JavaScript等方法. 1. 动态网页示例 如上图,打开智联招聘主页,输入python,搜索会出现上面的页面,现在我们爬取上图红色标记出的

用python进行网页爬取,数据插入数据库

用python进行网页信息的爬取还是很简单的,而且现在进行爬取的 在爬取之前,确定好自己的网页,然后用F12(查看网页源代码,然后确定网页的),这里就以一个简单的,页面布局简单的页面进行讲解:http://jbk.39.net/yyz/jbzs/ 先来看下页面的布局,以及我们想要进行页面的信息: 就这个页面,我们想要从这里面将页面中的疾病的名称,还有就是疾病的介绍,以及疾病的基本信息(是否属于医保.别名.发病部位.传染性...) 代码很简单: #!/usr/bin/env python # co