JAVA爬虫实践(实践三:爬虫框架webMagic和csdnBlog爬虫)

WebMagic

WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。

采用HttpClient可以实现定向的爬虫,也可以自己编写算法逻辑来实现多线程,创建链接池,自动解析网页代码获取请求链接,封装正则表达式等等。

但是如果使用框架,就不再需要考虑爬虫的逻辑,只需要专注HTML内容的解析和获取。

引用WebMagic后写一个爬虫只需要编写一个类实现PageProcessor接口,实现两个方法。

一个WebMagic例子

package csdnblog;

import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.io.PrintWriter;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

public class MyPageProcessor implements PageProcessor {

    @Override
    public Site getSite() {
        // 重试3次,抓取间隔1S
        return Site.me().setRetryTimes(3).setSleepTime(1000);
    }

    @Override
    public void process(Page page) {
        page.addTargetRequests(page.getHtml().links().regex("http://blog\\.csdn\\.net/\\?&page=.*").all());

        try {
            // 创建新文件
            String path = "D:\\testFile\\"+getFileName(page.getUrl().toString())+".html";
            PrintWriter printWriter = new PrintWriter(new FileWriter(new File(path)));
            // 写内容
            printWriter.write(page.getHtml().toString());
            printWriter.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    public static void main(String[] args) {
        Spider.create(new MyPageProcessor()).addUrl("http://blog.csdn.net").thread(5).run();
    }

    public String getFileName(String url) {
        return url.substring(20, url.length()).replace("?", "").replace("&", "");
    }
}

这个例子里实现了一个getSite方法,用来获取抓取网站的相关配置,包括:编码、抓取间隔、重试次数等

还实现了一个process方法,里面除了写文件的部分,就只有一个page.addTargetRequests(),它是用来为链接池添加爬虫需要的链接,当爬虫线程开启后,每个线程会到链接池中取链接,当链接池为空,爬虫结束。

page.addTargetRequests(page.getHtml().links().regex("http://blog\\.csdn\\.net/\\?&page=.*").all());

即将所有符合"http:blog.csdn.net?&page=数字"的链接放入链接池中

例子中可以看到page.getHtml()即获取页面上HTML内容,在此基础上用xpath就可以取得其中想要的数据

xpath是一种HTML标签元素的路径表达方式

使用火狐firebug和谷歌浏览器F12都可以右键标签直接复制标签的xpath

可以采用xpath的方式获取链接池链接

// 添加所有文章页
page.addTargetRequests(page.getHtml().xpath("//div[@class=‘blog_list_wrap‘]").links()// 限定文章列表获取区域
        .regex("http://blog\\.csdn\\.net/.*/article/details/.*")
        .all());
// 添加其他列表页
page.addTargetRequests(page.getHtml().xpath("//div[@class=‘page_nav‘]").links()// 限定其他列表页获取区域
        .regex("http://blog\\.csdn\\.net.*")
        .all());

使用xpath获取页面中想要的数据

package csdnblog;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

public class MyPageProcessor implements PageProcessor {

    @Override
    public Site getSite() {
        // 重试3次,抓取间隔1S
        return Site.me().setRetryTimes(3).setSleepTime(1000);
    }

    @Override
    public void process(Page page) {
        // 添加所有文章页
        page.addTargetRequests(page.getHtml().xpath("//div[@class=‘blog_list_wrap‘]").links()// 限定文章列表获取区域
                .regex("http://blog\\.csdn\\.net/.*/article/details/.*")
                .all());
        // 添加其他列表页
        page.addTargetRequests(page.getHtml().xpath("//div[@class=‘page_nav‘]").links()// 限定其他列表页获取区域
                .regex("http://blog\\.csdn\\.net.*")
                .all());
        //如果当前页为文章页
        if(page.getUrl().regex("http://blog\\.csdn\\.net/.*/article/details/.*").match()){
            // 编号
            System.out.println("编号:" + page.getUrl().regex("http://blog\\.csdn\\.net/.*/article/details/(\\d+)").get());
            // 标题
            System.out.println("标题:" + page.getHtml().xpath("//div[@class=‘article_title‘]//span[@class=‘link_title‘]/a/text()").get());
            // 日期
            System.out.println("日期" + page.getHtml().xpath("//div[@class=‘article_r‘]/span[@class=‘link_postdate‘]/text()").get());
            // 标签
            System.out.println("标签" + page.getHtml().xpath("//div[@class=‘article_l‘]/span[@class=‘link_categories‘]/a/allText()").all().toString());
            // 类别
            System.out.println("类别" + page.getHtml().xpath("//div[@class=‘category_r‘]/label/span/text()").all().toString());
        }
    }

    public static void main(String[] args) {
        Spider.create(new MyPageProcessor()).addUrl("http://blog.csdn.net").thread(5).run();
    }
}
时间: 2024-10-03 23:00:55

JAVA爬虫实践(实践三:爬虫框架webMagic和csdnBlog爬虫)的相关文章

爬虫框架webmagic与spring boot的结合使用--转

原文地址:http://www.jianshu.com/p/c3fc3129407d 1. 爬虫框架webmagic WebMagic是一个简单灵活的爬虫框架.基于WebMagic,你可以快速开发出一个高效.易维护的爬虫. 1.1 官网地址 官网文档写的比较清楚,建议大家直接阅读官方文档,也可以阅读下面的内容.地址如下: 官网:http://webmagic.io 中文文档地址: http://webmagic.io/docs/zh/ English: http://webmagic.io/do

大话爬虫的实践技巧

图1-意淫爬虫与反爬虫间的对决 数据的重要性 如今已然是大数据时代,数据正在驱动着业务开发,驱动着运营手段,有了数据的支撑可以对用户进行用户画像,个性化定制,数据可以指明方案设计和决策优化方向,所以互联网产品的开发都是离不开对数据的收集和分析,数据收集的一种是方式是通过上报API进行自身平台用户交互情况的捕获,还有一种手段是通过开发爬虫程序,爬取竞品平台的数据,后面就重点说下爬虫的应用场景和实践中会遇到的问题和反反爬虫的一些套路与技巧. 应用场景 互联网平台,偏向销售公司,客户信息的爬取 客户信

JAVA之旅(三十四)——自定义服务端,URLConnection,正则表达式特点,匹配,切割,替换,获取,网页爬虫

JAVA之旅(三十四)--自定义服务端,URLConnection,正则表达式特点,匹配,切割,替换,获取,网页爬虫 我们接着来说网络编程,TCP 一.自定义服务端 我们直接写一个服务端,让本机去连接,可以看到什么样的效果 package com.lgl.socket; import java.io.IOException; import java.io.PrintWriter; import java.net.ServerSocket; import java.net.Socket; publ

第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

第三百三十四节,web爬虫讲解2-Scrapy框架爬虫-Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻标题和rul地址 有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息 我们以百度新闻为列: 1.分析网站 首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息 然后查看源码,看看在源码里是否有

[Java 并发] Java并发编程实践 思维导图 - 第三章 对象的共享

根据<Java并发编程实践>一书整理的思维导图. 第一部分: 第二部分: 第三部分:

Golang - 爬虫案例实践

目录 Golang - 爬虫案例实践 1. 爬虫步骤 2. 正则表达式 3. 并发爬取美图 Golang - 爬虫案例实践 1. 爬虫步骤 明确目标(确定在哪个网址搜索) 爬(爬下数据) 取(去掉没用的数据) 处理数据(按具体业务去使用数据) 2. 正则表达式 文档:https://studygolang.com/pkgdoc API re := regexp.MustCompile(reStr):传入正则表达式,得到正则表达式对象 ret := re.FindAllStringSubmatch

20175325 《JAVA程序设计》实验三《敏捷开发与XP实践》实验报告

20175325 <JAVA程序设计>实验三<敏捷开发与XP实践>实验报告 一.实验报告封面 课程:Java程序设计 班级:1753班 姓名:石淦铭 学号:20175325 成绩: 指导教师:娄嘉鹏 实验日期:2019年5月2日 实验时间:13:45 - 17:25 实验序号:实验三 实验名称:敏捷开发与XP实践 实验内容: 1.XP基础 2.XP核心实践 3.相关工具 二.实验内容及步骤: (一).实验一 1.题目: 实验三 敏捷开发与XP实践 http://www.cnblog

Python编程从入门到实践(第三、四章的列表和元祖) &#142015;

原文: http://blog.gqylpy.com/gqy/414 置顶:来自一名75后老程序员的武林秘籍--必读(博主推荐) 来,先呈上武林秘籍链接:http://blog.gqylpy.com/gqy/401/ 你好,我是一名极客!一个 75 后的老工程师! 我将花两分钟,表述清楚我让你读这段文字的目的! 如果你看过武侠小说,你可以把这个经历理解为,你失足落入一个山洞遇到了一位垂暮的老者!而这位老者打算传你一套武功秘籍! 没错,我就是这个老者! 干研发 20 多年了!我也年轻过,奋斗过!我

WebMagic开源垂直爬虫介绍

WebMagic项目代码分为核心和扩展两部分.核心部分(webmagic-core)是一个精简的.模块化的爬虫实现,而扩展部分则包括一些便利的.实用性的功能.WebMagic的架构设计参照了Scrapy,目标是尽量的模块化,并体现爬虫的功能特点.这部分提供非常简单.灵活的API,在基本不改变开发模式的情况下,编写一个爬虫.扩展部分(webmagic-extension)提供一些便捷的功能,例如注解模式编写爬虫等.同时内置了一些常用的组件,便于爬虫开发. 1. 一个框架,一个领域    一个好的框