【转】 Scrapy研究探索(六)——自动爬取网页之II(CrawlSpider)

转自http://blog.csdn.net/u012150179/article/details/34913315

一.目的。

在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构,

在pipelines.py中实现获得数据的过滤以及保存。

但是以上述方法只能爬取start_url列表中的网页,而网络爬虫如google等搜索引擎爬虫实现的就是对整个互联网的爬取,所以在本教程中研究使用scrapy自动实现多网页爬取功能。

在教程(五)(http://blog.csdn.net/u012150179/article/details/34486677)中已经编写继承自spider的类实现爬虫,实现了自动多网页爬取,这里引出CrawlSpider类,使用更简单方式实现自动爬取。

二.热身。

1.CrawlSpider

(1)概念与作用:

它是Spider的派生类,首先在说下Spider,它是所有爬虫的基类,对于它的设计原则是只爬取start_url列表中的网页,而从爬取的网页中获取link并继续爬取的工作CrawlSpider类更适合。

(2)使用:

它与Spider类的最大不同是多了一个rules参数,其作用是定义提取动作。在rules中包含一个或多个Rule对象,Rule类与CrawlSpider类都位于scrapy.contrib.spiders模块中。

[python] view plaincopy

  1. class scrapy.contrib.spiders.Rule (
  2. link_extractor, callback=None,cb_kwargs=None,follow=None,process_links=None,process_request=None )

                     其中:

link_extractorLinkExtractor,用于定义需要提取的链接。

callback参数:当link_extractor获取到链接时参数所指定的值作为回调函数。

                      callback参数使用注意:

当编写爬虫规则时,请避免使用parse作为回调函数。于CrawlSpider使用parse方法来实现其逻辑,如果您覆盖了parse方法,crawlspider将会运行失败。


follow:指定了根据该规则从response提取的链接是否需要跟进。当callback为None,默认值为true

process_links:主要用来过滤由link_extractor获取到的链接。

process_request:主要用来过滤在rule中提取到的request

2.LinkExtractor

(1)概念:

顾名思义,链接提取器。

(2) 作用:

response对象中获取链接,并且该链接会被接下来爬取。

(3) 使用:

通过SmglLinkExtractor提取希望获取的链接。

[python] view plaincopy

  1. classscrapy.contrib.linkextractors.sgml.SgmlLinkExtractor(
  2. allow=(),deny=(),allow_domains=(),deny_domains=(),deny_extensions=None,restrict_xpaths=(),tags=(‘a‘,‘area‘),attrs=(‘href‘),canonicalize=True,unique=True,process_value=None)

主要参数:

allow:满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。

deny:与这个正则表达式(或正则表达式列表)不匹配的URL一定不提取。

allow_domains:会被提取的链接的domains。

deny_domains:一定不会被提取链接的domains。

restrict_xpaths:使用xpath表达式,和allow共同作用过滤链接。

三.RUN!

  1. shell中验证

    开始编写代码之前,使用scrapyshell查看使用SmglLinkExtractor在网页中获取到的链接:

    [python] view plaincopy

    1. scrapy shell http://blog.csdn.net/u012150179/article/details/11749017

    继续import相关模块:

    [python] view plaincopy

    1. fromscrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

    现在使用SgmlLinkExtractor查看在当前网页中获得的链接:

    [python] view plaincopy

    1. item=SgmlLinkExtractor(allow=(‘/u012150179/article/details‘)).extract_links(response)

    其中item为包含Link()对象的列表,现在显示其中的text元素(就是获取到的文章链接对应的文章标题):

    [python] view plaincopy

    1. for i in item:
    2. print i.text

    部分结果截图:

    对照网页可以得到此时获取的是当前网页中所有满足allow条件的链接,不仅包含“下一篇”的链接,还有网页侧边栏“阅读排行“、”评论排行“中的文章链接。为了只获得”下一篇“文章链接,这就要进行所有链接的筛选,引入参数restrict_xpaths,继续:

    [python] view plaincopy

    1. item= SgmlLinkExtractor(allow=(‘/u012150179/article/details‘),restrict_xpaths=(‘//li[@class="next_article"]‘)).extract_links(response)

    这是在如上查看结果,便提取出了“下一篇”文章链接。

    注意:在shell中并不对提取到的link进行跟进。

    在这里不得不提的就是scrapy shell是对调试、验证很有用的交互工具。应该掌握。

    在shell中进行了验证后进入写代码阶段。

编写代码

(1)items.py和pipelines.py以及settings.py与之前教程类似,不详细描述。

(2)爬虫编写。

上码:

[python] view plaincopy

  1. # -*- coding:utf-8 -*-
  2. from scrapy.contrib.spiders import CrawlSpider, Rule
  3. from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
  4. from scrapy.selector import Selector
  5. from CSDNBlogCrawlSpider.items import CsdnblogcrawlspiderItem
  6. class CSDNBlogCrawlSpider(CrawlSpider):
  7. """继承自CrawlSpider,实现自动爬取的爬虫。"""
  8. name = "CSDNBlogCrawlSpider"
  9. #设置下载延时
  10. download_delay = 2
  11. allowed_domains = [‘blog.csdn.net‘]
  12. #第一篇文章地址
  13. start_urls = [‘http://blog.csdn.net/u012150179/article/details/11749017‘]
  14. #rules编写法一,官方文档方式
  15. #rules = [
  16. #    #提取“下一篇”的链接并**跟进**,若不使用restrict_xpaths参数限制,会将页面中所有
  17. #    #符合allow链接全部抓取
  18. #    Rule(SgmlLinkExtractor(allow=(‘/u012150179/article/details‘),
  19. #                          restrict_xpaths=(‘//li[@class="next_article"]‘)),
  20. #         follow=True)
  21. #
  22. #    #提取“下一篇”链接并执行**处理**
  23. #    #Rule(SgmlLinkExtractor(allow=(‘/u012150179/article/details‘)),
  24. #    #     callback=‘parse_item‘,
  25. #    #     follow=False),
  26. #]
  27. #rules编写法二,更推荐的方式(自己测验,使用法一时经常出现爬到中间就finish情况,并且无错误码)
  28. rules = [
  29. Rule(SgmlLinkExtractor(allow=(‘/u012150179/article/details‘),
  30. restrict_xpaths=(‘//li[@class="next_article"]‘)),
  31. callback=‘parse_item‘,
  32. follow=True)
  33. ]
  34. def parse_item(self, response):
  35. #print "parse_item>>>>>>"
  36. item = CsdnblogcrawlspiderItem()
  37. sel = Selector(response)
  38. blog_url = str(response.url)
  39. blog_name = sel.xpath(‘//div[@id="article_details"]/div/h1/span/a/text()‘).extract()
  40. item[‘blog_name‘] = [n.encode(‘utf-8‘) for n in blog_name]
  41. item[‘blog_url‘] = blog_url.encode(‘utf-8‘)
  42. yield item

运行:

[python] view plaincopy

  1. scrapy crawl CSDNBlogCrawlSpider

得到的效果如教程(五)一致。

其中指出和教程(五)所编写爬虫方法的差异:

首先,基类CrawlSpider提供了更完善的自动多网页爬取机制,只需要我们配置的就是rules,通过Rule对象实现链接的提取与跟进,恩,对,没了。。。就这样。详细的注释也都在程序中。

进行到这里,就将本篇文章主题讲述完毕,核心是CrawlSpider,主要方法是rules。

关于scrapy的使用可参见之前文章:

http://blog.csdn.net/u012150179/article/details/34913315

http://blog.csdn.net/u012150179/article/details/34486677

http://blog.csdn.net/u012150179/article/details/34441655

http://blog.csdn.net/u012150179/article/details/32911511

时间: 2024-08-07 04:21:27

【转】 Scrapy研究探索(六)——自动爬取网页之II(CrawlSpider)的相关文章

Scrapy精华教程(六)——自动爬取网页之II(CrawlSpider)

一.目的. 在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构, 在pipelines.py中实现获得数据的过滤以及保存. 但是以上述方法只能爬取start_url列表中的网页,而网络爬虫如google等搜索引擎爬虫实现的就是对整个互联网的爬取,所以在本教程中研究使用scrapy自动实现多网页爬取功能. 在教程(五)

Scrapy研究探索(六)——自己主动爬取网页之II(CrawlSpider)

原创,转载注明:http://blog.csdn.net/u012150179/article/details/34913315 一.目的. 在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构, 在pipelines.py中实现获得数据的过滤以及保存. 可是以上述方法仅仅能爬取start_url列表中的网页.而网络爬

python网络爬虫之使用scrapy自动爬取多个网页

前面介绍的scrapy爬虫只能爬取单个网页.如果我们想爬取多个网页.比如网上的小说该如何如何操作呢.比如下面的这样的结构.是小说的第一篇.可以点击返回目录还是下一页 对应的网页代码: 我们再看进入后面章节的网页,可以看到增加了上一页 对应的网页代码: 通过对比上面的网页代码可以看到. 上一页,目录,下一页的网页代码都在<div>下的<a>元素的href里面.不同的是第一章只有2个<a>元素,从二章开始就有3个<a>元素.因此我们可以通过<div>

【转】Scrapy研究探索(三)——Scrapy核心架构与代码运行分析

转自 http://blog.csdn.net/u012150179/article/details/34441655 学习曲线总是这样,简单例子“浅尝”,在从理论+实践慢慢攻破.理论永远是基础,切记“勿在浮沙筑高台”. 一. 核心架构 关于核心架构,在官方文档中阐述的非常清晰,地址:http://doc.scrapy.org/en/latest/topics/architecture.html. 英文有障碍可查看中文翻译文档,笔者也参与了Scraoy部分文档的翻译,我的翻译GitHub地址:h

Scrapy 通过登录的方式爬取豆瓣影评数据

Scrapy 通过登录的方式爬取豆瓣影评数据 爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来比较简单,主要分为以下几步: 1.创建一个项目 ==scrapy startproject Douban 得到一个项目目录如下: ├── Douban │   ├── init.py │   ├── items.py │   ├── pipelines.py │   ├── settings.py

python--输入检索词自动爬取百度搜索页标题信息

背景:在百度每次输入关键词检索后,会出现很多的检索页,不利于有效阅读,为更方便收集检索信息,编写了一个可以收集每个检索页与检索词相关的十条检索信息(百度在每个检索页放置十条检索标题信息).可以根据需要选择爬取多少检索页,通过修改main()函数的depth变量 1 import urllib.request 2 import re 3 4 def get_html_text(url,data_lst,depth): 5 7 for i in range(depth): 8 9 # 根据分析构造网

26、自动爬取每日的天气,并定时把天气数据和穿衣提示发送到你的邮箱

自动爬取每日的天气,并定时把天气数据和穿衣提示发送到你的邮箱. 之所以选择这个相对朴实的爬虫项目,是因为天气每天都会有变化,那么在学完这一关之后,不出意外,你就可以在明早收到天气信息了.以此,亲身体验程序的作用. 你还可以把每日的天气和温馨的穿衣提示发送到你的恋人.家人.或朋友的邮箱里,这也是传递心意的一种方式. 总体上来说,可以把这个程序分成三个功能块:[爬虫]+[邮件]+[定时] 1 import requests 2 import time 3 import schedule 4 from

27、周末吃什么(每周五自动爬取下厨房本周最受欢迎的菜谱)

在之前吴氏私厨的基础上,每周五自动爬取下厨房本周最受欢迎的菜谱 1 import requests 2 import time 3 import schedule 4 import smtplib 5 from email.mime.text import MIMEText 6 from email.header import Header 7 from bs4 import BeautifulSoup 8 9 def caipu_fun(): 10 res = requests.get('ht

[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】

[python] 常用正则表达式爬取网页信息及分析HTML标签总结 转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pythonpython爬虫正则表达式html知识总结 2016-04-07 06:13 3615人阅读 评论(4) 收藏 举报  分类: Python爬虫(23)  Python基础知识(17)  版权声明:本文为博主原创文章,转载请注明CSDN博客源地址!共同学习,一起进步~ 这篇文章主要是介绍Pytho