Scrapy了解(译)

Scrapy简述

  Scrapy是一个爬虫应用框架,所谓爬虫,即是用来爬取web网页并从中提取结构化数据,这些爬来的数据可以被应用在广泛的有用的应用中,像数据挖掘,信息处理和历史存档等。

  尽管Scrapy起初被设计用于web scraping,但是它也能被用于使用APIs提取数据(例如Amazon Associates Web Services)或者作为一个多功能web爬虫。

通过一个实例spider了解Scrapy

  为了展示Scrapy带来了什么价值,下面将通过一个最简单的例子来说明。

  这里有一段著名的代码引用自http://quotes.toscrape.com,代码如下:

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        ‘http://quotes.toscrape.com/tag/humor/‘,
    ]

    def parse(self, response):
        for quote in response.css(‘div.quote‘):
            yield {
                ‘text‘: quote.css(‘span.text::text‘).extract_first(),
                ‘author‘: quote.xpath(‘span/small/text()‘).extract_first(),
            }

        next_page = response.css(‘li.next a::attr("href")‘).extract_first()
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)

  将上述代码写到一个text文件中,例如quotes_spider.py文件,使用 runspider 命令运行spider。

scrapy runspider quotes_spider.py -o quotes.json

  当执行完成后,你将看到一个JSON文件quotes.json,包含文本和作者,如下(这里重新格式化了文件,为了提高可读性):

[{
    "author": "Jane Austen",
    "text": "\u201cThe person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.\u201d"
},
{
    "author": "Groucho Marx",
    "text": "\u201cOutside of a dog, a book is man‘s best friend. Inside of a dog it‘s too dark to read.\u201d"
},
{
    "author": "Steve Martin",
    "text": "\u201cA day without sunshine is like, you know, night.\u201d"
},
...]

刚才发生了什么?

  当你运行命令 scrapy runspider quotes_spider.py,Scrapy查找定义在它里面的一个Spider,并通过它的crawler引擎运行它。

  crawl开始,通过向定义在start_urls属性里的URLs(在这个例子里,只有humor category的quotes的URL)提出请求,并且调用默认的反馈函数parse,通过回复对象做为一个参数。在反馈函数parse中,我们使用一个CSS Selector 遍历quote元素,生成一个提取了quote内容和作者的Python字典,查找子页面的链接,并使用同样的parse方法做为反馈函数依次提出请求。

  这里你能看到Scrapy的一个主要优点之一:请求是可调度的并且可以异步处理。这意味着Scrapy不需要等待一个请求结束和处理完成,在这期间,它可以发送另一个请求或者做其他的事情。这也意味着其他请求可以保持进行,即是一些请求失败或者一些错误发生。

  Scrapy使你有能力非常快速的爬取(以容错的方式,同时发送多条请求),与此同时,你也可以通过a few settings进行爬取配置。你可以做一些配置,比如设置两个请求之间的下载延迟,限制每个域或者每个IP的并发请求数量,甚至学习using an auto-throttling extension来自动计算出这些。

时间: 2024-10-02 06:57:52

Scrapy了解(译)的相关文章

scrapy面试一

1.动态加载又对及时性要求很高怎么处理? Selenium+Phantomjs 尽量不使用 sleep 而使用 WebDriverWait 2.分布式爬虫主要解决什么问题? (1)ip (2)带宽 (3)cpu (4)io 3.什么是 URL? URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址.互联网上的每个文件都有一个唯一的 URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它. 4.pyt

第三百二十三节,web爬虫,scrapy模块以及相关依赖模块安装

第三百二十三节,web爬虫,scrapy模块以及相关依赖模块安装 当前环境python3.5 ,windows10系统 Linux系统安装 在线安装,会自动安装scrapy模块以及相关依赖模块 pip install Scrapy 手动源码安装,比较麻烦要自己手动安装scrapy模块以及依赖模块 安装以下模块 1.lxml-3.8.0.tar.gz (XML处理库) 2.Twisted-17.5.0.tar.bz2 (用Python编写的异步网络框架) 3.Scrapy-1.4.0.tar.gz

Python爬虫从入门到放弃(十一)之 Scrapy框架整体的一个了解

这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解 该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider/tree/master/jobboleSpider 注:这个文章并不会对详细的用法进行讲解,是为了让对scrapy各个功能有个了解,建立整体的印象. 在学习Scrapy框架之前,我们先通过一个实际的爬虫例子来理解,后面我们会对每个功能进行详细的理解.这里的例子是爬取http://blog.jobb

译:SOS_SCHEDULER_YIELD类型等待在虚拟机环境中的增多

原文出处:Increased SOS_SCHEDULER_YIELD waits on virtual machines 注: 原文的用词是Increased,想译作增强(增长),或者加强,这么译起来是褒义词,而原文要表达的Increased并没有褒义的含义,最起码是一个中性的含义,想来想起用一个“滋长”偏编译的含义还是比较合适的,感觉还是有点过于贬义了,还是用最通俗的增多吧.个人英语水平有限,另外就是对于文中提到的“rdtsc周期”也不是非常清楚,翻译的也不是很清楚,权当是自娱自乐.总是原文的

Scrapy+BeautifulSoup+MongoDB 高性能数据采集方案(Chapter 1st)

运行环境 CentOS7.3 + Python2.7 + Scrapy1.3 + MongoDB3.4 + BeautifulSoup4.6 编程工具 PyCharm + Robomongo + Xshell 请确保你的 python版本为2.7.5以上 版本强烈推荐直接[翻 墙 安 装],简单轻松 yum install gcc libffi-devel python-devel openssl-devel pip install scrapy 如果提示以下错误 AttributeError:

python scrapy学习笔记(二)

使用scrapy批量抓取,参考http://python.jobbole.com/87155 一.创建项目 # scrapy startproject comics 创建完成后的目录结构 . ├── comics │   ├── __init__.py │   ├── items.py │   ├── middlewares.py │   ├── pipelines.py │   ├── settings.py │   └── spiders │       └── __init__.py └─

Python爬虫库Scrapy入门1--爬取当当网商品数据

1.关于scrapy库的介绍,可以查看其官方文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/ 2.安装:pip install scrapy  注意这个库的运行需要pywin32的支持,因此还需要安装pywin32.可以在这个网站上选择合适的版本下载安装:https://sourceforge.net/projects/pywin32/files/pywin32/ 3.挖掘当当网商品数据: 首先需要创建一个名为dangdang的爬虫项目,在pow

《100种过度医疗大公开》:转译自日文版,日文版依据的是美国的“Choosing Wisely”项目。三星推荐

本书转译自日文,日文版则是在美国的“Choosing Wisely”项目中选择了100个相对常见的过度医疗项目做解说.Choosing Wisely项目,是由美国多个专业医学组织发起的列出过度医疗项目的活动. 日文作者是兽医专业的新闻记者,中文译者不是医学专业人员,个别专业词语翻译有误,“随机对照试验”翻译成“随机比较试验”了,有些句子翻译的也比较别扭.基于以上两点,这本书的权威性可信度我认为都不算太高,只能给三星.感兴趣的话还是应该直接上网看英文原版. 以下是书中部分信息的摘抄: 1:以美国内

windows下scrapy框架学习笔记—'scrapy' 不是内部或外部命令

最近几天在深入的学习scrapy框架,但是装完各种需要的基础包之后却发现scrapy命令在别的路径下都用不了,我一开始是把python安装在F:\Python路径下的,安装了scrapy后它默认都会安装在这个路径下,scrapy在路径F:\Python\Scripts路径下,我的scrapy命令只能在此路径下用,因此创建什么工程也都只能在此文件下. 想了一下它的工作原理:它在F:\Python\Scripts路径下,就会在Scripts文件下存在一个scrapy批处理文件,那么在DOS下想要命令