python爬虫----（5. scrapy框架，综合应用及其他）

在分析和处理选择内容时，还需注意页面的JS可能会修改DOM树结构。

（一）GitHub的使用

由于之前使用Win，没使用过shell的。目前只是了解。以后再补充。找到几个不错的教程

GitHub超详细图文攻略 http://blog.csdn.net/vipzjyno1/article/details/22098621

Github修改提交 http://www.360doc.com/content/12/0602/16/2660674_215429880.shtml

以后再补充！！！！！

（二）FireFox的FireBug的使用

之前一直使用FireFox的F12默认调试工具，感觉就挺爽的了。刚才换了FireBug一试，那简直就更爽了。

Tools-->Web Developer-->Get More Tools 然后，一般第一个就是 FireBug 安装即可。之后按F12，就默认启用了。

功能简直强大到没朋友。可以直接获取元素的xpath,css path。还可修改cookies.....

（三）豆瓣电影抓取 http://www.ituring.com.cn/article/114408

（1）items.py

# -*- coding: utf-8 -*-

from scrapy import Item, Field

class MovieItem(Item):
    name = Field()
    year = Field()
    score = Field()
    director = Field()
    classification = Field()
    actor = Field()

（2）spiders/movie_spider.py

# -*- coding: utf-8 -*-
from scrapy import Selector
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from douban.items import MovieItem

class MovieSpider(CrawlSpider):
    name = "movie"
    allowed_domains = ["douban.com"]
    start_urls = (
        ‘http://movie.douban.com/top250‘,
    )
    # rules可以自定义urls的抓取
    rules = (
        # 这个Rule只是在start_urls的基础上查找urls，并不是数据抓取的具体页面
        Rule(SgmlLinkExtractor(allow=(r‘http://movie.douban.com/top250\?start=\d+.*‘))),
        # 这个Rule是具体数据抓取的页面地址，callback是回调函数，负责处理返回的response数据
        Rule(SgmlLinkExtractor(allow=(r‘http://movie.douban.com/subject/\d+‘)), callback=‘parse_item‘),
    )

    def parse_item(self, response):
        sel = Selector(response)
        item = MovieItem()
        # 此处选择还可使用 css(), re() 等。还可利用FireBug协助选取
        item[‘name‘] = sel.xpath(‘//span[@property="v:itemreviewed"]/text()‘).extract()
        item[‘year‘] = sel.xpath(‘//span[@class="year"]/text()‘).extract()
        item[‘score‘] = sel.xpath(‘//strong[@class="ll rating_num"]/text()‘).extract()
        item[‘director‘] = sel.xpath(‘//a[@rel="v:directedBy"]/text()‘).extract()
        item[‘classification‘] = sel.xpath(‘//span[@property="v:genre"]/text()‘).extract()
        item[‘actor‘] = sel.xpath(‘//a[@rel="v:starring"]/text()‘).extract()
        return item

（3）Pipeline.py

# 将抓取的数据保存到数据库中，这里有两个版本
#一个是保存到MySQL数据库中
#另一个是保存到非关系型数据库MongoDB中

python爬虫----（5. scrapy框架，综合应用及其他）

时间： 2024-12-26 07:37:28

python爬虫----（5. scrapy框架，综合应用及其他）的相关文章

python爬虫之scrapy框架

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy 使用了 Twisted异步网络库来处理网络通讯.整体架构大致如下 Scrapy主要包括了以下组件: 引擎

Python爬虫进阶(Scrapy框架爬虫)

准备工作: 配置环境问题什么的我昨天已经写了,那么今天直接安装三个库首先第一步: (我们要用到scrapy框架,在python里调用windows 命令,使用mongodb存储爬到的数据 ) 进入DOS python/Script>路径下输入命令: python/Script> pip install p

python爬虫随笔-scrapy框架(1)——scrapy框架的安装和结构介绍

scrapy框架简介 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试.(引用自:百度百科) scrapy官方网站:https://scrapy.org/ scrapy官方文档:https://doc.scrapy.org/en/latest/ scrapy框架安装首先我们安装scrapy,使用如下命令 pip install scrapy 此时很多人应该都会遇到如

(转)python爬虫----（scrapy框架提高（1），自定义Request爬取）

摘要之前一直使用默认的parse入口,以及SgmlLinkExtractor自动抓取url.但是一般使用的时候都是需要自己写具体的url抓取函数的. python 爬虫 scrapy scrapy提高最近看scrappy0.24官方文档看的正心烦的时候,意外发现中文翻译0.24文档,简直是福利呀~ http://scrapy-chs.readthedocs.org/zh_CN/0.24/ 结合官方文档例子,简单整理一下: ? 1 2 3 4 5 6 7 8 9 10 11 1

python爬虫----（scrapy框架提高（1），自定义Request爬取）

最近看scrappy0.24官方文档看的正心烦的时候,意外发现中文翻译0.24文档,简直是福利呀~ http://scrapy-chs.readthedocs.org/zh_CN/0.24/ 结合官方文档例子,简单整理一下: import scrapy from myproject.items import MyItem class MySpider(scrapy.Spider): name = 'myspider' start_urls = ( 'http://

python爬虫之Scrapy框架中的Item Pipeline用法

当Item在Spider中被收集之后, 就会被传递到Item Pipeline中进行处理. 每个item pipeline组件是实现了简单的方法的python类, 负责接收到item并通过它执行一些行为, 同时也决定此item是否继续通过pipeline, 或者被丢弃而不再进行处理. item pipeline的主要作用 : 1. 清理html数据 2. 验证爬取的数据 3. 去重并丢弃 4. 将爬取的结果保存到数据库中或文件中编写自己的item pipeline : process_item

Python网络爬虫之Scrapy框架（CrawlSpider）

目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) 提问:如果想要通过爬虫程序去爬取"糗百"全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效). CrawlSpider使

爬虫学习 16.Python网络爬虫之Scrapy框架（CrawlSpider）

爬虫学习 16.Python网络爬虫之Scrapy框架(CrawlSpider) 引入提问:如果想要通过爬虫程序去爬取"糗百"全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效). 今日概要 CrawlSpider简介 CrawlSpider使用基于CrawlSpider爬虫文件的创建链接提取器规则解析器今日详

网络爬虫之scrapy框架详解,scrapy框架设置代理

twisted介绍 Twisted是用Python实现的基于事件驱动的网络引擎框架,scrapy正是依赖于twisted, 它是基于事件循环的异步非阻塞网络框架,可以实现爬虫的并发. twisted是什么以及和requests的区别: request是一个python实现的可以伪造浏览器发送Http请求的模块,它封装了socket发送请求 twisted是基于时间循环的异步非阻塞的网络框架,它也封装了socket发送请求,但是他可以单线程的完成并发请求. twisted的特点是: 非阻塞:不等待

python爬虫—使用scrapy爬虫框架

问题1.使用scrapy框架,使用命令提示符pip命令下载scrapy后,却无法使用scrapy命令,出现scrapy不是内部或外部命令.也不是可运行的程序解决:一开始,我是把python安装在D:\python,安装了scrapy后他默认都会装在此路径下,然后scrapy在路径D:\python\Scripts路径下,而创建工程也只能在此目录下. 如果想让他在dos下想要命令运行成功的话,就的需要知道他在那里,那么这又得学习到环境变量path的作用.所以这就得在path上添加scrapy的地