scrapy框架 简易整理

- scrapy框架
 介绍:大而全的爬虫组件。
        
安装:
            - Win:
                下载:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
                
                pip3 install wheel
                pip install Twisted?18.4.0?cp36?cp36m?win_amd64.whl
                
                pip3 install pywin32
                
                pip3 install scrapy
            - Linux:
                pip3 install scrapy
    
    
 使用:
            Django:
                # 创建project
                django-admin startproject mysite
                
                cd mysite
                
                # 创建app
                python manage.py startapp app01
                python manage.py startapp app02
                
                # 启动项目
                python manage.runserver
                
            Scrapy:
                # 创建project
                scrapy  startproject xdb
                
                cd xdb
                
                # 创建爬虫
                scrapy genspider chouti chouti.com
                scrapy genspider cnblogs cnblogs.com
                
                # 启动爬虫
                scrapy crawl chouti
    
            
            
            
            1. 创建project
                scrapy startproject 项目名称
                
                项目名称
                   项目名称/
                        - spiders                # 爬虫文件
                            - chouti.py
                            - cnblgos.py
                            ....
                        - items.py                 # 持久化
                        - pipelines                # 持久化
                        - middlewares.py        # 中间件
                        - settings.py             # 配置文件(爬虫)
                   scrapy.cfg                    # 配置文件(部署)
            
            2. 创建爬虫
                cd 项目名称
                
                scrapy genspider chouti chouti.com
                scrapy genspider cnblgos cnblgos.com
                
            3. 启动爬虫
                scrapy crawl chouti
                scrapy crawl chouti --nolog
                
总结:
            - HTML解析:xpath
            - 再次发起请求:yield Request对象

原文地址:https://www.cnblogs.com/l-jie-n/p/10017560.html

时间: 2024-10-02 19:23:45

scrapy框架 简易整理的相关文章

scrapy框架整理

0.安装scrapy框架 pip install scrapy 注:找不到的库,或者安装部分库报错,去python第三方库中找,很详细 https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud 1.创建一个scrapy框架 scrapy startproject 项目名 2.使用scrapy框架爬虫的三个步骤 a.配置items文件,确定需要爬取的字段 b.配置pipeline文件,确定文件的存储方式,并在setting文件中配置管道文件 注:如

Python爬虫从入门到放弃(十一)之 Scrapy框架整体的一个了解

这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解 该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider/tree/master/jobboleSpider 注:这个文章并不会对详细的用法进行讲解,是为了让对scrapy各个功能有个了解,建立整体的印象. 在学习Scrapy框架之前,我们先通过一个实际的爬虫例子来理解,后面我们会对每个功能进行详细的理解.这里的例子是爬取http://blog.jobb

Python爬虫进阶三之Scrapy框架安装配置

初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同. 官网文档:http://doc.scrapy.org/en/latest/intro/install.html,最权威哒,下面是我的亲身体验过程. 1.安装Python 安装过程我就不多说啦,我的电

python爬虫----(4. scrapy框架,官方文档以及例子)

官方文档: http://doc.scrapy.org/en/latest/ github例子: https://github.com/search?utf8=%E2%9C%93&q=scrapy 剩下的待会再整理...... 买饭去......       --2014年08月20日19:29:20 python爬虫----(4. scrapy框架,官方文档以及例子)

Python爬虫进阶之Scrapy框架安装配置

Python爬虫进阶之Scrapy框架安装配置 初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同. 官网文档:http://doc.scrapy.org/en/latest/intro/install.html,最权威哒,下面是我的亲身体验过程. 1

python——Scrapy 框架

爬虫的自我修养_4 一.Scrapy 框架简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便. Scrapy 使用了 Twisted['tw?st?d](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求. Scrapy架构图(绿线是

基于Scrapy框架的Python新闻爬虫

概述 该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地 详细 代码下载:http://www.demodashi.com/demo/13933.html 一.开发背景 Python作为数据处理方面的一把好手,近年来的热度不断增长.网络爬虫可以说是Python最具代表性的应用之一,那么通过网络爬虫来学习Python以及网络和数据处理的相关内容可以说是再合适不过了. Scrapy是由Python语言开发的一

12.scrapy框架

一.Scrapy 框架简介 1.简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便. Scrapy 使用了 Twisted'tw?st?d异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求 框架图如下: 流程: Scrapy Engine(引擎): 负责Spid

爬虫之scrapy框架

1.scrapy框架介绍 Scrapy是用纯Python实现的一个为了爬取网站数据.提取结构性数据而编写的应用框架 Scrapy 特色是使用了 Twisted异步网络框架来处理网络通讯,加快了下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求 1.1 scrapy框架架构图 Scrapy Engine(引擎): 负责Spider.ItemPipeline.Downloader.Scheduler中间的通讯,信号.数据传递等. Scheduler(调度器): 它负责