scrapy 框架

框架

- 就是一个集成了很多功能且具有很强通用性的一个项目模板。（项目的半成品）- 学习每一个功能的作用及其用法即可

scrapy 框架

- 高性能的网络请求- 高性能的数据解析- 高性能的持久化存储- 深度爬取- 全栈爬取- 分布式- 中间件- 请求传参

环境的安装

- mac/linux：pip install scrapy
- window:
    - pip install wheel
    - 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    - 进入下载目录，执行 pip install Twisted?17.1.0?cp35?cp35m?win_amd64.whl   # 飘红下载其他版本
    - pip install pywin32
    - pip install scrapy

基本使用

- 新建一个工程：scrapy startproject ProName
    - 目录结构：
        - spiders（包）：空包
        - settings：配置文件
            - 不遵从robots
            - UA伪装
            - 日志等级的指定

- cd ProName：进入到工程目录中
- 在spiders（爬虫文件夹）中创建一个爬虫文件
    - scrapy genspider spiderName www.xxx.com
- 编写代码：主要的代码会编写在爬虫文件中
- 执行工程：scrapy crawl 爬虫文件名  #日志信息

新建一个工程：scrapy startproject 名字执行工程：scrapy crawl 爬虫文件名  #日志信息　　爬取数据前要在setting中

　　ROBOTSTXT_OBEY = True

　　改为 Flase不想显示日志：

　　scrapy crawl 爬虫文件名  --nolog　　加上不显示log，但也不会显示报错信息　　　　显示报错信息，需在settings加　　LOG_LEVEL =‘ERROR‘

　　将日志写在文件里　　LOG_FILE = ‘./file.txt‘

　　UA伪装　　USER_AGENT = ‘firstBlood (+http://www.yourdomain.com)‘

原文地址：https://www.cnblogs.com/Pythonzrq/p/11663647.html

时间： 2024-10-03 12:36:46

scrapy 框架的相关文章

Python爬虫从入门到放弃（十一）之 Scrapy框架整体的一个了解

这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider/tree/master/jobboleSpider 注:这个文章并不会对详细的用法进行讲解,是为了让对scrapy各个功能有个了解,建立整体的印象. 在学习Scrapy框架之前,我们先通过一个实际的爬虫例子来理解,后面我们会对每个功能进行详细的理解.这里的例子是爬取http://blog.jobb

windows下scrapy框架学习笔记—'scrapy' 不是内部或外部命令

最近几天在深入的学习scrapy框架,但是装完各种需要的基础包之后却发现scrapy命令在别的路径下都用不了,我一开始是把python安装在F:\Python路径下的,安装了scrapy后它默认都会安装在这个路径下,scrapy在路径F:\Python\Scripts路径下,我的scrapy命令只能在此路径下用,因此创建什么工程也都只能在此文件下. 想了一下它的工作原理:它在F:\Python\Scripts路径下,就会在Scripts文件下存在一个scrapy批处理文件,那么在DOS下想要命令

Python爬虫进阶三之Scrapy框架安装配置

初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同. 官网文档:http://doc.scrapy.org/en/latest/intro/install.html,最权威哒,下面是我的亲身体验过程. 1.安装Python 安装过程我就不多说啦,我的电

scrapy框架设置代理

网易音乐在单ip请求下经常会遇到网页返回码503的情况经查询,503为单个ip请求流量超限,猜测是网易音乐的一种反扒方式因原音乐下载程序采用scrapy框架,所以需要在scrapy中通过代理的方式去解决此问题在scrapy中使用代理,有两种使用方式 1.使用中间件2.直接设置Request类的meta参数下面依次简要说明下如何使用方式一:使用中间件要进行下面两步操作在文件 settings.py 中激活代理中间件ProxyMiddleware在文件 middlewares.py 中实现类P

python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)

操作环境:python3 在上一文中python爬虫scrapy框架--人工识别登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前的文章便于理解本文将介绍如何用scrapy来登录知乎. 不多说,直接上代码: import scrapy import re import json class ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains = ['www.zhi

[Python][Scrapy 框架] Python3 Scrapy的安装

1.方法(只介绍 pip 方式安装) PS.不清楚 pip(easy_install) 可以百度或留言. cmd命令: (直接可以 pip,而不用跳转到 pip.exe目录下,是因为把所在目录加入 Path 环境变量中) 通过 pip install 安装的好处: 安装起来非常的方便安装 scrapy 和依赖包包的一致性可以保证 2.可能遇到的一些问题安装到的时候有些自动装不上: 上图显示装 'twisted.test.raiser' 这个子扩展包的时候自动装不上去,因为需要 VC++ 1

使用scrapy框架---爬小说，入库

本人步骤: 1>setting.py: BOT_NAME = 'newding' SPIDER_MODULES = ['newding.spiders']NEWSPIDER_MODULE = 'newding.spiders' ROBOTSTXT_OBEY = True ITEM_PIPELINES = { 'newding.pipelines.NewdingPipeline': 300,} 以上配置:创建项目会自动出现这些以下是想要入数据库的(阶段): MYSQL_USER = 'root'

第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

第三百三十四节,web爬虫讲解2-Scrapy框架爬虫-Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻标题和rul地址有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息我们以百度新闻为列: 1.分析网站首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息然后查看源码,看看在源码里是否有

Python爬虫Scrapy框架入门（2）

本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写xpath表达式,获取信息.自动爬取策略是,找到翻页网页元素,获取新链接地址,执行翻页.网页分析部分不再赘述,原博讲的很好很清楚,很涨姿势基于拿来主义,我们只需要知道怎么更改Scrapy框架就行了~ items.py: import scrapy class TestprojItem(scrapy

python爬虫----（2. scrapy框架）

Scrapy框架,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. 刚开始学习这个框架.不太好评论.只是感觉这个框架有些Java的感觉,需要太多的其他模块的支持. (一)创建 scrapy 项目 # 使用 scrapy startproject scrapy_test ├── scrapy_test │ ├── scrapy.cfg │ └── scrapy_test │