1、简介:
scrapy 是用python写成的一个web 爬虫框架,scrapy 会把大多数在爬取网站时的通用的事给自动化的做了;我最开始爬别人的网站的时候
用的是requests这个库,用这个库我要自己发出请求的代码,自己写得到响应的代码;然而我真正要做的事是,处理响应中的内容,并抽取
出我想要的数据;scrapy 可以把我们从这种能用的逻辑中抽身出来,真正的对应对业务逻辑。
2、安装:
pip3 install scrapy
这自己的环境用的是python-3.6.2 在python3.x 这版中官方推荐用的python包管理软件就是pip、所以我这也就用的它;由于python-3.6.2刚出来没有
多久,Twisted 这个包的最新版本还没有内置到python-3.6.2中,如果你的在安装中遇到了Twisted版本过于太低的问题,可能要对Twisted进行源码
安装。
3、使用:
scrapy 在使用过程中也有一些固定的套路,大概分三步走,1 创建scrapy项目,2 为创建的项目加入爬虫(也就是爬取网站的处理逻辑),3 启动爬虫
4、例子:
1、创建一个叫financedatas的scrapy 项目
----
时间: 2024-10-10 18:27:01