Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结取结构化的数据。
--from wiki
说白了就是基于python的爬虫框架。
安装:
- ubuntu 14.04
- python2.7(python3不支持,不是作者懒,是scrapy的框架依赖twisted还没有完全迁移到python3)
- pip
sudo pip2 install scrapy
注意:虽然pip3也能装上scrapy,但是缺少支持库,无法使用。。。乖乖python2吧
使用:
1、新建工程test
scrapy startproject tutoria
这样就会创建这样一个目录结构:
tutorial/ scrapy.cfg tutorial/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py ..
官网的解释如下:
- scrapy.cfg: the project configuration file(项目配置文件)
- tutorial/: the project’s python module, you’ll later import your code from here.(项目中的定制部分,我不知道怎么翻译好)
- tutorial/items.py: the project’s items file.(项目的items文件,其实就是要抓取的数据的结构定义)
- tutorial/pipelines.py: the project’s pipelines file.(项目的pipelines文件,在这里可以定义将抓取的数据导出方式,pip中有scrapy-mongodb的pipelines,可以将抓取的数据直接导出到pipeline之中。)
- tutorial/settings.py: the project’s settings file.(项目的配置文件)
- tutorial/spiders/: a directory where you’ll later put your spiders.(存放爬虫的目录,一般用来将网页爬下来)
待续。。。
时间: 2024-09-27 21:47:11