框架
- 就是一个集成了很多功能且具有很强通用性的一个项目模板。(项目的半成品)- 学习每一个功能的作用及其用法即可
scrapy 框架
- 高性能的网络请求- 高性能的数据解析- 高性能的持久化存储- 深度爬取- 全栈爬取- 分布式- 中间件- 请求传参
环境的安装
- mac/linux:pip install scrapy - window: - pip install wheel - 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted - 进入下载目录,执行 pip install Twisted?17.1.0?cp35?cp35m?win_amd64.whl # 飘红下载其他版本 - pip install pywin32 - pip install scrapy
基本使用
- 新建一个工程:scrapy startproject ProName - 目录结构: - spiders(包):空包 - settings:配置文件 - 不遵从robots - UA伪装 - 日志等级的指定 - cd ProName:进入到工程目录中 - 在spiders(爬虫文件夹)中创建一个爬虫文件 - scrapy genspider spiderName www.xxx.com - 编写代码:主要的代码会编写在爬虫文件中 - 执行工程:scrapy crawl 爬虫文件名 #日志信息
新建一个工程:scrapy startproject 名字执行工程:scrapy crawl 爬虫文件名 #日志信息 爬取数据前要在setting中
ROBOTSTXT_OBEY = True 改为 Flase不想显示日志:
scrapy crawl 爬虫文件名 --nolog 加上不显示log,但也不会显示报错信息 显示报错信息,需在settings加 LOG_LEVEL =‘ERROR‘ 将日志写在文件里 LOG_FILE = ‘./file.txt‘ UA伪装 USER_AGENT = ‘firstBlood (+http://www.yourdomain.com)‘
原文地址:https://www.cnblogs.com/Pythonzrq/p/11663647.html
时间: 2024-10-03 12:36:46