使用cmd创建一个scrapy项目:
scrapy startproject project_name (project_name 必须以字母开头,只能包含字母、数字以及下划线<underscorce>)
项目目录层级如下:
声明Item
声明我们可能用到的所有字段,包括管理字段等。管理字段可以让我们清楚何时(date)、何地(url server)及如何(spider)执行爬去,此外,还可以自动完成诸如使item失效、规划新的抓取迭代或是删除来自有问题的爬虫的item。
管理字段 |
Python表达式 |
url |
response.url 例:‘http://www.baidu.com’ |
project |
self.ettings.get(‘BOT_NAME‘) 例:‘crawl_novel’ |
spider |
self.name 例:‘basic’ |
server |
socket.gethostname() 例:‘scrapyserverl’ |
date |
datetime.datetime.now() 例:‘datetime.datetime(2019,1,21……)’ |
原文地址:https://www.cnblogs.com/jpapplication/p/10298045.html
时间: 2024-11-12 23:43:56