爬虫框架Scrapy 之(二) --- scrapy文件

框架简介

核心部分：引擎、下载器、调度器
自定义部分： spider(自己建的爬虫文件)、管道(pipelines.py)

目录结构

    firstSpider
        firstSpider
            spiders           爬虫目录（写代码位置）
                __init__.py
                myspider.py   自己建的爬虫文件,以后的爬虫代码写在这里
            __init__.py
            items.py          定义数据结构地方
            middlewares.py    中间件（了解）
            pipelines.py      管道文件
            settings.py       项目配置文件
        scrapy.cfg

项目处理

项目创建处理，里面是没有爬虫的，我们需要通过指令来创建一个爬虫： cd firstSpider/firstSpider scrapy genspider qiubai “www.qiushibaike.com" 以上指令完事后，就会在firstSpider/firstSpider/spiders里面自动创建一个qiubai.py name: 爬虫的名字，启动的时候根据爬虫的名字启动项目 allowed_domains：允许的域名，就是爬取的时候这个请求要不要发送，如果是该允许域名之下的url，就会发送，如果不是，则过滤掉这个请求，这是一个列表，可以写多个允许的域名 start_urls：爬虫起始url，是一个列表，里面可以写多个，一般只写一个 def parse(self, response): 这个函数非常重要，就是你以后写代码的地方，parse函数名是固定的，当收到下载数据的时候会自动的调用这个方法，该方法第二个参数为response，这是一个响应对象，从该对象中获取html字符串，然后解析之。【注】这个parse函数必须返回一个可迭代对象（3）定制item.py，其实就是您的数据结构，格式非常简单，复制粘贴即可

原文地址：https://www.cnblogs.com/TMMM/p/10776296.html

时间： 2024-11-07 04:11:29

爬虫框架Scrapy 之(二) --- scrapy文件

框架简介

目录结构

项目处理

爬虫框架Scrapy 之(二) --- scrapy文件的相关文章

Golang 网络爬虫框架gocolly/colly 二 jQuery selector

关于爬虫平台的架构实现和框架的选型(二)--scrapy的内部实现以及实时爬虫的实现

一篇文章教会你理解和定义Scrapy爬虫框架中items.py文件

Python3网络爬虫实战-10、爬虫框架的安装：PySpider、Scrapy

【Scrapy】Scrapy爬虫框架的基本用法

爬虫框架Scrapy之案例二

python爬虫框架scrapy初试(二点一)

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

Python爬虫框架Scrapy安装使用步骤