爬虫入门-5-2.scrapy框架下载图片

scrapy startproject bmw

cd bmw

scrapy genspider bmw5 ‘autohome.com.cn‘

第一种方式:不使用ImagePipeline

bww5.py:

 1 import scrapy
 2 from bmw.items import BmwItem
 3
 4
 5 class Bmw5Spider(scrapy.Spider):
 6     name = ‘bmw5‘
 7     allowed_domains = [‘autohome.com.cn‘]
 8     start_urls = [‘https://car.autohome.com.cn/pic/series/65.html‘]
 9
10     def parse(self, response):
11         uiboxs = response.xpath(‘//div[@class = "uibox"]‘)[1:]
12         for uibox in uiboxs:
13             category = uibox.xpath(‘.//div[@class = "uibox-title"]/a/text()‘).get()
14             urls = uibox.xpath(‘.//ul/li/a/img/@src‘).getall()
15             urls = list(map(lambda url: response.urljoin(url), urls))
16             item = BmwItem(category=category, urls=urls)
17             yield item

items.py:

1 import scrapy
2
3
4 class BmwItem(scrapy.Item):
5     # define the fields for your item here like:
6     # name = scrapy.Field()
7     category=scrapy.Field()
8     urls=scrapy.Field()

settings.py部分设置:

1 ITEM_PIPELINES = {
2      ‘bmw.pipelines.BmwPipeline‘: 300,
3 }

pipelines.py:

 1 import os
 2 from urllib import request
 3
 4 class BmwPipeline(object):
 5     def __init__(self):
 6         self.path = os.path.join(os.path.dirname(__file__), ‘images‘)
 7         if not os.path.exists(self.path):
 8             os.mkdir(self.path)
 9
10     def process_item(self, item, spider):
11         category = item[‘category‘]
12         urls = item[‘urls‘]
13         category_path = os.path.join(self.path, category)
14         if not os.path.exists(category_path):
15             os.mkdir(category_path)
16         for url in urls:
17             image_name = url.split(‘_‘)[-1]
18             request.urlretrieve(url, os.path.join(category_path, image_name))
19         return item

第二种:通过ImagesPipeline来保存图片

步骤:

1.定义好一个Item,然后在这个item中定义两个属性,分别为:image_urls和images  images_urls是用来存储需要下载的图片的url链接,需要给一个列表2.当文件下载完成后,会把文件下载相关信息存储到item的images属性中,比如下载路径,下载的url和图片的校验码等3.在配置文件settings.py中配置IMAGES_STORE,这个配置是用来设置图片下载下来的路径  在配置文件settings.py中配置IMAGES_URLS_FIELD,这个配置是设置图片路径的item字段名  (注:特别重要,不然图片文件夹为空)4.启动pipeline:在ITEM_PIPELINES中设置scrapy.pipelines.images.ImagesPipeline:1

改写pipelines.py:

 1 import os
 2 from scrapy.pipelines.images import ImagesPipeline
 3 from bmw import settings
 4
 5 class BMWImagesPipeline(ImagesPipeline):  # 继承ImagesPipeline
 6     # 该方法在发送下载请求前调用，本身就是发送下载请求的
 7     def get_media_requests(self, item, info):
 8         request_objects = super(BMWImagesPipeline, self).get_media_requests(item, info)  # super()直接调用父类对象
 9         for request_object in request_objects:
10             request_object.item = item
11         return request_objects
12
13     def file_path(self, request, response=None, info=None):
14         path = super(BMWImagesPipeline, self).file_path(request, response, info)
15         # 该方法是在图片将要被存储时调用，用于获取图片存储的路径
16         category = request.item.get(‘category‘)
17         images_stores = settings.IMAGES_STORE  # 拿到IMAGES_STORE
18         category_path = os.path.join(images_stores, category)
19         if not os.path.exists(category_path):  # 判断文件名是否存在,如果不存在创建文件
20             os.mkdir(category_path)
21         image_name = path.replace(‘full/‘, ‘‘)
22         image_path = os.path.join(category_path, image_name)
23         return image_path

改写settings.py:

1 import os
2 IMAGES_STORE = os.path.join(os.path.dirname(os.path.dirname(__file__)), ‘imgs‘)
3 IMAGES_URLS_FIELD=‘urls‘

4 ITEM_PIPELINES = {5 ‘bmw.pipelines.BMWImagesPipeline‘: 1,  }

pycharm运行scrapy需要在项目文件夹下新建一个start.py:

1 from scrapy import cmdline
2
3 cmdline.execute([‘scrapy‘, ‘crawl‘, ‘bmw5‘])

原文地址：https://www.cnblogs.com/min-R/p/10545408.html

时间： 2024-10-08 22:19:55

爬虫入门-5-2.scrapy框架下载图片的相关文章

Python爬虫进阶三之Scrapy框架安装配置

初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同. 官网文档:http://doc.scrapy.org/en/latest/intro/install.html,最权威哒,下面是我的亲身体验过程. 1.安装Python 安装过程我就不多说啦,我的电

python实现爬虫（一）--- Scrapy框架抓取豆瓣书籍信息

Scrapy是一个用python实现都爬虫框架,简单易用,功能强大,只需要在框架的基础上自定义自己的分析规则即可,具体如何新建工程等待都在官方文档上面讲解得非常清楚,官方文档tutorial(http://doc.scrapy.org/en/latest/intro/tutorial.html)请保证下载较新版本的Scrapy(我的是0.24.2,scrapy -v)旧版本会出现一些问题. 下面我使用Scrapy抓取豆瓣上面编程书籍的一些简单信息一.准备爬取的页面如下,新建一个douban工程

java如果模拟请求重启路由器(网络爬虫常用)，还有java如何下载图片

我们如果在公司或家里使用网络爬虫去抓取自己索要的一些数据的时候,常常对方的网站有defence机制,会给你的http请求返回500错误,只要是相同IP就请求不到数据,这时候我们只能去重启路由器,这样IP地址会改变,网络爬虫就能正常工作了下面是通过发送Socket请求来模拟路由器的重启指令: protected void rebotadsl() { try { BufferedOutputStream sender = null; String url = baseURL; URL target

爬虫（5）- Scrapy 框架简介与入门

Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便. Scrapy 使用了 Twisted['tw?st?d](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求. 制作 Scrapy 爬虫一共需要4步: 新建项目 (

爬虫(十四)：Scrapy框架(一) 初识Scrapy、第一个案例

1. Scrapy框架 Scrapy功能非常强大,爬取效率高,相关扩展组件多,可配置和可扩展程度非常高,它几乎可以应对所有反爬网站,是目前Python中使用最广泛的爬虫框架. 1.1 Scrapy介绍 1.1.1 架构介绍 Scrapy是一个基于Twisted的异步处理框架,是纯Python实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求.我们只需要定制开发几个模块就可以轻松实现一个爬虫. 它可以分为如下的几个部分: Engine:引擎,处理整个系统的数据流处

scrapy (2)下载图片及存储信息

例1:scrapy项目的使用(利用item收集抓取的返回值) 1.创建scrapy项目 scrapy startproject booklist New Scrapy project 'booklist', using template directory '/usr/local/lib/python3.6/site-packages/scrapy/templates/project', created in: /Users/yuanjicai/booklist You can star

Python爬虫入门【7】：蜂鸟网图片爬取之二

蜂鸟网图片--简介今天玩点新鲜的,使用一个新库 aiohttp ,利用它提高咱爬虫的爬取速度. 安装模块常规套路 pip install aiohttp 运行之后等待,安装完毕,想要深造,那么官方文档必备 :https://aiohttp.readthedocs.io/en/stable/ 接下来就可以开始写代码了. 我们要爬取的页面,这一次选取的是 http://bbs.fengniao.com/forum/forum_101_1_lastpost.html 打开页面,我们很容易就获取到了页

Python爬虫入门【6】：蜂鸟网图片爬取之一

1. 蜂鸟网图片--简介国庆假日结束了,新的工作又开始了,今天我们继续爬取一个网站,这个网站为 http://image.fengniao.com/ ,蜂鸟一个摄影大牛聚集的地方,本教程请用来学习,不要用于商业目的,不出意外,蜂鸟是有版权保护的网站. 2. 蜂鸟网图片--网站分析第一步,分析要爬取的网站有没有方法爬取,打开页面,找分页 http://image.fengniao.com/index.php?action=getList&class_id=192&sub_classid=

Python爬虫入门【5】：27270图片爬取

今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/这个网站具备反爬,所以我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥建议可以在评论的地方跟我说说. 为了以后的网络请求操作方向,我们这次简单的进行一些代码的封装操作. 这里在你可以先去安装一个叫做retrying的模块 pip install retrying 这个模块的具体使用,自己去百度吧.嘿嘿哒? 在这里我使用了一个随机产生USER_AGENT的方法 import reques