项目名称:抓取360网站图片
目标url:http://image.so.com
项目描述:利用Scrapy的ImagePipeline抓取360网站的图片
要利用Scrapy抓取图片,第一步还是先定义item
1 # -*-coding: utf-8 -*- 2 import scrapy 3 4 class ImageItem(scrapy.Item): 5 image_urls = scrapy.Field()
第二步是在settings.py中打开ImagePipeline,然后定义一下文件的存储路径。
1 ITEM_PIPELINES = { 2 ‘scrapy.pipelines.images.ImagesPipeline‘: 1, 3 } 4 5 IMAGES_STORE = ‘alfred_images‘
第三步就是写spider了
1 # -*- coding: utf-8 -*- 2 import scrapy 3 import json from ..items import ImageItem 4 5 class ImagesSpider(scrapy.Spider): 6 name = ‘images‘ 7 start_urls = ‘http://image.so.com/zj?ch=home&sn=90&listtype=new&temp=1‘ 8 9 def parse(self, response): 10 pics = json.loads(response.body) #因为返回的是json数据,所有这里多了一个解析的步骤 11 for i in pics[‘list‘]: 12 item = ImageItem() 13 item[‘image_urls‘] = [i["qhimg_url"]] #这里注意,图片的url必须放在一个列表中,否则会出现异常 14 yield item
几个要注意的地方:
1.最好在item.py中定义好image_urls = Field()
2.记得在settings中开启ImagePipeline,并且定义好图片储存路径
3.图片的url必须放在列表中,必须放在列表中,必须放在列表中。
原文地址:https://www.cnblogs.com/Alfred-ou/p/9329392.html
时间: 2024-09-29 17:27:50