scrapy中下载文件和图片

下载文件是一种很常见的需求,例如当你在使用爬虫爬取网站中的图片、视频、word、pdf、压缩包等的时候

scrapy中提供了FilesPipeline和ImagesPipeline,专门用来下载文件和图片:

  我们其实可以把这两个item pipeline看成是特殊的下载器,用户使用的时候只需要通过item的一个特殊的字段就可以将要下载的文件或者图片的url传递给它们,它们会自动将文件或者图片下载到本地,并将下载的结果信息存入到item的另一个特殊的字段,方便用户在导出文件的时候查阅

  FilesPipeline

    使用FilesPipeline下载页面中所有的PDF文件,

    1. 在配置文件settings中启用FilesPipeline,通常将其至于其它的item pipeline的前面
    2. 在配置文件中settings中,使用FILES_STORE指定文件的下载目录
    3. 在spider解析一个包含文件下载链接的页面的时候,将所有的需要下载文件的url地址都收集到一个列表中,赋值给item的file_urls字段(item[‘file_urls‘])。FilesPipeline在处理每一项item的时候会去读item[‘file_urls‘],对其中的每一个url进行下载

    当FilesPipeline下载完item[‘file_urls‘]所有的文件后,会讲各个文件的下载结果收集到另一个列表,赋值给item的files字段item[‘files‘]。下载的结果包括以下内容:

    1. Path:文件下载到本地的路径(相对于FILES_STORE的相对路径)。
    2. Checksum:文件的校验
    3. url:文件的url地址

  ImagesPipeline

    图片也是文件,所以下载图片本质上其实也是下载文件,ImagesPipeline是FilesPipeline的子类,使用上和FilesPipeline大同小异,只是在所使用的item字段和配置选项上略有差别,

      ImagesPipeline在FilesPipeline的基础上针对图片增加了一些特有的功能:

      1. 为图片生成缩略图

        1. 开启这个功能,只需要在settings中设置IMAGES_THUMBS,它是一个字典,每一项的值都是缩略图的尺寸

          IMAGES_THUMBS = {
             ‘small‘: (50, 50),
             ‘big‘: (270, 270),
          }
        2. 当你下载图片的时候,本地会出现三张图片(一张原图,两张缩略图)
      2. 过滤掉尺寸过小的图片
            1. 开启这个功能后,如果下载一张指定宽高的图片,该图片就会被抛弃掉,因为他的宽高不符合标准
            2. 需要在settings中配置IMAGES_MIN_WIDTH和IMAGES_MIN_HEIGHT,它们分别是指定图片的最小宽和高

              IMAGES_MIN_WIDTH = 110
              IMAGES_MIN_HEIGHT = 110    

                      

          

原文地址:https://www.cnblogs.com/tulintao/p/11703599.html

时间: 2024-08-16 13:47:47

scrapy中下载文件和图片的相关文章

下载文件和图片

下载文件和图片 Scrapy为下载item中包含的文件(比如在爬取到产品时,同时也想保存对应的图片)提供了一个可重用的item pipelines.这些pipeline有些共同的方法和结构我们称之为media pipeline.一般来说你会使用Files Pipline或者Images Pipeline. 为什么要选择使用scrapy内置的下载文件的方法 避免重新下载最近已经下载过的数据. 可以方便的指定文件存储的路径. 可以将下载的图片转换成通用的格式.比如png或jpg. 可以方便的生产缩略

GridVIew中下载文件的方法探讨,方法(7)最佳。

(1)使用Button下载 在GridView属性中添加: OnRowCommand="GridView1_RowCommand" 在GridView的<Column>中添加: <asp:ButtonField runat="server" Text="下载" HeaderText="下载" ButtonType="Button" CommandName="DownLoad_Cl

使用URLConnection下载文件或图片并保存到本地

有时候需要从网络上面下载图片到本地进行保存,代码如下: package com.jointsky.jointframe.test; import java.io.FileOutputStream; import java.io.InputStream; import java.io.OutputStream; import java.net.URL; import java.net.URLConnection; /** * 使用URLConnection下载文件或图片并保存到本地. * * @a

VSTO学习笔记(四)从SharePoint 2010中下载文件

原文:VSTO学习笔记(四)从SharePoint 2010中下载文件 上一次我们开发了一个简单的64位COM加载项,虽然功能很简单,但是包括了开发一个64位COM加载项的大部分过程.本次我们来给COM加载项添加一些功能:从SharePoint 2010的文档库中下载一个Excel文档到本地. 示例代码下载 本系列所有示例代码均在 Visual Studio 2010 Ultimate RC + Office 2010 Professional Plus Beta x64 上测试通过. 1.首先

SpringMVC实现从磁盘中下载文件

除了文件的上传我们还需要从磁盘下载 实现文件的下载只要编写一个控制器,完成读写操作和响应头和数据类型的设置就可以了 下面演示的是从G盘imgs文件夹中下载文件 具体代码如下 1 package com.cqupt.dayday; 2 3 import org.springframework.stereotype.Controller; 4 import org.springframework.web.bind.annotation.RequestMapping; 5 6 import javax

java 从网络Url中下载文件

转自:http://blog.csdn.net/xb12369/article/details/40543649 /** * 从网络Url中下载文件 * @param urlStr * @param fileName * @param savePath * @throws IOException */ public static void downLoadFromUrl(String urlStr,String fileName,String savePath) throws IOExcepti

django 中下载文件与下载保存为excel

一.django 中下载文件 在实际的项目中很多时候需要用到下载功能,如导excel.pdf或者文件下载,当然你可以使用web服务自己搭建可以用于下载的资源服务器,如nginx,这里我们主要介绍django中的文件下载. 1.前端 实现方式:a标签+响应头信息(当然你可以选择form实现) <div class="col-md-4"><a href="{% url 'download' %}" rel="external nofollow

汽车之家下载文件和图片

# scrapy框架里下载问价和图片 # 判断文件夹和路径是否存在 # 爬虫文件 import scrapy from bmw.items import BmwItem class Bme5Spider(scrapy.Spider): name = 'bme5' allowed_domains = ['car.autohome.com.cn'] start_urls = ['https://car.autohome.com.cn/pic/series/65.html'] def parse(se

ajax请求过程中下载文件在火狐下的兼容问题

项目中碰到的问题,记录如下. 需求很简单,点击一个文件链接下载该文件,同时向后台发送请求.需求很常见,用户点击下载后通常要进行下载量的统计,统计的话可以利用 script标签 或者 img标签(图片ping) 的跨域能力,将它们的 src 属性指向统计地址,但是这次用了 ajax 进行统计,遂出现了这个问题. demo 代码如下: 复制代码<a id="a" href="http://c758482.r82.cf2.rackcdn.com/Sublime Text 2.