scrapy 自动下载图片

Item 字段名必须是 image_urls

即：image_urls = Field()

item[‘image_urls‘]的类型是一个list。

item[‘image_urls‘] = "http://some.jpg" 是不行的。

会有如下错误：

Traceback (most recent call last):
File "D:\Python27\lib\site-packages\scrapy\middleware.py", line 62, in _process_chain
return process_chain(self.methods[methodname], obj, *args)
File "D:\Python27\lib\site-packages\scrapy\utils\defer.py", line 65, in process_chain
d.callback(input)
File "D:\Python27\lib\site-packages\twisted\internet\defer.py", line 382, in callback
self._startRunCallbacks(result)
File "D:\Python27\lib\site-packages\twisted\internet\defer.py", line 490, in _startRunCallbacks
self._runCallbacks()
--- <exception caught here> ---
File "D:\Python27\lib\site-packages\twisted\internet\defer.py", line 577, in _runCallbacks
current.result = callback(current.result, *args, **kw)
File "D:\Python27\lib\site-packages\scrapy\contrib\pipeline\media.py", line 40, in process_item
requests = arg_to_iter(self.get_media_requests(item, info))
File "D:\Python27\lib\site-packages\scrapy\contrib\pipeline\images.py", line 104, in get_media_requests
return [Request(x) for x in item.get(self.IMAGES_URLS_FIELD, [])]
File "D:\Python27\lib\site-packages\scrapy\http\request\__init__.py", line 26, in __init__
self._set_url(url)
File "D:\Python27\lib\site-packages\scrapy\http\request\__init__.py", line 57, in _set_url
self._set_url(url.encode(self.encoding))
File "D:\Python27\lib\site-packages\scrapy\http\request\__init__.py", line 61, in _set_url
raise ValueError(‘Missing scheme in request url: %s‘ % self._url)
exceptions.ValueError: Missing scheme in request url: h

必须是 item[‘image_urls‘] = ["http://some.jpg"]

时间： 2024-11-05 09:04:08

scrapy 自动下载图片的相关文章

scrapy (2)下载图片及存储信息

例1:scrapy项目的使用(利用item收集抓取的返回值) 1.创建scrapy项目 scrapy startproject booklist New Scrapy project 'booklist', using template directory '/usr/local/lib/python3.6/site-packages/scrapy/templates/project', created in: /Users/yuanjicai/booklist You can star

我的第一个python爬虫程序(从百度贴吧自动下载图片)

这个学期开设了编译原理和形式语言与自动机,里面都有介绍过正则表达式,今天自己学了学用python正则表达式写爬虫一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛. 网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止. 如果把整个互联网当成

爬虫入门-5-2.scrapy框架下载图片

scrapy startproject bmw cd bmw scrapy genspider bmw5 'autohome.com.cn' 第一种方式:不使用ImagePipeline bww5.py: 1 import scrapy 2 from bmw.items import BmwItem 3 4 5 class Bmw5Spider(scrapy.Spider): 6 name = 'bmw5' 7 allowed_domains = ['autohome.com.cn'] 8 st

python爬虫入门---第三篇：自动下载图片

适用的图片网站:美桌 import requests import re import urllib from bs4 import BeautifulSoup def get_html_text(url): ''' 获取网址url的HTML代码,以字符串形式返回html代码 ''' try: res = requests.get(url, timeout = 6) res.raise_for_status() res.encoding = res.apparent_encoding retur

自动下载图片的脚本

很多年前,自己写的,自己的文件丢失了,神奇的网络让我又找到了 #!/bin/bash #Description: # download national geographic photo of the day and set it as background # wait for network connection to be established [[ -n $1 ]] && sleep $1 resolution=$(xrandr |grep -o 'current [^,]*'|

python爬虫实战——5分钟做个图片自动下载器

python爬虫实战--图片自动下载器制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要,不要告诉我你老师没教你) 分析网页源代码,配合F12(没有F12那么乱的网页源代码,你想看死我?) 编写正则表达式或者XPath表达式(就是前面说的那个神器) 正式编写python爬虫代码效果运行: 恩,让我输入关键词,让我想想,输入什么好呢?好像有点暴露爱好了. 回车好像开始下载了!好赞!,我看

scrapy 中如何自定义 pipeline 下载图片

这里以一个很简单的小爬虫为例,爬取壹心理网站的阅读页面第一页的所有文章及其对应的图片,文章页面如下: 创建项目首先新建一个 scrapy 项目,安装好相关依赖(步骤可参考:scrapy 安装及新建爬虫项目并运行). 新建一个爬虫: scrapy genspider xinli001 'www.xinli001.com/info' 此时项目工程目录与新建的爬虫如下: 爬取信息并编写图片自动下载逻辑本次主要是记录自定义 pipeline 来爬取图片,所以只是简单的选取一些信息来爬取,包括文章

scrapy中下载文件和图片

下载文件是一种很常见的需求,例如当你在使用爬虫爬取网站中的图片.视频.word.pdf.压缩包等的时候 scrapy中提供了FilesPipeline和ImagesPipeline,专门用来下载文件和图片: 我们其实可以把这两个item pipeline看成是特殊的下载器,用户使用的时候只需要通过item的一个特殊的字段就可以将要下载的文件或者图片的url传递给它们,它们会自动将文件或者图片下载到本地,并将下载的结果信息存入到item的另一个特殊的字段,方便用户在导出文件的时候查阅 FilesP

通过scrapy内置的ImagePipeline下载图片到本地

1.通过scrapy内置的ImagePipeline下载图片到本地 1.通过scrapy内置的ImagePipeline下载图片到本地 1)在settings.py中打开 ITEM_PIPELINES 的注释,在 ITEM_PIPELINES 中加入 ITEM_PIPELINES = { 'spider_first.pipelines.SpiderFirstPipeline': 300, 'scrapy.pipelines.images.ImagesPipeline':5, #后面的数字代表执

猜你喜欢

UIPFULL!DllCanUnloadNow崩溃问题解决

在软件开发过程中遇到一个崩溃问题,通过windug定位,得到信息是:UIPFULL!DllCanUnloadNow 后来发现这个是百度输入法的原因,卸载百度输入法就可以了. 还有,在使用搜狗输入法是也 ...

JAVA中的抽象类和接口

一抽象类抽象类就是不能被实例化的类,即不可以用new运算符创建本类的对象.在实际应用中,抽象类应该具有子类,且其子类一般不为抽象类. java中使用抽象类的原因有如下四点: 1.抽象类是较高层次的 ...

Zepto自定义模块打包构建

文章转自 http://www.chengxuyuans.com/web_technology/zeptojs-build.html zepto.js 是个好东西,遵循 jQuery API,但比 j ...

怎样配置JDK开发环境

(1)我们需要配置三个环境变量,分别是JAVA_HOME,CLASSPATH,Path (2)变量名输入:JAVA_HOME,变量值输入:D:\Java\jdk1.8.0_05点击确定. 需要特别注意 ...

1-SDK开发初探-8266

先分享一个比较感动的事情其实做实物是因为好多人看了我的文章之后还是会遇到各种各样的问题,然后呢真是让亲们搞的自己好累.......所以就想着如果亲们用自己做的板子,出现什么问题能够快速的解决,,而且 ...

动态规划(斜率优化)：SPOJ Commando

Commando You are the commander of a troop of n soldiers, numbered from 1 to n. For the battle ahead, ...

WPF—QQ界面（一）：QQ界面的整体布局

15年6月底初学C#的WPF,在此之前对软件编程行业基本上相当于小白,从此漫漫程序路. 把C#的基本语法看了一遍,高级教程还没看,在师兄的提点下,开始尝试着写QQ的界面. 先将界面包含的各个效果分块写 ...

jQuery中的Sizzle引擎分析

我分析的jQuery版本是1.8.3.Sizzle代码从3669行开始到5358行,将近2000行的代码,这个引擎的版本还是比较旧,最新的版本已经到v2.2.2了,代码已经超过2000行了.并且还有个 ...

旋转数组中的最小数字

题目描述:把一个数组最开始的若干个元素移动到数组的末尾,称之为一个数组的旋转.输入一个递增排序的数组的旋转,输出旋转数组的最小元素. 例如:数组 {3,4,5,1,2} 为{1,2,3,4,5} 的一 ...

改变radio的点（美化radio）

<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8" ...

文件上传的Serlvet类

public class FileUploadServlet extends HttpServlet { private static final long serialVersionUID = 1 ...

用网络访问控制来强化SSL VPN网络安全

很多公司已经改进了其IPsec VPN,有的甚至用基于SSL的远程访问解决方案替换掉了IPsec VPN.SSL VPN能够在任何未经管理的家用或公用电脑上使用,当要决定是否允许访问公司网络资源时,评 ...

CISCO设备日志发送到log日志服务器

en conf t clock timezone GMT+8 #设置北京时间 exit clock set HH:MM:SS DAY MONTH YEAR #设置当前时间 service time ...

flash视频器播放器代码

<html> <head> <meta http-equiv="Content-Type" content="text/html; char ...

读取excel,读取文本文件

背景: 领导不知道在做什么项目,前天给了我们一个200行以上的表格,让我们把里面的内容,用switch case写出来. 我和同事分工,大概每人写了100多个,至少写了半小时以上,写完之后,交换检查, ...

Shell理论学习(一)

登录主机: 本机登录(7个接口tty1~tty7) 文本接口(tty1~tty6) 图形接口(tty7) 远程登录通配符: *:代表任意的字符串,可以是空字符串 ?:代表一个字符,但是不可以为空转 ...

Tomcat开启https

为了防止包监听,Https属于必须品,现在Web服务器基本上都有直接支持https的功能,这里记录一下在tomcat里面怎么开启https. 1. 生成Keystore (使用tomcat作为别名,R ...

【springmvc+mybatis项目实战】杰信商贸-34.业务出口报运WebService1

我们要为出口报运做一个WebService,来提供跨系统的信息查询功能. 我们使用的技术是 -------Apache CXF WebService 作用:两个异构系统,需要共享数据. 需求:我们要给 ...

atoi和itoa

itoa()函数的原型为: char *itoa( int value, char *string,int radix);itoa()函数有3个参数:第一个参数是要转换的数字,第二个参数是要写入转换结 ...

Java菜鸟培训第二天

HTML——超文本标记语言…………… 静态网页:不需要访问数据库. 动态网页:在网上发布的好的,我们能通过网络浏览到的都是动态的,需要访问数据库. <html>--开始标签 <hea ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.