python3 网页爬虫图片下载无效链接处理 try except

代码比较粗糙,主要是备忘容易出错的地方。供自己以后查阅。

#图片下载

import re

import urllib.request    #python3中模块名和2.x(urllib)的不一样

site=‘https://world.taobao.com/item/530762904536.htm?spm=a21bp.7806943.topsale_XX.4.jcjxZC‘

page=urllib.request.urlopen(site)

html=page.read()

html=html.decode(‘utf-8‘)    #读取下来的网页源码需要转换成utf-8格式

reg=r‘src="//(gd.*?jpg)‘

imgre=re.compile(reg)

imglist=re.findall(imgre,html)

trueurls=[]

for i in imglist:

trueurls.append(i.replace(‘gd‘,‘http://gd‘))

trueurls[2]=‘http://wlgsad.com.jpg‘

print (trueurls)

x=200

for j in trueurls:

try:

urllib.request.urlretrieve(j,‘%s.jpg‘ %x)

except Exception :     #except Exception as e:

pass        #    print (e)

#     print (‘有无效链接‘)

x=x+1

在except子句可以打印出一些提示信息

下载图片的时候,如果有无效的链接,可以用try except跳过无效链接继续下一个图片的下载

时间: 2024-10-07 06:22:13

python3 网页爬虫图片下载无效链接处理 try except的相关文章

python3.4爬虫批量下载音乐

最近在学习python,使用的版本为python3.4,开发环境为使用Pydev插件的eclipse.正好觉得http://www.dexiazai.com/?page_id=23上的音乐不错,决定使用python批量下载下来. 1.音乐地址 经过分析,页面嵌入的虾米播放器中的地址如下,后面以逗号分隔的字符为音乐的id,如音乐的地址为http://www.xiami.com/song/2088578 <span style="font-size:14px;"><spa

网页的图片下载

谷歌浏览器中 1 按ctrl shift I或者F12,出现调试界面 2 针对大部分图片 resources-frames-images--双击下载即可 3 针对缺少的图片 点击左边搜索图标,在页面上点击自己想要下载的图片(包括背景图片),然后在右边style边框,选取想要下载的东东,右击 -open link in new tab,图片另存为即可

Python3.x爬虫教程:爬网页、爬图片、自动登录

林炳文Evankaka原创作品.转载请注明出处http://blog.csdn.net/evankaka 摘要:本文将使用Python3.4爬网页.爬图片.自动登录.并对HTTP协议做了一个简单的介绍.在进行爬虫之前,先简单来进行一个HTTP协议的讲解,这样下面再来进行爬虫就是理解更加清楚. 一.HTTP协议 HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写.它的发展是万维网协会(World Wide Web Consortium)和Internet工作

Python学习---网页爬虫[下载图片]

爬虫学习--下载图片 1.主要用到了urllib和re库 2.利用urllib.urlopen()函数获得页面源代码 3.利用正则匹配图片类型,当然正则越准确,下载的越多 4.利用urllib.urlretrieve()下载图片,并且可以重新命名,利用%S 5.应该是运营商有所限制,所以未能下载全部的图片,不过还是OK的 URL分析: 源码: #coding=utf-8 import re import urllib def getHtml(url): page=urllib.urlopen(u

Python3网络爬虫(八):爱奇艺等主流视频网站的VIP视频破解(在线观看+视频下载)

转载请注明作者和出处:http://blog.csdn.net/c406495762 运行平台: Windows Python版本: Python3.x IDE: Sublime text3 一.前言 没有会员,想在线观看或下载爱奇艺.PPTV.优酷.网易公开课.腾讯视频.搜狐视频.乐视.土豆.A站.B站等主流视频网站的VIP视频?又不想充会员怎么办?博主本次写的VIP视频破解助手也许可以帮你解决烦恼. 二.软件使用说明 1.软件下载 软件运行平台:Windows 注意:该软件已经打包成exe可

python爬虫3——获取审查元素(板野友美吧图片下载)

测试环境:python2.7 + beautifulsoup4.4.1 + selenium2.48.0 测试网址:http://tieba.baidu.com/p/2827883128 目的是下载该网页下所有图片,共160+张.可以分为以下几步: 1.获取网页源代码. 发现直接通过urllib2或者request获取到的源代码和实际图片对应不起来,通过chrome审查元素功能可以查询到对应的图片,猜测是该页面的图片加载是通过ajax异步传输的.因此使用工具selenium + chromedr

使用Jsoup解决网页中图片链接问题

在做Facebook和WhatsApp分享的时候,分享出去的谷歌短链,Facebook获取不到大图,和竞品展示的不一样,WhatsApp分享出去的短链没有图片和描述. WhatsApp: 分析竞品UCNews,发现他们分享出去的WhatsApp链接指向的网页,在meat标签中添加了相关的属性,然后在自己的站中加入相关标签,问题解决. <meta property="og:image" content="http://img.masala-sg.goldenmob.com

(8)分布式下的爬虫Scrapy应该如何做-图片下载(源码放送)

  转载主注明出处:http://www.cnblogs.com/codefish/p/4968260.html 在爬虫中,我们遇到比较多需求就是文件下载以及图片下载,在其它的语言或者框架中,我们可能在经过数据筛选,然后异步的使用文件下载类来达到目的,Scrapy框架中本身已经实现了文件及图片下载的文件,相当的方便,只要几行代码,就可以轻松的搞定下载.下面我将演示如何使用scrapy下载豆瓣的相册首页内容. 优点介绍: 1)自动去重 2)异步操作,不会阻塞 3)可以生成指定尺寸的缩略图 4)计算

网页图片下载兼容性解决方案

通常我们需要下载某个图片,可以直接通过a标签的 sr c指向需要下载的图片地址,并为a标签添加  download 属性即可 <a :href='recodeurl' class='test' download="img">下载二维码</a> 但 download 的兼容性问题也是很明显的,由下图可知,ie浏览器完全不支持该属性 so  我们只能通过js来寻求解决办法,来达到对图片下载的完美支持 $(function () { (function () { va