python 爬图片

学了两天python，语法慢慢熟悉吧，数据结构都没写过。

写了一个爬图片的小东西。挺有意思的。都是女神照 (????)

用的是正则表达式，

 1 ‘‘‘
 2 符号：
 3     . 匹配任意字符，\n除外
 4     * 匹配前一个字符一次或无限次
 5     ? 匹配前一个字符0次或1次
 6     .*    贪心匹配
 7     .*?    非贪心匹配
 8     ()    返回括号内容
 9 方法：
10     findall
11     search
12     sub
13
14 用的最多的是(.*?)
15 ‘‘‘

requests的导入，我也是醉了，还要easy_install,pip，

后来一切准备就绪了，浏览器打开的源码http:\/，都是这种鬼东西，我就用word替换，发现不行，太多的不可见字符，于是用记事本替换，最后还是最好的办法，我把chrome更新了。

 1 import re
 2 import requests
 3
 4 f = open(‘html.txt‘,‘r‘)
 5 fileshtml = f.read()
 6 f.close()
 7
 8 pic_url = re.findall(‘src2="(.*?)"‘,fileshtml,re.S)
 9
10 i = 0
11 for each in pic_url:
12
13     if each[0] == ‘h‘:
14         print each
15         pic = requests.get(each)
16         fp = open(‘pic\\‘ + str(i) + ‘.jpg‘,‘wb‘)
17         fp.write(pic.content)
18         fp.close()
19         i += 1

时间： 2024-11-05 12:27:38

python 爬图片的相关文章

python爬取某个网站的图片并保存到本地

python爬取某个网站的图片并保存到本地 #coding:utf-8 import urllib import re import sys reload(sys) sys.setdefaultencoding('gb2312') #获取整个页面的数据 def getHtml (url): page = urllib.urlopen(url) html = page.read() return html #保存图片到本地 def getImg(html): reg = r'src="(.+?\.

python爬取某个网页的图片-如百度贴吧

python爬取某个网页的图片-如百度贴吧作者:vpoet 日期:大约在冬季注:随意copy,不用告诉我 #coding:utf-8 import urllib import urllib2 import re if __name__ =="__main__": rex=r'src="(http://imgsrc.baidu.com/forum/w%3D580.*?\.jpg)"'; Response=urllib2.urlopen("http://t

python爬duitang的摄影类图片

list里的元素以逗号隔开,以[]包围,其中元素的类型任意官方一点的说:list列表是一个任意类型的对象的位置相关的有序集合.它没有固定的大小(1),通过对偏移量 (2)进行赋值以及其他各种列表的方法进行调用,能够修改列表的大小. (1)尽管列表没有固定的大小,Python仍不允许引用不存在的元素,超出列表末尾之外的索引会导致错误,赋值也是. (2)我们可以通过偏移量对列表进行索引,切片等操作,而且索引值可为负值. list的主要属性 <1>任意对象的有序集合(从左到右的顺序) <2&

python爬取暖享图片

目标网页:http://www.axlcg.com/wmxz/1.html 首先取得第一页每一个图集的url 可以看到图集的url实在ul class 为homeboy-ul clearfix line-dot底下的li中的a标签里面,所以我们要一层一层地接近目标. allsoup = BeautifulSoup(allurldigit) # 得到解析后的html allpage = allsoup.find('ul', attrs={'class': 'homeboy-ul clearfix

没有内涵段子可以刷了，利用Python爬取段友之家贴吧图片和小视频(含源码)

由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不是打广告的,没收广告费的) 同时,之前同事也发了一个贴吧的段子聚居地,客官稍等,马上奉上连接:段友之家?https://tieba.baidu.com/f?ie=... 然后呢,看到上面,确实好多段友在上面,于是乎,我就想爬取他们的图片和小视频,就有了这篇文章的主题: 其实吧,用Python爬取网站数据是最基

python实现图片爬虫

#encoding:utf-8 import sys reload(sys) sys.setdefaultencoding('utf8') from sgmllib import SGMLParser import re import urllib class URLLister(SGMLParser): def start_a(self, attrs): url = [v for k, v in attrs if k=='href'] if url : urll = url[0] else :

selenium+python 爬取网络图片(1) -- soso、谷歌、好搜

做图像处理的朋友,都时常需要收集整理大量的图像数据集.做科研时有各种现有的标准数据集大家都直接拿来用,但是工程上却经常需要自己收集图片,从网上爬取图片便成了比较常见的任务.为了用python完成这个任务,需要解决如下两个问题: 1. 图片素材源自哪里呢?第一直觉就是搜索引擎里的图片,比如要收集手机的图片,则进入搜索引擎搜索关键字即可得到大量相关图片. 2. 动态网站的内容往往是通过ajax异步加载,直接用python中urllib库read到的内容不完整,且需要的内容基本都是异步加载进来的,直接

Python3.x爬虫教程：爬网页、爬图片、自动登录

林炳文Evankaka原创作品.转载请注明出处http://blog.csdn.net/evankaka 摘要:本文将使用Python3.4爬网页.爬图片.自动登录.并对HTTP协议做了一个简单的介绍.在进行爬虫之前,先简单来进行一个HTTP协议的讲解,这样下面再来进行爬虫就是理解更加清楚. 一.HTTP协议 HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写.它的发展是万维网协会(World Wide Web Consortium)和Internet工作

python爬取B站千万级数据，发现了这些热门UP主的秘密！

Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务.它的语法非常简捷和清晰,与其它大多数程序设计语言不一样,它使用缩进来定义语句. Python支持命令式程序设计.面向对象程序设计.函数式编程.面向切面编程.泛型编程多种编程范式.与Scheme.Ruby.Perl.Tcl等动态语言一样,Python具备垃圾回收