python 爬图 helloworld

最近发现吾志上用户的头像都很个性，另外，对于没有把日记设为私密的用户，当天的日记是公开的，谁都可以查看。

所以，如果每天把所有可查看的日记爬一遍，那么～～哈哈

我以前对爬虫只是了解一点点，没有真的玩过。既然今晚兴致来了，那就随便学一下咯～

参考 http://cuiqingcai.com/1052.html

 1 #coding=utf-8
 2 import os
 3 import urllib
 4 import urllib2
 5 import re
 6 import cookielib
 7
 8
 9
10 def mkdir(path):
11     # 去除左右两边的空格
12     path = path.strip()
13     # 去除尾部 \ 符号
14     path = path.rstrip("\\")
15
16     if not os.path.exists(path):
17         os.makedirs(path)
18
19     return path
20
21
22 def save_file(path, file_name, data):
23     if data == None:
24         return
25
26     mkdir(path)
27     if (not path.endswith("/")):
28         path = path + "/"
29     f = open(path+file_name, "wb")
30     f.write(data)
31     f.flush()
32     f.close()
33
34
35
36 user_agent = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36‘
37 headers = {‘User-Agent‘ : user_agent}
38 values = {}
39 data = urllib.urlencode(values)
40
41 def getHtml(url):
42     req = urllib2.Request(url, data, headers)
43     page = urllib2.urlopen(req, timeout=10)
44     html = page.read()
45     page.close()
46     #print html
47     return html
48
49 def get_file(url):
50     try:
51         opener = urllib2.build_opener()
52         opener.addheaders = [(‘User-Agent‘, ‘Mozilla/5.0‘)]
53         urllib2.install_opener(opener)
54         req = urllib2.Request(url)
55         operate = opener.open(req)
56         data = operate.read()
57         operate.close()
58         return data
59     except BaseException, e:
60         print e, ‘fuck‘
61         return None
62
63
64 def getImg(html):
65     reg = r‘src="(.+?\.jpg)" alt=‘
66     imgre = re.compile(reg)
67     imglist = re.findall(imgre, html)
68
69     x = 0
70     for imgurl in imglist:
71         #urllib.urlretrieve(imgurl, ‘%s.jpg‘ % x)
72         da = get_file(imgurl)
73         save_file(‘.‘, ‘%s.jpg‘ % x, da)
74         x += 1
75
76     return x
77
78
79
80 html = getHtml("https://wuzhi.me/last")
81
82 print getImg(html)

十分简陋，哈哈～

时间： 2024-12-29 12:26:13

python 爬图 helloworld的相关文章

python 爬图

利用bs库进行爬取,在下载html时,使用代理user_agent来下载,并且下载次数是2次,当第一次下载失败后,并且http状态码是500-600之间,然后会重新下载一次 soup = BeautifulSoup(html, "html.parser")当前页面时html的当当前页面时html5时 soup = BeautifulSoup(html, "html5lib") #-*- coding:utf-8 -*- import re import urllib

python爬图

闲的无事,看着知乎里种种python优点,按捺不住,装起python3.4. 网上找了点爬行图片的代码,修改至兼容3.4,成功爬行指定url所有jpg图片,代码段如下: import os import urllib import urllib.request import re #爬行图片 download_path = os.path.dirname(os.path.abspath(__file__)) class spider(object): def __init__(self, url

深夜，我用python爬取了整个斗图网站，不服来斗

深夜,我用python爬取了整个斗图网站,不服来斗 QQ.微信斗图总是斗不过,索性直接来爬斗图网,我有整个网站的图,不服来斗. 废话不多说,选取的网站为斗图啦,我们先简单来看一下网站的结构网页信息从上面这张图我们可以看出,一页有多套图,这个时候我们就要想怎么把每一套图分开存放(后边具体解释) 通过分析,所有信息在页面中都可以拿到,我们就不考虑异步加载,那么要考虑的就是分页问题了,通过点击不同的页面,很容易看清楚分页规则很容易明白分页URL的构造,图片链接都在源码中,就不做具体说明了明白了这

使用python爬取csdn博客访问量

最近学习了python和爬虫,想写一个程序练练手,所以我就想到了大家都比较关心的自己的博客访问量,使用python来获取自己博客的访问量,这也是后边我将要进行的项目的一部分,后边我会对博客的访问量进行分析,以折线图和饼图等可视化的方式展示自己博客被访问的情况,使自己能更加清楚自己的哪些博客更受关注,博客专家请勿喷,因为我不是专家,我听他们说专家本身就有这个功能. 一.网址分析进入自己的博客页面,网址为:http://blog.csdn.net/xingjiarong 网址还是非常清晰的就是cs

python爬取免费优质IP归属地查询接口

python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就ok了嘛~但是,网上免费接口要么限制访问频率(淘宝的),要么限制访问次数(百度及其他) 没辙了,从百度找到了几个在线查询的接口,要么不够准确(或者说她们的数据库太旧了),要么就是速度太慢了,跟限制访问似的(没办法,小规模人家的服务器的确不够好) 于是乎就想到了百度首页的ip接口,就这货: 为了防止泄露

python爬取小视频，看完身体一天不如一天！

Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以在这里给各位看官们准备了高价值Python学习视频教程及相关电子版书籍,都放在了文章结尾,欢迎前来领取!python爬取小视频记录学习python简单爬虫小程序,记录代码和学习过程环境信息python 2.7.12分析与步骤要分析网站信息 http://www.budejie.com/video/ 查看网页不同页面的信息http://www.budejie.com/video/2http://www.budejie.

python爬虫教程：《利用Python爬取表情包》

python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!

Python爬取网页信息

Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初始网址,逐层查找链接,直到找到需要获取的内容. 在打开的界面中,点击鼠标右键,在弹出的对话框中,选择“检查”,则在界面会显示该网页的源代码,在具体内容处点击查找,可以定位到需要查找的内容的源码. 注意:代码显示的方式与浏览器有关,有些浏览器不支持显示源代码功能(360浏览器,谷歌浏览器,火狐浏览器等

python爬取某个网站的图片并保存到本地

python爬取某个网站的图片并保存到本地 #coding:utf-8 import urllib import re import sys reload(sys) sys.setdefaultencoding('gb2312') #获取整个页面的数据 def getHtml (url): page = urllib.urlopen(url) html = page.read() return html #保存图片到本地 def getImg(html): reg = r'src="(.+?\.