python 爬图 helloworld

最近发现 吾志 上用户的头像都很个性,另外,对于没有把日记设为私密的用户,当天的日记是公开的,谁都可以查看。

所以,如果每天把所有可查看的日记爬一遍,那么~~ 哈哈

我以前对爬虫只是了解一点点,没有真的玩过。既然今晚兴致来了,那就随便学一下咯~

参考 http://cuiqingcai.com/1052.html

 1 #coding=utf-8
 2 import os
 3 import urllib
 4 import urllib2
 5 import re
 6 import cookielib
 7
 8
 9
10 def mkdir(path):
11     # 去除左右两边的空格
12     path = path.strip()
13     # 去除尾部 \ 符号
14     path = path.rstrip("\\")
15
16     if not os.path.exists(path):
17         os.makedirs(path)
18
19     return path
20
21
22 def save_file(path, file_name, data):
23     if data == None:
24         return
25
26     mkdir(path)
27     if (not path.endswith("/")):
28         path = path + "/"
29     f = open(path+file_name, "wb")
30     f.write(data)
31     f.flush()
32     f.close()
33
34
35
36 user_agent = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36‘
37 headers = {‘User-Agent‘ : user_agent}
38 values = {}
39 data = urllib.urlencode(values)
40
41 def getHtml(url):
42     req = urllib2.Request(url, data, headers)
43     page = urllib2.urlopen(req, timeout=10)
44     html = page.read()
45     page.close()
46     #print html
47     return html
48
49 def get_file(url):
50     try:
51         opener = urllib2.build_opener()
52         opener.addheaders = [(‘User-Agent‘, ‘Mozilla/5.0‘)]
53         urllib2.install_opener(opener)
54         req = urllib2.Request(url)
55         operate = opener.open(req)
56         data = operate.read()
57         operate.close()
58         return data
59     except BaseException, e:
60         print e, ‘fuck‘
61         return None
62
63
64 def getImg(html):
65     reg = r‘src="(.+?\.jpg)" alt=‘
66     imgre = re.compile(reg)
67     imglist = re.findall(imgre, html)
68
69     x = 0
70     for imgurl in imglist:
71         #urllib.urlretrieve(imgurl, ‘%s.jpg‘ % x)
72         da = get_file(imgurl)
73         save_file(‘.‘, ‘%s.jpg‘ % x, da)
74         x += 1
75
76     return x
77
78
79
80 html = getHtml("https://wuzhi.me/last")
81
82 print getImg(html)

十分简陋,哈哈~

时间: 2024-12-29 12:26:13

python 爬图 helloworld的相关文章

python 爬图

利用bs库进行爬取,在下载html时,使用代理user_agent来下载,并且下载次数是2次,当第一次下载失败后,并且http状态码是500-600之间,然后会重新下载一次 soup = BeautifulSoup(html, "html.parser")当前页面时html的当当前页面时html5时 soup = BeautifulSoup(html, "html5lib") #-*- coding:utf-8 -*- import re import urllib

python爬图

闲的无事,看着知乎里种种python优点,按捺不住,装起python3.4. 网上找了点爬行图片的代码,修改至兼容3.4,成功爬行指定url所有jpg图片,代码段如下: import os import urllib import urllib.request import re #爬行图片 download_path = os.path.dirname(os.path.abspath(__file__)) class spider(object): def __init__(self, url

深夜,我用python爬取了整个斗图网站,不服来斗

深夜,我用python爬取了整个斗图网站,不服来斗 QQ.微信斗图总是斗不过,索性直接来爬斗图网,我有整个网站的图,不服来斗. 废话不多说,选取的网站为斗图啦,我们先简单来看一下网站的结构 网页信息 从上面这张图我们可以看出,一页有多套图,这个时候我们就要想怎么把每一套图分开存放(后边具体解释) 通过分析,所有信息在页面中都可以拿到,我们就不考虑异步加载,那么要考虑的就是分页问题了,通过点击不同的页面,很容易看清楚分页规则 很容易明白分页URL的构造,图片链接都在源码中,就不做具体说明了明白了这

使用python爬取csdn博客访问量

最近学习了python和爬虫,想写一个程序练练手,所以我就想到了大家都比较关心的自己的博客访问量,使用python来获取自己博客的访问量,这也是后边我将要进行的项目的一部分,后边我会对博客的访问量进行分析,以折线图和饼图等可视化的方式展示自己博客被访问的情况,使自己能更加清楚自己的哪些博客更受关注,博客专家请勿喷,因为我不是专家,我听他们说专家本身就有这个功能. 一.网址分析 进入自己的博客页面,网址为:http://blog.csdn.net/xingjiarong 网址还是非常清晰的就是cs

python爬取免费优质IP归属地查询接口

python爬取免费优质IP归属地查询接口 具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地 刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就ok了嘛~但是,网上免费接口要么限制访问频率(淘宝的),要么限制访问次数(百度及其他) 没辙了,从百度找到了几个在线查询的接口,要么不够准确(或者说她们的数据库太旧了),要么就是速度太慢了,跟限制访问似的(没办法,小规模人家的服务器的确不够好) 于是乎就想到了百度首页的ip接口,就这货: 为了防止泄露

python爬取小视频,看完身体一天不如一天!

Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以在这里给各位看官们准备了高价值Python学习视频教程及相关电子版书籍,都放在了文章结尾,欢迎前来领取!python爬取小视频记录学习python简单爬虫小程序,记录代码和学习过程环境信息python 2.7.12分析与步骤 要分析网站信息 http://www.budejie.com/video/ 查看网页不同页面的信息http://www.budejie.com/video/2http://www.budejie.

python爬虫教程:《利用Python爬取表情包》

python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!

Python爬取网页信息

Python爬取网页信息的步骤 以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址 在浏览器中输入初始网址,逐层查找链接,直到找到需要获取的内容. 在打开的界面中,点击鼠标右键,在弹出的对话框中,选择“检查”,则在界面会显示该网页的源代码,在具体内容处点击查找,可以定位到需要查找的内容的源码. 注意:代码显示的方式与浏览器有关,有些浏览器不支持显示源代码功能(360浏览器,谷歌浏览器,火狐浏览器等

python爬取某个网站的图片并保存到本地

python爬取某个网站的图片并保存到本地 #coding:utf-8 import urllib import re import sys reload(sys) sys.setdefaultencoding('gb2312') #获取整个页面的数据 def getHtml (url): page = urllib.urlopen(url) html = page.read() return html #保存图片到本地 def getImg(html): reg = r'src="(.+?\.