Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)

这道题是一道爬虫练习题,需要爬链接http://tieba.baidu.com/p/2166231880里的所有妹子图片,点进链接看一下,这位妹子是日本著名性感女演员——杉本由美,^_^好漂亮啊,赶紧开始爬吧。

以下就是我的爬虫步骤:

一.获取页面

虽然request和beautifulsoup模块方便又好用,但是我还是决定使用传统的urllib和urllib模块,毕竟对这两个模块熟悉之后,就能基本明白爬虫的原理和实现啦。

首先是导入模块,除了前面提到的两个模块,我们还要导入re模块,使用正则表达式来匹配我们想要的内容。

导入模块之后,就可以获取页面了。步骤如下:

1.使用urllib2.Requst( )得到request对象。

这个对象是用于打开一个网页的请求,可以方便的携带一些请求需要的信息,如headers,cookies等数据。

因为我们打开的网页——百度贴吧不需要登录就可以浏览页面,所以request对象只需要headers对象就可以了。

2.使用urllib2.urlopen( )得到response对象。

这个对象是爬虫页面的对象,与文件对象类似,你可以使用read( )来得到response页面对象的源码。

3.使用正则匹配要爬的资源链接

不会正则的同学,可以学一下,很快,一个下午就能学会正则基础啦,至少爬虫使用的正则你就会写啦。我们想要得到页面的所有图片的链接,那就在浏览器中使用CTRL+ALT+c来打开页面查看页面的源码,也就是页面的HTML文本。

找一下图片的标签在哪里,发现所有要下载的图片标签<img>的类都是BDE_image,标签格式都一样,但是帖子中还有广告楼层里面的图片标签也是也是这个类。我可不想下载下来之后浏览美女图片,突然跳出来一个广告图片。

那再仔细看一下页面,发现只要点击只看楼主选项,广告楼层就不见了,同时页面url后面多了几个字符是 ?see_lz=1 。好,那我们直接在我们的请求url后加上这几个字符就行啦,至于其他的楼层,没有了更好^_^,反正其他楼层都是灌水。

ok,那就开始匹配我们想要的链接吧。使用re.compile( )来编译匹配模式,再使用re.findall( )得到所有的图片的src属性,也就是链接的列表。

这就完成了我们爬虫最重要的一步啦。

二.下载链接

下载链接要使用urllib.urlretrieve( ),这个函数可以将你的链接资源下载到本地,如果指定目录的话会下载到目录,否则下载为临时文件。

那就直接迭代我们第一步得到的图片链接列表,一个个全下载下来吧。

到这里,爬这个页面的小练习,就完成啦。

我的代码在这里:

 1 # coding=utf-8
 2 import urllib,urllib2
 3 import re
 4
 5 #头信息
 6 header={‘User-Agent‘:‘Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:44.0) Gecko/20100101 Firefox/44.0‘}
 7
 8 def get_img_url(page_url):#得到页面所有图片的链接
 9
10     request=urllib2.Request(page_url,headers=header) #生成request对象
11     reference=urllib2.urlopen(request)    #获取页面对象
12     page=reference.read()            #读取页面
13
14     regex=re.compile(r‘<img.*?class="BDE_Image" src="(.*?)".*?>‘) #编译正则匹配模式字符串
15     img_url_list=re.findall(regex,page)       #匹配所有图片链接生成列表
16
17     return img_url_list
18
19 def download_img(url_list,img_path):  #从图片链接下载图片并存放在指定文件夹
20     for img_url in url_list:
21         urllib.urlretrieve(img_url,‘%s/%s.jpg‘%(img_path,img_url[-8:-5])) #下载图片
22     print ‘done‘
23
24 url=‘http://tieba.baidu.com/p/2166231880?see_lz=1‘ #爬虫页面
25 path=‘/home/afei/picture‘  #存放路径
26 urllist=get_img_url(url)
27 download_img(urllist,path)

wow,杉本由美真的好漂亮啊,有鼻子有眼的。

时间: 2024-11-05 19:04:47

Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)的相关文章

[python] 1、python鼠标点击、移动事件应用——写一个自动下载百度音乐的程序

1.问题描述: 最近百度总爱做一些破坏用户信任度的事——文库金币变券.网盘限速,吓得我赶紧想办法把存在百度云音乐中的歌曲下载到本地. http://yinyueyun.baidu.com/ 可问题是云音乐中并没有批量下载,而上面我总共存了700多首音乐! 因此:有必要写一个脚本自动下载这些音乐了!!! 2.解决问题 自动下载歌曲有两种方法: JS法 模拟鼠标点击法 由于考虑到JS法需要分析网页结构.寻找下载链接,工作量有点大,于是选择用模拟鼠标点击法! 在linux上我首先想到用python来做

如果Google面试让你用python写一个树的遍历程序

前几天忽然对python很感兴趣,学了几天也感觉它非常的简洁实用.打破了我这么长时间对java C# C 和vb的审美疲劳,让我眼前一亮."就像读英文一样简单"这句话评价python说的很合理. 我对python的好感很大部分是因为听说google很多程序用python,而且在google app engine里面和支持python.如果你去google面试或者笔试,很可能就会考到这个题:用python实现树的遍历. 自己试着写了一下,不过毕竟是菜鸟,有问题请多多指教. 运行效果如下:

python初尝试,写一个简单的爬虫程序

1.首先因为mac自带python,版本为python2.7.10 2.安装pip,因为已经有了,所以不能用brew install.这里用sudo easy_install pip 3.安装beatifulsoup4,sudo -H pip install beautifulsoup4. BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. 4.安装html5lib,sudo pip insta

python学习(5)写一个二分算法的程序

把之前学习的做一个小结.之前看二分查找法,只能是似而非地看懂大概.现在用这么多天的知识积累已经可以自己写了. 而且在算法书的基础上,把需要找的数字做一个人机互动操作. 另外,初步接触到了 __name__=="__main__"这块,也只初步了解了一个大概.在调试的时候,发现有这个语句就不会上下两段代码一起执行.原理现在尚不清楚,查了一下资料,似是而非,看后面能否深入了解. 另外,今天对return和print进行了比较详细的了解.我的理解是,语句中一旦有return,类似Break,

Python入门 —— 用pycharm写一个简单的小程序3

环境:Win10操作系统:Python3.7:Pycharm 题目来源:PTA 编程实例1:日期格式化 世界上不同国家有不同的写日期的习惯.比如美国人习惯写成“月-日-年”,而中国人习惯写成“年-月-日”.下面请你写个程序,自动把读入的美国格式的日期改写成中国习惯的日期. 输入格式: 输入在一行中按照“mm-dd-yyyy”的格式给出月.日.年.题目保证给出的日期是1900年元旦至今合法的日期. 输出格式: 在一行中按照“yyyy-mm-dd”的格式给出年.月.日. 输入样例: 03-15-20

用 python 写一个年会抽奖小程序

使用 pyinstaller 打包工具常用参数指南 pyinstaller -F demo.py 参数 含义 -F 指定打包后只生成一个exe格式的文件 -D –onedir 创建一个目录,包含exe文件,但会依赖很多文件(默认选项) -c –console, –nowindowed 使用控制台,无界面(默认选项) -w –windowed, –noconsole 使用窗口,无控制台 -p 添加搜索路径,让其找到对应的库. -i 改变生成程序的icon图标 pyinstaller -F -w -

Python写一个网络监控小程序

原理是监控端口的形式,持续进行telnet判断,若端口无法连接说明网络出现异常,则进行打印到本地文件 # -*- coding: utf-8 -* import telnetlib,time,os Path = os.getcwd() file_name = 'ping_log.txt' ping_log_path = os.path.join(Path,file_name) if not os.path.exists(ping_log_path): os.mknod(file_name) wh

如何用 Python 写一个简易的抽奖程序

不知道有多少人是被这个头图骗进来的:) 事情的起因是这样的,上周有同学问小编,看着小编的示例代码敲代码,感觉自己也会写了,如果不看的话,七七八八可能也写的出来,但是一旦自己独立写一段程序,感觉到无从下手. 其实这个很正常,刚开始学习写代码,都是跟着别人的套路往下写,看的套路少,很难形成自己的套路,这就和做数学题是一样的,做一道题就想会所有的题目,这个可能性微乎其微,都是通过大量的练习来摸索到自己的套路. 正好快过年了,各个公司都会搞一些抽奖活动,小编今天就来聊一下,如果要写一个简单的抽奖程序,小

题二:写一个单例模式

/** * 2.写一个单例模式 */ public class Test2 { public static void main(String[] args) { System.out.println(Singleton.getSingleton().hashCode()); } } class Singleton{ private static Singleton singleton = new Singleton(); private Singleton(){} public static S