【python小练】0013

第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-)

科科。。。妹子就算了,大晚上的爬点吃的吧。食物图集:抿一口,舔一舔,扭一扭~·SCD

写个简单的爬图爬虫方法还蛮多的。

这次尝试用urlib.request来实现。

读取图片网源码,利用re.compile找到其中符合要求的img标签生成图片list,最后用request.urlretrieve下载图片到本地。

Code:

import os
import re
import urllib.request

def pic_collector(url):
    content = urllib.request.urlopen(url).read()
    r = re.compile(‘<img class="BDE_Image" pic_type="1" width="450" height="450" src="(.*?)" ‘)
    pic_list = r.findall(content.decode(‘utf-8‘))

    os.mkdir(‘pic_collection‘)
    os.chdir(os.path.join(os.getcwd(), ‘pic_collection‘))
    for i in range(len(pic_list)):
        pic_num = str(i) + ‘.jpg‘
        urllib.request.urlretrieve(pic_list[i], pic_num)
        print("success!" + pic_list[i])

pic_collector("http://tieba.baidu.com/p/4341640851")

Note:

1. re.compile()内容由网页源代码决定。比如我扒的这个网页,用chrome查看源代码,找到想下载的包含图片的<img>标签,其完整内容如下(以某一张图为例):

<img class="BDE_Image" pic_type="1" width="450" height="450" src="http://imgsrc.baidu.com/forum/w%3D580/sign=a6080fca870a19d8cb03840d03fb82c9/2683ea039245d688be88e4dfa3c27d1ed31b2445.jpg" size="259380">

即所扒的图片标签内容匹配‘<img class="BDE_Image" pic_type="1" width="450" height="450" src="(.*?)"‘。不必把标签完整的表达都写出来,但要包含到src内容

2. r.findall()中的content后要有decode(‘utf-8‘)这样才是能看懂的utf-8格式网页源代码

3. os.mkdir(filename)新建文件夹;os.chdir(filename)更改路径到xx文件夹;os.getcwd()获取当前文件夹名(字符串)

4. urllib.request.urlretrieve(pic,pic_name) 保存图片到上述路径并设定文件名

保存的文件如下图:

今后看到美少年的皂片不必再无限右键了,朕心甚慰_(:3 」∠)_

哦,要是在贴吧、堆糖想下载xx页到xx页图片怎么办,。? ? ?。

比如上面那个图片贴,网址是酱紫的:

http://tieba.baidu.com/p/4341640851?pn=1  #第1页
http://tieba.baidu.com/p/4341640851?pn=2  #第2页
http://tieba.baidu.com/p/4341640851?pn=3  #第3页
http://tieba.baidu.com/p/4341640851?pn=4  #第4页
...
http://tieba.baidu.com/p/4341640851?pn=n  #第n页

那就改一下代码啦:

import urllib.request
import re
import os

def fetch_pictures(url, m, n):

    os.chdir(os.path.join(os.getcwd(), ‘pic_collection‘))
    temp = 1  # 记录图片张数

    for x in range(n-m+1):
        html_content = urllib.request.urlopen(url + "?pn=" + str(n+x-1)).read()  # key!
        r = re.compile(‘<img class="BDE_Image" pic_type="1" width="450" height="450" src="(.*?)" ‘)
        picture_url_list = r.findall(html_content.decode(‘utf-8‘))
        print(picture_url_list)

        for i in range(len(picture_url_list)):
            picture_name = str(temp) + ‘.jpg‘
            urllib.request.urlretrieve(picture_url_list[i], picture_name)
            print("Success!" + picture_url_list[i])
            temp += 1

fetch_pictures("http://tieba.baidu.com/p/4341640851", 1, 3)

这样就可以下载第1~3页的图片了,向下整张帖子的图片就看下页数自己改呗。

时间: 2024-12-11 11:02:32

【python小练】0013的相关文章

【python小练】0001

第 0001 题:做为 Apple Store App 独立开发者,你要搞限时促销,为你的应用生成激活码(或者优惠券),使用 Python 如何生成 200 个激活码(或者优惠券)? # coding = utf-8 __author__= 'liez' import random def make_number(num, length): str = 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789' a = []

【python小练】0002

第 0002 题:将 0001 题生成的 200 个激活码(或者优惠券)保存到 MySQL 关系型数据库中. . . .(一脸懵逼) Python访问数据库:(廖雪峰python教程) 1. SQLite是一种轻量级的嵌入式数据库,其数据库就是一个文件.Python中内置SQLite3,无需另外安装. 要操作数据库,首先要连接到数据库,连接称作“Connection”. 连接数据库后,需要打开游标,称为“Cursor”,通过“Cursor”执行SQL语句,获得执行结果. 实践: # 导入SQLi

【python小练】0010

第 0010 题:使用 Python 生成类似于下图中的字母验证码图片 思路: 1. 随机生成字符串 2. 创建画布往上头写字符串 3. 干扰画面 code: # codeing: utf-8 from PIL import Image, ImageDraw, ImageFont, ImageFilter import string import random def get4char(): return [random.choice(string.ascii_letters) for _ in

【python小练】0014

第 0014 题: 纯文本文件 student.txt为学生信息, 里面的内容(包括花括号)如下所示: { "1":["张三",150,120,100], "2":["李四",90,99,95], "3":["王五",60,66,68] } 请将上述内容写到 student.xls 文件中,如下图所示: 这题用到之前提到的python第三方库xlwt.(= - =pip一安真的是一劳永逸

Python小练:(三:打包、eavl()函数、冒泡排序)

运行结果: —————————————————————————————————————————— 运行结果: —————————————————————————————————————————— # 第三题:使用python实现冒泡排序def BubbleSort(list): long = len(list) for i in range(0,long): for j in range(i,long): if list[i] < list[j]: list [i],list[j] = list

【python小练】图片爬虫之BeautifulSoup4

Python3用不了Scrapy! Python3用不了Scrapy! Python3用不了Scrapy! [重要的事情说三遍,据说大神们还在尝试把scrapy移植到python3,特么浪费我半个小时pip scrapy = - =] 先前用正则表达式匹配出符合要求的<img>标签真的超麻烦的,正则式错一点点都要完蛋,用bs4感觉方便很多. bs4是将整个html拆解成字典和数组,所以处理起来比较简单. 以这个页面为例(毕竟堆糖本命):http://www.duitang.com/search

【python小练】0020

第 0020 题: 登陆中国联通网上营业厅 后选择「自助服务」 --> 「详单查询」,然后选择你要查询的时间段,点击「查询」按钮,查询结果页面的最下方,点击「导出」,就会生成类似于 2014年10月01日-2014年10月31日通话详单.xls 文件.写代码,对每月通话时间做个统计. 刚好用的是联通呢,科科. Ok,拿到数据了,保存为文件“comu.xls”,现在打算: 1. 统计通话总时长 2. 统计主叫和被叫次数 3. 统计通话总费用 4. pip了matplotlib,试着把数据做成图表(

【python小练】0012题

第 0012 题: 敏感词文本文件 filtered_words.txt,里面的内容 和 0011题一样,当用户输入敏感词语,则用 星号 * 替换,例如当用户输入「北京是个好城市」,则变成「**是个好城市」. 把上一题的代码改一下就可以咯. Code: def filtertext(x): with open(x, 'r') as f: text = f.read() userinput = input('myinput:') for i in text.split('\n'): if i in

【python小练】0017-将xls文件内容写入xml文件中

第 0017 题: 将 第 0014 题中的 student.xls 文件中的内容写到 student.xml 文件中,如 下所示: <?xml version="1.0" encoding="UTF-8"?> <root> <students> <!-- 学生信息表 "id" : [名字, 数学, 语文, 英文] --> { "1" : ["张三", 150