一只小爬虫下载jpg图片到桌面 >>>>>python2.7.x

import re
import urllib2
headers = {‘User-agent‘ : ‘Mozilla/5.0 (Windows NT 6.2; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0‘}
with open(‘C:\\Users\\yaxin\\Desktop\\1.txt‘,‘r‘) as file:    #预先将网页源码保存到1.txt里
    data = file.read()
pattern = re.compile(r"<img src=‘(.*?)jpg")  #匹配图片地址
need = pattern.findall(data)
count = 0
for i in need:
    i = i + ‘jpg‘ #补全网址
    with open(‘C:\\Users\\yaxin\\Desktop\\boot\\%s.jpg‘%i[-8:-4],‘wb‘) as f: #以网址中后8位到后5位作为文件名
        request = urllib2.Request(i, headers = headers)
        data_res = urllib2.urlopen(request)
        data_b = data_res.read() #二进制数据
        f.write(data_b)
        count = count + 1
        print ‘done    ‘+ str(count)
print(‘done‘)#结束标志

时间: 2024-12-31 11:50:15

一只小爬虫下载jpg图片到桌面 >>>>>python2.7.x的相关文章

python实现爬虫下载美女图片

python实现爬虫下载美女图片 本次爬取的贴吧是百度的美女吧,给广大男同胞们一些激励 在爬取之前需要在浏览器先登录百度贴吧的帐号,各位也可以在代码中使用post提交或者加入cookie 爬行地址:http://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&ie=utf-8&pn=0 #-*- coding:utf-8 -*- import urllib2 import re import requests from lxml import etree 这

python学习笔记(11)--爬虫下载漫画图片

说明: 1. 某本子网站爬虫,现在只实现了扒取一页,已经凌晨两点了,又饿又困,先睡觉,明天再写总结吧! 2. 1 import urllib.request 2 import re 3 import os 4 5 # 获取漫画网首页html 6 url = "http://www.yaoqmh.net/shaonvmanhua/list_4_1.html" 7 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv

Python爬虫下载美女图片(不同网站不同方法)

声明:以下代码,Python版本3.6完美运行 一.思路介绍 不同的图片网站设有不同的反爬虫机制,根据具体网站采取对应的方法 1. 浏览器浏览分析地址变化规律 2. Python测试类获取网页内容,从而获取图片地址 3. Python测试类下载图片,保存成功则爬虫可以实现 二.豆瓣美女(难度:?) 1.  网址:https://www.dbmeinv.com/dbgroup/show.htm 浏览器里点击后,按分类和页数得到新的地址:"https://www.dbmeinv.com/dbgrou

通俗易懂的分析如何用Python实现一只小爬虫,爬取拉勾网的职位信息

源代码:https://github.com/nnngu/LagouSpider 效果预览 思路 1.首先我们打开拉勾网,并搜索"java",显示出来的职位信息就是我们的目标. 2.接下来我们需要确定,怎样将信息提取出来. 查看网页源代码,这时候发现,网页源代码里面找不到职位相关信息,这证明拉勾网关于职位的信息是异步加载的,这也是一种很常用的技术. 异步加载的信息,我们需要借助 chrome 浏览器的开发者工具进行分析,打开开发者工具的方法如下: 点击Nerwork进入网络分析界面,这

爬取虎扑NBA首页主干道推荐贴的一只小爬虫,日常爬不冷笑话解闷

虎扑是广大jrs的家园,步行街是这个家园里最繁华的地段.据称广大jrs平均学历985,步行街街薪30w起步. 大学时经舍友安利,开始了解虎扑,主要是看看NBA的一些资讯. 偶尔也上上这个破街,看看jrs虐虐狗,说说家长里短等等,别的不说,jr们的三观都是特别正的. 不冷笑话基本是我每天必看的帖子,感觉楼主非常敬业,每天都会有高质量的输出,帖子下的热帖也很给力,福利满满. 正学python,突发奇想想把不冷笑话的图都爬下来. 但是虎扑在这块有限制,不登录无法查看用户的帖子,而我目前又懒得弄登陆认证

python学习笔记(8)--爬虫下载占位图片

说明: 1. 虽然很简单,但总忘,所以还是记下来吧! 2. http://placekitten.com/300/300这个画猫的网站老是打开没有图片,改成了http://placehold.it/300/300这个数字占位图片. 3. 记得用response.read() 1 import urllib.request 2 3 # <span class="current-comment-page">[1292]</span> 4 # <img src=

Python爬虫——第一个小爬虫01

Python小爬虫——贴吧图片的爬取 在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. 目标: 首先肯定要实现图片抓取这个基本功能 然后要有一定的交互,程序不能太傻吧 最后实现对用户所给的链接进行抓取 一.页面获取 要让python可以进行对网页的访问,那肯定要用到urllib之类的包.So先来个 import urllib urllib中有 urllib.urlopen(str) 方法用于打开网页并返回一个对象,调用这个对象的read()方法后能直接获得网页的源代码,内容与

使用爬虫下载图片

import urllib#调用urllib模块 import re#调用正则模块 def getHtml(url): if url is None:#如果url为空的话直接return return html=urllib.urlopen(url)#使用urllib.urlopen打开网页 if html.getcode()!=200: return page=html.read()#返回网页信息 return page def getImg(page): if page is None: r

Python小爬虫-自动下载三亿文库文档

新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享. 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?od=1&pn=0,可以观察到,链接中pn=后面的数字就是对应的页码,所以一会我们会用iurl = 'http://3y.uu456.com/bl-197?od=1&pn=',后面加上页码来抓取网页. 一般网页会用1,2,3...不过机智的三亿文库用0,25,50...来表示,所以我们在拼接ur