一只小爬虫下载jpg图片到桌面 >>>>>python2.7.x

import re
import urllib2
headers = {‘User-agent‘ : ‘Mozilla/5.0 (Windows NT 6.2; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0‘}
with open(‘C:\\Users\\yaxin\\Desktop\\1.txt‘,‘r‘) as file: #预先将网页源码保存到1.txt里
data = file.read()
pattern = re.compile(r"<img src=‘(.*?)jpg") #匹配图片地址
need = pattern.findall(data)
count = 0
for i in need:
i = i + ‘jpg‘ #补全网址
with open(‘C:\\Users\\yaxin\\Desktop\\boot\\%s.jpg‘%i[-8:-4],‘wb‘) as f: #以网址中后8位到后5位作为文件名
request = urllib2.Request(i, headers = headers)
data_res = urllib2.urlopen(request)
data_b = data_res.read() #二进制数据
f.write(data_b)
count = count + 1
print ‘done ‘+ str(count)
print(‘done‘)#结束标志

时间： 2024-12-31 11:50:15

一只小爬虫下载jpg图片到桌面 >>>>>python2.7.x的相关文章

python实现爬虫下载美女图片

python实现爬虫下载美女图片本次爬取的贴吧是百度的美女吧,给广大男同胞们一些激励在爬取之前需要在浏览器先登录百度贴吧的帐号,各位也可以在代码中使用post提交或者加入cookie 爬行地址:http://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&ie=utf-8&pn=0 #-*- coding:utf-8 -*- import urllib2 import re import requests from lxml import etree 这

python学习笔记（11）--爬虫下载漫画图片

说明: 1. 某本子网站爬虫,现在只实现了扒取一页,已经凌晨两点了,又饿又困,先睡觉,明天再写总结吧! 2. 1 import urllib.request 2 import re 3 import os 4 5 # 获取漫画网首页html 6 url = "http://www.yaoqmh.net/shaonvmanhua/list_4_1.html" 7 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv

Python爬虫下载美女图片（不同网站不同方法）

声明:以下代码,Python版本3.6完美运行一.思路介绍不同的图片网站设有不同的反爬虫机制,根据具体网站采取对应的方法 1. 浏览器浏览分析地址变化规律 2. Python测试类获取网页内容,从而获取图片地址 3. Python测试类下载图片,保存成功则爬虫可以实现二.豆瓣美女(难度:?) 1. 网址:https://www.dbmeinv.com/dbgroup/show.htm 浏览器里点击后,按分类和页数得到新的地址:"https://www.dbmeinv.com/dbgrou

通俗易懂的分析如何用Python实现一只小爬虫，爬取拉勾网的职位信息

源代码:https://github.com/nnngu/LagouSpider 效果预览思路 1.首先我们打开拉勾网,并搜索"java",显示出来的职位信息就是我们的目标. 2.接下来我们需要确定,怎样将信息提取出来. 查看网页源代码,这时候发现,网页源代码里面找不到职位相关信息,这证明拉勾网关于职位的信息是异步加载的,这也是一种很常用的技术. 异步加载的信息,我们需要借助 chrome 浏览器的开发者工具进行分析,打开开发者工具的方法如下: 点击Nerwork进入网络分析界面,这

爬取虎扑NBA首页主干道推荐贴的一只小爬虫，日常爬不冷笑话解闷

虎扑是广大jrs的家园,步行街是这个家园里最繁华的地段.据称广大jrs平均学历985,步行街街薪30w起步. 大学时经舍友安利,开始了解虎扑,主要是看看NBA的一些资讯. 偶尔也上上这个破街,看看jrs虐虐狗,说说家长里短等等,别的不说,jr们的三观都是特别正的. 不冷笑话基本是我每天必看的帖子,感觉楼主非常敬业,每天都会有高质量的输出,帖子下的热帖也很给力,福利满满. 正学python,突发奇想想把不冷笑话的图都爬下来. 但是虎扑在这块有限制,不登录无法查看用户的帖子,而我目前又懒得弄登陆认证

python学习笔记（8）--爬虫下载占位图片

说明: 1. 虽然很简单,但总忘,所以还是记下来吧! 2. http://placekitten.com/300/300这个画猫的网站老是打开没有图片,改成了http://placehold.it/300/300这个数字占位图片. 3. 记得用response.read() 1 import urllib.request 2 3 # <span class="current-comment-page">[1292]</span> 4 # <img src=

Python爬虫——第一个小爬虫01

Python小爬虫——贴吧图片的爬取在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. 目标: 首先肯定要实现图片抓取这个基本功能然后要有一定的交互,程序不能太傻吧最后实现对用户所给的链接进行抓取一.页面获取要让python可以进行对网页的访问,那肯定要用到urllib之类的包.So先来个 import urllib urllib中有 urllib.urlopen(str) 方法用于打开网页并返回一个对象,调用这个对象的read()方法后能直接获得网页的源代码,内容与

使用爬虫下载图片

import urllib#调用urllib模块 import re#调用正则模块 def getHtml(url): if url is None:#如果url为空的话直接return return html=urllib.urlopen(url)#使用urllib.urlopen打开网页 if html.getcode()!=200: return page=html.read()#返回网页信息 return page def getImg(page): if page is None: r

Python小爬虫-自动下载三亿文库文档

新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享. 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?od=1&pn=0,可以观察到,链接中pn=后面的数字就是对应的页码,所以一会我们会用iurl = 'http://3y.uu456.com/bl-197?od=1&pn=',后面加上页码来抓取网页. 一般网页会用1,2,3...不过机智的三亿文库用0,25,50...来表示,所以我们在拼接ur

猜你喜欢

gym-101343D-Husam's Bug

1 ///水题 2 #include<bits/stdc++.h> 3 using namespace std; 4 int main() 5 { 6 int n; 7 while(~sc ...

ACM/ICPC 之 Floyd练习六道(ZOJ2027-POJ2253-POJ2472-POJ1125-POJ1603-POJ2607)

以Floyd解法为主的练习题六道 ZOJ2027-Travelling Fee //可免去一条线路中直接连接两城市的最大旅行费用,求最小总旅行费用 //Time:0Ms Memory:604K #in ...

gulp插件之gulp-mock-server

本文讲gulp-mock-server的应用,用于虚拟一个服务器,模拟后台返回json数据给前端,这样可以一定程度上实现前后端分离,约定好接口之后,前后端即可同时开发,从而提高效率. 在gulpfil ...

学习制作iOS程序第二天：创建子目录、更改项目名称、修改启动画面、修改类前缀、新建启动控制器、修改APP图标

四.根据实际情况创建相应的目录删除系统默认的部分文件ViewController.h,ViewController.m,Main.storyboard.LaunchScreen.xib 目录根据情况 ...

团队名称：极限定理

队长:学号:2015035107118姓名:邵文强队员:学号:2015035107115姓名:宁培强学号:2015035107117姓名:邵瀚庆学号:2015035107100姓名:李国峰学号:20 ...

nginx 将/wap/开头的请求转发到某台server上

第一种方法 location ^~ /wap/ { if ($request_uri ~ /wap/(\d+)/(.+)) { set $bucketid $1; set $params $2; } ...

nginx同一iP多域名配置方法

nginx绑定多个域名可又把多个域名规则写一个配置文件里,也可又分别建立多个域名配置文件,我一般为了管理方便,每个域名建一个文件,有些同类域名也可又写在一个总的配置文件里.一.每个域名一个文件的写法 ...

外观模式(Facade)

1.定义为子系统中的一组接口提供一致的界面,Facade模式定义了一个高层接口,这个接口使得这一子系统更加容易使用. Facade:定义子系统多个模块对外的高层接口,通常需要调用内部多个模块,从而把 ...

ui-router的探究

首先是示例: 这是我自己写的一个路由demo,这里我们可以看到,页面由一个导航条,以及内容页组成,导航条上有三个按钮,分别对应了三个页面,而页面会在内容页进行更新,并不会重新请求新页面. 而我们看到的 ...

【iOS】edgesForExtendedLayout

在 iOS 7.0 中,苹果引入了一个新的属性,叫做 edgesForExtendedLayou,它的默认值为 UIRectEdgeAll. 当你的容器是 navigationController 时 ...

mysql 流程函数存储引擎 InnoDB简单特性

建表及插入数据语句: mysql> create table salary(userid int,salary decimal(9,2)); Query OK, 0 rows affected ...

DOM系列---基础篇[转]

DOM (Document Object Model) 即文档对象模型, 针对 HTML 和 XML 文档的 API (应用程序接口) .DOM 描绘了一个层次化的节点树,运行开发人员添加.移除和修改 ...

Python excel 库：Openpyxl xlrd 对比介绍

打算用python做一个写mtk camera driver的自动化工具. 模板选用标准库里面string -> Template 即可但要重定义替换字符,稍后说明配置文件纠结几天:cfg, ...

判断一个元素是否已经存在

function contains(arr, obj) { for (var i = 0; i < arr.length; i++) { if (arr[i] === obj) ...

一.准备工作及实例 1.解压struts-2.1.6-all.zip(structs网上下载) apps目录:struts2自带的例子程序 docs目录:官方文档. lib 目录:存放所有jar文件. ...

c++面向对象程序设计

//EXERCISE 2.1 //Write a program that reads integers from the standard input until the end of file a ...

对JSON数组对象排序-有键相同的元素，分组数量不一致，可采用如下的JS进行循环表格输出

var now=eval(data.data); // now.sort(sortBy('bigIdOrder', true, parseInt)); var tab=""; va ...

httponly对XSS攻击的作用

1. 最近在用python的flask框架写东西,顺便把httponly的作用拿出来说下,主要是防止XSS漏洞攻击. 以下hello.py都是用flask写的 2. 代码里加入两个cookie值,其中 ...

vs2008所有DTE.ExecuteCommand命令

下面列表中为我当前机器上visual studio 2008所有DTE.ExecuteCommand命令的内容: 其中:Build.开头对应“编译”菜单下命令(如:Build.RebuildSolut ...

BZOJ 2216 Lightning Conductor

决策单调.整体二分. #include<iostream> #include<cstdio> #include<cmath> #include<cstring ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.