Python-爬虫-图片抓取保存

#-*- encoding: utf-8 -*- python2.7 ‘‘‘Created on [email protected]: max‘‘‘
import re,urllib,time,uuid,os
for i in re.findall(r‘img?src="(.+?\.jpg)"‘,urllib.urlopen("http://www.zhihu.com/collection/38624707").read().replace(" ",""),re.I):
if not os.path.exists(‘C:\\ATuGuo\\%s‘ %(str(time.localtime(time.time()).__getattribute__("tm_year"))+"-"+str(time.localtime(time.time()).__getattribute__("tm_mon"))+"-"+str(time.localtime(time.time()).__getattribute__("tm_mday")))):
os.makedirs(‘C:\\ATuGuo\\%s‘ %(str(time.localtime(time.time()).__getattribute__("tm_year"))+"-"+str(time.localtime(time.time()).__getattribute__("tm_mon"))+"-"+str(time.localtime(time.time()).__getattribute__("tm_mday"))))
urllib.urlretrieve(i,‘C:\\ATuGuo\\%s‘ %(str(time.localtime(time.time()).__getattribute__("tm_year"))+"-"+str(time.localtime(time.time()).__getattribute__("tm_mon"))+"-"+str(time.localtime(time.time()).__getattribute__("tm_mday")))+"\\%s.jpg" %str(uuid.uuid1()))

时间： 2024-10-31 15:11:00

Python-爬虫-图片抓取保存的相关文章

Python爬虫实战---抓取图书馆借阅信息

原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约,影响日后借书,而自己又懒得总是登录到学校图书馆借阅系统查看,于是就打算写一个爬虫来抓取自己的借阅信息,把每本书的应还日期给爬下来,并写入txt文件,这样每次忘了就可以打开该txt文件查看,每次借阅信息改变了,只要再重新运行一遍该程序,原txt文件就会被新文件覆盖,里面的内容得到更新. 用到的技术: Python版本是 2.7 ,同时用到了ur

[python应用]python简单图片抓取

前言 emmmm python简单图片抓取 1 import requests 2 import threading 3 import queue 4 from subprocess import Popen,PIPE 5 from bs4 import BeautifulSoup as bs 6 import urllib 7 import base64 8 9 10 queue=queue.Queue() 11 12 class Jiandan(threading.Thread): 13 d

Python爬虫，抓取淘宝商品评论内容

作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路我们就拿"德州扒鸡"做为参考目标吧~!如果想抓其他商品的话,自行更换目标即可!打开淘宝,搜索目标,随便点击一个商品进入,在点击累计评论,打开F12开发者工具--网络,先清除现有的所有内容,然后点击下一页评论,在弹出的内容中查找文件中开头为list_detail_rate.htm的html类型,如下图所示这个html中就含

Python爬虫实现抓取腾讯视频所有电影【实战必学】

2019-06-27 23:51:51 阅读数 407 收藏更多分类专栏: python爬虫前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者: Python新手学习之家用python实现的抓取腾讯视频所有电影的爬虫 # -*- coding: utf-8 -*- import re import urllib2 from bs4 import BeautifulSoup import stri

Python爬虫实现抓取网页图片

在逛贴吧的时候看见贴吧里面漂亮的图片,或有漂亮妹纸的图片,是不是想保存下来? 但是有的网页的图片比较多,一个个保存下来比较麻烦. 最近在学Python,所以用Python来抓取网页内容还是比较方便的: 所以就尝试了一下 ------code------- #coding=utf-8 import re import urllib //导入模块 def gethtml(url): //自定义函数,传参获取网页内容 page=urllib.urlopen(url)

Python爬虫之抓取豆瓣影评数据

脚本功能: 1.访问豆瓣最受欢迎影评页面(http://movie.douban.com/review/best/?start=0),抓取所有影评数据中的标题.作者.影片以及影评信息 2.将抓取的信息写入excel中页面信息如下: 一共5页,需要循环访问不同的页面 HTML源代码: <a class="" title="<权力的游戏>S5E8:凛冬已至,凡人皆死" href="http://movie.douban.com/review

python爬虫如何抓取代理服务器

一年前突然有个灵感,想搞个强大的网盘搜索引擎,但由于大学本科学习软件工程偏嵌入式方向,web方面的能力有点弱,不会jsp,不懂html,好久没有玩过sql,但就是趁着年轻人的这股不妥协的劲儿,硬是把以前没有学习的全部给学了一遍,现在感觉web原来也就那么回事.好了,废话就不说了,看到本文的读者,可以先看看我做的东西: 去转盘网:www.quzhuanpan.com ok搜搜:www.oksousou.com(这个是磁力,顺便拿出来给大伙观赏) 言归正传,由于我要爬取百度网盘,而度娘你懂的的搞爬虫

python爬虫数据抓取

概要:利用python进行web数据抓取简单方法和实现. 1.python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返回的内容. 一.第一种方法通常用来获取静态页面内容,比如豆瓣电影内容分类下动画对应的链接: http://www.douban.com/tag/%E5%8A%A8%E7%94%BB/?focus=movie 纪录片对应的链接: http://www.douban.com/tag/%E7%

Python爬虫：抓取手机APP的数据

摘要: 大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1.抓取APP数据包方法详细可以参考这篇博文:http://my.oschina.net/jhao104/blog/605963 得到超级课程表登录的地址:http://120.55.151.61/V2/StudentSkip/loginCheckV4.action 表单: 表单中包括了用户名和密码,当然都是加密过了的,还有一个设备信息,直接post过去就是.

python爬虫之抓取高清图片

这个网站http://www.hbc333.com/是一个壁纸图片网站,提供各种分辨率的图片的下载,因此想写一个爬虫脚本批量下载这些图片. 经观察,2560*1600分辨率的图片的网址格式为:http://www.hbc333.com/size/2560x1600/n/ (n是页数), 每张预览图片的地址是:/data/out/253/46659416-watch-dogs-wallpaper.jpg, 而原图的链接则为:http://www.hbc333.com/data/out/253/46

猜你喜欢

2017年最新VOS2009/VOS3000最新手机号段导入文件（手机归属地数据）

VOS2009.vos3000.vos5000最新手机号段归属地数据库导入文件. 基于2017年4月最新版手机号段归属地制作共360569条记录,兼容所有版本的昆石VOS,包括VOS2009.vos ...

邮件服务器(三)——centos6.5安装配置dovecot并实现sasl认证功能

一.安装配置dovecot 1.dovecot简介 Dovecot 是一个开源的 IMAP 和 POP3 邮件服务器,支持四种协议:pop3(110/tcp), imap4(143/tcp), pop ...

Host XXX is blocked because of many connection errors, unblock with 'mysqladmin flush-hosts

连接MySQL失败,除了权限问题之外,还遇到这种情况,出错信息:Host XXX is blocked because of many connection errors, unblock with ...

一.十进制→二进制方法: 1.除权取余法 (1)反复除2,重点记下余数 (2)一直除到商为0(即除不过来) (3)从下向上依次记下余数二.二进制→十进制 1展权相加法 (1)写2(与二进制数位数相 ...

bzoj1085 [SCOI2005]骑士精神

1085: [SCOI2005]骑士精神 Time Limit: 10 Sec Memory Limit: 162 MBSubmit: 2490 Solved: 1422[Submit][Stat ...

木马编程-手把手带你进入木马的世界之木马编程

前言前面我们已经学习了病毒免杀技术的特征码免杀了,但是木马大家是不是感觉还是很神秘呢,接下来就让我为大家揭开木马的神秘面纱. 一.基础知识 1.1.木马病毒木马(Trojan)这个名字来源于古希腊 ...

php的基本英语

Hypertext preprocessor 超文本预处理语言 Define 定义 Undefined 未定义的 Constant 常量 Variable 变量 Global ...

golang语言中的方法是与对象实例绑定的特殊函数,用于维护和展示对象的自身状态. 与函数的区别是方法有前置实例接收参数(receiver),编译器根据receiver来判断该方法属于哪个实例.rec ...

200以内质数1秒打印出来

(function() { var num = 1; var timer = setInterval(function() { // 把下一个质数求出来 while(true) { if(isPrim ...

httpclient: Content-Length header already present问题

现象:用httpclient发送http请求时,客户端返回: org.apache.http.client.ClientProtocolException at org.apache.http.imp ...

电商干货！1000万烧出来的高点击率钻展创意图十大原则（营销&人性）

梦想凯歌:创意图的钻展的灵魂,没有创意图你什么都不是.无论是日常推广还是做大促活动,创意图是测试的重中之重,一定要提前测试好每一个资源位的创意图.今天这篇好文是一个资深电商设计师在操作钻展烧了1000 ...

mac终端下运行shell脚本

1.写好自己的脚本文件,比如abc.sh2.打开终端准备执行,执行方法有两个: 方法一:输入命令./abc.sh 方法二:直接把 abc.sh 拖入到终端里面注意事项:如果没有执行成功,报出问题:P ...

MYSQL create database 和 create table 做了一些什么！

create database Studio; 这样就可以创建一个数据库了.他包涵一些什么呢? 可以看到它创建了一个文件夹,下面我们进去看一下它里面有一些什么东西. 还是先建一张表再进去吧,运行一下这 ...

28.求任意一个整数的十位上的数字

#include<iostream> using namespace std; int main() { int i,j,n; cout<<"please input ...

JPQL模糊匹配单个字符

JPQL模糊匹配,不是%,而是单个字符,该怎么办?比如我要查出数据库中满足后三位是数字的字符串对于mysql来说,使用通配符 %和_可以轻松解决,但是对于JPQL来说模糊查询就伤脑筋了... 有一个 ...

闭站保护的相关知识——seo教程

很多做站长的人都知道,有时候一些网站不得不去做一些事情,比如闭站保护.所以今天小编就来给大家上堂SEO教程,告诉大家闭站保护的申请.关闭和取消. 1.由网站自身原因(改版.暂停服务等).客观原因(服务 ...

Supply

Supplier创建一个Supply Supply有tap或emit方法. 可以这样理解: Supplier创建一个工厂 Supply 用tap创建流水线 emit向流水线上传送加工品进行加厂 my ...

iOS开发中的这些权限，你搞懂了吗？

写在前面 APP开发避免不开系统权限的问题,如何在APP以更加友好的方式向用户展示系统权限,似乎也是开发过程中值得深思的一件事: 那如何提高APP获取iOS系统权限的通过率呢?有以下几种方式:1.在用 ...

软件职业：聊聊学习这件事！

1 最近老徐测试团队一直在补充成员每天收到n多测试简历满意者寥寥无几 2 老徐之前写过n多关于测试职业学习成长的文章今天继续来聊聊学习这件小事希望对所有测试职业从业者或者其他同行从业者有点参考 ...

开源论坛MvcForum推荐

MvcForum算是Asp.net中开源论坛佼佼者之一.主要使用ASP.NET MVC 5 &Unity & Entity Framework 6,有较强的可撸性.是论坛开发者的不二之 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.