python写的百度图片爬虫

学了一下python正则表达式,写一个百度图片爬虫玩玩。

当技术遇上心术不正的人,就成我这样的2B青年了。

python3.6开发,在Windows下需要安装vc2015动态库。下载地址:http://www.cr173.com/soft/146014.html

 1 #/usr/bin/env python
 2 #Guoyabin
 3 #-*- coding:utf-8 -*-
 4 import re,os
 5 import requests
 6
 7 keyword=input(‘请输入搜索关键词:‘)
 8 os.chdir(‘C:\\Users\\Administrator\\Desktop\\‘)
 9 if os.path.exists(keyword) ==False:
10     os.mkdir(keyword)
11 os.chdir(keyword)
12
13 page_begin=input(‘从第几页开始搜索,回车从第一页开始:‘)
14 if len(page_begin)==0:
15     baidupn=0
16 else:
17     baidupn=page_begin*20
18
19 num=1
20 for i in range(50):
21     url=‘https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8‘
22     payload={‘word‘:keyword,‘pn‘:baidupn}
23     html = requests.get(url,params=payload).text
24     regular=‘"objURL":"(.*?)",‘
25     pic=re.findall(regular,html)
26     baidupn+=20
27
28     for tu in pic:
29         try:
30             dl=requests.get(tu,timeout=60)
31             #pic_name=os.path.basename(tu).split(‘?‘)[0]
32             pic_name=‘%s%s‘ %(num,‘.jpg‘)
33             with open(pic_name,"wb") as code:
34                 code.write(dl.content)
35                 requests.session().keep_alive = False
36                 dl.close()
37             num+=1
38         except requests.exceptions.ConnectionError:
39             print(‘这张图片下载失败了,图片地址‘,tu)
40             continue

无耻的求一下赞助

时间: 2024-10-10 06:01:41

python写的百度图片爬虫的相关文章

百度图片爬虫-python版-如何爬取百度图片?

上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://5912119.blog.51cto.com/5902119/1771391 这一篇我想写写如何爬取百度图片的爬虫,这个爬虫也是:搜搜gif(在线制作功能点我) 的爬虫代码,其实爬虫整体框架还是差不多的,但就是会涉及到图片的的一些处理,还是花费了我不少时间的,所以我请阅读的本爬虫的孩子还是认真一些,毕竟程序猿都不容易啊.好的,我也不想多说,爬虫的代码我会分享到去转盘网,想下载本爬虫代码的孩子请点我下载,如果没有下

百度图片爬虫

功能说明:依次输入keyword.開始页码,结束页码(每页6张图) 当中,因为设定了timeout和其它错误检測,所以每页不一定6张都能爬下来. 有需求的拿去爬图用吧,仅供交流參考.不要乱爬,以免百度专门封堵.想用的都用不了了. 以后假设有时间再用pyqt做成界面吧. 代码例如以下: #!/usr/bin/env python #! -*- coding: utf-8 -*- import urllib,urllib2 import re import time #返回网页源码 def getH

python 爬取百度图片

# coding=utf-8 """根据搜索词下载百度图片""" import re import sys import urllib import requests def get_onepage_urls(onepageurl): """获取单个翻页的所有图片的urls+当前翻页的下一翻页的url""" if not onepageurl: print('已到最后一页, 结束') r

用 Python 写一个爬图片的程序---------纪念我的第一个爬虫程序

终于到这题了,话不多说.直接上代码. #coding:utf-8 #By :晓明酱 #Date:2016/4/16 #参考:http://blog.csdn.net/xiaowanggedege/article/details/8650034 import urllib,re def get_html(url): page = urllib.urlopen(url) html = page.read() return html def get_img(html): reg = r'src="(.

python 百度图片爬虫

# -*- coding:utf-8 -*- #https://blog.csdn.net/qq_32166627/article/details/60882964 import requests import os import pinyin def getManyPages(keyword,pages): params=[] for i in range(30,30*pages+30,30): params.append({ 'tn': 'resultjson_com', 'ipn': 'r

Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)

这道题是一道爬虫练习题,需要爬链接http://tieba.baidu.com/p/2166231880里的所有妹子图片,点进链接看一下,这位妹子是日本著名性感女演员--杉本由美,^_^好漂亮啊,赶紧开始爬吧. 以下就是我的爬虫步骤: 一.获取页面 虽然request和beautifulsoup模块方便又好用,但是我还是决定使用传统的urllib和urllib模块,毕竟对这两个模块熟悉之后,就能基本明白爬虫的原理和实现啦. 首先是导入模块,除了前面提到的两个模块,我们还要导入re模块,使用正则表

python写的百度贴吧相册下载

突然想搞个这样的工具,写来写去都不知道在干嘛了,本来两个文件,现在整合在一起了. 乱得不行,懒得整理了,能用就行. 下载部分用了多线程,但是下载一个文件还是用的单线程,也就是没管http头的range问题.貌似速度也不咋地. 开始遇到的一个问题是直接用urllib的urlretrieve或者是先urlopen再read()出来老是出错,或者丢失,后来本来打算外挂一个wget.exe来下载,想来想去还是得不偿失,所以现在分几个block来读,应该是可以的. 另外百度相册用了ajax的动态页面加载技

python写的批量图片水印工具

前段时间想给seo那边做个某工具站的爬虫,用到了图像识别(对方防守可谓严密啊,异步返回非标准json结构+referer+加密+图像四道防线.嘿嘿,代码就不放了.) 正好公司要给全站图片加水印,刚研究的图像识别又有用武之地了. 万事先谷歌,找到个加水印的代码,修改了一番就用上了.^ ^ 1 import Image,ImageFilter,ImageEnhance 2 import os 3 4 def reduce_opacity(im, opacity): 5 """Re

【python小练】图片爬虫之BeautifulSoup4

Python3用不了Scrapy! Python3用不了Scrapy! Python3用不了Scrapy! [重要的事情说三遍,据说大神们还在尝试把scrapy移植到python3,特么浪费我半个小时pip scrapy = - =] 先前用正则表达式匹配出符合要求的<img>标签真的超麻烦的,正则式错一点点都要完蛋,用bs4感觉方便很多. bs4是将整个html拆解成字典和数组,所以处理起来比较简单. 以这个页面为例(毕竟堆糖本命):http://www.duitang.com/search