python批量下载色影无忌和蜂鸟的图片 爬虫小应用

有些冗余信息。由于之前測试正則表達式。所以没有把它们给移走。只是不影响使用。

# -*- coding:utf-8 -*-
import re,urllib,sys,os,time

def getAllUrl():
	entry=sys.argv[1]
	#try:
	getPage=urllib.urlopen(entry).read()
	#except:
	#	print "Error"

	pattern=re.compile(r‘<a href="(.+?

)".+?>‘)
	web_site_pattern=re.compile(r‘(http:.+?)‘)
	all_url = pattern.findall(getPage)
	for url in all_url:
		if web_site_pattern.match(url):
			print url
		#print url

	print "done"

def download_pic():
	url=sys.argv[1];
	#local_path="C:/Tools/source/"
	connection=urllib.urlopen(url)
	data=connection.read()
	print "Waiting to get data"
	time.sleep(3)
	connection.close()

	#analyze
	#p=re.compile(r‘img width="\d+".+src="(.+)".+‘)
	download_pic_pattern=re.compile(r‘<img src="(.+?\.jpg)".+?/>‘)
	#p10=re.compile(r‘(.+)\.jpg‘)
	all_url=download_pic_pattern.findall(data)
	#print all_url
	i=1
	directory="C:/Tools/source"
	name_pattern=re.compile(r‘/(\w+?\.jpg)‘)
	if not os.path.exists(directory):
		os.mkdir(directory)

	for urls in all_url:
		print urls
		#print "working"

		#print local_path
		i=i+1
		name=name_pattern.findall(urls)
		print name[0]
		local_path="C:/Tools/source/%s" % name[0]
		jpeg_connection=urllib.urlopen(urls)

		jpeg=jpeg_connection.read()
		time.sleep(1)
		print "waiting"
		f=file(local_path,"wb")
		f.write(jpeg)

		f.close()
		jpeg_connection.close()
		#i=i+1

	#f=file(local_path,"wb")
	#f.write(data)
	#f.close()
	print("Done")

def download_pic_2():
	url=sys.argv[1];
	local_path="C:/Tools/a.jpg"
	data=urllib.urlretrieve(url,local_path)
	print("Done")

def regulation():
	str1="abc123*GBK1024abc*defb1kc12*addd"

	p1=re.compile(r‘abc‘)
	print p1.findall(str1)

	p2=re.compile(r‘a.c‘)
	print p2.findall(str1)

	p3=re.compile(r‘abc\*‘)
	print p3.findall(str1)

	p4=re.compile(r‘[abc]12‘)
	print p4.findall(str1)

	p5=re.compile(r‘\d\*‘)
	print p5.findall(str1)

	p6=re.compile(r‘a[^\d]‘)
	print p6.findall(str1)

	p7=re.compile(r‘a[^\d]*‘)
	print p7.findall(str1)

	p8=re.compile(r‘[a-zA-Z]+(\d+)‘)
	print p8.findall(str1)

	str2="dadfae ef <img atl=\"500\" src=\"www.qq.com/1.jpg\" width=\"700\"> asdfe aa<ima"

	p9=re.compile(r‘<img .+ src="(.+)" .+>‘)
	urls=p9.findall(str2)
	#print
	print urls
	for url in urls:
		print url

if __name__ =="__main__":
	#main()
	#download_pic_2()
	#regulation()
	download_pic()
	#getAllUrl()

#######兴许

后面改动了代码,使用beautifulsoup,能够更大范围的下载图片

代码例如以下: http://www.30daydo.com/article/56

时间: 2024-10-11 07:46:24

python批量下载色影无忌和蜂鸟的图片 爬虫小应用的相关文章

Python批量下载百度贴吧贴子图片

批量下载贴吧里面某个贴子的所有图片,或者只下载某一页中的图片. #!/usr/bin/env python3 import re import urllib.request class DownTiebaImg: def __init__(self, url): self.url = url def getImgLinks(self): response = urllib.request.urlopen(self.url) pattern = re.compile(r'<img class=&quo

使用Python批量下载网站图片

  在网上冲浪的时候,总有些"小浪花"令人喜悦.没错,小浪花就是美图啦.边浏览边下载,自然是不错的:不过,好花不常开,好景不常在,想要便捷地保存下来,一个个地另存为还是很麻烦的.能不能批量下载呢? 只要获得图片地址,还是不难的. 目标  太平洋摄影网, 一个不错的摄影网站. 如果你喜欢自然风光的话,不妨在上面好好饱览一顿吧.饱览一顿,或许你还想打包带走呢.这并不是难事,让我们顺藤摸瓜地来尝试一番吧(懒得截图,自己打开网站观赏吧). 首先,我们打开网址 http://dp.pconlin

用python批量下载图片

一 写爬虫注意事项 网络上有不少有用的资源, 如果需要合理的用爬虫去爬取资源是合法的,但是注意不要越界,前一阶段有个公司因为一个程序员写了个爬虫,导致公司200多个人被抓,所以先进入正题之前了解下什么样的爬虫是违法的: 如果爬虫程序采集到公民的姓名.身份证件号码.通信通讯联系方式.住址.账号密码.财产状况.行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为.除此之外,根据相关规定,对于违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,窃取或者以其他方法

用python批量下载贴吧图片 附源代码

环境:windows 7 64位:python2.7:IDE pycharm2016.1 功能: 批量下载百度贴吧某吧某页的所有帖子中的所有图片 使用方法: 1.安装python2.7,安装re模块,安装urllib2模块 2.复制以下源代码保存为tbImgiDownloader.py文件 3.打开某个贴吧并复制其网址 4.打开文件tbImgiDownloader.py在第37行的单引号中输入网址,保存  5.双击tbImgiDownloader.py 说明: 1.本程序每次可以下载大概50个贴

python 批量下载美剧 from 人人影视 HR-HDTV

本人比较喜欢看美剧,尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧,这里写了一个脚本来批量获得指定美剧的所有 HR-HDTV 的 ed2k下载链接,并按照先后顺序写入到文本文件,供下载工具进行批量下载.源代码如下: # python3 实现,下面的实例 3 部美剧爬完大概要 20 s import urllib.request import re def get_links(url, name='yyets'): data = urllib.request.urlopen(

自从会了Python在群里斗图就没输过,Python批量下载表情包!

导语 最近图慌,于是随便写了个表情包批量下载的脚本,没什么技术含量,纯娱乐性质. 让我们愉快地开始吧~ 开发工具 Python版本:3.6.4 相关模块: requests模块: fake_useragent模块: 以及一些Python自带的模块. 环境搭建 安装Python并添加到环境变量,pip安装需要的相关模块即可. 原理简介 爬的站长之家的表情包,链接: http://sc.chinaz.com/biaoqing/index.html 非常好爬,思路也很简单: ① 获得表情包所在地址:

Python 批量下载图片示例

使用Python find函数和urllib下载图片. #!/usr/bin/env python import time import urllib i = 0 url = ['']*10 name = ['']*10 con = urllib.urlopen('http://www.ithome.com/html/bizhi/164396.htm').read() src = con.find(r'/newsuploadfiles') end = con.find(r'.jpg',src)

python批量下载图片的三种方法

一是用微软提供的扩展库win32com来操作IE: win32com可以获得类似js里面的document对象,但貌似是只读的(文档都没找到). 二是用selenium的webdriver: selenium则提供了Chrome,IE,FireFox等的支持,每种浏览器都有execute_script和find_element_by_xx方法,可以方便的执行js脚本(包括修改元素)和读取html里面的元素.不足是selenium只提供对python2.6和2.7的支持. 三是用python自带的

用python批量下载wallheaven网站图片

这要从很早以前说起,那个时候是刚开始玩Ubuntu,但是ubuntu的壁纸不太好看,所以我就想方设法找到很漂亮的壁纸来替换原先的,但是我又想让壁纸像幻灯片一样播放,但是ubuntu不像windows,没有这样的功能,所以只能上网找办法来解决,最后终于在ubuntu论坛看到了variety这个东东,这个东西用起来确实很酷,可以自己编辑图片源,但是它本身默认带了几个源,而恰好其中就有wallheaven(那个时候还是wallpaper,之后网站改了叫做wallheaven),所以我就到wallhea