# _*_coding:utf-8_*_import urllibimport redef geturl(page=1): #加了page参数 html=urllib.urlopen("http://www.budejie.com/pic/%s"%page).read() #%s对应后边的%page reg=‘‘‘<img src="http://mstatic.spriteapp.cn/xx/1/w3/img/lazyload/default.png" class="lazy" data-original="(.*?)"‘‘‘ #多行正则的取法 reg= re.compile(reg) photo=re.findall(reg,html) return photor=0for x in xrange(18): print ‘获取第%s页‘%x imglist = geturl(x+1) for i in imglist: r += 1 #r要有初始值 print ‘正在下载%s‘%r urllib.urlretrieve(i,‘img/%s‘%i.split(‘/‘)[-1]) #切片取网址的最后一段 img存图片的文档名称 urllib.urlretrieve(下载的文件,存放地址)表示下载 print ‘%s下载完成‘%rprint ‘全部处理完成,总共抓取%s张图片‘%r
时间: 2024-12-12 08:25:19