提供一份爬虫源码,叫我雷锋

#coding=utf-8
from Tkinter import * #GUI(图像用户界面)模块
from ScrolledText import ScrolledText #文本滚动条
import urllib,requests #请求模块
import re #正则表达式
import threading #多线程处理与控制
url_name = []#url+name
a = 1#页码
def get():
global a #全局变量
hd = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36‘}
url = ‘http://www.budejie.com/video/‘+str(a)
varl.set(‘已结获取到第%s页视频‘%(a))
html = requests.get(url,headers=hd).text #获取源码
a += 1
url_content = re.compile(r‘<div class="j-r-list-c">.*?</div>.*?</div>‘,re.S)
url_contents = re.findall(url_content,html)
#print url_contents
for i in url_contents:
url_reg = r‘data-mp4="(.*?)">‘#匹配地址
url_items = re.findall(url_reg,i)
#print url_items #视频列表
if url_items:#判断地址列表是否存在
name_reg = re.compile(r‘<a href="/detail-.{8}?.html"(.*?)</\w>‘,re.S)
name_items = re.findall(name_reg,i)
#print name_items #名字列表
for i,k in zip(name_items,url_items):
url_name.append([i,k])
print i,k
return url_name
id = 1#视频
def write():
global id
while id<10:
url_name = get()
for i in url_name:#名字+地址
#aa = i[0].decode(‘utf-8‘).encode(‘gbk‘)
urllib.urlretrieve(i[1],‘video\\%s.mp4‘%(a))
text.insert(END,str(id)+‘.‘+i[1]+‘\n‘+i[0]+‘\n‘)
url_name.pop(0)
id += 1
varl.set(‘视频链接和名字抓取完毕,over‘)
def start():
th = threading.Thread(target=write)
th.start()#触发

root = Tk()
root.title(‘爬取某视频‘)
root.geometry(‘666x525‘)
text = ScrolledText(root,font=(‘微软雅黑‘,10))
text.grid() #布局的方法 pack简单
button = Button(root,text=‘开始爬取‘,font=(‘微软雅黑‘,10),command=start)
button.grid()
varl = StringVar()
label = Label(root,font=(‘微软雅黑‘,10),fg=‘red‘,textvariable = varl)
label.grid()
varl.set(‘已准备...‘)
root.mainloop()#发送创建窗口的指令

更多学习资料加群:595266089。

时间: 2024-10-13 15:53:21

提供一份爬虫源码,叫我雷锋的相关文章

瓜子二手车爬虫源码

/*使用javascript编写的爬虫源码,用于爬取瓜子二手车上的二车手信息. 代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了, 不需要安装编译环境.要爬取其他网站,可以更改源码即可. 代码执行具体步骤点这里 更多源码下载点这里 */ var scanUrl = "http://www.guazi.com/hz/buy/";//@input(scanUrl, 入口url, 请输入一个需爬取城市的url,格式为:“http://www

沪商财富爬虫源码

使用javascript编写的爬虫源码,用于爬取沪商财富网上的商品信息. 代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了, 不需要安装编译环境.要爬取其他网站,可以更改源码即可. 代码执行具体步骤点这里 代码详细讲解点这里 更多源码下载点这里 var configs = { domains: ["www.hushangcaifu.com"], scanUrls: ["http://www.hushangcaifu.com/

尚妆网爬虫源码

使用javascript编写的爬虫源码,用于爬取尚妆网上的商品信息. 代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了, 不需要安装编译环境.要爬取其他网站,可以更改源码即可. 代码执行具体步骤点这里 代码详细讲解点这里 更多源码下载点这里 var configs = { domains: ["www.showjoy.com","list.showjoy.com","item.showjoy.com&qu

自动抓取163新闻的Python爬虫源码

Python爬虫的学习,自动抓取163新闻的Python爬虫源码,这是一个用Python语言编写的,自动抓取网易新闻的python爬虫实现方法一文. Python爬虫的抓取思路是:(1)通过分析目标新闻网址 ,分析其中以News.xxx.com 开头的链接(2)获取每一个链接的内容,并做整理合并到事前准备好的.txt 文本中,以便查看各新闻.但是需要注意的是:由于今天的测试对象,网易新闻的格式不是非常统一,所有会有部分漏掉的情况,还能大家见谅.也希望有能力的朋友们帮着改进一下. 自动抓取163新

豌豆荚游戏排行榜爬虫源码

var configs = { domains: ["apps.wandoujia.com"], scanUrls: ["http://apps.wandoujia.com/api/v1/apps?type=weeklytopgame&max=12&start=0"], contentUrlRegexes: ["http://www\\.wandoujia\\.com/apps/.*"], helperUrlRegexes: [&

大量 python 爬虫源码分享--说说 python 爬虫这件小事

没有爬虫就没有互联网,越来越觉得写 Python 爬虫原来是一件快乐而高兴的事情,以下是本人收集整理的一批 python 爬虫代码,顺便分享到了别的网站上,喜欢的下下来看看吧. 内容: yunpan.360.cn.py 360 网盘爬虫 ed2k_search.py 电驴爬虫 music.163.com.py 163 音乐爬虫 music.baidu.com.py 百度音乐爬虫 pan.baidu.com.py 百度网盘爬虫 115.py 115 爬虫 91porn.py 91porn 爬虫 等

Bing爬虫源码

BingBong架构采用MFC处理UI搭建.配置处理,Python实现爬虫模块的架构.调用时将对应的参数传入爬虫模块,随后爬虫开始下载. Python代码相对简单,耗时的反而是找各种第三库的资料啊~ #!C:\Python27\python # -*- coding: utf-8 -*- import string,urllib2,re,time,sys import win32api, win32con, win32gui import Image #主函数 def BingBong(path

谁能提供一份用springmvc+hibernate+jstl写的完整用户注册,登录demo呢

想看看springmvc到底有多么方便 经验证,注册中文有乱码,并且pom.xml中缺少 <dependency> <groupId>javassist</groupId> <artifactId>javassist</artifactId> <version>3.12.1.GA</version> </dependency> 大家注意下! 访问地址: 首页 http://xxxx:端口/项目名称或者没有/us

javaniu用户头像如何实现的啊,能否提供一份代码呢

原文:javaniu用户头像如何实现的啊,能否提供一份代码呢 我也想在我的网站上加入这个功能,多谢了. javaniu用户头像如何实现的啊,能否提供一份代码呢