GUI加爬虫

# - *-coding:utf-8-*-from Tkinter import *from ScrolledText import ScrolledText    #滚动文本框import urllib,reurl_name=[]a=1def get(id):    global a    url=‘http://www.budejie.com/video/‘+str(a)    varl.set(‘已经获取到第%s页的视频‘%(a))    a+=1    print url    html = urllib.urlopen(url).read()    reg=re.compile(r‘data-mp4="(.*?)"‘)    vedio=re.findall(reg,html)    regl=re.compile(r‘<div class="j-r-list-c-desc">(.*?)</div>‘,re.S)    name=re.findall(regl,html)    for i,k in zip(name,vedio):        url_name.append([i,k])id=1def write():    global  id    while id<100:        get(id)        for i in url_name:            text.insert(END,str(id)+‘.‘+i[0]+‘\n‘+i[1])            url_name.pop(0)            id+=1root = Tk()root.title(‘我的小盒子‘)root.geometry(‘+600+100‘)text=ScrolledText(root,font=(‘微软雅黑‘,10))text.grid()button=Button(root,text="开始爬取",font=(‘黑体‘,10),command=write)button.grid()varl=StringVar()label= Label(root,font=(‘黑体‘,10),fg=‘red‘,textvariable=varl)label.grid()varl.set(‘准备中..‘)

root.mainloop()
时间: 2024-10-14 01:39:29

GUI加爬虫的相关文章

clojure GUI编程-2

*/--> pre.src {background-color: #292b2e; color: #b2b2b2;} pre.src {background-color: #292b2e; color: #b2b2b2;} pre.src {background-color: #292b2e; color: #b2b2b2;} pre.src {background-color: #292b2e; color: #b2b2b2;} clojure GUI编程-2 目录 1. 简介 2. 实现过程

ubuntu14.04配置中文latex完美环境(texlive+texmaker+lyx)

Ubuntu下的文档编辑虽然有libreoffice,但对中文和公式的排版始终不如ms office,因此要想写出高质量的文档,只能靠latex了,现在随着xeCjk的开发,中文文档在ubuntu下的排版已经非常棒了,已经足够支持和成熟,其组合是:texlive2014+texmaker+lyx+中文字体,这样在ubuntu下就可以开发出完美的中文文档了. 转入正题,以下的方法在3台电脑上成功安装(在64位系统上安装): 1.首先安装texlive2014,不推荐用官方源sudo apt-get

Cocos Studio家族更新太频繁,初学者不要跟得太紧

说实在的,Cocos Studio和Cocos2d-x这两个更新都过于频繁,小版本太多.似乎许多开源框架也都有类似特点.夸张一点说,开发商似乎是更新1-2个BUG,或者增加1-2个新功能就急急地宣布一个新版本.我几乎是一路紧跟学习的,感觉其中的"坑"太多!!!!!! 到底哪些版本搭配比较稳定,目前还没有这方面的统计文章.此前我开发的环境是Cocos2d-x 2.2.3+CocoStudio 1.4.0.1感觉比较稳定,但是很显然,其中的CocoStudio GUI加载等方面还存在明显效

爬虫再探实战(三)———爬取动态加载页面——selenium

自学python爬虫也快半年了,在目前看来,我面临着三个待解决的爬虫技术方面的问题:动态加载,多线程并发抓取,模拟登陆.目前正在不断学习相关知识.下面简单写一下用selenium处理动态加载页面相关的知识.目标——抓取页面所有的高考录取分数信息. 对于动态加载,开始的时候是看到Selenium+Phantomjs的强大,直接就学的这个.打开网页查看网页源码(注意不是检查元素)会发现要爬取的信息并不在源码里面.也就是说,从网页源码无法通过解析得到数据.Selenium+Phantomjs的强大一方

JavaSE GUI显示列表 JTable的刷新 重新加载新的数据

JTable在显示所有数据之后,假如需要搜索某个名字,则会获取新的列表数据. 假设datas是JTable的数据,定义为: private Vector<Vector> datas = new Vector<Vector>(); 当你刷新数据的时候,应该这样: if (datas != null) { datas.clear(); Vector<Vector> vectors = getDatasFromList(studentList); datas.addAll(v

python爬虫练习 -- 签名器+GUI界面(Tkinter)

效果图: 实现步骤如下: 实现原理:其实就是套了一层GUI的壳,主要还是爬虫抓取某个网站返回的数据,然后利用python自带的GUI工具包Tkinter来实现gui界面: 1.爬虫分析: 目标站点:http://www.uustv.com 1.可以看到是通过提交表单传递数据的 参数有: word: 风道 sizes: 60 fonts: jfcs.ttf fontcolor: #000000 2.找到返回的图片数据在返回的响应中, 3.主要实现逻辑 response = requests.pos

Python网络爬虫之图片懒加载技术、selenium和PhantomJS

一.什么是图片懒加载? - 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- coding:utf-8 -*- import requests from lxml import etree if __name__ == "__main__": url = 'http://sc.chinaz.com/tupian/gudianmeinvtupian.html' headers = { 'User-Agen

Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取

<工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面 右边 li 标签中的就是短评信息,一共20条.一般我们加载大量数据的时候,都会做分页,但是这个页面没有,只有一个滚动条. 随着滚动条往下拉,信息自动加载了,如下图,变40条了.由此可见,短评是通过异步加载的. 我们不可能一次性将滚动条拉到最下面,然后来一次性获取全部的数据.既然知道是通过异步来加载的数据,那么我们可以想办法直接去获取这些异步的数据. 打开 Network 查看分析 http 请求,可以

爬虫之图片懒加载技术、selenium和PhantomJS

图片懒加载 selenium phantomJs 谷歌无头浏览器 一.图片懒加载 什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- coding:utf-8 -*- import requests from lxml import etree if __name__ == "__main__": url = 'http://sc.chinaz.com/tupian/gudianmei