医学教育网爬虫程序(直播)

12-18

今晚接到老姐的电话,说她已在“医学教育网”订购了不少视频,要我帮她将所有的视频都下载下来。
我看了一下,里面有24门科目,每门科目有40多节。要我手动一个一个下,还不如让我去死。
这种重复的事情还是让程序来做吧!这里开一篇博客直播编写的过程。

被爬网址:http://www.med66.com/

前几天我刚做完一个Qihuiwang的爬虫软件。这次我评估了一下,这次要做的视频下载爬虫程序比上次又有新的挑战:

(1)要处理登陆的过程,上一个不需要登陆就可以直接爬。这次必须要登陆才行。涉及到post数据表的过程

(2)要识别JavaScript程序。我看一下,在我获取网页的那个按钮上写的是 onclick="goDownload(‘700914‘, ‘ ‘)。这个要转换进行转换成url地址

(3)下载需要记载哪些文件已经下载了,以免每次启动程序都从头开始下载。这是不合理的。

(4)下载的文件要以课程进行目录组织。

网站路径如下:

登陆页面 -(登陆)-> 学员课程页面 -(进入课程)-> 目录页面 -(下载中心)-> 下载页面 --> 小节视频

好,明天开搞,尽情关注!

时间: 2024-07-31 14:30:30

医学教育网爬虫程序(直播)的相关文章

医学教育网爬虫程序之——网站游走(直播)

前面我在一个博文里直播过了 www.med66.com 的登陆过程.博文:http://my.oschina.net/hevakelcj/blog/357852 成功登陆,就意味着进入了网站的大门.剩下的工作就是进去之后在里面取想到的东西. 如下就是登陆成功后的网页,我们需要从这个页面获取课程列表. 打开Firefox的调试工具,看一下上面的元素是如何布局的. 通过Firefox的调试工具很容易找到课程列表的元素,所有课程列表在 <div class="ul_con_uc_show&quo

爬虫日记1——百度口碑医学教育网

特征(目的网站):简单,翻页结构,无反爬 特征(爬虫框架):极简,非分布式,无数据库 目的网站: 百度口碑医学教育网(https://koubei.baidu.com/s/med66.com?page=1&tab=comt) 爬取对象: 评论.时间.评分.内容以及评论人 爬虫框架: 极简框架(E):包括URL管理器,HTML下载器,HTML解析器,数据存储器(未使用数据库,包括结果输出,输出为html格式)以及爬虫调度器 运行流程图: 主要问题及思路: 网页解析: 1. 内容爬取 该网页解析较为

用Java写的爬虫程序

这是一个web查找的根本程序,从命令行输入查找条件(开端的URL.处置url的最大数.要查找的字符串), 它就会逐一对Internet上的URL进行实时查找,查找并输出匹配查找条件的页面. 这个程序的原型来自<java编程艺术>, 为了非常好的剖析,站长去掉了其间的GUI有些,并稍作修改以适用jdk1.5.以这个程序为基础,可以写出在互联网上查找 比如图像.邮件.页面下载之类的"爬虫". 先请看程序运转的进程: D:\java>javac  SearchCrawler

使用PHP创建基本的爬虫程序【转】

Web Crawler, 也时也称scrapers,即网络爬虫,用于自动搜索internet并从中提取 想要的内容.互联网的发展离不开它们.爬虫是搜索引擎的核心,通过智能算法发现符合 你输入的关键字的网页. Google网络爬虫会进入你的域名,然后扫描你网站的所有网页,从中析取网页标题,描述, 关键字和链接 - 然后把这些的评价返回给Google HQ,把内容存放至海量的数据库中. 今天,我很高兴告诉你怎么做自己的爬虫 -- 它并不对整个互联网进行搜索,只是对指定的 一个网址获取所有链接和信息[

Python写的网络爬虫程序(很简单)

Python写的网络爬虫程序(很简单) 这是我的一位同学传给我的一个小的网页爬虫程序,觉得挺有意思的,和大家分享一下.不过有一点需要注意,要用python2.3,如果用python3.4会有些问题出现. python程序如下: import re,urllib strTxt="" x=1 ff=open("wangzhi.txt","r") for line in ff.readlines(): f=open(str(x)+".txt&

webmagic爬虫程序

package com.letv.cloud.spider;import java.util.HashSet;import java.util.List;import us.codecraft.webmagic.Page;import us.codecraft.webmagic.Site;import us.codecraft.webmagic.Spider;import us.codecraft.webmagic.processor.PageProcessor;public class Mov

python网络爬虫 - 如何伪装逃过反爬虫程序

有的时候,我们本来写得好好的爬虫代码,之前还运行得Ok, 一下子突然报错了. 报错信息如下: Http 800 Internal internet error 这是因为你的对象网站设置了反爬虫程序,如果用现有的爬虫代码,会被拒绝. 之前正常的爬虫代码如下: from urllib.request import urlopen ... html = urlopen(scrapeUrl) bsObj = BeautifulSoup(html.read(), "html.parser") 这

基于Python的urllib2模块的多线程网络爬虫程序

1 m Queue import Queue 2 from gzip import GzipFile 3 from StringIO import StringIO 4 import time 5 import socket 6 class ContentEncodingProcessor(urllib2.BaseHandler): 7 """A handler to add gzip capabilities to urllib2 requests ""

分享常见网站的爬虫程序下载地址[微信|微博|企信|知乎|优酷|京东]

给大家分享一些常见网站的爬虫程序获取地址,站长.数据分析师.爬虫工程师们有福利了!!!大家都懂的,好东西不轻易说出去~ 1.微信公众号文章采集:http://www.shenjianshou.cn/index.php?r=market/configDetail&pid=157 2.新浪微博采集:http://www.shenjianshou.cn/index.php?r=market/configDetail&pid=139 3.企信工商信息采集爬虫:http://www.shenjian