一段完整的批量下载网站视频资源的python爬虫代码（附注解）

# 本程序为学习代码，成功爬取了＇梨视频＇网站的全部视频文件，并保存在video文件夹
import os
import re
import requests

def getHTMLText(url):
    try:
        r=requests.get(url)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        print("request failed")

url = ‘https://www.pearvideo.com/category_8‘
baseurl = ‘https://www.pearvideo.com/‘
video_data = getHTMLText(url)
# 判断是否已经有video文件夹，没有则新建
if not os.path.isdir(‘./video‘):
    os.makedir(‘./video‘)

res = re.compile(r‘(video_[0-9]{7})‘)
video_list = re.findall(res, video_data)

# 构建全部视频文件网址
for i in video_list:
    video_url = baseurl + i # video_url是视频文件页面的地址，不是真正的视频文件的下载地址
    # 请求视频文件网站url，读取视频文件内容
    try:
        text = getHTMLText(video_url) # 返回视频文件页面的html
        res = re.compile(r‘srcUrl="(https://.+?mp4)"‘)
        final_url = re.findall(res, text)[0] # 返回真正的视频文件的下载地址
        video_content = requests.get(final_url).content # 获取视频文件的内容（二进制流）
    except:
        print(‘%s文件内容获取失败！‘ % i)
    with open(‘./video/‘ + i + ‘.mp4‘, ‘wb‘) as f:
        print(‘正在保存视频 %s ......‘ % i)
        f.write(video_content)
        f.flush()

原文地址：https://www.cnblogs.com/iceberg710815/p/12240415.html

时间： 2024-11-04 02:47:41

一段完整的批量下载网站视频资源的python爬虫代码（附注解）的相关文章

批量下载ts视频文件

第一步使用chrome 按F12进入开发模式,拖动视频进度条到视频结束: 然后找到.m3u8以结尾的文件并保存为文本文件. 第二步点开查看里面是否存在如下以ts结尾的文件内容 ...... /20180802/eXLFMdky/800kb/hls/QV7N1B14122999.ts/20180802/eXLFMdky/800kb/hls/QV7N1B14123000.ts/20180802/eXLFMdky/800kb/hls/QV7N1B14123001.ts ...... 第三步找到一

使用Python批量下载网站图片

在网上冲浪的时候,总有些"小浪花"令人喜悦.没错,小浪花就是美图啦.边浏览边下载,自然是不错的:不过,好花不常开,好景不常在,想要便捷地保存下来,一个个地另存为还是很麻烦的.能不能批量下载呢? 只要获得图片地址,还是不难的. 目标太平洋摄影网, 一个不错的摄影网站. 如果你喜欢自然风光的话,不妨在上面好好饱览一顿吧.饱览一顿,或许你还想打包带走呢.这并不是难事,让我们顺藤摸瓜地来尝试一番吧(懒得截图,自己打开网站观赏吧). 首先,我们打开网址 http://dp.pconlin

如何教你在NIPS会议上批量下载历年的pdf文档（另附04~14年NIPS论文下载链接）

如何获得NIPS会议上批量下载的链接? NIPS会议下载网址:http://papers.nips.cc/ a.点击打开上述网站,进入某一年的所有会议,例如2014年,如下图 b.然后对着当前网页点击鼠标右键->点击审查元素(这里我用的是360浏览器打开),(如下图) 下一步----------------------------------------------------------------------------------------------------------------

python爬虫，一段完整的python爬虫批量下载网站图片资源的代码

# 本程序为爬虫学习代码,成功爬取了漫微网站上的全部图片内容 import re import os import requests def getHTMLText(url): try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except: print("request failed") url = 'http://marvel.mtime.com/'

使用wget批量下载网站目录文件

最近在下载一个网站的文件,目录太多,文件太多一个一个下载太麻烦了,随即想起曾经用过的一个wget的工具,今天正好给大家分享一下,我平常使用wget最常使用的命令是 wget –r http://website/webdir 这样可以下载整个目录下的所有文件,并且里面的目录也自动排列创建好了如果网页需要用户名密码登陆则需要加参数 wget –r –-http-user=username --http-passwd=userpassword http://website/webdir 详细的参数

python批量下载色影无忌和蜂鸟的图片爬虫小应用

有些冗余信息.由于之前測试正則表達式.所以没有把它们给移走.只是不影响使用. # -*- coding:utf-8 -*- import re,urllib,sys,os,time def getAllUrl(): entry=sys.argv[1] #try: getPage=urllib.urlopen(entry).read() #except: # print "Error" pattern=re.compile(r'<a href="(.+? )".

对网站视频资源的管控-禁止通过视频的url访问视频

一般静态文件的下载是不经过PHP的,直接由web服务器发送到客户端.但有时候需要实现文件下载的权限控制等功能,这时候就需要经由PHP程序来做权限验证.简单粗暴的做法是,在PHP程序里边先验证权限,验证通过后再读取文件内容发送给客户端.这种做法确实可以满足需求,但是很明显的,由PHP来发送静态文件内容远远不如直接由web服务器发送静态文件高效,而且会占用更多的资源.怎样既可以实现动态权限验证,又可以高效的发送静态文件呢?像这种需求肯定不是个例,而且也相当的普遍.于是,便有了 Apache 的mod

python3爬虫（4）各种网站视频下载方法

python3爬虫(4)各种网站视频下载方法原创H-KING 最后发布于2019-01-09 11:06:23 阅读数 13608 收藏展开理论上来讲只要是网上(浏览器)能看到图片,音频,视频,都能够下载下来,然而实际操作的时候也是有一定难度和技术的,这篇文章主要讲述各个网站视频资源如何下载. B站视频页面链接: https://www.bilibili.com/bangumi/play/ep118490?from=search&seid=7943855106424547918 首先我们用万能下

Python抓取网页&批量下载文件方法初探（正则表达式+BeautifulSoup） (转)

Python抓取网页&批量下载文件方法初探(正则表达式+BeautifulSoup) 最近两周都在学习Python抓取网页方法,任务是批量下载网站上的文件.对于一个刚刚入门python的人来说,在很多细节上都有需要注意的地方,以下就分享一下我在初学python过程中遇到的问题及解决方法. 一.用Python抓取网页基本方法: [python] view plaincopyprint? import urllib2,urllib url = 'http://www.baidu.com' req