零基础如何学好python爬虫?之python爬取B站小视频

B 站真是个神奇的网站。找不到资料了,去 B 站逛一逛,保准有你满意的东西。

前几天写了个爬虫,用 path、re、BeautifulSoup 爬取的 B 站 python 视频,如果要爬取多页的话 在最下方循环中 填写好循环的次数就可以了

B 站真是个神奇的网站。找不到资料了,去 B 站逛一逛,保准有你满意的东西。

前几天写了个爬虫,用 path、re、BeautifulSoup 爬取的 B 站 python 视频,如果要爬取多页的话 在最下方循环中 填写好循环的次数就可以了

废话不多说直接上源码:

 1 ‘‘‘
 2 在学习过程中有什么不懂得可以加我的
 3 python学习交流扣扣qun,934109170
 4 群里有不错的学习教程、开发工具与电子书籍。
 5 与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内容。
 6 ‘‘‘
 7 from fake_useragent import UserAgent
 8 import requests
 9 import time
10
11 ua=UserAgent()
12
13
14 def downloader(url, path):
15     start = time.time()   # 开始时间
16     size = 0
17     headers = {
18         ‘User-Agent‘:ua.random
19     }
20     response = requests.get(url, headers=headers, stream=True)   # stream 属性必须带上
21     chunk_size = 1024    # 每次下载的数据大小
22     content_size = int(response.headers[‘content-length‘])   # 总大小
23     if response.status_code == 200:
24         print(‘[文件大小]:%0.2f MB‘ % (content_size / chunk_size / 1024))   # 换算单位
25         with open(path, ‘wb‘) as file:
26             for data in response.iter_content(chunk_size=chunk_size):
27                 file.write(data)
28                 size += len(data)   # 已下载的文件大小
29                 print(‘\r‘ + ‘[下载进度]:%s%.2f%%‘ % (‘>‘ * int(size * 50 / content_size), float(size / content_size *
30                                                                                              100)), end=" ")
31     end = time.time()    # 结束时间
32     print(‘\n‘ + ‘视频下载完成!用时%.2f秒‘ % (end - start))
33
34
35
36 def The_URL(page):
37     URL=‘http://api.vc.bilibili.com/board/v1/ranking/top?page_size=10&next_offset={}&tag=%E4%BB%8A%E6%97%A5%E7%83%AD%E9%97%A8&platform=pc‘.format(page)
38     headers={
39         ‘User-Agent‘:ua.random
40     }
41     sponse=requests.get(URL,headers=headers).json()
42     item=sponse.get(‘data‘).get(‘items‘)
43     for i in item:
44         ite=i.get(‘item‘)
45         #视频标题
46         Video_name=ite.get(‘description‘)
47
48         #发布日期
49         Release_time=ite.get(‘upload_time_text‘)
50
51         #视频下载地址
52         Video_download_link=ite.get(‘video_playurl‘)
53
54         #视频作者
55         The_name=i.get(‘user‘).get(‘name‘)
56
57         try:
58             print(‘当前下载的是:%s‘%Video_name)
59             downloader(Video_download_link,path=‘%s.mp4‘%Video_name)
60         except Exception as e:
61             print(e.args)
62
63 for i in range(0,100):
64     i=i*10+1
65     The_URL(i)

综上就是这次的全部内容,多加练习继续加油!

原文地址:https://www.cnblogs.com/xiaoyiq/p/11350863.html

时间: 2024-10-13 03:44:25

零基础如何学好python爬虫?之python爬取B站小视频的相关文章

Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取

<工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面 右边 li 标签中的就是短评信息,一共20条.一般我们加载大量数据的时候,都会做分页,但是这个页面没有,只有一个滚动条. 随着滚动条往下拉,信息自动加载了,如下图,变40条了.由此可见,短评是通过异步加载的. 我们不可能一次性将滚动条拉到最下面,然后来一次性获取全部的数据.既然知道是通过异步来加载的数据,那么我们可以想办法直接去获取这些异步的数据. 打开 Network 查看分析 http 请求,可以

【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于它是一个框架,任何人都可

教你分分钟学会用python爬虫框架Scrapy爬取你想要的内容

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 python爬虫学习课程,下载地址:https://pan.baidu.com/s/1v6ik6YKhmqrqTCICmuceug 课程代码原件:课程视频: 原文地址:http://blog.51cto.com/aino007/2123341

Python 爬虫入门之爬取妹子图

Python 爬虫入门之爬取妹子图 来源:李英杰  链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob/master/%E7%88%AC%E8%99%AB%E9%9B%86%E5%90%88/meizitu.py 爬虫成果 当你运行代码后,文件夹就会越来越多,如果爬完的话会有2

Python爬虫教程:爬取付费电影,告别费钱的日子

今天小编再发一篇爬取电影的文章.不是小编懒,是小编真的不知道写什么了,见谅.如果小编Get到新的技能,一定发. 是不是有好多的小伙伴跟好久好久以前的小编一样,看一个电影充个会员,这个没关系,最主要的是,充一个平台的VIP还不行得有好几个才可以. 这么贫穷的小编,当然只能看6分钟的视频了,不过没关系,小编现在有python. 不会小伙伴此刻的心情是:(如同所示) 不过没关系,小编接下来就是授教大家一些Python神技(零基础的也是可以操作的奥)   让咱们首先来看看实现效果吧   把你想要看的VI

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

欢迎加入Python学习交流群:535993938  禁止闲聊 ! 名额有限 ! 非喜勿进 ! 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于

[python爬虫] Selenium定向爬取虎扑篮球海量精美图片

前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员还是写个程序来进行吧!        所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取.        前面讲过太多Python爬虫相关的文章了,如爬取新浪博客.维基百科Infobox.百度百科.游迅网图片,也包括Selenium安装过程等等,详见我的两个专栏: 

[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈

我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点:        1.可以了解Python简单爬取图片的一些思路和方法        2.学习Selenium自动.测试分析动态网页和正则表达式的区别和共同点        3.了解作者最近学习得比较多的搜索引擎和知识图谱的整体框架        4.同时作者最近找工作,里面的一些杂谈和建议也许对即将成为应届生的你有所帮助        5.当然,最重要的是你也可以尝

python爬虫实战(一)----------爬取京东商品信息

本文章的例子仅用于学习之用,如涉及版权隐私信息,请联系本人删除,谢谢. 最近一直在练习使用python爬取不同网站的信息,最终目的是实现一个分布式的网络爬虫框架,可以灵活适用不同的爬取需求. 项目github地址: https://github.com/happyAnger6/anger6Spider 在学习的过程中遇到不少问题,在这里做一下总结,并分享出来,希望有兴趣的朋友批评指正,共同学习共同进步. 本着实用至上的目的,不准备过多讲实现细节和原理,直接通过项目需求来边实战边学习,因此本系列文