python 爬取B站视频弹幕信息

获取B站视频弹幕，相对来说很简单，需要用到的知识点有requests、re两个库。requests用来获得网页信息，re正则匹配获取你需要的信息，当然还有其他的方法，例如Xpath。
进入你所观看的视频的页面，F12进入开发者工具，选择网络。查找我们需要的信息，发现域名那列有comment.bilibili.com 格式为xml ，文件名即为cid号。点击它后，在右边的消息头中复制请求网址，在浏览器中打开，即可获得视频全部弹幕信息。

代码如下：

 1 import requests
 2 import re
 3 def getHTML(av):
 4     url=‘https://comment.bilibili.com/‘+av+‘.xml‘
 5     html=requests.get(url)
 6     comments=html.text
 7     res=r‘>(.+?)</d>‘
 8     rescom=re.compile(res)
 9     comment=re.findall(rescom,comments)
10     for row in comment:
11         print(row)
12 av=input("input your av:")
13 getHTML(av)

弹幕代码

运行代码，弹幕就全部打印到窗口中，另外关于获取评论以及用评论内容制作词云可查看博客。

原创不易，尊重版权。转载请注明出处：http://www.cnblogs.com/xsmile/

时间： 2024-12-08 10:17:55

python 爬取B站视频弹幕信息的相关文章

python爬取B站千万级数据，发现了这些热门UP主的秘密！

Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务.它的语法非常简捷和清晰,与其它大多数程序设计语言不一样,它使用缩进来定义语句. Python支持命令式程序设计.面向对象程序设计.函数式编程.面向切面编程.泛型编程多种编程范式.与Scheme.Ruby.Perl.Tcl等动态语言一样,Python具备垃圾回收

用python 抓取B站视频评论，制作词云

python 作为爬虫利器,与其有很多强大的第三方库是分不开的,今天说的爬取B站的视频评论,其实重点在分析得到的评论化作嵌套的字典,在其中取出想要的内容.层层嵌套,眼花缭乱,分析时应细致!步骤分为以下几点: F12进入开发者选项进入B站你想观看的视频页面,例如我看的是咬人猫的一个视频,进入开发者选项后,向下拉取视频评论,这时评论内容才被加载出来,此刻在开发者选项中网络那里就可以看到从网站获取的很多信息,仔细查找,发现我们想要的如下图:可以看到评论区的内容,点开消息头中的请求网址(https://

零基础如何学好python爬虫？之python爬取B站小视频

B 站真是个神奇的网站.找不到资料了,去 B 站逛一逛,保准有你满意的东西. 前几天写了个爬虫,用 path.re.BeautifulSoup 爬取的 B 站 python 视频,如果要爬取多页的话在最下方循环中填写好循环的次数就可以了 B 站真是个神奇的网站.找不到资料了,去 B 站逛一逛,保准有你满意的东西. 前几天写了个爬虫,用 path.re.BeautifulSoup 爬取的 B 站 python 视频,如果要爬取多页的话在最下方循环中填写好循环的次数就可以了废话不多说直接上

python爬取豌豆荚中的详细信息并存储到SQL Server中

买了本书<精通Python网络爬虫>,看完了第6章,我感觉我好像可以干点什么:学的不多,其中的笔记我放到了GitHub上:https://github.com/NSGUF/PythonLeaning/blob/master/examle-urllib.py,因为我用的python3.0,所以,在爬取数据的时候只用到了一个包:urllib.该博文的源码:https://github.com/NSGUF/PythonLeaning/blob/master/APPInfo.py 思路:首先,如果进入

用 Python 爬取网易严选妹子内衣信息，探究妹纸们的偏好

今天继续来分析爬虫数据分析文章,一起来看看网易严选商品评论的获取和分析. ? 网易商品评论爬取分析网页 ? 评论分析进入到网易严选官网,搜索“文胸”后,先随便点进一个商品. ? 在商品页面,打开 Chrome 的控制台,切换至 Network 页,再把商品页面切换到评价标签下,选择一个评论文字,如“薄款.穿着舒适.满意”,在 Network 中搜索. ? 可以发现,评论文字是通过 listByItemByTag.json 传递过来的,点击进入该请求,并拷贝出该请求的 URL: https:/

python爬取b站排行榜视频信息

和上一篇相比,差别不是很大 1 import xlrd#读取excel 2 import xlwt#写入excel 3 import requests 4 import linecache 5 import wordcloud 6 import jieba 7 import matplotlib.pyplot as plt 8 from bs4 import BeautifulSoup 9 10 if __name__=="__main__": 11 f = xlwt.Workbook

Python 爬取 B 站，宋智孝李光洙哪个更受宠？

在中国,大家应该都了解<跑男>这个节目吧,跑男这个节目就是引用了韩国的<Running Man>,成员组成包括原六位成员刘在石.池石镇.金钟国.HAHA(河东勋).宋智孝.李光洙 ,以及两位新成员全昭旻.梁世灿 . 自从限韩令发布后,Running man在除B站以外的各大视频网站均下架,所以本文从B站出发,抓取相关视频的所有评论. 由于相关视频非常多,本文选择了最具代表性,点击量观看次数最多的视频. 进入这个页面后开始抓包(https://www.bilibili.com/vid

使用python爬取P站图片

刚开学时有一段时间周末没事,于是经常在P站的特辑里收图,但是P站加载图片的速度比较感人,觉得自己身为计算机专业,怎么可以做一张张图慢慢下这么low的事,而且这样效率的确也太低了,于是就想写个程序来帮我下,但是只会C与c++的我看来是无法用他们来做这事的,于是就去学了下简单,强大的python,不得不说,python的模块的确叼,依靠几个模块就可以在完全不知道原理的前提下让程序执行相应功能,这样虽然爽但对于学习不利,我这次就权当写着玩吧,在我学会怎样使用c++来做这事之前我不会再使用python编

python爬取科学网基金项目信息

听说学校快开学了...任务再不快点做的话,估计开学要被导师骂死,所以要查一下近年来自己研究领域的基金中标情况! 遇到的问题导师给了个科学网的网址让我自己查基金,查完告诉他结果,可是! 在科学网查询的时候,发现只要同一IP短时间内访问 10次左右,网页就会说你访问太频繁了...然后等个10分钟左右才能重新访问在科学网碰壁后,我先是查了下有没有别的基金查询网站,然后发现在一众网站中,还是科学网的信息更全面一点(nsfc,medsci,letpub等),然后就还是爬虫叭!!! 1. 了解科

猜你喜欢

VMware Tools for Linux 增强功能安装

cd /media/VBoxLinuxAdditions_5.1(版本号什么的)/ 进入后 sh VBoxLinuxAdditions.run 报错解决的办法是依次输入命令: yum install ...

使用Maven 整合Spring和hibernate 适合初级接触的学者

本文,主要介绍Spring 和 hibernate怎么去整合,废话就不多说了,如果不知道spring 和hibernate 是干嘛的,还请去问问度娘哈.下面开始一步一步搭建: 工具: Idea 一.先 ...

MySQL7-性能优化

一.建表 1.id:每个表要设置一个无意义的id,最好是int(unsigned),比varchar性能好很多:设置成自增更好.外键情况例外. 2.字段类型 (1)尽量不用null,尤其是用作比较的列 ...

记录一次linux服务器环境的配置

自从买了阿里云的服务器,这几天一直在折腾linux.后悔以前没有去上Linux的课... 一.代码部署现在使用的方法是:本地push到osc的私人仓库里面,服务器上面安装git,从[email pr ...

总结个人项目设计保障5大原则

1.易用保障: 视觉.界面简洁.DOM简洁: 2.性能保障: 访问性能优化,前端.代码.数据库: 3.安全保障: 数据安全.防注入.ip限制.日志.安全日志: 4.扩展保障: 模块化开发,高内聚低耦合 ...

Python数据分析以及可视化

引入网址:https://www.kaggle.com/benhamner/d/uciml/iris/python-data-visualizations/notebook import matp ...

JAVA之旅（三十四）——自定义服务端，URLConnection，正则表达式特点，匹配，切割，替换，获取，网页爬虫

JAVA之旅(三十四)--自定义服务端,URLConnection,正则表达式特点,匹配,切割,替换,获取,网页爬虫我们接着来说网络编程,TCP 一.自定义服务端我们直接写一个服务端,让本机去连接 ...

LightOj 1248 - Dice (III)（几何分布+期望）

题目链接:http://lightoj.com/volume_showproblem.php?problem=1248 题意:有一个 n 面的骰子,问至少看到所有的面一次的所需掷骰子的次数的期望 ...

Unity+高通Vuforia SDK——AR播放视频

在之前的文章中我们已经实现了基本的图片识别,并在识别的图片上显示3D模型,但是有的时候我们实际上需要在识别的图片上播放一段视频,那么接下来我们就来说说如何实现这样的操作. 一.资源下载: 这里我们需要 ...

Linux下自建CA的实现

CentOS7上搭建lamp环境要求如下,搭建在同一台虚拟机上,实现下述3个功能: vhost1: pma.stu13.com, phpMyAdmin, 同时提供https服务 vhost2: wp ...

centos5.5安装ntop

我使用的linux系统是centos5.5,有些系统服务版本比较低或者没有,需要手动去安装,例如实验ntop依赖Python2.6以上的版本,但系统自带的版本则是2.4. 使用yum快速安装ntop的 ...

Angular之指令

指令之--自定义HTML元素和属性 angularjs支持我们拓展自定义的HTML元素.比如,我们想自定义一个自己的元素:<my-dom></my-dom>如下: var ap ...

NodeList 和 HTMLCollection

NodeList 类数组对象代表节点的集合部分浏览器为NodeList加入了namedItem接口. 规范: http://www.w3.org/TR/REC-DOM-Level-1/level- ...

IDA 调试 Android 方法及简单的脱壳实现

IDA 调试 Android 方法及简单的脱壳实现标签: android原创逆向调试dalvik 2016-05-24 14:24 9286人阅读评论(3) 收藏举报分类: 原创(25) An ...

13.函数的类型和基本使用

第一:函数类型: /* 函数类型: 类似于C语言的指向函数的指针类似于OC语言的block 函数类型是由函数的参数类型和返回值类型组成的 */ // 这两个函数的类型是 (Int, Int) -&g ...

Best Time to Buy and Sell Stock 解答

Question Say you have an array for which the ith element is the price of a given stock on day i. If ...

静态表单验证

写操作方法 function zhuce() { $cwxx=""; if(!empty($_GET)) { $cwxx=$_GET["cw"]; } if(e ...

揭秘DOM中data和nodeValue属性同步改变那些事

问题引发:最近在整理DOM系列的一些知识点,发现在DOM的某些接口API中,存在一些我想不通的现象.就随便举个例子吧:DOM文档模型中的文本节点,可以通过nodeValue或data属性访问文本节点的 ...

正则表达式举例(下)

[a-zA-Z] 任意单字符 [a-z][a-z]* 至少一个小写字母 [^0-9\$] 非数字或美元标识 [^0-9A-Za-z] 非数字或字母 [123] 1到3中一个数字 [Dd]evice 单 ...

android-PullRefreshLayout使用

类似与谷歌的SwipeRefreshLayout.但比SwipeRefreshLayout美丽. 执行效果: 使用说明: 用法和SwipeRefreshLayout几乎相同. 在xml中: 1 2 3 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.