python爬取b站排行榜视频信息

和上一篇相比,差别不是很大

 1 import xlrd#读取excel
 2 import xlwt#写入excel
 3 import requests
 4 import linecache
 5 import wordcloud
 6 import jieba
 7 import matplotlib.pyplot as plt
 8 from bs4 import BeautifulSoup
 9
10 if __name__=="__main__":
11     f = xlwt.Workbook(encoding=‘utf-8‘) #创建工作簿
12     sheet1 = f.add_sheet(u‘sheet1‘) #创建sheet
13     row0 = [u‘ID‘,u‘name‘,u‘av‘,u‘play_num‘,u‘comment_num‘]
14     #生成第一行
15     for i in range(0,len(row0)):
16         sheet1.write(0,i,row0[i])
17     yun=""
18
19     n=0#ID编号
20     target=‘https://www.bilibili.com/ranking/all/160/0/3‘#b站
21     user_agent = ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36‘
22     headers = {‘User-Agent‘:user_agent}
23
24     req=requests.get(url=target)
25     html=req.text
26     html=html.replace(‘<br>‘,‘ ‘).replace(‘<br/>‘,‘ ‘).replace(‘/>‘,‘>‘)
27     bf=BeautifulSoup(html,"html.parser")
28
29     texts=bf.find(‘ul‘,class_=‘rank-list‘)
30     texts_div=texts.find_all(‘div‘,class_=‘info‘)
31     #print(texts_div)
32     for item in texts_div:
33         n=n+1
34         item_name=item.find(‘a‘).text#标题
35         yun+=str(item_name)
36         item_href=item.find(‘a‘)[‘href‘]#链接
37         h=item_href.rfind(‘/‘)
38         item_href=item_href[h+1:]
39         item_refer=item.find_all(‘span‘,class_=‘data-box‘)
40         item_refer1=item_refer[0].text
41         item_refer2=item_refer[1].text
42         #print(‘{} {} {} {}\n‘.format(item_name,item_href,item_refer1,item_refer2))
43         mid=[n,item_name,item_href,item_refer1,item_refer2]
44         #print(mid)
45         for i in range(len(row0)):#写入excel
46             sheet1.write(n,i,mid[i])
47     f.save(‘demo1.xls‘) #保存文件
48
49     # 结巴分词,生成字符串,wordcloud无法直接生成正确的中文词云
50     cut_text = " ".join(jieba.cut(yun))
51     wc = wordcloud.WordCloud(
52     #设置字体,不然会出现口字乱码,文字的路径是电脑的字体一般路径,可以换成别的
53     font_path="C:/Windows/Fonts/simfang.ttf",
54     #设置了背景,宽高
55     background_color="white",width=1000,height=880).generate(cut_text)
56
57     plt.imshow(wc, interpolation="bilinear")
58     plt.axis("off")
59     plt.show()
60     print("Done!")

原文地址:https://www.cnblogs.com/ljy1227476113/p/12008616.html

时间: 2024-08-01 03:06:44

python爬取b站排行榜视频信息的相关文章

零基础如何学好python爬虫?之python爬取B站小视频

B 站真是个神奇的网站.找不到资料了,去 B 站逛一逛,保准有你满意的东西. 前几天写了个爬虫,用 path.re.BeautifulSoup 爬取的 B 站 python 视频,如果要爬取多页的话 在最下方循环中 填写好循环的次数就可以了 B 站真是个神奇的网站.找不到资料了,去 B 站逛一逛,保准有你满意的东西. 前几天写了个爬虫,用 path.re.BeautifulSoup 爬取的 B 站 python 视频,如果要爬取多页的话 在最下方循环中 填写好循环的次数就可以了 废话不多说直接上

python爬取B站千万级数据,发现了这些热门UP主的秘密!

Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务.它的语法非常简捷和清晰,与其它大多数程序设计语言不一样,它使用缩进来定义语句. Python支持命令式程序设计.面向对象程序设计.函数式编程.面向切面编程.泛型编程多种编程范式.与Scheme.Ruby.Perl.Tcl等动态语言一样,Python具备垃圾回收

python爬取豌豆荚中的详细信息并存储到SQL Server中

买了本书<精通Python网络爬虫>,看完了第6章,我感觉我好像可以干点什么:学的不多,其中的笔记我放到了GitHub上:https://github.com/NSGUF/PythonLeaning/blob/master/examle-urllib.py,因为我用的python3.0,所以,在爬取数据的时候只用到了一个包:urllib.该博文的源码:https://github.com/NSGUF/PythonLeaning/blob/master/APPInfo.py 思路:首先,如果进入

Python爬取猫眼top100排行榜数据【含多线程】

# -*- coding: utf-8 -*- import requests from multiprocessing import Pool from requests.exceptions import RequestException import re import json def get_one_page(url): """ 爬取每个页面 :param url: 爬取url地址 :return: 返回网页内容 """ try: re

用 Python 爬取网易严选妹子内衣信息,探究妹纸们的偏好

今天继续来分析爬虫数据分析文章,一起来看看网易严选商品评论的获取和分析. ? 网易商品评论爬取 分析网页 ? 评论分析 进入到网易严选官网,搜索“文胸”后,先随便点进一个商品. ? 在商品页面,打开 Chrome 的控制台,切换至 Network 页,再把商品页面切换到评价标签下,选择一个评论文字,如“薄款.穿着舒适.满意”,在 Network 中搜索. ? 可以发现,评论文字是通过 listByItemByTag.json 传递过来的,点击进入该请求,并拷贝出该请求的 URL: https:/

python 爬取B站视频弹幕信息

获取B站视频弹幕,相对来说很简单,需要用到的知识点有requests.re两个库.requests用来获得网页信息,re正则匹配获取你需要的信息,当然还有其他的方法,例如Xpath.进入你所观看的视频的页面,F12进入开发者工具,选择网络.查找我们需要的信息,发现域名那列有comment.bilibili.com 格式为xml ,文件名即为cid号.点击它后,在右边的消息头中复制请求网址,在浏览器中打开,即可获得视频全部弹幕信息.    代码如下: 1 import requests 2 imp

Python 爬取 B 站,宋智孝李光洙哪个更受宠?

在中国,大家应该都了解<跑男>这个节目吧,跑男这个节目就是引用了韩国的<Running Man>,成员组成包括原六位成员刘在石.池石镇.金钟国.HAHA(河东勋).宋智孝.李光洙 ,以及两位新成员全昭旻.梁世灿 . 自从限韩令发布后,Running man在除B站以外的各大视频网站均下架,所以本文从B站出发,抓取相关视频的所有评论. 由于相关视频非常多,本文选择了最具代表性,点击量观看次数最多的视频. 进入这个页面后开始抓包(https://www.bilibili.com/vid

使用python爬取P站图片

刚开学时有一段时间周末没事,于是经常在P站的特辑里收图,但是P站加载图片的速度比较感人,觉得自己身为计算机专业,怎么可以做一张张图慢慢下这么low的事,而且这样效率的确也太低了,于是就想写个程序来帮我下,但是只会C与c++的我看来是无法用他们来做这事的,于是就去学了下简单,强大的python,不得不说,python的模块的确叼,依靠几个模块就可以在完全不知道原理的前提下让程序执行相应功能,这样虽然爽但对于学习不利,我这次就权当写着玩吧,在我学会怎样使用c++来做这事之前我不会再使用python编

简单的方法爬取b站dnf视频封面步骤解释

这随笔代码链接:http://www.cnblogs.com/yinghualuowu/p/8186375.html 首先我们要知道,一个分区封面显示到底在哪里可以找到. 很明显,查看审查元素并不能找到封面.这个时候应该想到封面是动态加载的. 再次去Network寻找,我们发现这样一个JS.这是右侧热门视频封面的内容,点开之后存在pic:正是封面的链接. 进行json解析之后,判定pic在data>archives结构下.这个时候链接是有了,那么将如何把Json拿出来呢? 让我们观察一下原来的信