用 Python 获取 B 站播放历史记录

最近 B 站出了一个年度报告，统计用户一年当中在 B 站上观看视频的总时长和总个数。过去一年我居然在 B 站上看了2600+个视频，总计251个小时，居然花了这么多时间，吓得我差点把 Bilibili App 卸载了...

然而我又很好奇，到底我在 B 站上都看了些什么类型小姐姐的视频，用几行 Python 代码实现了一下。

获取请求 Api 接口与 Cookie

实现起来非常容易，获取 cookie 模拟请求即可

使用 chrome 浏览器
登陆B 站，进入历史记录https://www.bilibili.com/account/history
在网页任意位置，鼠标右键检查

按照下图所示，进入Network页面，筛选框输入history，对结果进行筛选，页面滚轮往下即可看到浏览过程中的历史记录请求的Header

将 Header 下， cookie 一行的字符串复制出来到一个cookie.txt文本里

Python 代码实现

伪造浏览器请求

import json
import requests

def read_cookies_file(filename):
    """read cookie txt file
    :param filename: (str) cookies file path
    :return: (dict) cookies
    """
    with open(filename, ‘r‘) as fp:
        cookies = fp.read()
        return cookies

def get_header(filename):
    cookie = read_cookies_file(filename)
    headers = {
        ‘Accept‘: ‘*/*‘,
        ‘Accept-Encoding‘: ‘gzip, deflate, br‘,
        ‘Accept-Language‘: ‘zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7‘,
        ‘Connection‘: ‘keep-alive‘,
        ‘Cookie‘: cookie,
        ‘Host‘: ‘api.bilibili.com‘,
        ‘Referer‘: ‘https://www.bilibili.com/account/history‘,
        ‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 ‘
                      ‘(KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36‘
    }
    return headers

def req_get(headers, url):
    resp = requests.get(url, headers=headers)
    return json.loads(resp.text)

使用 cookie 模拟请求

def get_all_bili_history(cookie_file):
    headers = bilibili.get_header(cookie_file)
    history = {‘all‘: []}
    for page_num in range(MAX_PAGE):
        time.sleep(0.6)
        url = ‘https://api.bilibili.com/x/v2/history?pn={pn}&ps={ps}&jsonp=jsonp‘.format(pn=page_num, ps=PAGE_PER_NUM)
        result = bilibili.req_get(headers, url)
        print(‘page = {} code = {} datalen = {}‘.format(page_num, result[‘code‘], len(result[‘data‘])))
        if len(result[‘data‘]) == 0:
            break
        history[‘all‘].append(result)

    return history

代码非常简单，完整代码加群973783996

存在的问题

本来想拿到所有的播放记录，做一些统计和预测，但是经过实测，B 站只能获取到最近1000条或者最近3个月的播放记录
如果想获得更多，只能做一个监测程序，不停地从接口获取数据

安全问题

尽量不要使用不安全的 wifi 网络，有可能会被别有用心之人获取网络请求的 Package，易泄露个人隐私。

原文地址：https://www.cnblogs.com/qingdeng123/p/10686155.html

时间： 2024-10-10 13:26:12

用 Python 获取 B 站播放历史记录的相关文章

python获取火狐浏览器的历史记录

python获取火狐浏览器的历史记录最新在学习python,所以想着做一些练手的项目,这里做一个获取火狐浏览器的历史记录,然后保存到一个txt文件中.这里涉及到的库: os sqlite3 time os库用来搜索文件,sqlite3用来读取sqlite文件,time用来转换时间戳使用. 火狐的历史记录是使用sqlite来保存的,Python内置sqlite3库,所以并不需要安装任何第三方库. 首先是查找火狐浏览器places.sqlite历史记录文件,这里使用了os.walk()函数来查找,

转载：用python爬虫抓站的一些技巧总结

原文链接:http://www.pythonclub.org/python-network-application/observer-spider 原文的名称虽然用了<用python爬虫抓站的一些技巧总结>但是,这些技巧不仅仅只有使用python的开发可以借鉴,我看到这篇文章的时候也在回忆自己做爬虫的过程中也用了这些方法,只是当时没有系统的总结而已,谨以此文为鉴,为以前的爬虫程序做一个总结. 转载原文如下: 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,

Python获取当地的天气和任意城市的天气

先从中国天气网得到数据('http://www.weather.com.cn/data/cityinfo/'+城市编码),每个城市都有各自的编码,如何得到用户所在地的城市编码呢?用一个网页就是专门干这个的!http://61.4.185.48:81/g/ 附录:所有城市的编码 101010100=北京 101010200=海淀 101010300=朝阳 101010400=顺义 101010500=怀柔 101010600=通州 101010700=昌平 101010800=延庆 1010109

HTTP协议与使用Python获取数据并写入MySQL

一.Http协议二.Https协议三.使用Python获取数据 (1)urlib (2)GET请求 (3)POST请求四.爬取豆瓣电影实战 1.思路 (1)在浏览器中输入https://movie.douban.com/j/search_tags?type=movie会得到显示的电影的分类标签,下面以"热门"为例 {"tags":["热门","最新","经典","可播放",&quo

python获取微信公共平台消息列表和用户头像

转载需注明原文地址:http://blog.csdn.net/btyh17mxy/article/details/25207889 刚写的模拟登陆的方式从获取微信公众平台消息列表和用户头像的库,之后还会继续增加相关功能,github地址https://github.com/btyh17mxy/wxwall #!/usr/bin/env python # coding: UTF-8 import json import hashlib import re import random import

Python快速建站系列-Part.One-组装开发环境

源代码都在github上:https://github.com/SSSDOG/SmallStudyStation 既然是用Python快速建站,第一步选择框架,鉴于Django有点复杂对新手不是很友好所以选择Tornado,数据库的话用MongoDB. 建站也少不了前端,我是用的bootstrap,从http://www.bootcss.com/这里下载就行,或者直接用它提供的CDN. 首先安装Python需要的模块 1 import tornado 2 import pymongo pymon

Python网络编程小例子：使用python获取网站域名信息

Whois简介 whois(读作"Who is",非缩写)是用来查询域名的IP以及所有者等信息的传输协议.简单说,whois就是一个用来查询域名是否已经被注册,以及注册域名的详细信息的数据库(如域名所有人.域名注册商).通过whois来实现对域名信息的查询.早期的whois查询多以命令列接口存在,但是现在出现了一些网页接口简化的线上查询工具,可以一次向不同的数据库查询.网页接口的查询工具仍然依赖whois协议向服务器发送查询请求,命令列接口的工具仍然被系统管理员广泛使用.whois通常

使用python获取webservice数据并输出到文件

上头要求设置TCP备案检查,给了个WEBSERVICE接口.查了2天,才确认还是python比较好用,我这水平也就写个脚本把数据导出,过滤检索还是用的shell.写此文备忘.WEBSERVICE接口脚本如下: #! /usr/bin/python #coding:utf-8 import codecs import suds def main(file_name, out_file): url = 'http://121.14.4.210:8088/icpautobj/ws/getIcp?wsd

python 获取当前日期星期

from datetime import datetime d =datetime.today() #获取当前日期时间 d.isoweekday() #获取时间周几 python 获取当前日期星期,布布扣,bubuko.com