python - bilibili（四）抓包数据乱码

上一篇文章中不知道大家发现端倪木有，两张照片对比很明显发现第一张是信息很明显的，第二张是乱码的。

为什么会出现这种情况？细心的童鞋可能发现是我们发送给服务器的请求连接的数据不同：

第一张图的信息是{"roomid":98284,"uid":271298361556770}

第二张图的信息是{"uid":276194535568357,"protover":2,"roomid":98284}

roomid是真实的房间号，uid是随机生成的一串数字，可以直接复制登录。

相比而言，第二张多了个"protover":2参数。其实第一张图是抓取手机客户端的数据包，第二张图是抓取电脑网页数据包。所以有没有这个"protover":2这个参数都是可以连接到弹幕服务器的。

所以我们可以推断抓包的最容易抓的数据是手机端，其次是wap端，最后才是电脑端。

但是好多时候我们抓包数据的都是如图二所示的一串串乱码，不管你用utf8还是用gbk编码都达不到图一的那种效果。

这种数据其实是一种压缩数据gzip，目前wireshark还不支持这种压缩数据的解压模式。

现在网站在传输中基本上都是用压缩模式进行传输的，所以你抓取到的数据是压缩后的数据，在你看来就是彻彻底底的乱码，无从下手。

如图所示，访问我的博客首页http://www.cnblogs.com/keinlee/，抓取服务器传送回来的网页数据是gzip模式，而我们平时访问的网页是经过浏览器解压数据并渲染然后呈现给我们。

既然分析哔哩哔哩服务器传送的是gzip数据，那么解决办法就很简单了，安装第三方zlib包或者gzip包都可以解决这个问题。

系列上一章：python - bilibili（三）wireshark分析

时间： 2024-11-10 00:56:32

python - bilibili（四）抓包数据乱码的相关文章

Python抓取页面乱码问题的解决

import urllib2 response=urllib2.urlopen('http://house.focus.cn/') html=response.read() print html.decode('gbk') Python抓取页面乱码问题的解决,布布扣,bubuko.com

python 处理抓取网页乱码问题一招鲜相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找是否包含指定的信息. 在html = urllib2.open(url).read() 时,打印到控制台始终出现乱码. 一般的解决办法就是html.decode('utf-8').encode('gb2312'),不过这个即使用了,也没能解决我的问题这里有两个问题,第一个你要知道网页的编码格式是utf-8 第二你得确定你的系统是gb2312的,

使用IE11抓包，防止在网页跳转时抓包数据被清除的方法

引:最近在研究使用python实现模拟登陆各大网站,在使用IE11进行抓包分析网站登陆的逻辑结构的时候,发现每次在抓包的时候,当网页跳转的时候,抓包数据会被清除,让我很是郁闷,最终在查阅相关资料以及自己的摸索,发现了解决问题的方法. 方法:在使用IE11进行抓包工作的时候,不要勾选“导航时清除项”,即可解决网页跳转数据包被清除的问题了.(虽然这个问题较简单,但是我自己摸索尝试解决的.) 2014-12-25 21:18:02

测试开发Python培训：抓取新浪微博抓取数据-技术篇

测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的selenium的课程中,我们在培训的课程里讲python的语言,也是通过项目实战的方式进行讲解,前期分享了个新浪微博的登陆功能,这次在通过抓取新浪微博数据进一步讲解脚本.(大家对课程感兴趣,请加qq:564202718) 微博有发布微博功能,微博发布后需要验证内容,那么如何验证微博发布数据的正确性,首先要

用Python进行网页抓取

引言从网页中提取信息的需求日益剧增,其重要性也越来越明显.每隔几周,我自己就想要到网页上提取一些信息.比如上周我们考虑建立一个有关各种数据科学在线课程的欢迎程度和意见的索引.我们不仅需要找出新的课程,还要抓取对课程的评论,对它们进行总结后建立一些衡量指标.这是一个问题或产品,其功效更多地取决于网页抓取和信息提取(数据集)的技术,而非以往我们使用的数据汇总技术. 网页信息提取的方式从网页中提取信息有一些方法.使用API可能被认为是从网站提取信息的最佳方法.几乎所有的大型网站,像Twitter.

python多线程实现抓取网页

Python实现抓取网页下面的Python抓取网页的程序比较初级,只能抓取第一页的url所属的页面,只要预定URL足够多,保证你抓取的网页是无限级别的哈,下面是代码: ##coding:utf-8 ''' 无限抓取网页 @author wangbingyu @date 2014-06-26 ''' import sys,urllib,re,thread,time,threading ''' 创建下载线程类 ''' class download(threading.Thread): def __

Python 基础四

今天我们先介绍一下反射这个概念,啥是反射?反射就是自己检测自己.在我们Python的面向对象中的反射是啥意思呢?就是通过字符串的形式操作对象相关的属性.python中的一切事物都是对象(都可以使用反射) 在Python中四个产生反射的函数,分别是:hasattr();getattr();setattr();delattr(); 下列方法适用于类和对象(一切皆对象,类本身也是一个对象) hasattr((object, name, default=None)) 判断object中有没有一个name

用python做网页抓取与解析入门笔记[zz]

(from http://chentingpc.me/article/?id=961) 事情的起因是,我做survey的时候搜到了这两本书:Computational Social Network Analysis和Computational Social Network,感觉都蛮不错的,想下载下来看看,但是点开网页发现这个只能分章节下载,晕,我可没时间一章一章下载,想起了迅雷的下载全部链接,试试看,果真可以把他们一网打尽,但是,sadly,迅雷下载的时候,文件名没办法跟章节名对应起来,晕,我可

python&php数据抓取、爬虫分析与中介，有网址案例

最近在做一个网络爬虫程序,后台使用python不定时去抓取数据,前台使用php进行展示网站是:http://se.dianfenxiang.com python&php数据抓取.爬虫分析与中介,有网址案例,布布扣,bubuko.com