解决requests获取源代码时中文乱码问题

用requests获取源代码时，如果是中文网页，就可能会出现乱码，下面我以中关村的网站为例：

import requests

url = ‘http://desk.zol.com.cn/meinv/‘
r = requests.get(url)
print r.text

执行上面这个脚本你会看到中文部分都变成乱码。

print r.encoding

通过上面的代码你会发现从requests获取到的编码是ISO-8859-1，而该网页的编码是gb2312，所以打印出来的编码就都变成乱码了，那么该如何解决这个问题呢？

其实只需将编码设为gb2312即可，完整的代码如下：

import requests

url = ‘http://desk.zol.com.cn/meinv/‘
r = requests.get(url)
r.encoding = ‘gb2312‘
print r.text

有些童鞋喜欢用content来获取源代码，如果直接将上面代码中的text改为content的话，你会发现获取到的源代码依旧是乱码，所以上面的代码不适用于content方式获取源代码。

通过content获取源代码的童鞋可以看这里：

import requests
from lxml import etree

url = ‘http://desk.zol.com.cn/meinv/‘
r = requests.get(url)
code = r.content.decode(‘gb2312‘)
print code

时间： 2024-11-09 06:16:25

解决requests获取源代码时中文乱码问题的相关文章

如何解决android studio 运行时中文乱码的问题

相信很多朋友都会遇到android studio 在MAC OS中运行的时候中文乱码.而在代码编辑的时候正常.经过几天的不断寻找解决办法,终于解决了比如: Toast.makeText(MainActivity.this,"我爱你", Toast.LENGTH_LONG).show(); 运行的时候在模拟器里就是乱码. 解决办法网上很多,但是都不能解决运行时乱码的问题.所以这个问题苦恼了几天. 我们在工程里的build.grandle 文件中添加一段代码即可 tasks.withTy

ThinkPHP使用纯真IP获取物理地址时中文乱码问题

今天在用ThinkPHP通过纯真IP获取地址时,发现输出结果中文乱码,如图: 经查发现ThinkPHP的IpLocation.class.php类文件中说明:"由于使用UTF8编码如果使用纯真IP地址库的话需要对返回结果进行编码转换",修改浏览器编码毕竟不是长久之计, 于是尝试通过定义一个数组编码转换方法,如图: 此时修改getArea方法代码如下: 重新运行问题解决: 原文地址:https://www.cnblogs.com/splendid/p/9574642.html

web 项目：解决插入 MySQL 数据库时中文乱码问题

背景:在做 javaweb 项目的时,前台传递的中文最后插入数据库的时候总是出现乱码现象. 解决方案 ? A.不管是使用 Idea.eclipse,确定自己的项目所使用的字符集是 UTF-8. ? B.查看 MySQL的字符集是否是 UTF-8.打开 Dos 窗口,输入:mysql -u root -p, 在输入密码即可进入数据库.进入数据库输入命令 :show variables like 'character%';查看数据库的字符集,如下图: ? MySQL 的默认编码是 Latin1,不支

解决Qt程序发布时中文乱码问题（通过QApplication.addLibraryPath加载QTextCodec插件）

Qt程序的文字编码,是通过插件来解决的,所以我们发布的时候需要把相应的插件也发布出去,在开发者电脑上程序会自动从插件目录加载到插件,但是如果发布给别的电脑使用,需要手动指定插件路径,如下所示: int main(int argc, char *argv[]) { QApplication a(argc, argv); QString strLibPath = a.applicationDirPath(); strLibPath += "/plugins"; //plugins就是插件目

解决Qt程序发布时中文乱码问题

使用SpringMVC参数传递时,解决get请求时中文乱码的问题

问题描述: 使用SpringMVC参数传递时, 遇到get请求中文信息时,页面应答会显示中文乱码. 解决办法: 一, 我们需要把request.getParameter(“参数名”)获取到的字符串先用ISO-8859-1编码成字节流,然后再将其用utf-8解码成字符流,代码如下: String str = new String(request.getParameter("参数名").getBytes("iso-8859-1"), "utf-8"

SpringMVC 解决GET请求时中文乱码的问题

<filter> <filter-name>CharacterEncoding</filter-name> <filter-class>org.springframework.web.filter.CharacterEncodingFilter</filter-class> <init-param> <param-name>encoding</param

get/post时中文乱码问题的解决办法

常有的方法,get请求用在tomcat的编码改为utf-8 即可 post 过滤器就可以一.常识了解 1.GBK包含GB2312,即如果通过GB2312编码后可以通过GBK解码,反之可能不成立; 2.java.nio.charset.Charset.defaultCharset() 获得平台默认字符编码: 3.getBytes() 是通过平台默认字符集进行编码: 二.中文乱码出现在学习任何一门技术时,经常会有初学者遇到中文乱码问题,比如MySQL,是因为在安装时没有设置:而在Servlet中

关于Android与pc通信时中文乱码的分析和解决

初步实现了Android与pc服务器的通信之后,又碰到了传说中令人头疼不已的中文乱码问题.既然出现了乱码,那么原因自然是协议不通了.我们知道eclipse中默认的编码标准是GBK,而安卓程序开发所默认的布局文件编码标准则是utf-8,这样一来,我们双方通信的时候便难免出现乱码.要解决它,就要从二者转换方面着手. 首先我们知道,从安卓手机界面上获得的文字,其编码字符集是utf-8,所以,当我们的java文件获得它时,它是以utf-8形式编译的.所以这里,在得到EditText中的文字之后,