Python3的requests类抓取中文页面出现乱码的解决办法

这种乱码现象基本上都是编码造成的，我们要转到我们想要的编码，先po一个知识点，嵩天老师在Python网络爬虫与信息提取说到过的：response.encoding是指从HTTP的header中猜测的响应内容编码方式，如果header中不存在charset，则默认编码为ISO-8859-1 ，这样一来某些不规范的服务器返回就必然乱码了；response.apparent_encoding是指从内容中分析出的响应内容编码方式。requests内部的 utils 也提供了一个从返回 body 获取页面编码的函数get_encodings_from_content，这样如果服务器返回的头不含 Charset，再通过 get_encodings_from_content 就可以知道页面的正确编码了。下面是调试的过程：

import requests
from requests.exceptions import RequestException

def get_one_page(url):
    try:
        response=requests.get(url)
        if response.status_code == 200:
            #print(response.text)
            print(response.encoding)
            print(response.apparent_encoding)
            r=response.text
            print(requests.utils.get_encodings_from_content(r)[0])
            a=r.encode(‘ISO-8859-1‘).decode(requests.utils.get_encodings_from_content(r)[0])
            print(a)
            print(‘------------------------------------‘)
            b = r.encode(‘ISO-8859-1‘).decode(response.apparent_encoding)
            print(b)
        return None
    except RequestException:
        return None

def main():
    url = ‘http://www.mh160.com/‘
    get_one_page(url)

if __name__==‘__main__‘:
        main()

看图！看图！看图！

原文地址：https://www.cnblogs.com/zhouxinfei/p/8502651.html

时间： 2024-11-06 12:03:19

Python3的requests类抓取中文页面出现乱码的解决办法的相关文章

JS传递中文参数出现乱码的解决办法

一.window.open() 乱码: JS中使用window.open("url?param="+paramvalue)传递参数出现乱码,提交的时候,客户端浏览器URL中显示参数是正确的, 但是传到了服务器端是是乱码.这种情况下需要在客户端对该参数进行编码,然后在服务器端解码即可. 1.JS客户端编码: var selStr=document.getElementsByName('selStr')[0].value; selStr=encodeURI(encodeURI(selStr

Python使用lxml模块和Requests模块抓取HTML页面的教程

Web抓取Web站点使用HTML描述,这意味着每个web页面是一个结构化的文档.有时从中获取数据同时保持它的结构是有用的.web站点不总是以容易处理的格式, 如 csv 或者 json 提供它们的数据. 这正是web抓取出场的时机.Web抓取是使用计算机程序将web页面数据进行收集并整理成所需格式,同时保存其结构的实践. lxml和Requestslxml(http://lxml.de/)是一个优美的扩展库,用来快速解析XML以及HTML文档即使所处理的标签非常混乱.我们也将使用 Requ

DELPHI7调用BERLIN中间件的中文字段名乱码的解决办法

MSSQL数据库的表使用中文字段名,BERLIN开发的DATASNAP中间件,DELPHI7调用中间件的查询方法返回数据给CLIENTDATASET.DATA,发现中文字段名乱码,中文字段名的值可以正常显示. 怎么办? 发现在SQL语句中将中文字段名as 为英文字段名可以解决乱码的问题. select c1,字段名2 as c1 from t1 原因何在? BERLIN默认是使用UNICODE字符串的,BERLIN的CLIENTDATASET也是使用UNICODE字符串,而DELPHI7是ANS

在Python3解释器的交互界面下使用方向键产生乱码的解决办法

现象: 在python3的解释器交互界面使用方向键会产生类似: [d^[C之类的乱码. 原因: 未使能readline功能解决办法: yum install -y readline-devel //安装C的readline相关文件 make distclean //清理之前安装过程中的相关信息 vim ./Moudules/Setup.dist //编辑Python3源码目录中Modules下的Setup.dist文件 #readline readl

Python抓取中文网页出现乱码

转自http://www.oschina.net/code/snippet_1448389_33526 原来是有的时候网站将网页用gzip压缩了 1 """ 2 迪艾姆公司python远程培训班黄哥所写 3 python远程视频培训班周末班 4 迪艾姆python培训周末班北京3月8.上海3月9日上课欢迎报名参加. 5 http://www.010dm.com/xflml/3089.html 6 回答贴吧上一个同学用python3访问sina首页中文的处理 7 8 如果只

【转】Source Insight中文注释为乱码的解决办法

我网上查了一堆解决办法,但是都是2017年以前的,并且都是针对于source insight 3.5及以下版本的解决方案,软件版本都到4.0了,应该有新方法出现. 干货:Source Insight 4 的解决办法(source insight 3.5 及以下版本就到其他地方看看吧) [解决办法]: 单个文件乱码解决办法: 菜单栏中[File] > [Reload As Encoding...] > [Chinese Simplified (GB18030)] > 选择后,点击load,

scrapy抓取的页面中文会变成unicode字符串

不了解编码的,需要先补下:http://www.cnblogs.com/jiangtu/p/6245264.html 现象:从scrapy抓取的页面中文会变成unicode字符串,如下图 2017-03-28 23:00:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lagou.com/jobs/2617468.html> {'describe': [u'<div>\n <p>\u5c97\u

Winform实现抓取web页面内容的方法

本文以一个非常简单的实例讲述了Winform实现抓取web页面内容的方法,代码简洁易懂,非常实用!分享给大家供大家参考. 具体实现代码如下: WebRequest request = WebRequest.Create("http://1.bjapp.sinaapp.com/play.php?a=" + PageUrl); WebResponse response = request.GetResponse(); Stream resStream = response.GetRespo

nutch2.1抓取中文网站

对nutch添加中文网站抓取功能. 1.中文网页抓取 A.调整mysql配置,避免存入mysql的中文出现乱码.修改 ${APACHE_NUTCH_HOME} /runtime/local/conf/gora.properties ############################### # MySQL properties # ############################### gora.sqlstore.jdbc.driver=com.mysql.jd

猜你喜欢

codeforces717E Paint it really, really dark gray（树上dfs）

题意: 给你一棵树,2e5个节点,每个节点有一种颜色(黑色或粉色) 让你从节点1开始,自由沿边行走,到达节点时会把这个节点的颜色改变要求你输出任意一条路径使得从节点1出发,所有节点的颜色都变为黑色 ...

FPGA之流水灯

1 module move_led 2 ( 3 clk, 4 rst, 5 led 6 ); 7 8 input clk; 9 input rst; 10 11 output [5:0]led; 12 ...

Android--获取SharedtPreference实例

现在我目前知道可以获取SharedPreferences实例的常用方法有三个: 1.通过Context的getSharedPreferences(String name,int mode). 2.通过 ...

以spacy中函数调用为例记录对自然语言基本处理任务

# coding=utf-8 import spacy nlp=spacy.load('en_core_web_md-1.2.1') docx=nlp(u'The ways to process do ...

洛谷P2331 [SCOI2005] 最大子矩阵[序列DP]

题目描述这里有一个n*m的矩阵,请你选出其中k个子矩阵,使得这个k个子矩阵分值之和最大.注意:选出的k个子矩阵不能相互重叠. 输入输出格式输入格式: 第一行为n,m,k(1≤n≤100,1≤m≤2 ...

udp开发-dtd验证,dom解析

//博主太懒了,并没有提供范例程序 6.基于UDP开发 (1)发送方:socket->准备数据包 DatagramSocket docket = new DatagramSocket(); // ...

Web 在线文件管理器学习笔记与总结（13）重命名文件夹（14）复制文件夹

(13)重命名文件夹 ① 重命名文件夹通过 rename($oldname,$newname) 实现 ② 检测文件夹名是否符合规范 ③ 检测当前目录中是否存在同名文件夹名称,如果不存在则重命名成功 i ...

数据库之增删改查初探

插入数据:insert into 表名(列名1,列名2.........)values (值1,值2) 如果插入多条数据则insert into 表名(列名1,列名2.........)values ...

android studio的使用

教程: http://www.android-studio.org/ 初使用 Android Studio: http://www.zhihu.com/question/30170042?sort=c ...

C++ 学习笔记（一些新特性总结3）

C++ 学习笔记(一些新特性总结3) public.protected 和 private 继承 public 继承时,基类的存取限制是不变的. class MyClass { public: // ...

一些linux小笔记

1.crontab (1)crontab每10秒执行一次 * * * * * /bin/date >>/tmp/date.txt * * * * * sleep 10; /bin/date ...

Interview-Harry Potter walk through matrix.

假设你是harry potter,在grid的左上角,你现在要走到右下角,grid中有正数也有负数,遇到正数表示你的strength增加那么多,遇到负数表示strength减少那么多,在任何时刻如果你 ...

mac spoofing

做坏事的第一步:保护自己! 开门见山:利用伪MAC地址连接别人的无线网络步骤:更改MAC地址,更改监视端口,更改无线端口代码: 1 ifconfig wlan0 down 2 macchanger ...

Xamarin开发Android笔记：使用ZXing进行连续扫描

在项目开发中需要使用到条码扫描,因为以前就测试过ZXing,感觉识别速度和功能都不错,所以直接引用.不过在实际开发的过程中,却遇到连续扫描的问题,每次扫描识别完成之后,扫描窗体自动关闭了. 在Xama ...

冠杰mysql/php提升班

"还有谁,想知道- 一个从2010年3月开始的php从业者如何从零开始12个月做到月薪8千 18个月时间突破1.5万而且工作很轻松,舒适- 还有谁,想为自己找到一条- 快速.高效.轻松学 ...

Python打包分发工具setuptools

作为Python标准的打包及分发工具,setuptools可以说相当地简单易用.它会随着Python一起安装在你的机器上.你只需写一个简短的setup.py安装文件,就可以将你的Python应用打包 ...

卅川的状态机之路（创作中，不定时上传）

川的第一篇干货,将从讲述FSM(有限状态机)开始. 川第一次接触状态机这种东西,还得追溯到刚到畅游工作,破解了别的游戏的代码(游戏程序就是这么没节操和底线,嗯!)才知道有这么个东西的.虽然大学学习过相 ...

诰羡苊倥仔mv7mz0n4f9q8

冰碧帝皇蝎的威压也如同昙花一现搬销失了.第三十章决赛(一)会议室内,两名老者坐在上首位,一共十四名学员分别坐在两边,左侧的学员年龄明显要大一些,右边的年龄则略小.显然,日月皇家魂导师学院派来的也是一 ...

获取apk签名信息（已经安装和未安装的）

import java.io.File; import java.io.UnsupportedEncodingException; import java.lang.reflect.Field; im ...

C++ 代码风格准则：POD

作者:一根筋的傻瓜链接:https://www.zhihu.com/question/36379130/answer/69853366来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.