python 带BOM utf-8的响应解码

接口响应编码格式为带BOM头utf-8。直接获取响应的text出现乱码。

‘‘‘dinghanhua2018-11requests text与content,指定响应的encoding‘‘‘

api = ‘http://testapi‘response = requests.get(api)

print(response.text)

 乱码

解决方式:

1 获取content再用utf-8-sig decode。

2  指定响应的编码格式为utf-8-sig。再获取text。

1 指定response的编码格式为utf-8-sig

#utf-8-sig解码
response.encoding = ‘utf-8-sig‘

print(response.text)
print(response.json()) #直接转成json

2 获取content,再utf-8-sig解码

print(response.content)  #二进制

前3个字符就是BOM头

import json

r = response.content.decode(‘utf-8-sig‘)
print(json.loads(r))

也可以去掉BOM头之后用utf-8解码

#去掉bom头3个字符
r = response.content[3:].decode(‘utf-8‘)
print(json.loads(r))

如果不去掉BOM头用utf-8解码,但json.loads()会报错

r = response.content.decode(‘utf-8‘)
print(r.decode(‘utf-8‘))
print(json.loads(r.decode(‘utf-8‘)))

原文地址:https://www.cnblogs.com/dinghanhua/p/10014344.html

时间: 2024-10-07 16:02:50

python 带BOM utf-8的响应解码的相关文章

UTF8带BOM和不带BOM(转载)

UTF-8 不需要 BOM,尽管 Unicode 标准允许在 UTF-8 中使用 BOM.所以不含 BOM 的 UTF-8 才是标准形式,在 UTF-8 文件中放置 BOM 主要是微软的习惯(顺便提一下:把带有 BOM 的小端序 UTF-16 称作「Unicode」而又不详细说明,这也是微软的习惯).BOM(byte order mark)是为 UTF-16 和 UTF-32 准备的,用于标记字节序(byte order).微软在 UTF-8 中使用 BOM 是因为这样可以把 UTF-8 和 A

UTF8文件带BOM引起的问题

起因是公司iOS端竟然加载除了HTML代码,百思不得其解,查文献,原来如此... UTF-8 不需要 BOM,尽管 Unicode 标准允许在 UTF-8 中使用 BOM.所以不含 BOM 的 UTF-8 才是标准形式,在 UTF-8 文件中放置 BOM 主要是微软的习惯(顺便提一下:把带有 BOM 的小端序 UTF-16 称作「Unicode」而又不详细说明,这也是微软的习惯).BOM(byte order mark)是为 UTF-16 和 UTF-32 准备的,用于标记字节序(byte or

生成不带BOM头的UTF-8文件

UTF-8(带BOM):writer = New StreamWriter(FilePathName, True, System.Text.UTF8Encoding.UTF8) UTF-8(不带BOM):writer =New StreamWriter(FilePathName, True, New UTF8Encoding(False)) 生成不带BOM头的UTF-8文件,布布扣,bubuko.com

python中asynchat异步socket命令/响应处理

该模块基于asyncore简化了异步客户端和服务器,并使其更容易元素处理由任意的字符串结束,或者是可变长度的的协议.它提供了抽象类async_chat,提供collect_incoming_data()和found_terminator()方法.循环和asyncore的一样,有2种信道:asyncore.dispatcher和asynchat.async_chat,可以自由混合信道.通常asyncore.dispatcher服务器通道在接收到连接请求时产生新的asynchat.async_cha

php -- PHP5中file_get_contents函数获取带BOM的utf-8文件内容

最近,在用file_get_contents函数来取得文本的内容的时候,出现了一个情况(如下),苦思冥想了n久,不得其解,最后,果然还是得靠百度啊..... 百度到一个解释,下面是原文: PHP5中的file_get_contents函数获取文件内容,实际是按二进制来读取的,所以,当你用file_get_contents去获取一个带BOM的UTF-8文件时,它并不会把UTF-8的BOM去掉,当你把读取 的内容当作文本内容来进行一些操作时,可能会发生一些意想不到的结果.这并不能算作一个BUG,因为

JSON字符串带BOM头"ufeff"

调用三方接口返回值JSON字符串带BOM头"\ufeff",JSON解析死活报错. 我是用SpringBoot的RestTemplate调用三方接口的,一开始返回值我是用对象接收返回值,发现一直报错,我以为是RestTemplate的接收转换有问题,就将返回值换成了String类型去接收.接收到字符串后再转JSON.JSON字符串解析死活报错. 接口返回值日志如下: 2020-03-25 13:18:55.687 DEBUG 8595 --- [ main] o.s.web.clien

python笔记6-%u60A0和\u60a0类似unicode解码

有时候从接口的返回值里面获取到的是类似"%u4E0A%u6D77%u60A0%u60A0"这种格式的编码,不是python里面的unicode编码. python里面的unicode编码应该是这种格式:\u4e0a\u6d77\u60a0\u60a0 unicode编码-python2 1.先看下python的unicode编码:\u60a0,这个是\u开头的,里面的英文是小写 # coding:utf-8 # 前面加u可以直接打印中文 a = u"\u4e0a\u6d77\

python带参数和不带参数装饰器

http://blog.csdn.net/pipisorry/article/details/41902599 对于无参数的装饰器,其装饰器函数的参数是要被装饰的函数对象名: 对于有参数的装饰器在调用时使用的是应用的参数,@timeStumpFunc_args(argv)的argv,已不再是要被装饰的函数对象名,所以必须在内部再定义一个函数getfunc()来接收要被装饰的函数对象. #!/usr/bin/env python # coding=gbk """ __title

带多种过渡动画的响应式jQuery幻灯片插件

Nivo-Slider是一款非常强大的响应式jQuery幻灯片插件.该幻灯片插件内置有16种不同的动画过渡效果.它提供了丰富的参数来控制幻灯片的播放.它使用简单,并且可以兼容IE8浏览器. 在线预览   源码下载 使用方法 使用Nivo-Slider幻灯片需要引入nivo-slider.css,jQuery(1.7+)和jquery.nivo.slider.js文件. 1 2 3 <link rel="stylesheet" href="css/nivo-slider.