Python转码问题的解决方法：ignore,replace,xmlcharrefreplace

比如，若要将某个String对象s从gbk内码转换为UTF-8，可以如下操作
s.decode(‘gbk‘).encode(‘utf-8′)
可是，在实际开发中，我发现，这种办法经常会出现异常：
UnicodeDecodeError: ‘gbk‘ codec can‘t decode bytes in position 30664-30665: illegal multibyte sequence
这

是因为遇到了非法字符——尤其是在某些用C/C++编写的程序中，全角空格往往有多种不同的实现方式，比如\xa3\xa0，或者\xa4\x57，这些
字符，看起来都是全角空格，但它们并不是“合法”的全角空格（真正的全角空格是\xa1\xa1），因此在转码的过程中出现了异常。
这样的问题很让人头疼，因为只要字符串中出现了一个非法字符，整个字符串——有时候，就是整篇文章——就都无法转码。

解决办法：
s.decode(‘gbk‘, ‘ignore‘).encode(‘utf-8′)
因为decode的函数原型是decode([encoding], [errors=‘strict‘])，可以用第二个参数控制错误处理的策略，默认的参数就是strict，代表遇到非法字符时抛出异常；
如果设置为ignore，则会忽略非法字符；
如果设置为replace，则会用?取代非法字符；
如果设置为xmlcharrefreplace，则使用XML的字符引用。

时间： 2024-12-18 16:17:22

Python转码问题的解决方法：ignore,replace,xmlcharrefreplace的相关文章

python 进程内存增长问题, 解决方法和工具

python 进程内存增长问题, 解决方法和工具表现解决方法定位问题过程 gdb-python: 搞清楚python程序在做什么准备gdb 接入gdb 查看线程查看调用栈 coredump 其他命令 pyrasite: 连接进入python程序 psutil 查看python进程状态 guppy 取得内存使用的各种对象占用情况无法回收的对象不可回收对象的例子 ?? objgraph 查找循环引用表现运行环境: # uname -a Linux ** 3.10.0-327.el7

python 迭代器一个奇怪的解决方法

一般我们在类里面写迭代器都是如下写法: 1 class IterableSomthing: 2 def __iter__(self): 3 return self 4 5 def __next__(self): 6 return 1 但是,<流畅的python>给出了不同的见解.该书指出,在数据结构内实现迭代器是个很蠢的想法,因为需要引入游标指针记录位置的缘故,这么实现迭代器会造成数据结构空间性能下降,同时,因为游标指针的独立性使得改数据结构无法并发遍历,所以又造成了时间性能的下降.代码如下

python socket.error: [Errno 10054] 解决方法

我用的是python2.7 我搜网上10054错误解决方法的时候发现,大部分文章都是以python3为基础的,对于python2不适用. python socket.error: [Errno 10054] 远程主机强迫关闭了一个现有的连接. 原因:服务器发现你的爬虫行为了,所有强制断开链接了解决办法: 服务器知道你是爬虫,加headers, 模拟浏览器agent:head中有一个user-agent每次都换不同的模拟代理 #coding:utf-8 import urllib2 ur

windows下Python开发错误记录以及解决方法

windows下使用pip提示ImportError: cannot import name 'main' 原因:将pip更新为10.0.0后库里面的函数有所变动造成这个问题解决方法:先卸载现在的pip: python -m pip uninstall pip 然后重装:python -m pip install pip==19.0.3 原文地址:https://www.cnblogs.com/mm1994/p/11763860.html

Python 中文注释报错解决方法

代码中一旦有了中文注释便会报错. 原因如果文件里有非ASCII字符,需要在第一行或第二行指定编码声明. 解决方法在第一行或是第二行加入这么一句# -- coding: utf-8 -- 完美解决

Python pip下载慢的解决方法

国外的源下载速度实在是太慢了可以使用国内的一些镜像网站安装使用cmd命令格式:pip install -i 网站库例如: 国内的一些镜像网站清华大学:https://pypi.tuna.tsinghua.edu.cn/simple 阿里云:http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 华中科技大学:http://pypi.hustunique.com/ 山东

MySql避免重复插入记录方法(ignore,Replace,ON DUPLICATE KEY UPDATE)

本文章来给大家提供三种在mysql中避免重复插入记录方法,主要是讲到了ignore,Replace,ON DUPLICATE KEY UPDATE三种方法,各位同学可尝试参考. 案一:使用ignore关键字如果是用主键primary或者唯一索引unique区分了记录的唯一性,避免重复插入记录可以使用: 代码如下复制代码 1 INSERT IGNORE INTO `table_name` (`email`, `phone`, `user_id`) VALUES ('[email protec

Python学习之异常重试解决方法详解

本文和大家分享的是在使用python 进行数据抓取中,异常重试相关解决办法,一起来看看吧,希望对大家学习python有所帮助. 在做数据抓取的时候,经常遇到由于网络问题导致的程序保存,先前只是记录了错误内容,并对错误内容进行后期处理. 原先的流程: defcrawl_page(url): pass deflog_error(url): pass url = "" try: crawl_page(url) except: log_error(url) 改进后的流程: attempts =

python中类型转换出错的解决方法

python可以使用int(), float()等类型转换函数实现类型转换的功能,特别是string类型转换. 但是,我们也经常会发现报如下的错误: ValueError: invalid literal for int() with base 10 出现这种情况的原因是被转换的字符串包含不是数字的字符,例如小数点,连字符,或者其他的字符. 这里提供一种解决小数点的方法: round(float('1.0')) 1.0 int(round(float('1.0'))) 1 对于其他字符,我们可以

猜你喜欢

【自动化__持续集成】___java___文本文件__字节流

一.代码如下 package www.wujianbotwo; import java.io.File; import java.io.FileInputStream; import java.io. ...

lduan SCVMM 2012 库服务器（五）

java面试题集3

一.选择题 1.下面程序的运行结果是 int i=0; while(true){ if(i++>10) break; System.out.println(i); }1-11 2.下面程序的运 ...

Linux 格式化分区报错Could not stat --- No such file or directory 和 partprobe 命令

分区的过程正常: [[email protected] /]# fdisk -l Disk /dev/sda: 21.4 GB, 21474836480 bytes 255 heads, 63 sec ...

c++ 贪吃蛇小游戏

(地图大小为25*25,蛇初始位置为数组的map[3][3]~map[3][6],蛇头为map[3][6],方向向右) #include <iostream>#include <Wi ...

网站数据统计分析中的日志收集原理及其实现

> 网站数据统计分析工具是网站站长和运营人员经常使用的一种工具,比较常用的有谷歌分析.百度统计和腾讯分析等等.所有这些统计分析工具的第一步都是网站访问数据的收集.目前主流的数据收集方式基本都 ...

C/C++ 动态存储分配

C语言的动态分配函数: malloc(m):开辟m字节长度的地址空间,并返回这段空间的首地址 sizeof(x):计算变量x的长度 free(p):释放指针p所指变量的存储空间,即彻底删除一个变量 C ...

win10 nginx.exe启动不了

刚刚用nginx的时候,发现win 10进程里没有nginx.exe. 百度了一下才发现win10系统默认占用了80端口,跟nginx的默认端口冲突有两种解决方法 1.找到conf/nginx.co ...

php中urldecode()和urlencode()和stripslashes() 的作用

urlencode()函数原理就是首先把中文字符转换为十六进制,然后在每个字符前面加一个标识符%. urldecode()函数与urlencode()函数原理相反,用于解码已编码的 URL 字符串,其 ...

lunux 启动 tomcat

本人从官网http://tomcat.apache.org/上面下载的6.0.1_31版本,并解压包后改名存放在:/usr/share/tomcat6 本人使用的是root用户登录,下面就说说具体的操 ...

（树）判断一颗二叉树是否为镜像对称

原题:https://www.nowcoder.com/practice/1b0b7f371eae4204bc4a7570c84c2de1?tpId=46&tqId=29077&tPa ...

SQL优化（zhuan）

转自:http://www.jfox.info/SQL-you-hua 数据库的优化问题一.问题的提出在应用系统开发初期,由于开发数据库数据比较少,对于查询SQL语句,复杂视图的的编写等体会不出S ...

《JAVA与模式》之迭代器模式

定义:提供一种方法访问一个容器对象中各个元素,而又不暴露该对象的内部细节. 类型:行为类模式类图: 1 public static void main(String[] args) { 2 List ...

Configure Dynamics 365 and Azure Service Bus Integration (using OneWay relay and listener)

Continuing our previous post https://nishantrana.me/2017/03/22/configure-dynamics-365-and-azure-serv ...

JavaScript : 基本的处理事件

JavaScript 事件参考手册:属性当以下情况发生时,出现此事件onabort 图像加载被中断 onblur 元素失去焦点 onchange 用户改变域的内容 o ...

js,jquery的数字型字符串变量比较大小

转:http://blog.csdn.net/dxnn520/article/details/8267173 var定义的变量应该是字符串,有时没有经过类型转换而进行比较的话,小于十的话还可以,如果大 ...

CentOS6.4+Apache+Mariadb+PHP搭建WordPress

---- LAMP ==> Linux Apache Mariadb PHP -----安装前准备工作: yum -y install gcc gcc-c++ zlib libxml2-deve ...

find pattern

[email protected] ~/msf/metasploit-framework/tools $ ruby pattern_create.rb 2000 Aa0Aa1Aa2Aa3Aa4Aa5A ...

减肥记（完全背包）

湫湫系列故事——减肥记I 点我 Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 65535/32768 K (Java/Others)T ...

说说三流团队的那些事----(2)BOSS分配下的任务

2015-7-8 12:15 纯属吐槽,不针对任何人和事. 对于某些三流团队来说,有一点比技术上所不足还致命.就是过度的流程化,流程化,开会,开会,分析,分析....反反复复....没有进入主题, ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.