python 读取中文CSV 'gbk' codec can't decode bytes in position 2-3:illegal multibyte sequence

读取中文的文档如Excel,CSV文件,需要中文编码 如gbk 解码才能转Unicode;然而 数据混合类型,读CSV文件就会出错,经管Excel正常。

UnicodeDecodeError :‘gbk‘ codec can‘t decode bytes in position 2-3:illegal multibyte sequence
意思是:将一个字符串,通过gbk的方式,去解码,想要获得Unicode字符串,结果出错了

解决方法:处理的字符的确是gb2312,但是其中夹杂的部分特殊字符,是gb2312编码中所没有的。
如果有些特殊字符是GB18030中有的,但是是gb2312中没有的,则用gb2312去解码,也比较会出错。 所以,此种情况,可以尝试用和当前编码(gb2312)兼容的但所包含字符更多的编码(gb18030)去解码,或许就可以了。
GB2312,GBK,GB18030,是兼容的,包含的字符个数:GB2312 < GBK < GB18030

来自 <http://blog.csdn.net/junkichan/article/details/51913845>

python 读取中文CSV 'gbk' codec can't decode bytes in position 2-3:illegal multibyte sequence

时间: 2024-10-07 15:09:33

python 读取中文CSV 'gbk' codec can't decode bytes in position 2-3:illegal multibyte sequence的相关文章

Python中读取txt文本出现:SyntaxError: (unicode error) &#39;unicodeescape&#39; codec can&#39;t decode bytes in position 2-3: truncated \UXXXXXXXX escape问题解决

windows中的路径是反斜杠\,然而反斜杠\在python中有着转义字符的意义,所以在py文件中写windows文件路径的时候,要特别注意反斜杠\的使用. 下面有三种解决方式: 1 # 方式一:转义的方式 2 'c:\\users\xxx\desktop\a.txt' 3 #方式二:显式声明字符串不用转义 4 r'c:\users\xxx\desktop\a.txt' 5 #方式三:使用linux的路径 6 'c:/users/xxx/desktop/a.txt' Python中读取txt文本

【Error】Python:UnicodeDecodeError: ‘XXX&#39; codec can&#39;t decode bytes in position... 解决方法

错误信息: UnicodeDecodeError: 'XXX' codec can't decode bytes in position 2-5: illegal multibyte sequence 这是因为遇到了非法字符,因此在转码的过程中出现了异常.具体哪些字符是非法字符我也搞不清. [解决办法] #将获取的字符串strTxt做decode时,指明ignore,会忽略非法字符,这样就可以了 inStr2 = inStr.decode('utf-8', 'ignore') [补充] 默认的参

pycharm 中 ‘unicodeescape’ codec can’t decode bytes in position XXX: trun错误解决方案背景描述

今天在运用Pycharm时遇到一个错误 SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape(Unicode unicodeescape"错误)的编解码器不能解码的字节的位置:在2-3 uxxxxxxxx截断 刚开始以为是不识别,于是在python文件的头部加上 #-- coding:utf-8 -- 但是加完这个还是报错

18-(unicode error) &#39;unicodeescape&#39; codec can&#39;t decode bytes in position 16-17: truncated \uXXXX escape

读取文件时碰到问题: 1.(unicode error) 'unicodeescape' codec can't decode bytes in position 16-17: truncated \uXXXX escape 在stackoverflow上找到了答案,就是将在路径字符串前加 r : 去掉转义: path = r'C:\Users\sss\Desktop\hanyucidian.txt' with open(path, 'rb') as f: str = f.read().deco

Python_报错:SyntaxError: (unicode error) &#39;unicodeescape&#39; codec can&#39;t decode bytes in position 2-3: truncated \UXXXXXXXX escape

Python运行后,报错:SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape 原因:window 读取文件可以用\,但是在字符串中\是被当作转义字符来使用,经过转义之后可能就找不到路径的资源了,例如\t会转义为tab键 上代码: >>> def func1(path_name): ... import os ..

UnicodeDecodeError: ‘XXX&#39; codec can&#39;t decode bytes in position X 的问题

错误信息:UnicodeDecodeError: ‘XXX' codec can't decode bytes in position 2-5: illegal multibyte sequence 这是因为遇到了非法字符,例如:全角空格往往有多种不同的实现方式,比如\xa3\xa0,或者\xa4\x57,这些字符,看起来都是全角空格,但它们并不是“合法”的全角空格真正的全角空格是\xa1\xa1,因此在转码的过程中出现了异常. 而之前在处理新浪微博数据时,遇到了非法空格问题导致无法正确解析数据

出错:(unicode error) &#39;unicodeescape&#39; codec can&#39;t decode bytes in position 8-9: malformed \N character escape

报错原因:python 中 \N 是换行的意思.这里要把 N 前面的 \ 转义一下.用  \\  代替即可. Nokia_mac = np.loadtxt('data\oui\\NokiaMac2018.txt', encoding='utf-8', dtype='str') 出错:(unicode error) 'unicodeescape' codec can't decode bytes in position 8-9: malformed \N character escape 原文地址

exception1:unicodeescape’ codec can’t decode bytes in position XXX: trun错误解决方案

window 读取文件可以用\,但是在字符串中\是被当作转义字符来使用,所以'd:\a.txt'会被转义成'd:\a.txt'这是正确路径,所以不会报错.而'C:\Users\FrankYuan\Pictures\Camera Roll\WIN_20161010_08_51_57_Pro.jpg '中经过转义之后可能就找不到路径的资源了,例如\t可能就转义成tab键了.python在描述路径时可以有多种方式,现列举常见的三种: 方式一:转义的方式 'd:\\a.txt' 方式二:显式声明字符串不

Python读取中文txt文件错误:UnicodeEncodeError: &#39;gbk&#39; codec can&#39;t encode character

1 with open(file,'r') as f: 2 line=f.readline() 3 i=1 4 while line: 5 line=line.decode('utf-8') 6 print str(i)+": "+line7 line=f.readline() 8 i=i+1 用以上代码读取一个包含中文的txt文件时,在正确地读取并打印了六百多行之后,print str(i)+": "+line这一行报错: UnicodeEncodeError: