python与字符集编码

讲的比较明白的博客:http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html

以上面博文的汉为例子,汉字的GBK编码是baba, UNICODE码字是6C49 UTF16-LE编码是496C,UTF-8编码是e6b189

python文件的编码制定为GBK

line="汉"

input=line.decode(‘gbk‘,‘ignore‘).encode("UTF-8");

rint repr(input)

以上三行代码输出正确,但是当编码变为UTF-16LE的时候,就不行了。 这时需要用print binascii.hexlify(input)

时间: 2024-10-12 16:52:33

python与字符集编码的相关文章

Python学习----字符集编码

1 ASCII码: American Standard Code for information inerchange 美国最初采用的二进制和字符的编码映射表 2 Gb2312, Gbk1.0, Gbk10830 中国最开始制定的编码表Gb2312,只包含简体字,后发现繁体字没有加进去,不断扩充,而出现了Gbk系列编码 3 unicode, utf-8 由于世界各国都制定本国的编码表,导致各国之间信息交流出现障碍,遂ISO组织出面制定全球统一的编码表,即unicode码,又称万国码. 万国码虽然

python 之 字符集总结

被字符集蹂躏了很长时间,对编码方式和字符集的概念和理解还是处于上学时候学得那一点半调子,今天有点时间就好好学习下. 1. 默认编码方式 第一个问题就是默认字符集,被搞到吐,有没有. 在ipython客户端的输入以及结果 In [6]: unicode_str=u'中国' In [7]: unicode_str Out[7]: u'\u4e2d\u56fd' In [8]: default_str = '中国' In [9]: default_str Out[9]: '\xe4\xb8\xad\x

python中的编码与解码

编码与解码 首先,明确一点,计算机中存储的信息都是二进制的 编码/解码本质上是一种映射(对应关系),比如‘a’用ascii编码则是65,计算机中存储的就是00110101,但是显示的时候不能显示00110101,还是要显示'a',但计算机怎么知道00110101是'a'呢,这就需要解码,当选择用ascii解码时,当计算机读到00110101时就到对应的ascii表里一查发现是'a',就显示为'a' 编码:真实字符与二进制串的对应关系,真实字符→二进制串 解码:二进制串与真实字符的对应关系,二进制

第二章 Python字符串和编码

2.1 字符串     2.1.1 字符串转换    >>> a = 123        >>> b = 1.23    >>> type(a)    <type 'int'>    >>> type(b)    <type 'float'>    >>> type(str(a))    <type 'str'>    >>> type(str(b))    &

python中的编码问题:以ascii和unicode为主线

  1.unicode.gbk.gb2312.utf-8的关系 http://www.pythonclub.org/python-basic/encode-detail 这篇文章写的比较好,utf-8是unicode的一种实现方式,unicode.gbk.gb2312是编码字符集: 2.python中的中文编码问题 2.1 .py文件中的编码 Python 默认脚本文件都是 ANSCII 编码的,当文件 中有非 ANSCII 编码范围内的字符的时候就要使用"编码指示"来修正. 一个mo

python 处理字符编码问题

今天好不容易重新开始写Python做实验,结果被字符编码虐的体无完肤.其实之前就已经比较清楚python处理字符编码的套路,但是今天白天反复的出现can't encode/decode ..., the original code not in 178之类的提示,甚是无力,后来偶尔使用了一下sys.setdefaultencoding('utf8')就解决了全部问题,真是不解. 下面还是总结一下Python几个编码设置的含义吧. 1. #coding=utf8 这种形式的注释告诉解释器,应该以c

Linux下MySQL5.6的修改字符集编码为UTF8

一.登录MySQL查看用SHOW VARIABLES LIKE 'character%';下字符集,显示如下: +--------------------------+----------------------------+ | Variable_name | Value | +--------------------------+----------------------------+ | character_set_client | utf8 | | character_set_conn

12月30日作业-&lt;转&gt;字符集编码

1.基础知识 计算机中储存的信息都是用二进制数表示的:而我们在屏幕上看到的英文.汉字等字符是二进制数转换之后的结果.通俗的说,按照何种规则将字符存储在计算机中,如'a'用什么表示,称为"编码":反之,将存储在计算机中的二进制数解析显示出来,称为"解码",如同密码学中的加密和解密.在解码过程中,如果使用了错误的解码规则,则导致'a'解析成'b'或者乱码. 字符集(Charset):是一个系统支持的所有抽象字符的集合.字符是各种文字和符号的总称,包括各国家文字.标点符号

Python文件写入编码问题

今天,用Python写文件,发现中国人真不容易,任何编程问题都需要比老外多学一套应对编码的方法.JSP写完了吗?中文编码问题考虑一下:servlet中的url,转发的文本,都有可能与什么gb2312,isoxxxx,utf-8,unicode,ascii扯上关系.以至于,我们每每遇到运行异常,都会"一朝被蛇咬十年怕井绳"般思考"是不是又是编码导致的". 在python里,编码问题依然是个恶心的问题.之前在VS for Python的IDE环境下,已经饱尝中文编码之苦