4.2.3 标准编码

Python内置了很多编码的字符集处理,有些是使用C语言实现,有些是使用字典映射方式实现。下表按名称排序的字符集表,有些名称是可以别的名称的,比如utf-8也可以使用名称utf_8来表查找。CPython实现与其它实现有一些差别,针对一些编码字符集作了优化,如果使用这些字符集之外的字符集可能速度比较慢。优化的字符集:utf-8, utf8, latin-1, latin1, iso-8859-1, mbcs (Windows only), ascii, utf-16, and utf-32。有些字符集支持不同的语言,也有一些独立的字符集。

Codec


Aliases


Languages


ascii


646, us-ascii


English


big5


big5-tw, csbig5


Traditional Chinese


big5hkscs


big5-hkscs, hkscs


Traditional Chinese


cp037


IBM037, IBM039


English


cp273


273, IBM273, csIBM273


German

New in version 3.4.


cp424


EBCDIC-CP-HE, IBM424


Hebrew


cp437


437, IBM437


English


cp500


EBCDIC-CP-BE, EBCDIC-CP-CH, IBM500


Western Europe


cp720


Arabic


cp737


Greek


cp775


IBM775


Baltic languages


cp850


850, IBM850


Western Europe


cp852


852, IBM852


Central and Eastern Europe


cp855


855, IBM855


Bulgarian, Byelorussian, Macedonian, Russian, Serbian


cp856


Hebrew


cp857


857, IBM857


Turkish


cp858


858, IBM858


Western Europe


cp860


860, IBM860


Portuguese


cp861


861, CP-IS, IBM861


Icelandic


cp862


862, IBM862


Hebrew


cp863


863, IBM863


Canadian


cp864


IBM864


Arabic


cp865


865, IBM865


Danish, Norwegian


cp866


866, IBM866


Russian


cp869


869, CP-GR, IBM869


Greek


cp874


Thai


cp875


Greek


cp932


932, ms932, mskanji, ms-kanji


Japanese


cp949


949, ms949, uhc


Korean


cp950


950, ms950


Traditional Chinese


cp1006


Urdu


cp1026


ibm1026


Turkish


cp1125


1125, ibm1125, cp866u, ruscii


Ukrainian

New in version 3.4.


cp1140


ibm1140


Western Europe


cp1250


windows-1250


Central and Eastern Europe


cp1251


windows-1251


Bulgarian, Byelorussian, Macedonian, Russian, Serbian


cp1252


windows-1252


Western Europe


cp1253


windows-1253


Greek


cp1254


windows-1254


Turkish


cp1255


windows-1255


Hebrew


cp1256


windows-1256


Arabic


cp1257


windows-1257


Baltic languages


cp1258


windows-1258


Vietnamese


cp65001


Windows only: Windows UTF-8 (CP_UTF8)

New in version 3.3.


euc_jp


eucjp, ujis, u-jis


Japanese


euc_jis_2004


jisx0213, eucjis2004


Japanese


euc_jisx0213


eucjisx0213


Japanese


euc_kr


euckr, korean, ksc5601, ks_c-5601, ks_c-5601-1987, ksx1001, ks_x-1001


Korean


gb2312


chinese, csiso58gb231280, euc- cn, euccn, eucgb2312-cn, gb2312-1980, gb2312-80, iso- ir-58


Simplified Chinese


gbk


936, cp936, ms936


Unified Chinese


gb18030


gb18030-2000


Unified Chinese


hz


hzgb, hz-gb, hz-gb-2312


Simplified Chinese


iso2022_jp


csiso2022jp, iso2022jp, iso-2022-jp


Japanese


iso2022_jp_1


iso2022jp-1, iso-2022-jp-1


Japanese


iso2022_jp_2


iso2022jp-2, iso-2022-jp-2


Japanese, Korean, Simplified Chinese, Western Europe, Greek


iso2022_jp_2004


iso2022jp-2004, iso-2022-jp-2004


Japanese


iso2022_jp_3


iso2022jp-3, iso-2022-jp-3


Japanese


iso2022_jp_ext


iso2022jp-ext, iso-2022-jp-ext


Japanese


iso2022_kr


csiso2022kr, iso2022kr, iso-2022-kr


Korean


latin_1


iso-8859-1, iso8859-1, 8859, cp819, latin, latin1, L1


West Europe


iso8859_2


iso-8859-2, latin2, L2


Central and Eastern Europe


iso8859_3


iso-8859-3, latin3, L3


Esperanto, Maltese


iso8859_4


iso-8859-4, latin4, L4


Baltic languages


iso8859_5


iso-8859-5, cyrillic


Bulgarian, Byelorussian, Macedonian, Russian, Serbian


iso8859_6


iso-8859-6, arabic


Arabic


iso8859_7


iso-8859-7, greek, greek8


Greek


iso8859_8


iso-8859-8, hebrew


Hebrew


iso8859_9


iso-8859-9, latin5, L5


Turkish


iso8859_10


iso-8859-10, latin6, L6


Nordic languages


iso8859_13


iso-8859-13, latin7, L7


Baltic languages


iso8859_14


iso-8859-14, latin8, L8


Celtic languages


iso8859_15


iso-8859-15, latin9, L9


Western Europe


iso8859_16


iso-8859-16, latin10, L10


South-Eastern Europe


johab


cp1361, ms1361


Korean


koi8_r


Russian


koi8_u


Ukrainian


mac_cyrillic


maccyrillic


Bulgarian, Byelorussian, Macedonian, Russian, Serbian


mac_greek


macgreek


Greek


mac_iceland


maciceland


Icelandic


mac_latin2


maclatin2, maccentraleurope


Central and Eastern Europe


mac_roman


macroman, macintosh


Western Europe


mac_turkish


macturkish


Turkish


ptcp154


csptcp154, pt154, cp154, cyrillic-asian


Kazakh


shift_jis


csshiftjis, shiftjis, sjis, s_jis


Japanese


shift_jis_2004


shiftjis2004, sjis_2004, sjis2004


Japanese


shift_jisx0213


shiftjisx0213, sjisx0213, s_jisx0213


Japanese


utf_32


U32, utf32


all languages


utf_32_be


UTF-32BE


all languages


utf_32_le


UTF-32LE


all languages


utf_16


U16, utf16


all languages


utf_16_be


UTF-16BE


all languages


utf_16_le


UTF-16LE


all languages


utf_7


U7, unicode-1-1-utf-7


all languages


utf_8


U8, UTF, utf8


all languages


utf_8_sig


all languages

蔡军生 QQ:9073204 深圳

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-06 16:27:30

4.2.3 标准编码的相关文章

建立标准编码规则-自定义C#代码分析器

1.下载Roslyn的Visual Studio分析器模板插件(VS2015 或VS2017) https://marketplace.visualstudio.com/items?itemName=VisualStudioProductTeam.NETCompilerPlatformSDK 我后来查询到官方说明vs2017已经内嵌了此功能 Want to start developing in C# and Visual Basic? Download Visual Studio 2017,

建立标准编码规则-罗斯林语法工具 Roslyn Syntax Visualizer

当我们要编写一个规则,例如 检测正值表达式的时候,如何编写有效的规则呢 Regex.Match("my text", @"\pXXX"); 这里我们可以借助分析工具 Roslyn Syntax Visualizer,在 视图>其他窗口>Syntax Visualizer 当我们在ConsoleApp项目中编写如下代码 namespace ConsoleApp1 { class Program { static void Main(string[] arg

建立标准编码规则(五)-工程结构

为什么 1 好的项目工程结构事过功倍 2 好的项目工程结构可以复用 3 建立标准化,增加可读性易维护性 工程结构原则 1 非业务与业务部分分开 例如我们的静态函数方法放一个类库,这种类库是千万年不变的 2 通用业务功能编写接口并独立于业务项目之外包括缓存.日志.定时任务.事件.异常等 例如我们所有的项目都有日志,异常处理,那么我们可以编写接口规范 3 DAO 数据访问层独立于服务层Services 4 外部第三方库或第三方接口api独立管理 5 服务层Services编写业务逻辑 6 展示层使用

PHP-FIG PSR-1 # 基本编码标准

本标准包含了 对 用于保障 PHP共享代码的互操作性 的标准编码元素. The key words "MUST 必须", "MUST NOT 必须不", "REQUIRED 需要", "SHALL 将要", "SHALL NOT 将不", "SHOULD 应该", "SHOULD NOT不应该", "RECOMMENDED 推荐的", "

java字符编码详解

引用自:http://blog.csdn.net/jerry_bj/article/details/5714745 GBK.GB2312.iso-8859-1之间的区别 GB2312,由中华人民共和国政府制定的,简体汉字编码规范,大陆所有计算机中的简体中文,都使用此种编码格式.目前,我也不知道还有另外的简体汉字编码规范.与此对应的还有BIG5,是中华民国政府制定的,繁体汉字的编码规范,一般应用于海外计算机的繁体中文显示.所谓的繁体中文Windows,简体中文Windows,指的就是采用BIG5和

12.30 字符集和字符编码(Charset & Encoding)(转载)

——每个软件开发人员应该无条件掌握的知识! ——Unicode伟大的创想! 相信大家一定碰到过,打开某个网页,却显示一堆像乱码,如"б?ЯАзЪСЯ"."?????????"?还记得HTTP中的Accept-Charset.Accept-Encoding.Accept-Language.Content-Encoding.Content-Language等消息头字段?这些就是接下来我们要探讨的. 目录: 1.基础知识 2.常用字符集和字符编码 2.1. ASCII字符

python的 随手记----字符编码与转码

一.前提 那么到底什么是编码呢? //ASCII 记住一句话:计算机中的所有数据,不论是文字.图片.视频.还是音频文件,本质上最终都是按照类似 01010101 的二进制存储的. 再说简单点,计算机只懂二进制数字! 所以,目的明确了:如何将我们能识别的符号唯一的与一组二进制数字对应上?于是美利坚的同志想到通过一个电平的高低状态来代指0或1, 八个电平做为一组就可以表示出 256种不同状态,每种状态就唯一对应一个字符,比如A--->00010001,而英文只有26个字符,算上一些特殊字符和数字,1

字符集和字符编码(Charset & Encoding)

相信大家一定碰到过,打开某个网页,却显示一堆像乱码,如"б?ЯАзЪСЯ"."?????????"?还记得HTTP中的Accept-Charset.Accept-Encoding.Accept-Language.Content-Encoding.Content-Language等消息头字段?这些就是接下来我们要探讨的. 目录: 1.基础知识 2.常用字符集和字符编码 2.1. ASCII字符集&编码 2.2. GBXXXX字符集&编码 2.3. BI

[转]py编码终极版

py编码终极版 原文链接:http://www.cnblogs.com/yuanchenqi/articles/5956943.html 一 什么是编码? 基本概念很简单.首先,我们从一段信息即消息说起,消息以人类可以理解.易懂的表示存在.我打算将这种表示称为"明文"(plain text).对于说英语的人,纸张上打印的或屏幕上显示的英文单词都算作明文. 其次,我们需要能将明文表示的消息转成另外某种表示,我们还需要能将编码文本转回成明文.从明文到编码文本的转换称为"编码&qu