心情:
写代码经常遇到中文乱码问题,很烦,一气之下总结了各种编码方式(O`-`O)!!
文章内容深度较浅,详细了解可到下链接:https://blog.csdn.net/QuinnNorris/article/details/78705723;
总结了以下几种编码方式:
ASCII、GBK(GB2312、GB18030)、Unicode、UTF-8
ASCII
American Standard Code for Information Interchange
最早的编码,一个字符一个字节。没有中文字符,用这个编译中文就会乱码。
一个字节8个比特,最多表示127个字符,2^7=128,7位编码。
后来有个扩展的,有256个字符,但不是国际标准。
GBK、GB2312、GB18030
中文编码,两个字节,第一个字节最高位是1。
不同国家各有标准,如,日文:Shift_JIS、韩文:Euc-kr。
Unicode
全球统一编码,包含所有国家语言的字符。
2字节,英文第一个字节是0,所以大量英文字会浪费空间。
UTF-8
变长编码,灵活“容错率”强,可为1字节可为2字节,1-4字节。
英文上,UTF-8与ASCII一样。
中文用了三个字节。
单字节0开头,双字节110..10..开头,三字节1110..10..10..开头。
原文地址:https://www.cnblogs.com/foxer-z/p/10805283.html
时间: 2024-11-09 03:39:13