unicode utf-8 ascii 区别与联系

unicode是一种标准,utf-8是这种标准的一种编码方式,ascii也是一种编码方式,

一个汉字在unicode标准中占两个byte

中文汉字的unicode范围:4E00~9FA5

一个汉字在utf-8编码中占三个byte

中文汉字的utf-8编码范围:E4B880~E9BEA0

计算机中都是以字符流(byte)进行传输的,因此判定段字符流中的某一个是否是汉字,只需首先确定其是utf-8编码,然后判定其范围在E4B880~E9BEA0中即可

时间: 2024-10-13 16:25:10

unicode utf-8 ascii 区别与联系的相关文章

UTF与ascii区别

由于世界各地有很多语言,ascii的8个位不够用,世界各国就扩展位来表示他们当地语言,导致一个字符的位数不一样,于是iso就制定了UTF来统一标准. 参考:http://www.imkevinyang.com/2009/02/%E5%AD%97%E7%AC%A6%E7%BC%96%E8%A7%A3%E7%A0%81%E7%9A%84%E6%95%85%E4%BA%8B%EF%BC%88ascii%EF%BC%8Cansi%EF%BC%8Cunicode%EF%BC%8Cutf-8%E5%8C%B

字符编码中ASCII、Unicode和UTF-8的区别

最早只有127个字母被编码到计算机里,也就是大小写英文字母.数字和一些符号,这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母z的编码是122. 但是要处理中文显然一个字节是不够的,至少需要两个字节,而且还不能和ASCII编码冲突,所以,中国制定了GB2312编码,用来把中文编进去. 你可以想得到的是,全世界有上百种语言,日本把日文编到Shift_JIS里,韩国把韩文编到Euc-kr里,各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码.

从字符集发展史看Unicode和UTF-8的区别

从字符集发展史看Unicode和UTF-8的区别 版权声明 本文并非本人原创,其内容来源于网络,本文根据其演绎而来,具体出出已经无法考证,在这里只好给出我所参考的连接. 知乎 https://www.zhihu.com/question/23374078/answer/69732605 于洋的回答 ASCII编码 我们都知道计算机来源于美国,并且计算机它比较笨,只知道 0 和 1 也就是电路的通和断(0或1即是一个二进制位).那么美国人怎么使用计算机来存储他们的信息呢? 他们想了一个办法.将8个

UNICODE与ANSI的区别

什么是ANSI,什么又是UNICODE呢?其实这是两种不同的编码方式标准,ANSI中的字符采用8bit,而UNICODE中的字符采用16bit.(对于字符来说ANSI以单字节存放英文字符,以双字节存放中文等字符,而Unicode下,英文和中文的字符都以双字节存放)Unicode码也是一种国际标准编码,采用二个字节编码,与ANSI码不兼容.目前,在网络.Windows系统和很多大型软件中得到应用.8bit的ANSI编码只能表示256种字符,表示26个英文字母是绰绰有余的,但是表示汉字,韩国语等有着

Native2asciiUtil 文本文件转UNICODE编码文件(支持UTF-8,Unicode,UTF-16BE,ANSI|ASCII,GBK)

package com.ctl.util; import java.io.File; import java.io.IOException; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; /** * * @author Administrator * @Description \u5C06\u6587\u672C\u6587\u4EF6\u8F6C\

关于ANSI,unicode与utf-8的区别

关于ANSI,unicode与utf-8的区别 非常好的一篇文章,值得一看,特转之 关于编码ansi.GB2312.unicode与utf-8的区别 先做一个小小的试验: 在一个文件夹里,把一个txt文本(文本里包含“今天的天气非常好”这句话)分别另存为ansi.unicode.utf-8这三种编码的txt文件.然后,在该文件夹上点击右键,选择“搜索(E)…”. 搜索“天气”二字,可以搜索出ansi和unicode这两种编码的txt文件,搜索不出utf-8编码的文件. 原因: 1.中文操作系统默

Unicode, UTF, ASCII, ANSI format differences

Going down your list: "Unicode" isn't an encoding, although unfortunately, a lot of documentation imprecisely uses it to refer to whichever Unicode encoding that particular system uses by default. On Windows and Java, this often means UTF-16; in

简单的看Unicode和UTF-8的区别

作者:uuspider链接:http://www.zhihu.com/question/23374078/answer/65352538来源:知乎著作权归作者所有,转载请联系作者获得授权. 举一个例子:It's 知乎日报 你看到的unicode字符集是这样的编码表: I 0049 t 0074 ' 0027 s 0073 0020 知 77e5 乎 4e4e 日 65e5 报 62a5 每一个字符对应一个十六进制数字. 计算机只懂二进制,因此,严格按照unicode的方式(UCS-2),应该这样

Unicode 和 UTF-8 的区别,你能说出来吗?不能或许要开小灶了!

不知道大家平时在学习Python的过程有没有注意过Unicode 和 UTF-8 呢?,Unicode 和 UTF-8 的概念虽然是非常基础的,但是却极其重要,今天我们就来探讨探讨Unicode 和 UTF-8 的概念. 想学Python或者对Python感兴趣的老铁,可以加群571799375,群里有适合Python初学者学习的资料(2018最新版Python资料),免费送给大家! 字符集 在计算机系统中,所有的数据都以二进制存储,所有的运算也以二进制表示,人类语言和符号也需要转化成二进制的形