unicode是一种标准,utf-8是这种标准的一种编码方式,ascii也是一种编码方式,
一个汉字在unicode标准中占两个byte
中文汉字的unicode范围:4E00~9FA5
一个汉字在utf-8编码中占三个byte
中文汉字的utf-8编码范围:E4B880~E9BEA0
计算机中都是以字符流(byte)进行传输的,因此判定段字符流中的某一个是否是汉字,只需首先确定其是utf-8编码,然后判定其范围在E4B880~E9BEA0中即可
时间: 2024-10-13 16:25:10