【字符编码】Java字符编码详细解答及问题探讨

一、前言

  继上一篇写完字节编码内容后,现在分析在Java中各字符编码的问题,并且由这个问题,也引出了一个更有意思的问题,笔者也还没有找到这个问题的答案。也希望各位园友指点指点。

二、Java字符编码

  直接上代码进行分析似乎更有感觉。 

 

  运行结果:   

 

  说明:通过结果我们知道如下信息。

  1. 在Java中,中文在用ASCII码表示为3F,实际对应符号‘?‘,用ISO-8859-1表示为3F,实际对应符号也是为‘?‘,这意味着中文已经超出了ASCII和ISO-8859-1的表示范围。

  2. UTF-16采用大端存储,即在字节数组前添加了FE FF,并且FE FF也算在了字符数组长度中。

  3. 指定UTF-16的大端(UTF-16BE)或者小端(UTF-16LE)模式后,则不会有FE FF 或 FF FE控制符,相应的字节数组大小也不会包含控制符所占的大小。

  4. Unicode表示与UTF-16相同。

  5. getBytes()方法默认是采用UTF-8。

三、char表示问题

  我们知道,在Java中char类型为两个字节长度,我们来看下一个示例。 

public class Test {
    public static void main(String[] args) throws Exception {
        char ch1 = ‘a‘;    // 1
        char ch2 = ‘李‘; // 2
        char ch3 = ‘\uFFFF‘; // 3
        char ch4 = ‘\u10000‘; // 4

    }
}

  问题:读者觉得这样的代码能够编译通过吗?如不能编码通过是为什么,又具体是那一行代码出现了错误?

  分析:把这个示例拷贝到Eclipse中,定位到错误,发现是第四行代码出现了错误,有这样的提示,Invalid character constant。

  解答:问题的关键就在于char类型为两个字节长度,Java字符采用UTF-16编码。而‘\u10000‘显然已经超过了两个字节所能表示的范围了,一个char无法表示。说得更具体点,就是char表示的范围为Unicode表中第零平面(BMP),从0000 - FFFF(十六进制),而在辅助平面上的码位,即010000 - 10FFFF(十六进制),必须使用四个字节进行表示。

  有了这个理解后,我们看下面的代码  

public class Test {
    public static void main(String[] args) throws Exception {
        char ch1 = ‘a‘;
        char ch2 = ‘李‘;
        char ch3 = ‘\uFFFF‘;
        String str = "\u10000";
        System.out.println(String.valueOf(ch1).length());
        System.out.println(String.valueOf(ch2).length());
        System.out.println(String.valueOf(ch3).length());
        System.out.println(str.length());
    }
}

  运行结果:

1
1
1
2

  说明:从结果我们可以知道,所有在BMP上的码点(包括‘a‘、‘李‘、‘\uFFFF‘)的长度都是1,所有在辅助平面上的码点的长度都是2。注意区分字符串的length函数与字节数组的length字段的差别。

四、问题的发现

  在写Java小程序时,笔者一般不会打开Eclispe,而是直接在NodePad++中编写,然后通过javac、java命令运行程序,查看结果。也正是由于这个习惯,发现了如下的问题,请听笔者慢慢道来,来请园友们指点指点。

  有如下简单程序,请忽略字符串的含义。

public class Test {
    public static void main(String[] args) throws Exception {
        String str = "我我我我我我我\uD843\uDC30";
        System.out.println(str.length());
    }
}

  说明:程序功能很简单,就是打印字符串长度。

  4.1 两种编译方法

  1. 笔者通过javac Test.java进行编译,编译通过。然后通过java Test运行程序,运行结果如下:

  

  说明:根据结果我们可以推测,字符‘我‘为长度1,\uD843\uDC30为长度10,其中\u为长度1。

  2. 笔者通过javac -encoding utf-8 Test.java进行编译,编译通过。然后通过java Test运行程序,运行结果如下:

  

  说明:这个结果很好理解,字符‘我‘、\uD843、\uDC30都在BMP,都为长度1,故总共为9。

  通过两种编译方法,得到的结果不相同,经过查阅资料知道javac Test.java默认的是采用GBK编码,就像指定javac -encoding gbk Test.java进行编译。

  4.2. 查看class文件

  1. 查看java Test.java的class文件,使用winhex打开,结果如下:

  说明:图中红色标记给出了字符串"我我我我我我我\uD843\uDC30"大致所在位置。因为前面我们分析过,class文件的存储使用UTF-8编码,于是,先算E9 8E B4,得到Unicode码点为94B4(十六进制),查阅Unicode表,发现表示字符为‘鎴‘,这完全和‘我‘没有关系。并且E9 8E B4 后面的E6 88 9E,和E9 8E B4也不相等,照理说,相同的字符编码应该相同。后来发现,红色标记地方好像有点规则,就是E9 8E B4 E6 88 9E E5 9E 9C(九个字节)表示‘我我‘,重复循环了3次,表示字符‘我我我我我我‘,之后的E9 8E B4 E6 85(五个字节)表示‘我‘,总共7个‘我‘,很明显又出现疑问了。

  猜测是因为使用javac Test.java进行编译,采用的是GBK编码,而class文件存储的格式为UTF-8编码。这两种操作中肯定含有某种转化关系,并且最后的class文件中也加入相应的信息。

  2. 查看java -encoding -utf-8 Test.java的class文件,使用winhex打开,结果如下:

  说明:红色标记给出了字符串的大体位置,E6 88 91,经过计算,确实对应字符‘我‘。这是没有疑问的。

  4.3 针对疑问的探索

  1. 又改变了字符串的值,使用如下代码:

public class Test {
    public static void main(String[] args) throws Exception {
        String str = "我我coder";
        System.out.println(str.length());
    }
}

  同样,使用javac Test.java、java Test命令。得到结果为:

  

  这就更加疑惑了。为什么会得到8。

  2. 查阅资料结果

   在Javac时,若没有指定-encoding参数指定Java源程序的编码格式,则javac.exe首先获得我们操作系统默认采用的编码格式,也即在编译java程序时,若我们不指定源程序文件的编码格式,JDK首先获得操作系统的file.encoding参数(它保存的就是操作系统默认的编码格式,如WIN2k,它的值为GBK),然后JDK就把我们的java源程序从file.encoding编码格式转化为Java内部默认的UTF-16格式放入内存中。之后会输出class文件,我们知道class是以UTF-8方式编码的,它内部包含我们源程序中的中文字符串,只不过此时它己经由file.encoding格式转化为UTF-8格式了。

五、问题提出

  1. 使用javac Test.java编译后,为何会得到上述class文件的格式(即GBK -> UTF16 -> UTF8具体是如何实现的)。

  2. 使用javac Test.java编译后,为何得到的结果一个是17,而另外一个是8。

六、总结

  探索的过程有很意思,这个问题暂时还没有解决,以后遇到该问题的答案会贴出来,也欢迎有想法的读者进行交流探讨。谢谢各位园友的观看~

参考链接:

http://blog.csdn.net/xiunai78/article/details/8349129

  

  

时间: 2024-08-23 19:59:06

【字符编码】Java字符编码详细解答及问题探讨的相关文章

【Java基础】Java中的char是否可以存储一个中文字符之理解字符字节以及编码集

Java中的一个char采用的是Unicode编码集,占用两个字节,而一个中文字符也是两个字节,因此Java中的char是可以表示一个中文字符的. 但是在C/C++中由于采用的字符编码集是ASCII,只有一个字节,因此是没办法表示一个中文字符的. 解答了上面的浅显易懂的问题之后,下面彻底理清楚字符 字节以及编码的原理. 其实关于编码以及字节的问题,在腾讯实习生一面的时候也问到过,当时搞不懂面试官为什么会问这个问题,现在想想,这个问题还是很考验一个人的思考以及钻研深度的,而且这个问题远远比自己想象

Java 字符编码归纳总结

String newStr = new String(oldStr.getBytes(), "UTF-8");       java中的String类是按照unicode进行编码的,当使用String(byte[] bytes, String encoding)构造字符串时,encoding所指的是bytes中的数据是按照那种方式编码的,而不是最后产生的String是什么编码方式,换句话说,是让系统把bytes中的数据由encoding编码方式转换成unicode编码.如果不指明,by

java字符编码转换过程(转)

在Java中,String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组.这个表示在不通OS下,返回的东西不一样! String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示,如 byte[] b_gbk = "中".getBytes("GBK"); byte[] b_utf8 = "中".getBytes("UTF-8"); by

java字符编码详解

引用自:http://blog.csdn.net/jerry_bj/article/details/5714745 GBK.GB2312.iso-8859-1之间的区别 GB2312,由中华人民共和国政府制定的,简体汉字编码规范,大陆所有计算机中的简体中文,都使用此种编码格式.目前,我也不知道还有另外的简体汉字编码规范.与此对应的还有BIG5,是中华民国政府制定的,繁体汉字的编码规范,一般应用于海外计算机的繁体中文显示.所谓的繁体中文Windows,简体中文Windows,指的就是采用BIG5和

Java 编码与字符

一.字符集介绍 ANSI:American National Standards Institute.中文:美国国家标准学会 不同国家的和地区为此制定了不同标准,由此产生了 GB2312.GBK.Big5.Shift_JIS 等各自的编码标准.这些使用 1 至 4 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码.在简体中文Windows操作系统中,ANSI 编码代表 GBK 编码:在日文Windows操作系统中,ANSI 编码代表 Shift_JIS 编码. 不同 ANSI 编

Java 编码与字符(2)

转载自:http://lavasoft.blog.51cto.com/62575/273608/ Java开发中,常常会遇到乱码的问题,一旦遇到这种问题,常常就很扯蛋,每个人都不愿意承认是自己的代码有问题.其实编码问题并没有那么神秘,那么不可捉摸,搞清Java的编码本质过程就真相大白了. 先看个图: 其实,编码问题存在两个方面:JVM之内和JVM之外. 1.Java文件编译后形成class 这里Java文件的编码可能有多种多样,但Java编译器会自动将这些编码按照Java文件的编码格式正确读取后

Java字符编码的转化问题

概述: 我想字符串的编码问题的确会困扰到非常多开发人员.我近期也是被困扰到了. 问题是这种,我们通过二维码扫描来获得二维码中的信息.可是.我们的二维码的产生过程却是"多样化"的.即在产生二维码的时候是以不同的字符串编码类型进行编码的.比方,GBK.GB2312.UTF-8等等.而这些不同的编码类型会产生不同的字节.在Java中.GBK和GB2312都是1个汉字占2个字节,UTF-8是1个汉字占3个字节.而ISO编码则是1上汉字1个字节.这样一来,我们在扫描二维码的时候就会出现一些&qu

java字符编码转换

在开发的过程中,字符编码常常令我们头痛.经常会出现各种各样的乱码.下面就介绍java的编码转换和常见的乱码是使用什么样的编码去读取的: 先看一张图片: 在看看java中如何处理编码的转换: package com.test; /** * 字符串编码转换 * @author Herman.xiong * @date 2015年7月16日09:36:59 * @version V3.0 * @since Tomcat6.0,Jdk1.6 * @copyright Copyright (c) 2015

java字符编码

java中的文字是16位整数(2个byte)序列,文件中的数据是8位的byte序列,如何将字符char转为byte -- 编码 字符编码(char encoding):将字符序列拆分为byte序列的拆分方法称为字符的编码 (1)UTF-16BE:将字符切两半,String.getByte("utf-16be"),支持65535个字符,中英文都是两个byte,定长编码,缺点是,英文浪费时间,只能支持unicode 4.0 (2)UTF-8:采用的是变长编码,1-4字节,按照数值从小到大采