java中IO及中文乱码问题

第一次发这种博客，所以一直在纠结怎么开头，干脆直奔主题吧，把自己的一些总结体会记录下来，先从简单的学习开始，希望可以慢慢坚持，以后的内容可以写的更好更有意义。

其实真正在工作中中文乱码的问题遇到的不多，那是因为公司为了开发方便所以文件都统一编码了。但是我觉得还有很有必要去稍微了解一下其原理的。

IO就是输入输出流，用面向对象来理解的话，就是输入，输出流对象，主要用来操作文件对象。所以再稍微谈谈文件的概念，即File对象。在Java中，File不是我们平时生活中指的某个具体文件，而是某个路径对象，比如说 File file=new File("D:\\aaa"); 这就是一个File对象，也许它表示的是一个文件夹，也许这个路径都不存在，但是这句代码就的的确确创建了一个表示该路径的File对象。这种写法只是不常用罢了。因为我们平时可能更多的是操作一个文本，图片等等，如File f=new File("aaa.txt");

上面简单说了IO,File是什么，接下来再谈谈这些图片，文字，视频等信息是如何保存在我们存储设备上的。个人理解是不管是什么类型的文件，都是二进制的形式保存，最小单位是1个byte，即8位01组成。所以说我们假如要拷贝一个文件，只要操作字节流就好了，即把一个文件中的所有字节拿到，写到另一个文件中就OK了，其实理论上是可以的，但是对于字符型的文件比较特殊。这也就是为什么会有中文乱码的问题出现。ASCII码表大家都很熟悉，起码都听说过，它应该算是很早出现的一种码表了吧，起初只是用来表示26个英文字母和一些特殊符号(因为计算机只识别二进制，所以要把字符用相应的字节来代替，形成一张码表)。但是随着计算机的发展，ASCII应该不够用了吧，而且很多国家应该也都有自己的一套编码方案，所以就出现了不同的编码表。常见的有GBK,UTF-8，而jvm中默认使用的是unicode编码，即以2个字节表示一个汉字，UTF-8则不一定，可能3个字节表示一个汉字，也可能更多。所以就出现了一个问题，同一个汉字在不同的码表中对应的字节码的个数和内容都不相同。所以如何解决？

我们从A磁盘上拷贝一张图片到B磁盘上，只要把A的所有字节拿到B就可以了。但是同样的方式操作一个文本其实也是可以的，前提是A和B中的文本编码要相同。因为图片不存在字节编码的问题。但是我要从网络上或者服务器去传输中文怎么办呢，肯定不能单单通过字节来实现了(因为我们不可能遇到问题就手动去更改文件的编码方式吧)。所以java中提供了字符流对象，即在字节流的基础上加上对编码的设置，达到解决乱码的问题。

废话不多说，用几个小案例来说明一下：

1，首先在当前项目下新建aa.txt,bb.txt。随便在aa中写几个中文字符。会发现这两种方式都可以实现

a，采用字符流

FileReader fr=new FileReader("aa.txt");
FileWriter fw=new FileWriter("bb.txt");
  int c;
  while((c=fr.read())!=-1){
   fw.write(c);
  }
  fr.close();
  fw.close();

b，采用字节流

FileInputStream fis=new FileInputStream("aa.txt");
FileOutputStream fos=new FileOutputStream("bb.txt");
  int b;
  while((b=fis.read())!=-1){
   fos.write(b);
  }
  fis.close();
  fos.close();

2,此时假如aa的编码方式是UTF-8的话，那么我们把bb的编码改为GBK看看，同样运行上面两种方法，全部乱码。

原因就是由于两个文件的编码方式不同，导致中文查的码表不同，所以乱码。

3，所以当两边文件的编码方式不同，我们可以在读取和写入的时候都指定与其文件对应的编码即可。

实现方式如下：

InputStreamReader isr=new InputStreamReader(new FileInputStream("aa.txt"),"utf-8");
OutputStreamWriter osw=new OutputStreamWriter(new FileOutputStream("bb.txt"),"gbk");
  char[] arr=new char[1024];
  int len;
  while((len=isr.read(arr))!=-1){
   String s=new String(arr,0,len);
   System.out.println(s);
   osw.write(s);
  }
  isr.close();
  osw.close();

代码虽然很简单，还是简单的解释一下，从API中可以发现InputStreamReader和OutputStreamWriter都是操作字符的对象，继续Reader和Writer。

主要用来把字节转成字符，字符转成字节。所以从构造中也可以发现，传入的是字节流对象。以utf-8去读取字节流转成字符，再将字符以gbk编码转成字节写入。

下面几行就不做解释了，都是基础里面的方法。构造中传入的是匿名内部类对象，还有装饰设计模式，这种写法简单了解下即可。

关于字节流和字符流其实还有很多很好用的类，比如BufferedInputStream,BufferedReader等等，再次不做赘述。

关于jvm和系统平台的编码问题，在次不做解释。

可以用String来尝试一下，观察字符串在编译和运行时的字节码及编码问题。

时间： 2024-12-23 22:16:34

java中IO及中文乱码问题

java中IO及中文乱码问题的相关文章

Java中Servlet输出中文乱码问题

java中post时中文乱码

IDEA中 tomcat 控制台中文乱码解决及GsonUtils无法转换时间格式

java中IO写文件工具类

Linux中vi显示中文乱码的问题

JAVA中IO总结

关于JAVA中URL传递中文参数，取值是乱码的解决办法

java web中get请求中文乱码在filter中解决

Java Web -- Servlet(10) 中文乱码处理专题