java中IO及中文乱码问题

第一次发这种博客,所以一直在纠结怎么开头,干脆直奔主题吧,把自己的一些总结体会记录下来,先从简单的学习开始,希望可以慢慢坚持,以后的内容可以写的更好更有意义。

其实真正在工作中中文乱码的问题遇到的不多,那是因为公司为了开发方便所以文件都统一编码了。但是我觉得还有很有必要去稍微了解一下其原理的。

IO就是输入输出流,用面向对象来理解的话,就是输入,输出流对象,主要用来操作文件对象。所以再稍微谈谈文件的概念,即File对象。在Java中,File不是我们平时生活中指的某个具体文件,而是某个路径对象,比如说 File file=new File("D:\\aaa"); 这就是一个File对象,也许它表示的是一个文件夹,也许这个路径都不存在,但是这句代码就的的确确创建了一个表示该路径的File对象。这种写法只是不常用罢了。因为我们平时可能更多的是操作一个文本,图片等等,如File f=new File("aaa.txt");

上面简单说了IO,File是什么,接下来再谈谈这些图片,文字,视频等信息是如何保存在我们存储设备上的。个人理解是不管是什么类型的文件,都是二进制的形式保存,最小单位是1个byte,即8位01组成。所以说我们假如要拷贝一个文件,只要操作字节流就好了,即把一个文件中的所有字节拿到,写到另一个文件中就OK了,其实理论上是可以的,但是对于字符型的文件比较特殊。这也就是为什么会有中文乱码的问题出现。ASCII码表大家都很熟悉,起码都听说过,它应该算是很早出现的一种码表了吧,起初只是用来表示26个英文字母和一些特殊符号(因为计算机只识别二进制,所以要把字符用相应的字节来代替,形成一张码表)。但是随着计算机的发展,ASCII应该不够用了吧,而且很多国家应该也都有自己的一套编码方案,所以就出现了不同的编码表。常见的有GBK,UTF-8,而jvm中默认使用的是unicode编码,即以2个字节表示一个汉字,UTF-8则不一定,可能3个字节表示一个汉字,也可能更多。所以就出现了一个问题,同一个汉字在不同的码表中对应的字节码的个数和内容都不相同。所以如何解决?

我们从A磁盘上拷贝一张图片到B磁盘上,只要把A的所有字节拿到B就可以了。但是同样的方式操作一个文本其实也是可以的,前提是A和B中的文本编码要相同。因为图片不存在字节编码的问题。但是我要从网络上或者服务器去传输中文怎么办呢,肯定不能单单通过字节来实现了(因为我们不可能遇到问题就手动去更改文件的编码方式吧)。所以java中提供了字符流对象,即在字节流的基础上加上对编码的设置,达到解决乱码的问题。

废话不多说,用几个小案例来说明一下:

1,首先在当前项目下新建aa.txt,bb.txt。随便在aa中写几个中文字符。会发现这两种方式都可以实现

a,采用字符流

FileReader fr=new FileReader("aa.txt");
FileWriter fw=new FileWriter("bb.txt");
  int c;
  while((c=fr.read())!=-1){
   fw.write(c);
  }
  fr.close();
  fw.close();

b,采用字节流

FileInputStream fis=new FileInputStream("aa.txt");
FileOutputStream fos=new FileOutputStream("bb.txt");
  int b;
  while((b=fis.read())!=-1){
   fos.write(b);
  }
  fis.close();
  fos.close();

2,此时假如aa的编码方式是UTF-8的话,那么我们把bb的编码改为GBK看看,同样运行上面两种方法,全部乱码。

原因就是由于两个文件的编码方式不同,导致中文查的码表不同,所以乱码。

3,所以当两边文件的编码方式不同,我们可以在读取和写入的时候都指定与其文件对应的编码即可。

实现方式如下:

InputStreamReader isr=new InputStreamReader(new FileInputStream("aa.txt"),"utf-8");
OutputStreamWriter osw=new OutputStreamWriter(new FileOutputStream("bb.txt"),"gbk");
  char[] arr=new char[1024];
  int len;
  while((len=isr.read(arr))!=-1){
   String s=new String(arr,0,len);
   System.out.println(s);
   osw.write(s);
  }
  isr.close();
  osw.close();

代码虽然很简单,还是简单的解释一下,从API中可以发现InputStreamReader和OutputStreamWriter都是操作字符的对象,继续Reader和Writer。

主要用来把字节转成字符,字符转成字节。所以从构造中也可以发现,传入的是字节流对象。以utf-8去读取字节流转成字符,再将字符以gbk编码转成字节写入。

下面几行就不做解释了,都是基础里面的方法。构造中传入的是匿名内部类对象,还有装饰设计模式,这种写法简单了解下即可。

关于字节流和字符流其实还有很多很好用的类,比如BufferedInputStream,BufferedReader等等,再次不做赘述。

关于jvm和系统平台的编码问题,在次不做解释。

可以用String来尝试一下,观察字符串在编译和运行时的字节码及编码问题。

时间: 2024-12-23 22:16:34

java中IO及中文乱码问题的相关文章

Java中Servlet输出中文乱码问题

1.现象:字节流向浏览器输出中文,可能会乱码(IE低版本) private void byteMethod(HttpServletResponse response) throws IOException, UnsupportedEncodingException { String date = "你好"; ServletOutputStream outputStream = response.getOutputStream(); outputStream.write(date.get

java中post时中文乱码

http://blog.chinaunix.net/uid-12348673-id-3335300.html 设置流的编码,就避免了乱码 public static String post(String path,String params) throws Exception{ HttpURLConnection httpConn=null; BufferedReader in=null; //PrintWriter out=null; try { URL url=new URL(path);

IDEA中 tomcat 控制台中文乱码解决 及GsonUtils无法转换时间格式

IDEA中 tomcat 控制台中文乱码解决 1.找到tomcat 安装目录下的 conf /logging.properties 文件打开 2.将 java.util.logging.ConsoleHandler.encoding = UTF-8 修改为 java.util.logging.ConsoleHandler.encoding = GBK 3.保存后 重启idea ————————————————GsonUtils需添加时间模式 datePattern指定模式 原文地址:https:

java中IO写文件工具类

下面是一些根据常用java类进行组装的对文件进行操作的类,平时,我更喜欢使用Jodd.io中提供的一些对文件的操作类,里面的方法写的简单易懂. 其中jodd中提供的JavaUtil类中提供的方法足够我们使用,里面的方法写的非常简练,例如append,read等方法,封装更好,更符合面向对象, 这里面我写的一些方法可多都是模仿jodd,从里面进行抽取出来的. /** * 获取路径文件夹下的所有文件 * @param path * @return */ public static File[] ge

Linux中vi显示中文乱码的问题

由于在windows下默认是gb编码,而我的vim默认是utf-8(gedit默认也是utf-8),所以打开会成乱码.修改了一下配置文件,使vi支持gb编码就好了.$vi ~/.vimrclet &termencoding=&encodingset fileencodings=utf-8,gbk$:wq再次打开vi,显示就正常了.vim中编辑不同编码的文件时需要注意的一些地方此文讲解的是vim编辑多字节编码文档(中文)所要了解的一些基础知识,注意其没有涉及gvim,纯指字符终端下的vim.

JAVA中IO总结

JAVA中IO流主要分为两大类: 字节流:InputStream+OutputStream 字符流:Reader+Writer 字节流: InputStream是所有字节输入流的父类 OutputStream是所有字节输出流的父类 FileInputStream从文件中读取数据 FileOutpuStream将数据写入到文件中 ByteArrayInputStream从byte数组中读取数据 ByteArrayOutputStream将数据写入到内存中 PrintStream是一个包装类,它将数

关于JAVA中URL传递中文参数,取值是乱码的解决办法

前几天看到有网友在问URLDecoder和URLEncoder方面的使用问题,突然想起,原来我刚遇到这两个类时,也觉得很神密,由此可以想想初学者的心情,于是便有了今天的这篇文章. 其实,这两个类的使用并不复杂,URLDecoder和URLEncoder它的作用主要是用于普通字符串和application/x-www-form-rulencodedMIME字符串之间的转换,一般的人会以为后一个字符串比较专业,以为有什么高深的知识,其实不然. 下面,我们在在"百度"中搜索"网络时空",会看到如下所示

java web中get请求中文乱码在filter中解决

之前已经讲过get或者post方法的中文乱码问题,之前都是在每个方法中编写设置编码.如果程序变大,就会很繁琐,使用filter可以避免这种繁琐. 1)写一个encodingFilter进行编码设置 public class encodingFilter implements Filter { @Override public void doFilter(ServletRequest req, ServletResponse res, FilterChain arg2) throws IOExce

Java Web -- Servlet(10) 中文乱码处理专题

一.产生乱码的原因: 当浏览器通过http协议访问web服务器时,假设此时浏览器的编码是utf-8,当把请求发给web服务器时,web服务器却以ISO-8859-1编码接收,所以就产生了乱码. //设置web服务器接收时,以utf-8形式接收,如下: request.setCharacterEncoding("utf-8"); //编码方式设置和浏览器一样(还有常见的gbk.gb2312) //设置浏览器显示时,以utf-8显示. response.setContentType(&qu