Java文件编码格式转换

转自博文《Java文件编码格式转换》:

默认被转换的格式为GBK,转换成的格式为UTF-8

import info.monitorenter.cpdetector.CharsetPrinter;

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.io.UnsupportedEncodingException;
import java.io.Writer;

public class EncodeFormatTransfer {

  public static String DefaultSrcEncodeFormat = "GBK";
  public static String DefaultDestEncodeFormat = "UTF-8";
  public static String UnsupportedEncodingExceptionError = "编码格式错误!";
  public static String FileNotFoundExceptionError = "文件不存在!";
  public static String IOExceptionError = "文件读写错误!";
  public static String IsUtf8File = "文件是UTF-8编码格式!";
  public static String IsNotUtf8File = "文件不是UTF-8编码格式!";
  public static String readFile(String path,String encodeFormat){
  if((encodeFormat==null || encodeFormat.equals(""))){
  if(isUTF8File(path))
    encodeFormat = DefaultDestEncodeFormat;
  else 
    encodeFormat = DefaultSrcEncodeFormat;
  }
  try {
    String context = "";
    InputStreamReader isr;
    isr = new InputStreamReader(new FileInputStream(path),encodeFormat);
    BufferedReader br=new BufferedReader(isr);
    String line;
    while((line=br.readLine())!=null){
      context += line + "\r\n";
      System.out.println(line);
  }
  br.close();
  return context;
  } catch (UnsupportedEncodingException e) {
    // TODO Auto-generated catch block
    System.out.println(UnsupportedEncodingExceptionError);
    e.printStackTrace();
  } catch (FileNotFoundException e) {
    // TODO Auto-generated catch block
    System.out.println(FileNotFoundExceptionError);
    e.printStackTrace();
  }catch (IOException e) {
    // TODO Auto-generated catch block
    System.out.println(IOExceptionError);
    e.printStackTrace();
  };
  return "";   
}

/*public static boolean isUTF8File(String path){
  try {
    File file = new File(path);
    CharsetPrinter detector = new CharsetPrinter();   
    String charset = detector.guessEncoding(file);
    InputStream in = new java.io.FileInputStream(file);
    byte[] b = new byte[3];
    in.read(b);
    in.close();
    System.out.println(b[0] + " " + b[1] + " " + b[2]);
    if (b[0] == 0xEF && b[1] == 0xBB && b[2] == 0XBF){
      System.out.println(IsUtf8File);
          return true;
        }
          if (b[0] == -17 && b[1] == -69 && b[2] == -65){
          System.out.println(IsUtf8File);
          return true;
        }
  } catch (FileNotFoundException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
    System.out.println(FileNotFoundExceptionError);
  }catch (IOException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
    System.out.println(IOExceptionError);
  }
  System.out.println(IsNotUtf8File);
  return false;   
}*/
public static boolean isUTF8File(String path){
  try {
    File file = new File(path);
    CharsetPrinter detector = new CharsetPrinter();   
    String charset = detector.guessEncoding(file);
    if(charset.equalsIgnoreCase(DefaultDestEncodeFormat)){
      System.out.println(IsUtf8File);
      return true;
    }
  } catch (FileNotFoundException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
    System.out.println(FileNotFoundExceptionError);
  }catch (IOException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
    System.out.println(IOExceptionError);
  }
  System.out.println(IsNotUtf8File);
  return false;   
}

public static String transfer(String context,String encodeFormat) {
  if(encodeFormat==null || encodeFormat.equals(""))
    encodeFormat = DefaultDestEncodeFormat;
  try {
    byte[] content = context.getBytes();
    String result = new String(content,encodeFormat);
    return result;
  } catch (UnsupportedEncodingException e) {
    // TODO Auto-generated catch block
    System.out.println(UnsupportedEncodingExceptionError);
    e.printStackTrace();
  }
  return "";
}

public static void writeFile(String context,String path,String destEncode){
  File file = new File(path);
  if(file.exists())
    file.delete();
  BufferedWriter  writer;
  try {
    FileOutputStream fos = new FileOutputStream(path,true);    
    writer = new BufferedWriter(new OutputStreamWriter(fos, destEncode));
    writer.append(context);
    writer.close();
  } catch (IOException e) {
    System.out.println(IOExceptionError);
    e.printStackTrace();
  }
}

public static void writeFile(String context,String path){
  File file = new File(path);
  if(file.exists())
  file.delete();
  Writer  writer;
  try {
    writer = new FileWriter(file, true);
    writer.append(context);
    writer.close();
  } catch (IOException e) {
    System.out.println(IOExceptionError);
    e.printStackTrace();
  }
}

public static void transfer(String srcPath,String destPath,String srcEncode,String destEncode){
  if(destPath==null || destPath.equals(""))
    destPath = srcPath;

  String context = readFile(srcPath,srcEncode);
  context = transfer(context,destEncode);
  writeFile(context,destPath,destEncode);
}

public static void transfer(String srcPath,String destPath,String destEncode){
  if(isUTF8File(srcPath)){
    transfer(srcPath,destPath,DefaultDestEncodeFormat,destEncode);
  }else{
    transfer(srcPath,destPath,DefaultSrcEncodeFormat,destEncode);
  }
}

public static void main(String args[]){
  String path1 = "f:/Notepad1.java";
  String path2 = "f:/Notepad2.java";
  transfer(path1,path2,"UTF-8");
  transfer(path1,path2,"UTF-8","UTF-8");
}
}

java读取文件,处理过程中,可能因为文件的编码问题导致了中文乱码。有时需要将UTF-8的改为ANSI的编码。以下代码就可以判断文件是什么编码方式。
主要jar包:cpdetector.jar

下载地址: http://cpdetector.sourceforge.net/

同时还需jchardet-1.0.jar这个包,否则detector.add(cpdetector.io.JChardetFacade.getInstance());  会报错;

下载地址: http://www.jarfinder.com/index.php/jars/versionInfo/40297

还有一个antlr.jar,不然运行过程中detector.add(new ParsingDetector(false));会报错;

下载地址: http://www.java2s.com/Code/Jar/ABC/Downloadantlrjar.htm

时间: 2024-11-03 12:38:32

Java文件编码格式转换的相关文章

linux 文件编码格式转换

如果你需要在Linux中操作windows下的文件,那么你可能会经常遇到文件编码转换的问题.Windows中默认的文件格式是GBK(gb2312),而Linux一般都是UTF-8.下面介绍一下,在Linux中如何查看文件的编码及如何进行对文件进行编码转换. 查看文件编码 在Linux中查看文件编码可以通过以下几种方式: 1.在Vim中可以直接查看文件编码 :set fileencoding 即可显示文件编码格式. 如果你只是想查看其它编码格式的文件或者想解决用Vim查看文件乱码的问题,那么你可以

Linux下查看文件编码,文件编码格式转换和文件名编码转换

linux相关   2008-10-07 10:46   阅读1392   评论0   字号: 大大  中中  小小  如果你需要在Linux中 操作windows下的文件,那么你可能会经常遇到文件编码转换的问题.Windows中默认的文件格式是GBK(gb2312),而Linux一般都是 UTF-8.下面介绍一下,在Linux中如何查看文件的编码及如何进行对文件进行编码转换. 查看文件编码 在Linux中查看文件编码可以通过以下几种方式: 1.在Vim中可以直接查看文件编码 :set file

VIM查看文件编码 文件编码格式转换 文件名编码转换.

如果你需要在Linux中操作windows下的文件,那么你可能会经常遇到文件编码转换的问题.Windows中默认的文件格式是GBK(gb2312),而Linux一般都是UTF-8.下面介绍一下,在Linux中如何查看文件的编码及如何进行对文件进行编码转换. 查看文件编码在Linux中查看文件编码可以通过以下几种方式:1.在Vim中可以直接查看文件编码:set fileencoding即可显示文件编码格式.如果你只是想查看其它编码格式的文件或者想解决用Vim查看文件乱码的问题,那么你可以在~/.v

文件编码格式转换

常常在Linux中操作windows下的文件时,会遇到乱码的情形.常见的比如在Visual Studio 中写的C\C++程序需要放到Linux主机上编译,而程序的中文注释则显示为乱码,比较严重的是由于编码原因,linux上的编译器报错. 这是由于Windows中默认的文件格式是GBK(gb2312),而Linux一般都是UTF-8.那么如何在Linux中如何查看文件的编码及如何进行对文件进行编码转换呢? 1.用VIM查看文件编码 在Vim 中可以直接查看文件编码 :set fileencodi

Linux下文件编码格式转换

最近把项目放到github上,但是发现代码中注释的中文部分有些是乱码,检查后发现是因为我的Centos装在虚拟机上,而我是在Windows环境下通过UE来写代码的,而UE默认是使用ASCII编码. 所以希望在Linux上使用命令来批量转换编码格式. 查了资料后发现可以使用iconv命令. 首先使用 file 命令来检测文件的类型 例如:filetest.cpp 输出:ISO-8859 Cprogram text iconv命令的参数说明: -l    列出所有已知的字符集 -f    原始文本编

java实现 批量转换文件编码格式为UTF8

需要注意点: 建议转换前备份,如果有的项目原本就是UTF-8,执行完成后就会乱码 补救办法是:把项目从UTF-8转换成GBK,不乱码了,但是有后遗症,虽然大部分都救回来了,但是不知道某个字符就变成?了 1.首先需要引用java工具包hutool,官网 https://hutool.cn/ <dependency> <groupId>cn.hutool</groupId> <artifactId>hutool-all</artifactId> &l

Linux查看文件编码格式及文件编码转换

Linux查看文件编码格式及文件编码转换 如果你需要在Linux 中操作windows下的文件,那么你可能会经常遇到文件编码转换的问题.Windows中默认的文件格式是GBK(gb2312),而Linux一般都是UTF-8.下面介绍一下,在Linux中如何查看文件的编码及如何进行对文件进行编码转换. 查看文件编码在Linux中查看文件编码可以通过以下几种方式:1.在Vim 中可以直接查看文件编码 Shell代码 :set fileencoding 即可显示文件编码格式.如果你只是想查看其它编码格

Java如何获取文件编码格式

1:简单判断是UTF-8或不是UTF-8,因为一般除了UTF-8之外就是GBK,所以就设置默认为GBK. 按照给定的字符集存储文件时,在文件的最开头的三个字节中就有可能存储着编码信息,所以,基本的原理就是只要读出文件前三个字节,判定这些字节的值,就可以得知其编码的格式.其实,如果项目运行的平台就是中文操作系统,如果这些文本文件在项目内产生,即开发人员可以控制文本的编码格式,只要判定两种常见的编码就可以了:GBK和UTF-8.由于中文Windows默认的编码是GBK,所以一般只要判定UTF-8编码

Java判断文件编码格式

转自:http://blog.csdn.net/zhangzh332/article/details/6719025 一般情况下我们遇到的文件编码格式为GBK或者UTF-8.由于中文Windows默认的编码是GBK,所以一般只要判定UTF-8编码格式. 对于UTF-8编码格式的文本文件,其前3个字节的值就是-17.-69.-65,所以,判定是否是UTF-8编码格式的代码片段如下: Java代码 java.io.File f=new java.io.File("待判定的文本文件名");