常用技术汇总

一、获取文件的编码格式

当我们在使用文件输入输出流时,经常会出现乱码问题,这通常是由于编码格式导致的。

以复制一份文件为例:

我们用输入流(FileInputStream)读取文件,然后用输出流(FileOutPutStream)重新写入到另一个文件,

如果源文件的编码格式和我们重新写入时的编码格式不一致,那么就可能出现乱码问题。

因此,我们需要获取源文件的编码格式,以便在重新写入时使用相同的编码格式。

下面介绍一个简单的方式准确获取文件的编码格式:

一般地,我们根据文件的前三个字节就可以判断该文件是什么编码格式,如下:

EF BB BF    UTF-8  
FE FF      UTF-16/UCS-2, little endian  
FF FE      UTF-16/UCS-2, big endian  
FF FE 00 00  UTF-32/UCS-4, little endian.  
00 00 FE FF  UTF-32/UCS-4, big-endian.

因此,我么读取文件的前几个字节就可用于判断文件的编码格式,代码如下:

import java.io.BufferedInputStream;
import java.io.File;
import java.io.FileInputStream;

public class GetFileEncode {
public static void main(String[] args) {
String filePath = "D:\\javaTest\\test.txt";
File sourceFile = new File(filePath);
getFilecharset(sourceFile);
}

private static String getFilecharset(File sourceFile) {
String charset = "GBK";
byte[] first3Bytes = new byte[3];
try {
boolean checked = false;
BufferedInputStream bis = new BufferedInputStream(new FileInputStream(sourceFile));
bis.mark(0);
int read = bis.read(first3Bytes, 0, 3);
if (read == -1) {
return charset; // 文件编码为 ANSI
} else if (first3Bytes[0] == (byte) 0xFF
&& first3Bytes[1] == (byte) 0xFE) {
charset = "UTF-16LE"; // 文件编码为 Unicode
checked = true;
} else if (first3Bytes[0] == (byte) 0xFE
&& first3Bytes[1] == (byte) 0xFF) {
charset = "UTF-16BE"; // 文件编码为 Unicode big endian
checked = true;
} else if (first3Bytes[0] == (byte) 0xEF
&& first3Bytes[1] == (byte) 0xBB
&& first3Bytes[2] == (byte) 0xBF) {
charset = "UTF-8"; // 文件编码为 UTF-8
checked = true;
}
bis.reset();
if (!checked) {
int loc = 0;
while ((read = bis.read()) != -1) {
loc++;
if (read >= 0xF0)
break;
if (0x80 <= read && read <= 0xBF) // 单独出现BF以下的,也算是GBK
break;
if (0xC0 <= read && read <= 0xDF) {
read = bis.read();
if (0x80 <= read && read <= 0xBF) // 双字节 (0xC0 - 0xDF)
// (0x80
// - 0xBF),也可能在GB编码内
continue;
else
break;
} else if (0xE0 <= read && read <= 0xEF) {// 也有可能出错,但是几率较小
read = bis.read();
if (0x80 <= read && read <= 0xBF) {
read = bis.read();
if (0x80 <= read && read <= 0xBF) {
charset = "UTF-8";
break;
} else
break;
} else
break;
}
}
}
bis.close();
} catch (Exception e) {
e.printStackTrace();
}
System.out.print(charset);
return charset;
}
}

时间: 2024-07-29 12:59:56

常用技术汇总的相关文章

【干货】仪器仪表常用术语汇总

武汉天禹智控科技有限公司依托多年来从事气体分析行业的经验和强大的技术实力,经过多年研制开发和应用实践,在传感技术方面,成功的研制出拥有自主知识产权的电化学分析仪系列,红外分析仪系列,紫外气体分析仪系列,激光分析仪系列,光声光谱气体分析仪系列,适用于各种工况的工业过程分析系统,同时可以根据客户需求进行气体分析仪个性定制,产品广泛应用于环保.冶金.石化.化工.能源.食品.农业.交通.水利.建筑.制药.酿造及科学研究等众多行业,并且得到用户的一直好评.现将仪器仪表常用术语汇总供大家使用. 性能特性 p

走进JavaWeb技术世界开篇:JavaWeb技术汇总

微信公众号[Java技术江湖]一位阿里 Java 工程师的技术小站.(关注公众号后回复”Java“即可领取 Java基础.进阶.项目和架构师等免费学习资料,更有数据库.分布式.微服务等热门技术学习视频,内容丰富,兼顾原理和实践,另外也将赠送作者原创的Java学习指南.Java程序员面试指南等干货资源) Java Web是众多技术汇总形成的代名词,展开来说,包括了非常多相关技术. Java发展了20年, 现在已经不仅仅是一个单纯的语言了, 而是一套完整的生态系统, 其中的术语像 HTML, XML

Linux 常用命令汇总

Linux 常用命令汇总 1. 显示日期与时间:date 可修改显示日期格式,如:date +%Y/%m/%d %H:%M à2016/12/25 17:05(%Y:年:%m:月:%d:日:%H:24小时制:%M:分) date –d 参数后可加:today/yesterday/tomorrow 来显示今天.昨天.明天日期 2. 显示日历:cal(默认显示本月月历) cal 2001 可显示2001年整年日历:cal 10 2001 可具体显示某月月历 3.  计算器:bc 4. Tab键:用在

Mysql常用基本命令汇总及默认账户权限与修改

一直只是在浅显利用数据库存储数据,也被windows惯坏了,很多命令使用的时候记不起来,so,换LINUX系统!不再使用GUI管理数据库!也想深入学习下Mysql,从权限管理开始!也就诞生了这篇学习笔记. 修改默认密码 Mysql新安装时默认root密码为空,极不安全!建议安装过后马上就修改.附修改方法: mysqladmin -u root -p password 接下来按提示输入新密码即可! 命令详解: mysqladmin -u root -p[oldpass] password newp

非常实用的PHP常用函数汇总

这篇文章主要介绍了非常实用的PHP常用函数,汇总了加密解密.字符串操作.文件操作.SQL注入等函数的实例与用法说明,在PHP项目开发中非常具有实用价值,需要的朋友可以参考下 本文实例总结了一些在php应用开发中常用到的函数,这些函数有字符操作,文件操作及其它的一些操作了,分享给大家供大家参考.具体如下: 1.PHP加密解密 PHP加密和解密函数可以用来加密一些有用的字符串存放在数据库里,并且通过可逆解密字符串,该函数使用了base64和MD5加密和解密. 复制代码 代码如下: function

[留学新生须知]新生美国生活常用单词汇总

蔬菜: 蔬菜: Leek [lik] 韭菜 Caraway [?kær??we]/coriander [?k?ri?ænd?] 香菜 Spinach [?sp?n?t?] 菠菜 Cabbage [?kæb?d?] 卷心菜 Chinese cabbage 白菜 Celery [?s?l?ri] 芹菜 Cauliflower [?k?l??fla??] 菜花 Broccoli [?brɑk?li] 西兰花 Lettuce [?l?t?s] 生菜 Rape [rep]/cole [ko?l] 油菜 C

常用正则表达式汇总

1.    平时做网站经常要用正则表达式,虽说可以百度,但每次都去搜搜实在是太麻烦,这里给大家汇总了常用的较完整的正则表达式, 希望能给大家带去方便和帮助:2.    "^\d+$" //非负整数(正整数 + 0)3.    "^[0-9]*[1-9][0-9]*$" //正整数4.    "^((-\d+)|(0+))$" //非正整数(负整数 + 0)5.    "^-[0-9]*[1-9][0-9]*$" //负整数6.

最热web前端技术汇总

Web前段技术发展很快,主流技术日新月异,想想自己刚毕业那会用的asp技术,现在已经很少有主流网站在使用了. 再到后来的J2EE框架,然后SpringMVC大行其道,但是最近各种js框架被广为传播,Html5的推出很是丰富了移动互联网的发展,此文对当前最新的几种web前端技术进行的汇总,让大家更多地了解,然后取其所长,避其所短,快速推出简约大方,维护方便,性能良好的个人网站. JavaScript MV*框架 在相当长的一段时间里,每个程序员都要学会如何利用JavaScript来编写弹出一个警告

DBA_Oracle DBA常用SQL汇总(概念)

2014-06-20 BaoXinjian DBA常用的SQL汇总 1.监控索引是否使用 alter index &index_name monitoring usage; alter index &index_name nomonitoring usage; select * from v$object_usage where index_name = &index_name; 2.求数据文件的I/O分布 select df.name,phyrds,phywrts,phyblkr