JAVA输出带BOM的UTF-8编码的文件

当从http 的response输出CSV文件的时候,设置为utf8的时候默认是不带
bom的,可是windows的Excel是使用bom来确认utf8编码的,全部须要把bom写到文件的开头。

微软在 UTF-8 中使用 BOM 是由于这样能够把 UTF-8 和 ASCII 等编码明白区分开。
否则用Excel打开CSV文件有可能是乱码的
演示样例代码例如以下:
response.setContentType("text/csv");
response.setHeader("Content-Disposition", "attachment;filename=" + fileName);
response.setCharacterEncoding("UTF-8");
byte[] uft8bom={(byte)0xef,(byte)0xbb,(byte)0xbf};
OutputStream out = response.getOutputStream();
out.write(uft8bom);

OutputStreamWriter writer = new OutputStreamWriter(out,"UTF-8");

//write other content ...

什么是BOM:
BOM(byte-order mark),即字节顺序标记,它是插入到以UTF-8、UTF16或UTF-32编码Unicode文件开头的特殊标记,用来识别Unicode文件的编码类型。对于UTF-8来说,BOM并非必须的。由于BOM是用来标记多字节编码文件的编码类型和字节顺序(big-endian或little- endian)。

而UTF8中,每一个字符的编码有多少位是通过第一个字节来表述的。并且没有big-endian和little-endian的区分,见后述。

BOMs 文件头:
   00 00 FE FF    = UTF-32, big-endian
   FF FE 00 00    = UTF-32, little-endian
   EF BB BF       = UTF-8,
   FE FF          = UTF-16, big-endian
   FF FE          = UTF-16, little-endian

另一个要注意的是:UTF-8 的网页代码不应使用 BOM。否则经常会出错:
在网页上使用BOM是个错误。

BOM设计出来不是用来支持HTML和XML的。要识别文本编码,HTML有charset属性,XML有encoding属性,不是必需拉BOM撑场面。尽管理论上BOM能够用来识别UTF-16编码的HTML页面,但实际project上非常少有人这么干。毕竟UTF-16这样的编码连ASCII都双字节,实在不适用于做网页。

Windows使用BOM的历史原因:
通常BOM是用来标示Unicode纯文本字节流的,用来提供一种方便的方法让文本处理程序识别读入的.txt文件是哪个Unicode编码(UTF-8。UTF-16BE,UTF-16LE)。

Windows相对对BOM处理比較好,是由于Windows把Unicode识别代码集成进了API里。主要是CreateFile()。打开文本文件时它会自己主动识别并剔除BOM。

Windows用这个有历史原因,由于它最初脱胎于多代码页的环境。而引入Unicode时Windows的设计者又希望能在用户不注意的情况下同一时候兼容Unicode和非Unicode(Multiple byte)文本文件,就仅仅能借助这样的小trick了。

带BOM的文本文件在Linux/unix环境又经常会遇到问题:
知乎介绍的非常具体:
http://www.zhihu.com/question/20167122

文本文件解析:     
文本文件相应于人类能够阅读的文本,怎样从2进制转换为文本文件呢?起初由于计算机在美国发明。自然大家考虑的是英语怎样表示,英语字母总共26个。加上特殊字符,128个字符,7位既一个byte就可以表示出来。这个就是大家所熟知的ascill编码。

相应关系非常easy,一个字符相应一一个byte。

但非常快发现。其它非英语国家的文字远远超过ascill码,这时候大家当然想统一一下。不同国家出了自己不同的编码方式。中国的gb2312就是自己做出来的编码方式,这样下去每一个国家都有自己的编码方式,来回转换太麻烦了。这时候出现了新的编码方式,unicode编码方式,想将编码统一,所以规定了每一个字符相应的unicode码。     1、非常多文件都是ascii编码,假设用unicode 太浪费。

2、没有标志位说明该几个字节来解析为一个符号。     这时候解救世界的utf出现了。utf是unicode的一种实现,仅仅只是更聪明了。utf16是占用两字节,或者四字节。utf32是占用四字节。

utf8是非常聪明的一种表示方式。

1、对于单字节符号,字节第一位为0,后面7位表示字节编码。

2、对于n字节符号,第一字节的前n位都设为1,第n+1位为0。其余位用于编码。
对于不同的编码,在文本的最前方有不同的标志,unicode 通常有两位来表示各自是ff fe, 或者feff, fffe表示litte-endian 编码feff表示big-endian编码。
utf8是efbbbf来开头的。

能够看出来utf-8是自解释的。所以不用带这个标志文件,大多数程序是能够识别的。

但有些程序不能识别这个标志,比方php就会直接把这个标志当文本解析,不会忽略。

时间: 2024-10-25 05:38:13

JAVA输出带BOM的UTF-8编码的文件的相关文章

Java以UTF-8编码读写文件

java中文件操作体现了设计模式中的装饰者模式 . 以utf-8编码写入文件: FileOutputStream fos = new FileOutputStream("test.txt"); OutputStreamWriter osw = new OutputStreamWriter(fos, "UTF-8"); osw.write(FileContent); osw.flush(); 以utf-8编码读取文件: FileInputStream fis = ne

Java学习之道:Java中十个常见的违规编码

最近,我给Java项目做了一次代码清理工作.经过清理后,我发现一组常见的违规代码(指不规范的代码并不表示代码错误)重复出现在代码中.因此,我把常见的这些违规编码总结成一份列表,分享给大家以帮助Java爱好者提高代码的质量和可维护性. 这份列表没有依据任何规则或顺序,所有的这些都是通过代码质量工具包括CheckStyle,FindBugs和PMD检查出.一起来看下: 一.Eclipse编译器提供源代码格式输入 Eclipse提供自动源码格式选项,并且组织输入(删除未使用的代码).你可以使用下面的这

Java NIO之Charset类字符编码对象

介绍 java中使用Charset来表示编码对象 This class defines methods for creating decoders and encoders and for retrieving the various names associated with a charset. Instances of this class are immutable. This class also defines static methods for testing whether a

笨鸟先飞之Java(一)--使用struts2框架实现文件上传和下载

不管是.net还是Java,我们最常接触到的就是文件的上传和下载功能,在Java里要实现这两个常用功能会有很多种解决方式,但是struts2的框架却能给我们一个比较简单的方式,下面就一起来看吧: 文件上传: 首先来看实现上传功能的表单,Index.jsp: <span style="font-family:FangSong_GB2312;font-size:18px;"><%@ page language="java" contentType=&q

day 10 字符编码和文件处理 细节整理

pycharm是文本编辑器. 1 .字符编码: 字符====== (翻译过程)=======>数字. utf-8是unicode的变种,是万国编码.  2. 文本编辑器存取文件的原理(nodepad++,pycharm,word) 打开编辑器就打开了启动了一个进程,是在内存中的,所以在编辑器编写的内容也都是存放与内存中的,断电后数据丢失 因而需要保存到硬盘上,点击保存按钮,就从内存中把数据刷到了硬盘上. 在这一点上,我们编写一个py文件(没有执行),跟编写其他文件没有任何区别,都只是在编写一堆字

自己写的 根据编码搜索文件的小工具

文件.目录搜索的小工具 用正则式限制文件名.关键字.目录 开始是专门为了搜索GBK和UTF8两种编码的文件,现在可以制定多种编码方式来搜索文件 本科生,代码可能很不规范 因为windows下好像没有grep,win7默认的搜索用起来也不习惯,search my file也不支持搜索中文,所以开始试着按自己想法尝试写这个东西用来搜源码文件. https://github.com/wo4li2wang/MSearcher 参数 ? -f ?搜索的文件夹,可以用正则式表示? -k ?搜索文件包含的关键

python6期 字符编码与文件处理

字符编码与文件处理 一    了解字符编码的储备知识 python解释器和文件本编辑的异同      相同点:python解释器是解释执行文件内容的,因而python解释器具备读py文件的功能,这一点与文本编辑器一样 不同点:文本编辑器将文件内容读入内存后,是为了显示/编辑,而python解释器将文件内容读入内存后,是为了执行(识别python语法) 二  什么是字符编码 所谓的字符编码就是让计算机读懂人类的字符 必须经过一个过程: 字符--------(翻译过程)------->数字 这个过程

Python编程(三)字符编码与文件处理

计算机要想工作必须通电,也就是说'电'驱使计算机干活,而'电'的特性,就是高低电平(高低平即二进制数1,低电平即二进制数0),也就是说计算机只认识数字 编程的目的是让计算机干活,而编程的结果说白了只是一堆字符,也就是说我们编程最终要实现的是:一堆字符驱动计算机干活 所以必须经过一个过程: 字符--------(翻译过程)------->数字 这个过程实际就是一个字符如何对应一个特定数字的标准,这个标准称之为字符编码 字符编码 :字符-->二进制数字的标准阶段一:ASCII:一个Bytes代表一

笨鸟先飞之Java(一)--使用struts2框架实现文件上传

无论是.net还是Java,我们最常接触到的就是文件的上传和下载功能,在Java里要实现这两个经常使用功能会有非常多种解决方案,可是struts2的框架却能给我们一个比較简单的方式,以下就一起来看吧: 文件上传: 首先来看实现上传功能的表单.Index.jsp: <span style="font-family:FangSong_GB2312;font-size:18px;"><%@ page language="java" contentType