Java读取Unicode文件（UTF-8等）时碰到的BOM首字符问题，及处理方法

在Windows下用文本编辑器创建的文本文件，如果选择以UTF-8等Unicode格式保存，会在文件头（第一个字符）加入一个BOM标识。

这个标识在Java读取文件的时候，不会被去掉，而且String.trim()也无法删除。如果用readLine()读取第一行存进String里面，这个String的length会比看到的大1，而且第一个字符就是这个BOM。

这种情况会造成一些麻烦，比如在读取ini文件的时候，如果想判断第一行是不是以“[”开头就无法正确判断。

幸好，Java在读取Unicode文件的时候，会统一把BOM变成“\uFEFF”，这样的话，就可以自己手动解决了（判断后，用substring()或replace()去除掉这个BOM）：

  if(line.startsWith("\uFEFF")){
   //line = line.substring(1);
   line = line.replace("\uFEFF", "");
  }

什么是BOM？

BOM = Byte Order Mark

BOM是Unicode规范中推荐的标记字节顺序的方法。比如说对于UTF-16，如果接收者收到的BOM是FEFF，表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。

UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明“我是UTF-8编码”。BOM的UTF-8编码是EF BB BF（用UltraEdit打开文本、切换到16进制可以看到）。所以如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。

所有的BOM在C/C++/Java中都被处理为"\uFEFF"，参考：http://www.fileformat.info/info/unicode/char/feff/index.htm

Wikipedia关于POM的说明介绍：

https://en.wikipedia.org/wiki/Byte_order_mark

（原创文章，转载请注明转自Clement-Xu的博客）

版权声明：本文为原创文章，转载请注明转自Clement-Xu的csdn博客。

时间： 2024-10-30 11:33:48

Java读取Unicode文件（UTF-8等）时碰到的BOM首字符问题，及处理方法的相关文章

java读取unicode文件

主要介绍使用java来读取txt文本文件,且每次读取2个字节,也就是采用unicode编码的文本. FileMain package com.test.filetest; import java.io.File; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException; public class FileMain { /** * @param args * @throw

java读取.properties文件乱码

1.config.properties文件写不进中文,写进去都变成了unicode,解决办法是右键该文件--Properties--Resource--Text file encoding ,选other,我将other改为了UTF-8,这样可以写进去中文,但是读取时又变成乱码了. 2,解决读取乱码: String content = new String(PropertiesConfig.getProperty("mail.content").getBytes("ISO88

java读取大文件超大文件的几种方法

计算机技术学习用书: 编程技术资料:http://myitbook.taobao.com/ 电脑技术群:291644908 用技术改变人生,欢迎您的加入 java 读取一个巨大的文本文件既能保证内存不溢出又能保证性能 2010-09-25 11:18:50| 分类: 默认分类 |字号订阅 import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.Rando

Java编程：使用Java读取Excel文件内容

微软的ODBC驱动程序把工作表中的第一行作为列名(译者注:即字段名),工作表名作为数据库表名. 要通过JDBC访问工作表,我们还必须创建一个新的ODBC数据源,在Windows 2000系统上创建数据源的过程如下: 进入“控制面板” --> “管理工具” --> “数据源(ODBC)”,(译者注:打开后选择系统DSN),点击添加,在弹出窗口中选择“Driver do Microsoft Excel(*.xls)” 然后在数据源名处输入一个名字myexcel(译者注:相当于数据库名),然后点击“

转载:java基础学习总结——java读取properties文件总结

java基础学习总结--java读取properties文件总结一.java读取properties文件总结在java项目中,操作properties文件是经常要做的,因为很多的配置信息都会写在properties文件中,这里主要是总结使用getResourceAsStream方法和InputStream流去读取properties文件,使用getResourceAsStream方法去读取properties文件时需要特别注意properties文件路径的写法,测试项目如下: 1.1.项目的

java基础学习总结——java读取properties文件总结

一.java读取properties文件总结在java项目中,操作properties文件是经常要做的,因为很多的配置信息都会写在properties文件中,这里主要是总结使用getResourceAsStream方法和InputStream流去读取properties文件,使用getResourceAsStream方法去读取properties文件时需要特别注意properties文件路径的写法,测试项目如下: 1.1.项目的目录结构 1.2. java读取properties文件代码测试

Java读取excel文件，并存入MySQL数据库

2019,刚毕业入职,需要更新数据库某表内容,就写了个Java读取excel文件的代码,代码尚存问题较大,过往阅者看看即可,以此记录小白点滴初学Java,还没学到io流,jdbc等操作代码用到poi 一些jar,数据库jar import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.io.InputStream;import java.s

java读取 500M 以上文件,java读取大文件

java 读取txt,java读取大文件设置缓存大小BUFFER_SIZE ,Config.tempdatafile是文件地址来源博客http://yijianfengvip.blog.163.com/blog/static/175273432201191354043148/ package com.yjf.util;import java.io.File;import java.io.RandomAccessFile;import java.nio.MappedByteBuffer;imp

Java读取Properties文件的六种方法

使用J2SE API读取Properties文件的六种方法 1.使用java.util.Properties类的load()方法示例: InputStream in = lnew BufferedInputStream(new FileInputStream(name)); Properties p = new Properties(); p.load(in); 2.使用java.util.ResourceBundle类的getBundle()方法示例: ResourceBundle rb

猜你喜欢

seajs-css less 加载

(function(){ /** * util-request.js - The utilities for requesting script and style files * ref: test ...

android sdk manager 代理设置

解决android sdk更新慢的问题(公司竟然把sdk更新给墙了). 第一步:如下图第二部:进入代理设置页面,进行设置.如下图

hadoop一些常见报错的解决方式

Failed to set setXIncludeAware(true) for parser 遇到此问题通常是jar包冲突的问题. 一种情况是我们向java的lib文件夹加入我们自己的jar包导致h ...

【LaTeX】E喵的LaTeX新手入门教程（2）基础排版

换了块硬盘折腾了好久..联想的驱动真坑爹.前情回顾[LaTeX]E喵的LaTeX新手入门教程(1)准备篇文档框架嗯昨天我们已经编写了一个最基本的文档,其内容是这样的:\documentclass{ar ...

hdu3709 数位dp（自身平衡的数字）

http://acm.hdu.edu.cn/showproblem.php?pid=3709 Problem Description A balanced number is a non-negati ...

5.1-5.31推荐文章汇总

5.1-5.31推荐文章汇总 [移动开发] Android Volley完全解析(三),定制自己的Request guolin 雄踞AppStore榜首的游戏<别踩到白块儿>源代码分析和下 ...

聊聊svg

来源:SVG的用法补充 CANVAS产生的dom数量比SVG要少 SVG可以使用css设置动画样式对于动画性能来说,不能说svg或canvas谁更优,而是要看情况: SVG 是一种使用 XML 描 ...

批量插入 SqlBulkCopy的测试

关于SqlBulkCopy的测试最近要做.net关于sql大量插入,找到了sqlbulkcopy(自己google下,应该很多说明了)这个好东西,于是测试下性能,用了三个方法对比: 1)直接用ado ...

File-nodejs

文件系统模块是一个简单包装的标准 POSIX 文件 I/O 操作方法集.您可以通过调用require('fs')来获取该模块.文件系统模块中的所有方法均有异步和同步版本. 文件系统模块中的异步方法需要 ...

本地测试出现：Call to undefined function curl_init()

网上搜索Call to undefined function curl_init(),清一色的以下解决办法: 1.在php.ini中找到extension=php_curl.dll,去掉前面的,php ...

长连接神器Mina框架的使用

前段时间学习了mina框架的使用.它是基于Socket进行通信,所以说在项目中要是需要长连接的使用,那mina框架是一个不错的选择. 下面简单介绍一下mina框架的使用,学习mina框架不长时间,现在 ...

游戏开场镜头拉近场景渐显效果制作

启动游戏最初的开场会有一个遮罩层的渐变消失,然后镜头拉近到目标场景.镜头拉近主要用 Vector3.MoveTowards() 1.新建项目,在Hierarchy视图中 Create -> GU ...

使用Json.Net处理.Net json序列化和反序列化继承类

以前一直没有怎么关注过Newtonsoft的Json.Net这个第三方的.NET Json框架,主要是我以前在开发项目的时候大多数使用的都是.NET自带的Json序列化类JavaScriptSeria ...

翁咳圪舅芤f87fp3p7cl8zx

霍雨浩抽出一个签位后,退后一步,恭敬的向言少哲鞠了个九十度的躬,这才将签位交给杜维伦走了回来.当他回到王冬身边的时候,发现自己的心跳速度起码增加了一倍.霍雨浩道:"星皇大酒店是星罗广场附近最 ...

MDI窗体容器

MDI窗体容器: 一般来说,窗体是顶级容器,不允许放在其他任何容器内,但是如果将某个窗体的IsMdiContainer属性设置为True,那此窗体就会成为窗体容器,可以在其中放入其他窗体在内部的窗体 ...

命令行操作技巧

一.移动光标 Ctrl+a: 移到行首 Ctrl+e:移到行尾 Ctrl+b:往左移动一个字符(←) Ctrl+f:往右移动一个字符(→) Esc+b:往左移动一个单词 Esc+f:往右移动一个单词 ...

HDOJ 题目3449 Consumer（背包）

Consumer Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 32768/65536 K (Java/Others) Total S ...

linux的内存文件系统tmpfs

在centos系统上自带的内存文件系统.这个tmpfs是temporary file system的意思. 一. 使用命令 df -h 查看tmpfs是否正在运行. Filesystem Size U ...

QRadioButton分组且无边框的简单实现

最近在用QT+VS2008做一个项目,涉及到一个综合测评表,说白了有点像问卷调查——很多题目每题若干个选项. 初始时打算用下拉框,每个框中填入所有选项,但后来一琢磨这种方式不够直观与人性化,增添了一步 ...

rabbitmq_management 安装失败

安装rabbitmq_management的时候出现错误不能连接rabbit,所以查看状态看意思感觉好像是rabbit没有运行,但是安装的时候都是默认安装的,所以安装完以后服务的名字就是Rabbi ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.