彻底解决android读取中文txt的乱码(自动判断文档类型并转码

原文:http://blog.csdn.net/handsomedylan/article/details/6138400

public String convertCodeAndGetText(String str_filepath) {// 转码

File file = new File(str_filepath);
                BufferedReader reader;
                String text = "";
                try {
                        // FileReader f_reader = new FileReader(file);
                        // BufferedReader reader = new BufferedReader(f_reader);
                        FileInputStream fis = new FileInputStream(file);
                        BufferedInputStream in = new BufferedInputStream(fis);
                        in.mark(4);
                        byte[] first3bytes = new byte[3];
                        in.read(first3bytes);//找到文档的前三个字节并自动判断文档类型。
                        in.reset();
                        if (first3bytes[0] == (byte) 0xEF && first3bytes[1] == (byte) 0xBB
                                        && first3bytes[2] == (byte) 0xBF) {// utf-8

reader = new BufferedReader(new InputStreamReader(in, "utf-8"));

} else if (first3bytes[0] == (byte) 0xFF
                                        && first3bytes[1] == (byte) 0xFE) {

reader = new BufferedReader(
                                                new InputStreamReader(in, "unicode"));
                        } else if (first3bytes[0] == (byte) 0xFE
                                        && first3bytes[1] == (byte) 0xFF) {

reader = new BufferedReader(new InputStreamReader(in,
                                                "utf-16be"));
                        } else if (first3bytes[0] == (byte) 0xFF
                                        && first3bytes[1] == (byte) 0xFF) {

reader = new BufferedReader(new InputStreamReader(in,
                                                "utf-16le"));
                        } else {

reader = new BufferedReader(new InputStreamReader(in, "GBK"));
                        }
                        String str = reader.readLine();

while (str != null) {
                                text = text + str + "/n";
                                str = reader.readLine();

}
                        reader.close();

} catch (FileNotFoundException e) {
                        // TODO Auto-generated catch block
                        e.printStackTrace();
                } catch (IOException e) {
                        e.printStackTrace();
                }
                return text;
        }
代码不难,觉得有用的可以顶一下。

时间: 2024-10-18 02:37:48

彻底解决android读取中文txt的乱码(自动判断文档类型并转码的相关文章

FileReader读取中文txt文件编码丢失问题(乱码)(转)

有一个UTF-8编码的文本文件,用FileReader读取到一个字符串,然后转换字符集:str=new String(str.getBytes(),"UTF-8");结果大部分中文显示正常,但最后仍有部分汉字显示为问号! public static List<String> getLines(String fileName){ List<String> lines=new ArrayList<String>(); try { BufferedRead

Python读取中文txt文件错误:UnicodeEncodeError: &#39;gbk&#39; codec can&#39;t encode character

1 with open(file,'r') as f: 2 line=f.readline() 3 i=1 4 while line: 5 line=line.decode('utf-8') 6 print str(i)+": "+line7 line=f.readline() 8 i=i+1 用以上代码读取一个包含中文的txt文件时,在正确地读取并打印了六百多行之后,print str(i)+": "+line这一行报错: UnicodeEncodeError:

解决python3读写中文txt时UnicodeDecodeError : &#39;ascii&#39; codec can&#39;t decode byte 0xc4 in position 5595: ordinal not in range(128) on line 0的问题

今天使用python3读写含有中文的txt时突然报了如下错误,系统是MAC OS,iDE是pycharm: UnicodeDecodeError : 'ascii' codec can't decode byte 0xc4 in position 5595: ordinal not in range(128) on line 0 按理说python3的默认编码是unicode,不应该出现这种错误,排查以后发现问题及解决方案如下: import locale print(locale.getpre

(转)完美解决 Android WebView 文本框获取焦点后自动放大有关问题

完美解决 Android WebView 文本框获取焦点后自动放大问题 前几天在写一个项目时,要求在项目中嵌入一个WebView 本来很快就完成了,测试也没有问题.但发给新加坡时,他们测试都会出现文本框聚焦时,网页面会放大(他们用三星手机测试的) 网上查了好久参考他的方法加上去测试 http://www.cppblog.com/guojingjia2006/archive/2012/12/18/196429.html 下面我将原文copy过来 **************************

Torch-RNN运行过程中的坑 [2](Lua的string sub函数,读取中文失败,乱码?)

0.踩坑背景 仍然是torch-rnn/LanguageModel.lua文件中的一些问题,仍然是这个狗血的LM:encode_string函数: function LM:encode_string(s) local encoded = torch.LongTensor(#s) for i = 1, #s do local token = s:sub(i, i) local idx = self.token_to_idx[token] assert(idx ~= nil, 'Got invali

解决Mac上打开txt文件乱码问题

出处:https://www.jianshu.com/p/f55ddf1e9839 经常会在Mac上打开一个txt文件,发现里面的中文都是乱码,问题是在Windows和手机上看都完全是正常的,这就十分闹心了.网上千奇百怪的解决方案大多不能用,试错后发现一个解决方案.需要用到命令行工具iconv,语法是这样的: iconv -f encoding -t encoding sourcefile > destinationfile 比如一个典型的例子(也是大多数情况): iconv -f GB1803

C#中StreamReader读取中文时出现乱码问题总结

之前有一篇文章" C#读取及写入配置文件教程"(http://blog.csdn.net/lisenyang/article/details/47291083)当中有一个问题就是在读取配置文件时候中文出现乱码情况.这是为什么呢?原因是自Windows 2000之后的操作系统在文件处理时默认编码採用Unicode.所以.NET文件的默认编码也是Unicode.除非另外指定,StreamReader的默认编码为Unicode,而不是当前系统的ANSI代码页.可是文档大部分还是以ANSI编码

有效解决ajax传中文时,乱码的情况,php处理接收到的值

在抽奖环节时,需把获奖名单通过ajax的post方式传输给php后台进行储存,但是php接收到的值确是乱码.在百度之后并没有找到合适的解决方法. 则使用js的encodeURI函数可以有效解决,但不知为何需使用两次. 此时传输的值获取到的为: 则PHP使用urldecode函数处理获取到的值. 则有效解决ajax传输中文乱码的情况. 声明:本人菜鸟一枚,有不对之处还望指出. 原文地址:https://www.cnblogs.com/xin-1-php/p/10019558.html

[Android]_[初级]_[sdk docs reference api 文档打开慢的解决办法]

场景: 1. 下载sdk时下载了docs/reference文档,文档是html形式的,因为里面带有google的相关网址,浏览器打开时会去访问这些被墙的网址,所以显示巨慢. 2. 解决办法就是遍历子目录删除google相关网址,由于是android开发,就用Java实现吧. 3.以下运行用时9分钟,i5双核,4G内存,开了其他东西,最新的sdk docs,android 5L. 文件.Cleaner.java import java.io.*; public class Cleaner { p