Atitit.检测文本文件的编码 自动获取文件的中文编码

Atitit.检测文本文件的编码 自动获取文件的中文编码

1 不能使用load来检测编码..1

2 使用convert来检测编码1

3 程序检测文本编码2

3.1 根据utf bom头2

3.2 检测字符 cpdetector2

4 ##实现原理 中文也走十gbk  utf8 unicode三中..只要试达的读取出来,在和汉字map相比..就能基于统计学原理...计算出来..2

1 不能使用load来检测编码..

要是txt是 gbk的, 使用notepad++ load as utf8 三正常的...

Load as gbk 却乱码了...

Editplus就ok...

不过.要是文件是utf8的.. Editplus  load as gbk 显示是正常的..所以,不能使用load来检测编码..

作者:: 老哇的爪子 Attilax 艾龙,  EMAIL:[email protected]

转载请注明来源: http://www.cnblogs.com/attilax/

2 使用convert来检测编码

使用convert来检测编码..docu>>file encode >>convet encode  显示编码确认框..这个走十恰当的的编码...

也可以使用notepad的另存为来检测..

3 程序检测文本编码

3.1 根据utf bom头

3.2 检测字符 cpdetector

在java里面,你可以这样,用不同的字符集读入这些文本,看是否能够正常显示,如果能够正常显示的话,拿这些文本就是读入时候所采用的字符集。

4 ##实现原理
中文也走十gbk  utf8 unicode三中..只要试达的读取出来,在和汉字map相比..就能基于统计学原理...计算出来..

参考

paip.enhes efis 自动获取文件的中文编码 - attilax的专栏 - 博客频道 - CSDN.NET.htm

时间: 2024-10-11 20:55:20

Atitit.检测文本文件的编码 自动获取文件的中文编码的相关文章

C#获取文本文件的编码,自动区分GB2312和UTF8

C# 获取文本文件的编码,自动区分GB2312和UTF8 以下是获取文件编码的一个类 using System; using System.IO; using System.Text; /// <summary> /// FileEncoding 的摘要说明 /// </summary> namespace FileEncoding { /// <summary> /// 获取文件的编码格式 /// </summary> public class Encod

java获取常见文本文件的编码 解决乱码问题

乱码问题的产生一般是,由字节流转字符流的时候,读文件的编码与文件的系统编码不一致造成的. 解决方式:先自动判断文件系统编码类型,然后读的时候用这个类型去读就ok了. 自动判断文件系统编码类型代码如下, 地址:http://www.cnblogs.com/java0721/archive/2012/07/21/2602963.html java获取常见文本文件的编码 解决乱码问题

读取txt防止读到乱码--自动根据文件编码进行读取

以下是摘抄 /// <summary> /// 获取文件的编码格式 /// </summary> public class EncodingType { /// <summary> /// 给定文件的路径,读取文件的二进制数据,判断文件的编码类型 /// </summary> /// <param name="FILE_NAME">文件路径</param> /// <returns>文件的编码类型<

php自动获取字符串编码函数mb_detect_encoding(转)

使用 mb_detect_encoding() 函数来判断字符串是什么编码的. 当在php中使用mb_detect_encoding函数进行编码识别时,很多人都碰到过识别编码有误的问题,例如对与GB2312和UTF- 8,或者UTF-8和GBK(这里主要是对于cp936的判断),网上说是由于字符短是,mb_detect_encoding会出现误判. 例如: $encode = mb_detect_encoding($keytitle, array("ASCII",'UTF-8′,&qu

获取文件字符集后转换成指定编码

package com.jiaotd.file; import java.io.BufferedInputStream; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.i

如何使用Java代码获取文件、文件流或字符串的编码方式

今天通过网络资源研究了一下如何使用Java代码获取文件.文件流或字符串的编码方式,现将代码与大家分享: package com.ghj.packageoftool; import info.monitorenter.cpdetector.io.ASCIIDetector; import info.monitorenter.cpdetector.io.ByteOrderMarkDetector; import info.monitorenter.cpdetector.io.CodepageDete

C#实现获取文本文件的编码的一个类(区分GB2312和UTF8)-来自转载收集

using System; using System.IO; using System.Text; /// <summary> /// FileEncoding 的摘要说明 /// </summary> namespace FileEncoding { /// <summary> /// 获取文件的编码格式 /// </summary> public class EncodingType { /// <summary> /// 给定文件的路径,读

nodejs 获取文件的编码方式

使用nodejs获取文件夹内文件的编码方式:使用jschardet模块. 下面的代码还有问题,没有添加结束的语句,没有判断应该在哪执行res.send(). res.send()不能放在forEach后面,因为还会调用explorer,会二次输出send,出错. var fs = require('fs'); var jschardet = require('jschardet'); util = require('util'); path = "D:/node/temp/public"

python对文件中的关键词查找替换,实现自动获取配置

1.目的 想对update_variable.py文件中的配置进行修改,数据通过系统接口自动获取 update_variable.py my_name='null' my_age=18 2.代码 update_file.py # name=phyger # line='my name: {name}' # new=line.replace('{name}',name) # print(new) # cur_abspath=os.path.abspath(__file__) import os c