Linux下windows中文文件乱码问题

table of content:

  1. 乱码问题
  2. 用gedit选择正确的字符编码打开文件
  3. 文件转码
  4. 总结

§乱码

Fedora安装时默认用UTF-8字符编码方式, 这么做有国际化的好处(和很多用utf-8的地方兼容), 但是也有兼容问题. 比如:

中文编码在windows下不是utf-8编码, 因为政策要求, 在中国销售的软件要用国标码 (即GBK, GB2312, GB18030(最新的))

所以中文windows用GB18030的编码, 这就导致一个小问题. 在linux下打开windows的文件出现乱码, 如图

用Gedit打开一个GB18030编码的文件 (双击打开时)

为什么会这样, 因为gedit用解码utf-8的方式编码(decode) 用GB18030编码的文本, 就像用解释英语解释一段法语一样,翻译出一堆没意义的句子.

§以正确字符编码(character encodings)打开

解决乱码的方法很简单, gedit本身支持很多种字符编码, 如图

1. 用gedit的打开Open打开文件,

选择其它文件(other documents...)   

2.

(左下角的Character encoding 处选择正确的字符编码)

然后,文件就正常打开啦:

(请忽略文本内容, 只是刚好是这个文件而已, 不是给网站打广告......)

此外, 如果用命令行的方式打开一个文件可以用gedit --encoding 相应编码 的方式来打开

§转码

用gedit打开一个文件

(此文件用gb2312编码)

另存为 saveas 此时在左下角选择utf-16的编码,点击save

此时新文件就是utf-16格式的, 在终端用file命令可以看到文件的新编码

$ file 用utf-16保存的新文本.txt
用utf-16保存的新文本.txt: Little-endian UTF-16 Unicode text, with CRLF, CR line terminators

也有其它工具用来转码, 将gb18030转为utf-8, 比如 iconv

用法: iconv [options] [-f from-encoding] [-t to-encoding] [inputfile]...

$ file win_gb2312.txt
    win_gb2312.txt: ISO-8859 text, with CRLF line terminators
$ iconv -f gb2312 -t utf-8 win_gb2312.txt  -o utf_encoding.txt  # (-o选项指定输出文件)
$ file utf_encoding.txt
    utf_encoding.txt: UTF-8 Unicode text, with CRLF line terminators

§总结

这些方法都有不可忽视的缺点: 那就是你要提前知道文件的原编码方式是啥, 不然就要一个一个试.

如何查看一个文件的编码方式, 可以用file命令查看, 但是file命令不可靠, 一个gb2312编码的文件file命令判断为ISO-8859...

所以还是不够"智能"啊..这些软件...

时间: 2024-08-09 06:35:29

Linux下windows中文文件乱码问题的相关文章

关于Linux与windows传递文件乱码问题

linux下一般是采用utf-8的编码,而我们在windows上编辑文件时是gb2312的编码.所以导致中文编码会乱码.要更正这个问题实际上很简单只要把文件转换成utf-8编码格式然后再导入就ok啦. 手动更改配置文件的命令: vi /etc/sysconfig/i18n 将LANG="zh_CN.UTF-8"修改为:LANG="zh_CN.GBK" 保存并关闭,运行下面的命令使配置生效: source /etc/sysconfig/i18n 将终端字符编码显示为简

linux下mysql中文显示乱码,读取又正常

今天发现linux中在shell中查看mysql数据库,中文显示乱码,但是取到网页中又是正常的. 解决方法1: 在第一次进入mysql时,加一句 set names utf8 //设置编码 解决方法2: 修改/etc/my.cnf文件: 在[client]下添加 default-character-set=utf8 在[mysqld]下添加 default-character-set=utf8 最后 /etc/init.d/mysql restart   重启即可

解决linux下unzip中文有乱码的问题

xxx.zip 中有中文的文件,在linux下unzip就会有乱码. 解决办法:安装7zip 去http://sourceforge.net/projects/p7zip/files/latest/download?source=typ_redirect 下载 p7zip_9.20.1_src_all.tar.bz2 上传到服务器tar -jxvf ,再make.make install. 解压文件:7za x xxx.zip 就OK了

Linux 中 Windows 中文乱码

Linux 下 Windows 源代码中文乱码 由于 windows 和 linux 对文本的编码方式不同,所以经常会有 windows 中生成的文本在 linux 中打开乱码的情况. 比如: 我面临的情况是现在有很多的源代码文件是处于这样的情况,如下图: 其中每个文件夹中包含了 java 源代码文件和子文件夹. 在参考了网上的部分文章后(https://blog.csdn.net/imyang2007/article/details/7448177),我写了一个脚本用于将这个目录下的所有 ja

解决Linux下Oracle中文乱码的一些心得体会 ,转自

以下转自 http://blog.itpub.net/29151695/viewspace-1173238/ 最近在linux上安装完oracle 10gR2后,又遇到了字符集乱码的问题,之前在网上找了下,然后解决完后就不了了之了,这次又碰到此类问题,所以就认真下来花点时间去测试了一番,经过一些测试,现在已经解决了问题,现在把自己遇到的问题和解决方法记录一下,方便自己日后查找. 测试环境如下: 测试平台: VMware? Workstation 9.0.2 build-1031769 (注:VM

ubuntu下netbeans中文显示乱码的问题

菜鸟终于搞定了这个小方块 以前在windows下使用eclipse出现乱码现象,首先会想到是不是字符集出现了问题.可是这次在linux下却没有生效,几个字符集改来改去,也没有能够见证奇迹的发生.万万没想到,最后是字体这块出了差错,在linux下西文字体不支持中文显示,可能是windows给惯出的毛病,所以,一开始没有想到这个问题. 出现这种情况,第一步,应该先去更改字体,找一个支持中文的,先别考虑字体好看不好看,找出问题,再下药.如果修改之后问题解决了,很好,下面的就不用再浪费时间继续看了.^_

nginx的web目录下处理中文文件和文件夹以及编码格式问题

有时候网站的根目录下有中文文件名或者文件夹时,在客户端进行访问这些相关文件时就会  出现显示的问题. 下面尝试了一些方法解决,可用. [[email protected] ~]# echo $LANGen_US.UTF-8[[email protected] ~]# cat /etc/sysconfig/i18nLANG="en_US.UTF-8"SYSFONT="latarcyrheb-sun16"#LANG="zh_CN.GB18030"#L

Linux下几种文件传输命令

Linux下几种文件传输命令 sz rz sftp scp 最近在部署系统时接触了一些文件传输命令,分别做一下简单记录: 1.sftp Secure Ftp 是一个基于SSH安全协议的文件传输管理工具.由于它是基于SSH的,会在传输过程中对用户的密码.数据等敏感信息进行加密,因此可以有效的防止用户信息在传输的过程中被窃取,比FTP有更高的安全性.在功能方面与FTP很类似,不仅可以传输文件数据,而且可以进行远程的文件管理(如建立,删除,查看文件列表等操作).Sftp与ftp虽然只有一字之差,但基于

Linux下校验下载文件的完整性(MD5,SHA1,PGP)

查看: Linux下校验下载文件的完整性(MD5,SHA1,PGP) http://blog.useasp.net/archive/2014/03/29/use-md5-sha1-or-pgp-to-check-downloaded-file-integrity-on-linux.aspx Linux下的学习开始总是艰难的,但有的时候,却发现Linux下远比Windows的操作来的实在的多——这下载文件的完整性就是其中一件,让本人觉着很爽的一件事情.在编译安装各种软件的时候,总要到各个网站上收集