linux nkf 日文编码转换命令[转载]

对于日语的编码

windows : Shift-JIS

Linux : 2.4内核使用EUC编码,2.6内核中使用UTF8编码

检查文件编码  nkf -g filename

通常处理字符编码都使用iconv这个命令,但是iconv命令只能用来处理文件名,但对于文本内容的编码就无法处理了,

要想对文本内容的字符编码进行转换,就要用到nkf了

-j           : 转换为 JIS 编码(ISO-2022-JP),默认
-e           : 转换为 EUC 编码
-s           : 转换为 Shift-JIS 编码
-w           : 转换为 UTF-8 编码(无BOM)
-Lu          : 转换为 unix 换行格式(LF)
-Lw          : 转换为 windows 换行格式(CRLF)
-Lm          : 转换为 macintosh 换行格式(CR)
-g(--guess)  : 自动判断编码并显示
--version    : 显示版本
--help       : 显示帮助

linux中转换成window     :   nkf -sxLw    nkf -swLw

window转换成linux         :   nkf -wxLu



 Linux中使用nkf命令对日文编码进行转换

对日文字符编码的处理,Windows于Linux使用不同的字符编码,Windows中使用的日文字符编码为Shift-JIS,Linux中2.4内核使用EUC编码,2.6内核中使用UTF8编码,为了解决这个问题,可以使用nkf这个命令。通常处理字符编码都使用iconv这个命令,但是iconv命令只能用来处理文件名,但对于文本内容的编码就无法处理了,要想对文本内容的字符编码进行转换,就要用到nkf了。
    首先下载安装,我使用的是Ubuntu8.10,用apt可以很方便的进行安装。如果使用源码进行安装可自行查找相关资料。

$sudo apt-get nkf

安装好了就可以开始使用了。这里简单介绍一下nkf的使用。nkf命令使用的时候会将指定文本内容按照参数所设定的编码格式打印输出到屏幕上,并不会对原来的文本进行改变,要生成新的编码格式的文本,可以使用管道命令将结果重定向到其他文件中。先介绍几个基本参数:j,s,e,w,这几个参数分别为JIS,Shift-JIS,EUC,UTF编码,如果要使用UTF8就用w8参数,要使用UTF16就用w16参数,注意这几个字母是小写,另外还有四个大写的参数,J,S,E,W与之前对应相同的字符编码格式,大写于小写的区别在于,小写字母表示输出的编码,大写字母表示假定输入的字符编码,这里用了个“假定”这个词,man文档中是这么说的,我猜想这个意思是说,假如有一个Shift-JIS编码的文件需要转换成UTF8格式,如果指定的参数为E,那么就把这个文件的字符编码当作EUC来处理了。 帮助文档中写道可以指定输入文件和输出文件,不过根据我自己的实验好像不能将结果生成为输出文件,只能 打印到屏幕上,所以只能使用管道命令,重定向到其他文件中。例如我现在要将一个内容为Shift-JIS编码的文件转换成UTF8格式,就可以使用如下命令,这也是我们经常用到的,。
$nkf -w myfile.txt >> test
这个命令的意思就是把文件myfile.txt文件文本的内容转换成utf8的编码然后输出到文件test中,这个时候我们再浏览一下文件test文件的内容应该就能够正常显示了。
    nkf还有一个比较有趣的参数,就是可以进行平假名和片假名之间的转换。那就是-h参数,注意,很多命令的帮助档命令的参数也是-h,nkf的帮助命令为--help,-h1参数为片假名到平假名之间的转换,-h2为平假名到片假名之间的转换,-h3为双向转换,前两个参数还好理解,对于第三个双向转换,我没有做过实际验证,不做其他设想了。
    这里介绍简单的nkf命令的使用方法,具体的用法请各位参考一下man文档或者帮助命令吧,记得,nkf的帮助命令是--help,不是-h。

来自为知笔记(Wiz)

时间: 2024-10-18 20:06:33

linux nkf 日文编码转换命令[转载]的相关文章

centos 文件编码转换命令

从Linux往windows拷贝文件或者从windows往Linux拷贝文件,有时会出现中文文件名乱码的情况,出现这种问题的原因是因为,windows的文件名中文编码默认为GBK,而Linux中默认文件名编码为UTF8,由于编码不一致,所以导致了文件名乱码的问题,解决这个问题需要对文件名进行转码. convmv -f 源编码 -t 新编码 [选项] 文件名 常用参数: -r 递归处理子文件夹 --notest 真正进行操作,请注意在默认情况下是不对文件进行真实操作的,而只是试验. --list

linux iconv文件编码转换

linux系统里提供的文件转化编码的命令iconv,例如: iconv -t utf-8 -f gb2312 -c test.xml > text_UTF8.xml 1 -f 源编码-t 目标编码-c 忽略无法转换的字符 如果想批量转换,只需要执行如下两行命令即可: find folder -type d -exec mkdir -p utf/{} \; find floder -type f -exec iconv -f GB2312 -t UTF-8 {} -o utf/{} \; 1 2

Linux字符编码转换 UTF8转GB3212

在LINUX上进行编码转换时,既可以利用iconv函数族编程实现,也可以利用iconv命令来实现,只不过后者是针对文件的,即将指定文件从一种编码转换为另一种编码.    一.利用iconv函数族进行编码转换    iconv函数族的头文 在LINUX上进行编码转换时,既可以利用iconv函数族编程实现,也可以利用iconv命令来实现,只不过后者是针对文件的,即将指定文件从一种编码转换为另一种编码.    一.利用iconv函数族进行编码转换    iconv函数族的头文件是iconv.h,使用前

(转载)Linux查看文件编码格式及文件编码转换

Linux查看文件编码格式及文件编码转换 时间:2011-04-08作者:woyoo分类:linux评论:0 我友分享: 新浪微博 腾讯微博 搜狐微博 网易微博 开心网 QQ空间 msn 如果你需要在Linux 中操作windows下的文件 ,那么你可能会经常遇到文件 编码 转换的问题.Windows中默认的文件 格式是GBK(gb2312),而Linux 一般都是UTF-8.下面介绍一下,在Linux 中如何查看 文件 的编码 及如何进行对文件 进行编码 转换. 查看 文件 编码 在Linux

Linux下查看文件编码,文件编码格式转换和文件名编码转换

linux相关   2008-10-07 10:46   阅读1392   评论0   字号: 大大  中中  小小  如果你需要在Linux中 操作windows下的文件,那么你可能会经常遇到文件编码转换的问题.Windows中默认的文件格式是GBK(gb2312),而Linux一般都是 UTF-8.下面介绍一下,在Linux中如何查看文件的编码及如何进行对文件进行编码转换. 查看文件编码 在Linux中查看文件编码可以通过以下几种方式: 1.在Vim中可以直接查看文件编码 :set file

Linux查看文件编码格式及文件编码转换

Linux查看文件编码格式及文件编码转换 如果你需要在Linux 中操作windows下的文件,那么你可能会经常遇到文件编码转换的问题.Windows中默认的文件格式是GBK(gb2312),而Linux一般都是UTF-8.下面介绍一下,在Linux中如何查看文件的编码及如何进行对文件进行编码转换. 查看文件编码在Linux中查看文件编码可以通过以下几种方式:1.在Vim 中可以直接查看文件编码 Shell代码 :set fileencoding 即可显示文件编码格式.如果你只是想查看其它编码格

linux下文件编码的查看与转换(转)

通常来说,Windows中默认的文件格式是GBK(gb2312),而Linux一般都是UTF-8,所以Linux下打开windows的文件会有乱码的情况.另外,有时要将文件进行编码转换,如将简体中文转换为繁体中文. 基于以上情况,本文将就在linux下查看和转换文件的编码进行说明. 1.查看文件的编码 1)在Vim中可以直接查看文件编码 :set fileencoding    即可显示文件编码格式. http://www.poluoluo.com/server/201011/98282.htm

linux下文件字符编码转换

1.查看编码 通过file命令  file filename 可以查看文件的编码 2.编码转换 通过icnov命令  iconv -f UTF-16 -t UTF-8 sourceFile -o targetFile  此命令将UTF-16格式的sorceFile转换为UTF-8的targetFile

Java用native2ascii命令做unicode编码转换

背景:在做Java开发的时候,常常会出现一些乱码,或者无法正确识别或读取的文件,比如常见的validator验证用的消息资源(properties)文件就需要进行Unicode重新编码.原因是java默认的编码方式为Unicode,而我们的计算机系统编码常常是GBK等编码.需要将系统的编码转换为java正确识别的编码问题就解决了. 1.native2ascii简介:native2ascii是sun java sdk提供的一个工具.用来将别的文本类文件(比如*.txt,*.ini,*.proper