unicode编码UTF-8和locale概念 / 憋错料

参考：

学点编码知识又不会死：Unicode的流言终结者和编码大揭秘
http://www.freebuf.com/articles/others-articles/25623.html

-----------------------------------------------------------------------------------------------------------

我的理解：

unicode：就像是一个电话本，仅仅定义了一个‘字符’对应的‘数字’；unicode不负责一个‘字符’是怎么存在内存中的，占用了几个‘字节’；

例子：字符‘A’，我们可以称之为一个‘unicode字符’；世界上所有的‘unicode字符’集合在一起，我们称之为‘unicode字符集’；每一个‘unicode字符’对应一个‘数字’；这个数字

在存在内存中占用几个‘字节’，这叫‘编码方式’，‘编码方式’是由“UTF”规定；

编码方式UTF：有两种，UTF-8 和 UTF-9.

locale:

[[email protected] ~]# locale
LANG=C
LC_CTYPE="C"
LC_NUMERIC="C"
LC_TIME="C"
LC_COLLATE="C"
LC_MONETARY="C"
LC_MESSAGES="C"
LC_PAPER="C"
LC_NAME="C"
LC_ADDRESS="C"
LC_TELEPHONE="C"
LC_MEASUREMENT="C"
LC_IDENTIFICATION="C"
LC_ALL=

[[email protected] test]# more /etc/sysconfig/i18n
LANG="en_US.UTF-8"
LANGUAGE="en_US.UTF-8:en_US:en"
SUPPORTED="en_US.UTF-8:en_US:en:zh_CN.UTF-8:zh_CN:zh"
SYSFONT="latarcyrheb-sun16"

格式：

LANG="en_US.UTF-8" 由3部分组成：

语言：en

国家：_US

编码方式：.UTF-8

编码方式都告诉你是UTF-8了，那么你肯定知道，使用的字符集就是Unicode字符集了

------------------------------------------------------------------------------------------------------------

至于UTF－8编码则是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24位（三个字节）来编码。对于英文字符较多的论坛则用UTF－8节省空间。

GBK包含全部中文字符；UTF-8则包含全世界所有国家需要用到的字符。

GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准（好像还不是国家标准）
UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示。
比如，如果是UTF8编码，则在外国人的英文IE上也能显示中文，而无需他们下载IE的中文语言支持包。所以，对于英文比较多的论坛，使用GBK则每个字符占用2个字节，而使用UTF－8英文却只占一个字节。

UTF8是国际编码，它的通用性比较好，外国人也可以浏览论坛，GBK是国家编码，通用性比UTF8差，不过UTF8占用的数据库比GBK大~字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24为（三个字节）来编码。UTF-8包含全世界所有国家需要用到的字符，是国际编码，通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如，如果是UTF8编码，则在外国人的英文IE上也能显示中文，他们无需下载IE的中文语言支持包。

GBK是国家标准GB2312基础上扩容后兼容GB2312的标准。GBK的文字编码是用双字节来表示的，即不论中、英文字符均使用双字节来表示，为了区分中文，将其最高位都设定成1。GBK包含全部中文字符，是国家编码，通用性比UTF8差，不过UTF8占用的数据库比GBD大。

GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换：

GBK、GB2312－－Unicode－－UTF8

UTF8－－Unicode－－GBK、GB2312

对于一个网站、论坛来说，如果英文字符较多，则建议使用UTF－8节省空间。不过现在很多论坛的插件一般只支持GBK。

GB2312是GBK的子集，GBK是GB18030的子集
GBK是包括中日韩字符的大字符集合
如果是中文的网站推荐GB2312 GBK有时还是有点问题
为了避免所有乱码问题，应该采用UTF-8，将来要支持国际化也非常方便
UTF-8可以看作是大字符集，它包含了大部分文字的编码。
使用UTF-8的一个好处是其他地区的用户（如香港台湾）无需安装简体中文支持就能正常观看你的文字而不会出现乱码。

评论 | 17 2
2010-01-12 22:04 chafingdisk | 八级

字符均使用双字节来表示，只不过为区分中文，将其最高位都定成1。

GBK包含全部中文字符；UTF-8则包含全世界所有国家需要用到的字符。

GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换：

GBK、GB2312－－Unicode－－UTF8

UTF8－－Unicode－－GBK、GB2312

对于一个网站、论坛来说，如果英文字符较多，则建议使用UTF－8节省空间。不过现在很多论坛的插件一般只支持GBK。

编辑/etc/sysconfig/i18n这个文件，
不管你装的是中文版,还是英文版.删掉原来的设置,把下面的拷贝过去
LANG="zh_CN.GB18030"
SUPPORTED="zh_CN.GB18030:zh_CN:zh:en_US.UTF-8:en_US:en"
SYSFONT="latarcyrheb-sun16"
保存,重起.OK了
这时候，linux控制台下就可以显示中文了,
在RHEL5中对应的文件是/usr/lib/locale/zh_CN.gb18030
/etc/sysconfig/i18n 这里存放的是系统的区域语言设置
第一行表明你当前系统的语言环境变量设置，这里是 zh_CN.GB18030
第二行表明系统预置了那些语言支持，不在项目中的语言不能正常显示
第三行定义控制台终端字体，你文本登录的时候显示的字体就是这个 latarcyrheb-sun16
注:
I18N 是 internationalization 的缩写形式，意即在 i 和 n 之间有 18 个字母，本意是指软件的“国际化”.
I18N支持多种语言，不过同一时间只能是英文和一种选定的语言，例如英文+中文、英文+德文、英文+韩文等等；
原来的:
LANG="zh_CN.UTF-8"
SUPPORTED="zh_CN.UTF-8:zh_CN:zh"
SYSFONT="latarcyrheb-sun16"

当centos是如下,终端中中文都是？？
LANG="en_US.UTF-8"
SUPPORTED="en_US.UTF-8:en_US:en:zh_CN.UTF-8:zh_CN:zh"
SYSFONT="latarcyrheb-sun16"

-----------------------------------------------------------------------------------------------------------

Windows的默认编码为GBK，Linux的默认编码为UTF-8。在Windows下编辑的中文，在Linux下显示为乱码。为了解决此问题，修改Linux的默认编码为GBK。方法如下：

方法1：

vi /etc/sysconfig/i18n

默认为:

LANG="en_US.UTF-8"
SYSFONT="latarcyrheb-sun16"

修改为:

LANG="zh_CN.GBK"
SUPPORTED="zh_CN.UTF-8:zh_CN:zh"
SYSFONT="latarcyrheb-sun16"

方法2：
vi /etc/profile

export LC_ALL="zh_CN.GBK"
export LANG="zh_CN.GBK"

运行locale指令得到当前系统编码设置的详细资料。

一、locale的五脏六腑

1、语言符号及其分类(LC_CTYPE)
2、数字(LC_NUMERIC)
3、比较和排序习惯(LC_COLLATE)
4、时间显示格式(LC_TIME)
5、货币单位(LC_MONETARY)
6、信息主要是提示信息,错误信息, 状态信息, 标题, 标签, 按钮和菜单等(LC_MESSAGES)
7、姓名书写方式(LC_NAME)
8、地址书写方式(LC_ADDRESS)
9、电话号码书写方式(LC_TELEPHONE)
10、度量衡表达方式(LC_MEASUREMENT)
11、默认纸张尺寸大小(LC_PAPER)
12、对locale自身包含信息的概述(LC_IDENTIFICATION)。

二、理解locale的设置

设定locale就是设定12大类的locale分类属性，即 12个LC_*。除了这12个变量可以设定以外，为了简便起见，还有两个变量：LC_ALL和LANG。

它们之间有一个优先级的关系：LC_ALL > LC_* > LANG

可以这么说，LC_ALL是最上级设定或者强制设定，而LANG是默认设定值。

三具体设定locale的方法（zh_CN.UTF-8、zh_CN.GBK）

freebsd的设置：

1.GDM登录改为终端登录后startx启动图形桌面

2.在~/.cshrc中增加如下语句,（根据自己使用的shell进行相应设置）

setenv LANG zh_CN.GBK
setenv LC_ALL zh_CN.GBK
setenv LC_CTYPE zh_CN.GBK

3.修改/etc/fstab的默认值：

linux 设置：

1.修改/etc/sysconfig/i18n文件，LANG="zh_CN.UTF-8"或LANG="zh_CN.GBK"

普通用户修改~/.profile

...
export LANG zh_CN.GBK
...

2.修改/etc/fstab的默认值

时间： 2024-12-14 18:56:06

unicode编码UTF-8和locale概念

unicode编码UTF-8和locale概念的相关文章

ascii、unicode、utf、gb等编码详解

Unicode编码的原型

[百度空间] [转]程序员趣味读物：谈谈Unicode编码

ASCII、ANSI、Unicode编码

java中文乱码解决之道（三）—–编码详情：伟大的创想—Unicode编码

Unicode、UTF－8 和 ISO8859-1到底有什么区别

[C语言]Unicode编码（二）－中文字符刷选

了解Unicode编码

C语言:宽字符集操作函数（unicode编码）