转自:http://zyxhome.org/wp/cc-prog-lang/c-stdlib-setlocale-usage-note/
http://www.west263.com/info/html/caozuoxitong/FreeBSD/20090513/126191.html
C 和 C++ 的标准库分别有自己的 locale 操作方法,C 标准库的 locale 设定函数是 setlocale(),而 C++ 标准库有 locale 类和流对象的 imbue() 方法。这篇是我自己的 setlocale() 使用总结。
Linux的glibc中的setlocale()
具体参考:man 3 setlocale
头文件与声明如下:
1 |
#include <locale.h> |
2 |
char * setlocale ( int category, const char * locale); |
说明:
category:为locale分类,表达一种locale的领域方面,通常有下面这些预定义常量:LC_ALL、LC_COLLATE、LC_CTYPE、LC_MESSAGES、LC_MONETARY、LC_NUMERIC、LC_TIME,其中 LC_ALL 表示所有其它locale分类的并集。
locale:为期望设定的locale名称字符串,在Linux/Unix环境下,通常以下面格式表示locale名称:language[_territory][.codeset][@modifier],language 为 ISO 639 中规定的语言代码,territory 为 ISO 3166 中规定的国家/地区代码,codeset 为字符集名称。
在Linux下,可以使用 locale -a 命令查看系统中所有已配置的 locale。用不带选项的 locale 命令查看当前 Shell 中活动的 locale。用 locale -m 命令查看locale系统支持的所有可用的字符集编码。
和locale相关的包叫做:locales,locale系统支持的所有可用locale在文件:/usr/share/i18n/SUPPORTED 中列出。
在Debian下,可用 dpkg-reconfigure locales 命令重新配置 locale,也可以手工修改 /etc/locale.gen 文件,然后运行 locale-gen 命令。
在Ubuntu下,修改 /var/lib/locales/supported.d/local 文件,配置新的 locale,然后运行 locale-gen 命令。
我在我用的fedora14的linux虚拟机中执行locale 返回如下:
[[email protected] ~]$ locale
LANG=zh_CN.utf8
LC_CTYPE="zh_CN.utf8"
LC_NUMERIC="zh_CN.utf8"
LC_TIME="zh_CN.utf8"
LC_COLLATE="zh_CN.utf8"
LC_MONETARY="zh_CN.utf8"
LC_MESSAGES="zh_CN.utf8"
LC_PAPER="zh_CN.utf8"
LC_NAME="zh_CN.utf8"
LC_ADDRESS="zh_CN.utf8"
LC_TELEPHONE="zh_CN.utf8"
LC_MEASUREMENT="zh_CN.utf8"
LC_IDENTIFICATION="zh_CN.utf8"
LC_ALL=
当 locale 为 NULL 时,函数只做取回当前 locale 操作,通过返回值传出,并不改变当前 locale。
当 locale 为 "" 时,根据环境的设置来设定 locale,检测顺序是:环境变量 LC_ALL,每个单独的locale分类LC_*,最后是 LANG 变量。为了使程序可以根据环境来改变活动 locale,一般都在程序的初始化阶段加入下面代码:setlocale(LC_ALL, "")。
当C语言程序初始化时(刚进入到 main() 时),locale 被初始化为默认的 C locale,其采用的字符编码是所有本地 ANSI 字符集编码的公共部分,是用来书写C语言源程序的最小字符集(所以才起locale名叫:C)。
当用 setlocale() 设置活动 locale 时,如果成功,会返回当前活动 locale 的全名称;如果失败,会返回 NULL。
locale 是一组 C 程式语言处理自然语言(文字)的程式介面, 也可以简单的说,locale 就是一组地区性语言的资讯。由国家语言和各地习俗影响所决定的惯例,或代表一个地理区域的定义所组成,这些惯例包含文字、日期、数字、货币格式和排序等等。这代表着 locale 可让程式的输出可以直接反应地方区域性的文化。
C 语言的 locale 定义,分为下列各大类:
LC_ALL 指定所有的 Locale
LC_CTYPE 字元定义 (包含字元分类与转换规则)
LANG 语言显示
LC_MESSAGES 讯息显示
LC_TIME 时间格式
LC_NUMERIC 数字格式
LC_MONETARY 货币格式
LC_COLLATE 字母顺序与特殊字元比较
其中与一般使用者息息相关的,是字元定义 (LC_CTYPE) 与语言显示 (LANG)。LC_CTYPE 直接关系到某些字元或内码在目前的 locale 下是否可列印?要如何转换字码?对应到哪一个字?.... 等等。LANG 则关系到软体的讯息输出是不是符合地域性,例如 :我们需要的是中文。而一个真正完整支援 locale 系统, 是当使用者在 shell prompt 下,直接设好环境变数後,则马上就能切换到那个语言了。当 LC_MESSAGES、LC_TIME、LC_NUMERIC、 LC_MONETARY 等没有设定的时候,会直接取用 LANG 的环境设定值。
设定 Locale 的字元定义为台湾地区的 utf-8 繁体中文码定义, 有了正确的 locale 的定义後,使得任何地区的语文,只要在加入适当的 locale data 之後,C Library 就能正确地处理软体显示讯息, 而我们使用的中文当然也不例外,而目前常用的中文 locale data 就是 zh_TW.utf-8,代表的就是中文语系(zh)台湾地区(TW) 使用utf-8编码系统(utf-8)。
其中与一般使用者息息相关的,是字元定义 (LC_CTYPE) 与语言显示 (LANG)。LC_CTYPE 直接关系到某些字元或内码在目前的 locale 下是否可列印?要如何转换字码?对应到哪一个字?.... 等等。LANG 则关系到软体的讯息输出是不是符合地域性,例如 :我们需要的是中文。而一个真正完整支援 locale 系统, 是当使用者在 shell prompt 下,直接设好环境变数後,则马上就能切换到那个语言了。当 LC_MESSAGES、LC_TIME、LC_NUMERIC、 LC_MONETARY 等没有设定的时候,会直接取用 LANG 的环境设定值。
设定 Locale 的字元定义为台湾地区的 utf-8 繁体中文码定义, 有了正确的 locale 的定义後,使得任何地区的语文,只要在加入适当的 locale data 之後,C Library 就能正确地处理软体显示讯息, 而我们使用的中文当然也不例外,而目前常用的中文 locale data 就是 zh_TW.utf-8,代表的就是中文语系(zh)台湾地区(TW) 使用utf-8编码系统(utf-8)。
locale 命名规则:语言_地区名.字元编码名称
当一个程式启动时,系统会预设给它一个初始 locale,称为 POSIX 或 C locale。在此 locale 下,程式的表现会与传统的 C 语言中一样, 使用英文做讯息输出,只能处理英文等 ASCII 码等等。如果该程式有支援 I18N,也就是说它有按照 I18N 的标准来写,则它在启动後就会马上呼叫系统函式来改变它的 locale, 如此它就摇身一变,变成可以处理该 locale 所代表的地区语文了。
zh_TW.utf-8 是目前台湾内广泛使用的 locale, zh 是华语(Chinese),1998 年 ISO639 里面以两个英文字母来代表语言编码, 这个缩写据笔者所知没有任何含义,而 TW 代表的就是台湾(Taiwan) 地区的缩写,最後的 utf-8 则是编码方式。
locale 设定档在编译後, 则是储存在 /usr/share/locale/ 目录下, 以 zh_TW.utf-8 locale 为例,该目录中就包含了 LC_COLLATE、LC_CTYPE、 LC_TIME。
而 LC_MESSAGES 则是储存在 /usr/local/share/locale/zh_TW/LC_MESSAGES/ 或是/usr/X11R6/share/locale/zh_TW.utf-8/ 底下。由於 LC_MESSAGES 类别掌管的是程式讯息输出所用的语言,而且不同程式间的讯息都不会一样,因此它不能像其他类别一样,只提供单一一个资料档即可。相反的,在这里所采取的方式是由各应用程式自行提供它们的讯息资料档, 并统一放在各 locale 的 LC_MESSAGES 的目录下。例如 mutt 程式,其讯息的部分除了英文以外,可能还同时提供了繁体中文、简体中文、 日文、法文等翻译,因此,在以上这些语文所代表的 locale 中, 其底下的 LC_MESSAGES 目录中都会有一份属於 mutt 程式的讯息资料档。 换句话说,在 I18N 架构下,程式讯息部分是与程式分离的, 如此才能分别对各 locale 做 ``区域化‘‘ (即翻译成各地区的语言)。 如此,当 mutt 在执行时,系统会根据目前它的 LC_MESSAGES locale 设定去找找看有没有它的讯息资料档存在,有的话就以该语言做讯息输出, 否则的话则以 C locale 的方式 (即英文) 来输出讯息。
zh_CN.GB2312到底是在说什么?
Locale 是软件在运行时的语言环境, 它包括语言(Language), 地域 (Territory) 和字符集(Codeset)。一个locale的书写格式为: 语言[_地域[.字符集]]. 所以说呢,locale总是和一定的字符集相联系的。下面举几个例子:
1、我说中文,身处中华人民共和国,使用国标2312字符集来表达字符。
zh_CN.GB2312=中文_中华人民共和国+国标2312字符集。
2、我说中文,身处中华人民共和国,使用国标18030字符集来表达字符。
zh_CN.GB18030=中文_中华人民共和国+国标18030字符集。
3、我说中文,身处中华人民共和国台湾省,使用国标Big5字符集来表达字符。
zh_TW.BIG5=中文_台湾.大五码字符集
4、我说英文,身处大不列颠,使用ISO-8859-1字符集来表达字符。
en_GB.ISO-8859-1=英文_大不列颠.ISO-8859-1字符集
5、我说德语,身处德国,使用UTF-8字符集,习惯了欧洲风格。
[email protected]=德语_德国.UTF-8字符集@按照欧洲习惯加以修正
注意不是[email protected],所以完全的locale表达方式是
[语言[_地域][.字符集] [@修正值]
生成的locale放在/usr/lib/locale/目录中,并且每个locale都对应一个文件夹,也就是说创建了[email protected] locale之后,就生成/usr/lib/locale/[email protected]/目录,里面是具体的每个locale的内容。
什么是字符集?
字符集就是字符,尤其是非英语字符在系统内的编码方式,也就是通常所说的内码,所有的字符集都放在 /usr/share/i18n/charmaps,所有的字符集也都是用Unicode编号索引的。Unicode用统一的编号来索引目前已知的全部的符号。而字符集则是这些符号的编码方式,或者说是在网络传输,计算机内部通信的时候,对于不同字符的表达方式,Unicode是一个静态的概念,字符集是一个动态的概念,是每一个字符传递或传输的具体形式。就像Unicode编号U59D0是代表姐姐的“姐”字,但是具体的这个字是用两个字节表示,三个字节,还是四个字节表示,是字符集的问题。例如:UTF-8字符集就是目前流行的对字符的编码方式,UTF-8用一个字节表示常用的拉丁字母,用两个字节表示常用的符号,包括常用的中文字符,用三个表示不常用的字符,用四个字节表示其他的古灵精怪的字符。而GB2312字符集就是用两个字节表示所有的字符。需要提到一点的是Unicode除了用编号索引全部字符以外,本身是用四个字节存储全部字符,这一点在谈到挂载windows分区的时候是非常重要的一个概念。所以说你也可以把Unicode看作是一种字符集(我不知道它和UTF-32的关系,反正UTF-32就是用四个字节表示所有的字符的),但是这样表述符号是非常浪费资源的,因为在计算机世界绝大部分时候用到的是一个字节就可以搞定的26个字母而已。所以才会有UTF-8,UTF-16等等,要不然大同世界多好,省了这许多麻烦.
通常这几个函数一起用,用于编写本地化程序。
setlocale
bindtextdomain
textdomain
gettext
http://blog.sina.com.cn/s/blog_70f157930101jlz2.html
原文地址:https://www.cnblogs.com/findumars/p/10247531.html