集算器协助MongoDB计算之本地化排序

对于本地化语言（例如：中文），MongoDB是按照UNICODE编码排序，而不是根据本地语言的编码排序。用esProc结合MongoDB可以方便的实现本地化语言的排序（例如：中文按照拼音排序）。下面我们以中文为例，来看一下具体做法。

MongoDB中的集合person保存了姓名和性别如下：

>db.person.find()

{"_id" : ObjectId("544e4e070f03ad39eb2bf498"),"name" : "宋江", "gender" : "男"}

{"_id" : ObjectId("544e4e070f03ad39eb2bf499"),"name" : "李逵", "gender" : "男"}

{"_id" : ObjectId("544e4e070f03ad39eb2bf49a"),"name" : "吴用", "gender" : "男"}

{"_id" : ObjectId("544e4e070f03ad39eb2bf49b"),"name" : "晁盖", "gender" : "男"}

{"_id" : ObjectId("544e4e070f03ad39eb2bf49c"),"name" : "公孙胜", "gender" : "男" }

{"_id" : ObjectId("544e4e070f03ad39eb2bf49d"),"name" : "鲁智深", "gender" : "男" }

{"_id" : ObjectId("544e4e070f03ad39eb2bf49e"),"name" : "武松", "gender" : "男"}

{"_id" : ObjectId("544e4e070f03ad39eb2bf49f"),"name" : "阮小二", "gender" : "男" }

{"_id" : ObjectId("544e4e070f03ad39eb2bf4a0"),"name" : "杨志", "gender" : "男"}

{"_id" : ObjectId("544e4e070f03ad39eb2bf4a1"), "name": "孙二娘", "gender" : "女" }

{"_id" : ObjectId("544e4e070f03ad39eb2bf4a2"),"name" : "扈三娘", "gender" : "女" }

{"_id" : ObjectId("544e4e080f03ad39eb2bf4a3"),"name" : "燕青", "gender" : "男"}

…

直接用MongoDB的sort函数，没有按照拼音排序：

>db.person.find({},{"name":1,"gender":1,"_id":0}).sort({"name":1})

{"name" : "公孙胜", "gender" : "男" }

{"name" : "吴用", "gender" : "男" }

{"name" : "孙二娘", "gender" : "女" }

{"name" : "宋江", "gender" : "男" }

{"name" : "扈三娘", "gender" : "女" }

{"name" : "晁盖", "gender" : "男" }

{"name" : "李逵", "gender" : "男" }

{"name" : "杨志", "gender" : "男" }

{"name" : "武松", "gender" : "男" }

{"name" : "燕青", "gender" : "男" }

{"name" : "阮小二", "gender" : "男" }

{"name" : "鲁智深", "gender" : "男" }

…

用esProc协助MongoDB的脚本如下：

A1：连接MongoDB，ip和端口号是localhost:27017，数据库是test，用户名和密码都是test。如果需要其他参数的话可以按照mongo://ip:port/db?arg=value&…格式继续写参数。

A2：使用find函数从MongoDB中取数，形成游标。集合是person，过滤条件是空，指定键是name和gender。可以看出find函数和mongdb的find函数类似。esProc的游标是分批读取和处理数据，可以避免数据量过大，内存出现溢出的情况。

A3：因为数据量不大，所以这里fetch出游标的所有记录。

A4：使用sort按照name升序排序。排序所使用的语言是中文。集算器支持的其他本地化语言，见后。

运行的结果是：

需要说明的是：esProc并不包含MongoDB的java驱动包。用esProc来访问MongoDB，必须提前将MongoDB的java驱动包（要求2.12.2或以上版，如mongo-java-driver-2.12.2.jar）放到[esProc安装目录]\common\jdbc中。

esProc协助MongoDB计算的脚本很容易集成到java中，只要增加一行A5，写成result A4即可向java输出resultset形式的结果，具体的代码参考esProc教程。同样，用java调用esProc访问MongoDB也必须将mongdb的java驱动包放到java程序的classpath中。

MongoDB的java驱动包下载地址是：

https://github.com/MongoDB/mongo-java-driver/releases。

esProc支持的语言包括：

ja_JP 日文日本

es_PE 西班牙文秘鲁

en 英文

ja_JP_JP 日文日本

es_PA 西班牙文巴拿马

sr_BA 塞尔维亚文波斯尼亚和黑山共和国

mk 马其顿文

es_GT 西班牙文危地马拉

ar_AE 阿拉伯文阿拉伯联合酋长国

no_NO 挪威文挪威

sq_AL 阿尔巴尼亚文阿尔巴尼亚

bg 保加利亚文

ar_IQ 阿拉伯文伊拉克

ar_YE 阿拉伯文也门

hu 匈牙利文

pt_PT 葡萄牙文葡萄牙

el_CY 希腊文塞浦路斯

ar_QA 阿拉伯文卡塔尔

mk_MK 马其顿文马其顿王国

sv 瑞典文

de_CH 德文瑞士

en_US 英文美国

fi_FI 芬兰文芬兰

is 冰岛文

cs 捷克文

en_MT 英文马耳他

sl_SI 斯洛文尼亚文斯洛文尼亚

sk_SK 斯洛伐克文斯洛伐克

it 意大利文

tr_TR 土耳其文土耳其

zh 中文

th 泰文

ar_SA 阿拉伯文沙特阿拉伯

no 挪威文

en_GB 英文英国

sr_CS 塞尔维亚文塞尔维亚及黑山

lt 立陶宛文

ro 罗马尼亚文

en_NZ 英文新西兰

no_NO_NY 挪威文挪威

lt_LT 立陶宛文立陶宛

es_NI 西班牙文尼加拉瓜

nl 荷兰文

ga_IE 爱尔兰文爱尔兰

fr_BE 法文比利时

es_ES 西班牙文西班牙

ar_LB 阿拉伯文黎巴嫩

ko 朝鲜文

fr_CA 法文加拿大

et_EE 爱沙尼亚文爱沙尼亚

ar_KW 阿拉伯文科威特

sr_RS 塞尔维亚文塞尔维亚

es_US 西班牙文美国

es_MX 西班牙文墨西哥

ar_SD 阿拉伯文苏丹

in_ID 印度尼西亚文印度尼西亚

ru 俄文

lv 拉托维亚文(列托)

es_UY 西班牙文乌拉圭

lv_LV 拉托维亚文(列托) 拉脱维亚

iw 希伯来文

pt_BR 葡萄牙文巴西

ar_SY 阿拉伯文叙利亚

hr 克罗地亚文

et 爱沙尼亚文

es_DO 西班牙文多米尼加共和国

fr_CH 法文瑞士

hi_IN 印地文印度

es_VE 西班牙文委内瑞拉

ar_BH 阿拉伯文巴林

en_PH 英文菲律宾

ar_TN 阿拉伯文突尼斯

fi 芬兰文

de_AT 德文奥地利

es 西班牙文

nl_NL 荷兰文荷兰

es_EC 西班牙文厄瓜多尔

zh_TW 中文台湾地区

ar_JO 阿拉伯文约旦

be 白俄罗斯文

is_IS 冰岛文冰岛

es_CO 西班牙文哥伦比亚

es_CR 西班牙文哥斯达黎加

es_CL 西班牙文智利

ar_EG 阿拉伯文埃及

en_ZA 英文南非

th_TH 泰文泰国

el_GR 希腊文希腊

it_IT 意大利文意大利

ca 加泰罗尼亚文

hu_HU 匈牙利文匈牙利

fr 法文

en_IE 英文爱尔兰

uk_UA 乌克兰文乌克兰

pl_PL 波兰文波兰

fr_LU 法文卢森堡

nl_BE 荷兰文比利时

en_IN 英文印度

ca_ES 加泰罗尼亚文西班牙

ar_MA 阿拉伯文摩洛哥

es_BO 西班牙文玻利维亚

en_AU 英文澳大利亚

sr 塞尔维亚文

zh_SG 中文新加坡

pt 葡萄牙文

uk 乌克兰文

es_SV 西班牙文萨尔瓦多

ru_RU 俄文俄罗斯

ko_KR 朝鲜文韩国

vi 越南文

ar_DZ 阿拉伯文阿尔及利亚

vi_VN 越南文越南

sr_ME 塞尔维亚文黑山

sq 阿尔巴尼亚文

ar_LY 阿拉伯文利比亚

ar 阿拉伯文

zh_CN 中文中国

be_BY 白俄罗斯文白俄罗斯

zh_HK 中文香港

ja 日文

iw_IL 希伯来文以色列

bg_BG 保加利亚文保加利亚

in 印度尼西亚文

mt_MT 马耳他文马耳他

es_PY 西班牙文巴拉圭

sl 斯洛文尼亚文

fr_FR 法文法国

cs_CZ 捷克文捷克共和国

it_CH 意大利文瑞士

ro_RO 罗马尼亚文罗马尼亚

es_PR 西班牙文波多黎哥

en_CA 英文加拿大

de_DE 德文德国

ga 爱尔兰文

de_LU 德文卢森堡

de 德文

es_AR 西班牙文阿根廷

sk 斯洛伐克文

ms_MY 马来文马来西亚

hr_HR 克罗地亚文克罗地亚

en_SG 英文新加坡

da 丹麦文

mt 马耳他文

pl 波兰文

ar_OM 阿拉伯文阿曼

tr 土耳其文

th_TH_TH 泰文泰国

el 希腊文

ms 马来文

sv_SE 瑞典文瑞典

da_DK 丹麦文丹麦

es_HN 西班牙文洪都拉斯

时间： 2024-11-05 01:01:58

集算器协助MongoDB计算之本地化排序

集算器协助MongoDB计算之本地化排序的相关文章

集算器协助MongoDB计算之数位比较

集算器协助MongoDB计算之交叉汇总

集算器协助java处理多样性数据源之MongoDB

集算器协助java处理多样性数据源之HDFS

集算器协助Java处理结构化文本之分组汇总

集算器协助Java处理结构化文本之条件过滤

用集算器协助Java读入文本

集算器协助Java处理多样性数据源之Hive

集算器协助java处理多样性数据源之JSON