如何创造自己的数据字典(词库转换工具的使用)

对于很多做大数据的人来说,我们需要大量的数据字典作为我们准确分析信息的一个重要标准。而这些信息从哪儿来?我们不可能程序员自己一个一个去写吧?这样效率太低了!

所以,今天在这儿给大家分享一款软件。深蓝词库转换.exe工具!

下载地址是:http://download.csdn.net/detail/u011763190/8604025

希望能够帮助到大家!

还有一些比较好的词库下载地址:

百度输入法词库:http://shurufa.baidu.com/dict.html

搜狗输入法词库:http://pinyin.sogou.com/dict/

QQ输入法词库:http://dict.qq.pinyin.cn/

其它的还有很多,在这儿就不一一列举了,相信这三个已经够大家使用了,然后下载下来以后直接运行我们的转换程序转化就可以了。

Bonne Chance!

时间: 2024-09-30 16:59:06

如何创造自己的数据字典(词库转换工具的使用)的相关文章

深蓝词库转换2.4版发布,支持最新的搜狗用户词库备份bin格式

很高兴的告诉大家,感谢GitHub上的h4x3rotab提供python版的搜狗用户词库备份bin格式的解析算法,感谢tmxkn1提供了C#版的实现,深蓝词库转换终于迎来了一个重大更新,能够支持搜狗用户词库的bin格式备份的导出了.再也不用受到搜狗输入法的钳制,可以自由切换到其他输入法了.搜狗bin词库只解析到了用户词条和词频,没有拼音,所以如果要导出其他拼音输入法,中间转换工具会根据词条的内容重新生成拼音. 另外在2.4版中,增加了用户词频强制设置的功能,比如将搜狗用户词库bin格式备份转换为

深蓝词库转换2.7版发布——支持Mac原生输入法词库,QQ拼音新词库qcel格式

2020年过年期间,由于冠状病毒肺炎的流行,在家无事,就把搁置了很久的词库进行了改进.发布了2.7版:https://github.com/studyzy/imewlconverter/releases/tag/v2.7.0 转眼深蓝词库转换从诞生到现在都已经10个年头了,这是我做的最久的软件了.本次2.7版的更新主要包含了以下新特性: 一.MacOS原生简体拼音输入法自定义短语词库的支持 在MacOS的“系统偏好设置”中选择“键盘”,“文本”,即可看到,Mac简体拼音输入法的自定义短语词库.

深蓝词库转换2.8发布——支持微软拼音自学习词库导入导出

Win10自带的微软拼音一直以来有不少忠粉,但是词库导入导出一直是一个问题,因为微软拼音的自学习词库是自有格式,没有对外开放,所以一直没有解决.只能通过自定义短语的形式导入其他输入法的词库到微软拼音中. 最近经过网友的提醒,再自我研究了几晚上,终于把微软拼音的自学习词库导入导出解决了. 本次2.8版本的发布主要包含了以下更新: 微软拼音自学习词库的导入和导出. 转换词库时如果某些词条无法转换,通过错误窗口提示错误信息. 增强了微软拼音自定义短语对多种双拼方案的支持. 修改持续集成的实现方式,使用

QQ五笔词库转拼音词库小工具

参考文章<用QQ拼音打五笔>中提供的信息而制作的小工具,功能是将QQ五笔导出词库文件转换为QQ拼音自定义短语使用的.ini格式文件,这样就可以使用QQ拼音进行五笔拼音混输了. 混输效果不错(设置方法见上述参考文章): 关键代码: void Button1Click(object sender, EventArgs e) { if(openFileDialog1.ShowDialog() == DialogResult.OK) { var lines = File.ReadAllLines(op

coreseek/sphinx自定义词库

1.在一些专业领域中,全文搜索需要定义专业的名词,这里以化学为例来说明自定义词库 国内只有搜狗提供公开词库 网址是:http://pinyin.sogou.com/dict/ 有些可以直接下载TXT的,有些则需要自己处理成txt文件,如果能下载txt的则只需要更改一下就可以,如果不能下载,则用其他软件或者自己手写一个,我用的是深蓝提供的词库转换工具 假设以上步骤已经完成,txt文件已经生成,则只需要下面的步骤就可以生成词库 mmseg词库的格式是 中文词 \t 1 x:1 由于生成的txt文件的

郑码词库制作for百度输入法

一.百度手机输入法 ①原材料:郑码(安静词库超级郑码群修正版) ②以上词库为极点码表格式,需要将其转化为百度手机输入法支持的格式. ③用 notepad++ 编辑码表,去掉表头及~,^,!符号.如图:                 ④用 多多码表编辑器V3.2 将其换化为 QQ码表 格式,选择"菜单→工具→常见码表格式转换",如图:                   ⑤用多多码表的 "高级码表格式转换"将QQ码表转化为百度格式(期间电脑会卡5分钟,要有耐心).

中州韵输入法导入搜狗词库

rime是一个非常优秀的输入法,linux平台下的反应速度远超搜狗,也没有隐私风险.2012年开始接触它,到后来抛弃了它,因为rime自带的词库真的太弱了,也懒得折腾.最近发现一个词库转换软件叫imewlconverter,于是发现rime导入其他输入法(比如搜狗)的词库其实还挺方便的. 要导入词库需要两个文件: 1. luna_pinyin_simp.custom.yaml 是配置文件 rime在部署的时候会自动加载.因为我用的是明月简体schema,所以是这个名字.如果你用的是明月schem

和我一起开发Android应用(四)——拓词算法分析和“悦词”词库解析

今天我们要部分实现背单词功能,在开始正题之前,还是附上背单词软件的下载链接:http://apk.91.com/Soft/Android/com.carlos.yueci-4.html 最近实验室有了任务,时间会紧些,因此这个项目要加快进度了. 首先把我在系列二中的功能分析拷贝过来: 功能2.背单词. 实现方法:这里要用到第二个数据库,背单词的词库.我们需要一个存放单词的TXT文件,通过解析这个TXT文件,将要背的单词解析并存进数据库中,然后根据一定的规        律弹出单词. 所用到的技术

解析搜狗词库(python)

#!/usr/bin/python # -*- coding: utf-8 -*- import struct import sys import binascii import pdb #搜狗的scel词库就是保存的文本的unicode编码,每两个字节一个字符(中文汉字或者英文字母) #找出其每部分的偏移位置即可 #主要两部分 #1.全局拼音表,貌似是所有的拼音组合,字典序 # 格式为(index,len,pinyin)的列表 # index: 两个字节的整数 代表这个拼音的索引 # len: