有几个开源的字比较工具

我们收集了一些信息。和学生在一起的简单测试,例如下面的摘要。


字工作  具

特点


支持语言


原理


词典及扩展性


StandardAnalyzer


中文、英文(unicode)


中文:单字符切分

英文:依据空格切分


ChineseAnalyzer


中文,不支持中文和英文及数字混合的文本分词


按字分词,与StandardAnalyzer对中文的分词没有大的差别


CJKAnalyzer


中文,英文。不支持中文和英文及数字混合的文本分词


採用的双字切分,也就是对一段文字按每两个字来进行切分


IKAnalyzer


英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符


正向迭代最细粒度切分算法(词典+文法分析)


收录27万中文词汇,

支持用户词典扩展定义、支持自己定义停止词


paoding


中文


支持不限制个数的用户自己定义词库


MMAnalyzer


支持英文、数字、中文(简体)混合分词


正向最大匹配算法


支持动态扩展


MMSeg4j


中文,包含一些字符的处理 英文、俄文、希腊、数字(包含①㈠⒈)的分出一连串的。眼下版本号没有处理小数字问题


用 Chih-Hao Tsai 的 MMSeg 算法。MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。在complex基础上实现了最多分词(max-word)


强制使用 UTF-8)

使用sougou词库,也可自己定义覆盖


imdict


中文、英文、数字


隐马尔科夫模型


仅coredict核心字典、bigramdict词典。不含人名、地名词典。

不支持自己定义词典


分词工具

特点


速度


文档完整性


大小


Lucene版本号


备注


StandardAnalyzer


ChineseAnalyzer


Lucene contrib中附带的分析器


CJKAnalyzer


Lucene contrib中附带的二元分词


IKAnalyzer

3.2.8


83 万字/秒(1600KB/S)


具体


2.62MB


Lucene2.9、

Lucene3.0


支持细粒度和最大词长两种切分模式


paoding


100万字/秒


差点儿无


1.3MB


Lucene3.0


MMAnalyzer


第一次分词须要1-2秒(读取词典),之后速度基本与Lucene自带分词持平


原始站点已经找不到下载,不提供维护和支持


内存消耗30M+


lucene 1.9到2.4之间


MMSeg4j


complex 1200kb/s左右, simple 1900kb/s左右


MMSeg 算法是英文的。但原理比較简单。实现也比較清晰。


内存开销了50M左右


mmseg4j 1.8.3 仅仅支持 lucene 2.9/3.0 接口 。mmseg4j 1.8.5 支持 lucene 3.1。


imdict


259517字/秒


较全


词典大小7.26MB


Lucene2.9直接收录

分词效果演示:

消歧义效果:


分词工具

效果


张三买了张三角桌


南京市长江大桥


StandardAnalyzer


张|三|买|了|张|三|角|桌


南|京|市|长|江|大|桥


ChineseAnalyzer


张|三|买|了|张|三|角|桌


南|京|市|长|江|大|桥


CJKAnalyzer


张三|三买|买了|了张|张三|三角|角桌


南京|京市|市长|长江|江大|大桥


IK

Analyzer


最大词长


张三|买了|张三|三角|桌


南京市|市长|长江大桥


最细粒度


张三|三|买了|张三|三角|三|角|桌


南京市|南京|市长|长江大桥|长江|大桥


paoding


张三|买了|张三|三角|  桌


南|南京|南京市|长|市长|长江|大 |大桥


MMAnalyzer


张三|买了|张三角|桌


南京市|长江大桥


MMSeg4j


SimpleSeg


张三|买了|张三|角|桌


南京市|长江大桥


ComplexSeg


张三|买了|张三|角|桌


南京市|长江大桥


imdict


张|三|买|了|张|三|三角|桌


南京市|长江|大桥

数字、英文混合分词效果:


分词工具

效果


我的QQ号是******


StandardAnalyzer


我|的|qq|号|是|******


ChineseAnalyzer


我|的|qq|号|是


CJKAnalyzer


我的|qq|号|是|******


IKAnalyzer


IK


我|的|qq|号|是|******


MIK


我|的|qq|号|是|******


MMAnalyzer


我的|qq|号|是|******


MMSeg4j


SimpleSeg


我的|qq|号|是|******


ComplexSeg


我的|qq|号|是|******


paoding


我的|qq|号|******


Imdict


我|的|qq|号码|******

时间: 2024-12-22 03:45:47

有几个开源的字比较工具的相关文章

开源大数据处理系统/工具大全

本文一共分为上下两部分.我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考.下面是第一部分. 查询引擎 一.Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询.Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动. Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的J

【CentOS】部署开源企业级Linux备份工具—BackupPC

BackupPC安装所需的主要的安装包下载地址:http://pan.baidu.com/s/1bnCGCY7 (BackupPC的版本为3.2.1) (该版本的BackupPC是支持中文的,BackupPC配置好后,可以在其Web页面设置其显示语言即可) 1.添加backuppc组及用户 groupadd   backuppc useradd   -g   backuppc   backuppc 2.安装httpd.mod_perl及BackupPC yum   install   httpd

开源项目成熟度分析工具-利用github api获取代码库的信息

1.github api github api是http形式的api,功能还是比较丰富的,博主因为项目的原因主要用到的是提取project信息这项功能,返回的数据是JSON格式. api页:https://developer.github.com/v3/ Options: (H) means HTTP/HTTPS only, (F) means FTP only --anyauth Pick "any" authentication method (H) -a, --append Ap

功能齐全、效率一流的免费开源数据库导入导出工具(c#开发,支持SQL server、SQLite、ACCESS三种数据库),每月借此处理数据5G以上

软件名:DataPie 功能:支持SQL server.SQLite.ACCESS数据库的导入.导出.存储过程调用,支持EXCEL2007.EXCEL2003.ACCESS2007. CSV文件导入数据库,支持EXCEL.CSV.ZIP.ACCESS文件方式导出,支持数据拆分导出及自定义SQL查询与导出. 开发背景:作者从事财务管理工作,主要是出具集团的内部财务报表,随着公司精细化管理的需求,管理报表的数据量急速增长, 依赖EXCEL加工处理数据已经变得极为困难,因此团队全面转向关系数据库进行数

[C#项目开源] MongoDB 可视化管理工具 (2011年10月-至今)

[C#项目开源] MongoDB 可视化管理工具 (2011年10月-至今) http://www.cnblogs.com/TextEditor/p/5972521.html MongoDB 生态 - 客户端 Driver 支持 https://yq.aliyun.com/articles/65109 download url: https://github.com/magicdict/MongoCola https://github.com/Antaris/RazorEngine https:

开源APM应用性能管理工具调研

近期在设计一个DevOps平台.希望整合一个APM工具进来,由于APM既可用于性能測试也可用于运维性能监控,是典型的Dev+Ops产品. 商业的APM工具国内外已经有不少成熟产品了,而开源的好像不多见.我想APM工具的原理是基于JVM动态注入,从技术角度考虑,必定会有开源的东西出现才对,所以開始了开源APM应用性能管理工具调研之旅! 今天找到一个叫Kieker 的: http://kieker-monitoring.net/download/ Kieker provides complement

[转] Google 开源 iOS 应用测试工具:EarlGrey

Google 开源 iOS 应用测试工具:EarlGrey oschina 发布于: 2016年02月18日 (3评) 分享到:  收藏 +53 3月19日,深圳源创会火热报名中,go>>>»   Google于今日宣布了开源的EarlGrey软件,以便开发者更轻松地构建和运行“面向iOS apps源码”的用户界面测试(是的,你没看错!)当前托管于GitHub上.遵从开源Apache授权的EarlGrey,由Objective-C编写而成.不过本次发布的重要性在于,Google也确实用的

Android开源项目第二篇——工具库篇

本文为那些不错的Android开源项目第二篇——开发工具库篇,主要介绍常用的开发库,包括依赖注入框架.图片缓存.网络相关.数据库ORM建模.Android公共库.Android 高版本向低版本兼容.多媒体相关及其他. Android开源项目系列汇总已完成,包括: Android开源项目第一篇——个性化控件(View)篇 Android开源项目第二篇——工具库篇 Android开源项目第三篇——优秀项目篇 Android开源项目第四篇——开发及测试工具篇 Android开源项目第五篇——优秀个人和

开源密码管理小工具

我和很多人都一样,不同的账号都使用同样的密码.但听说连网易邮箱的密码也被盗窃了,于是我决定为不同的账号使用不同的密码,这样即使一家泄漏了,不会造成其它账号被盗.但是不同的密码很难记住,密码记录到纸上或电脑上更不安全.于是我设计了一个网页小程序,输入一个数字口令,自动为不同网站生成不同的密码,你只需要记住这个数字口令即可. 原理非常简单:              数字口令+自定义字符串M+网站或应用名 等到一个字符串A              计算A的md5得到B              通