word v1.3 发布，Java 分布式中文分词组件

word分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为，能自定义用户词库、自动检测词库变化、支持大规模分布式环境，能灵活指定多种分词算法，能使用refine功能灵活控制分词结果，还能使用词频统计、词性标注、同义标注、反义标注、拼音标注等功能。提供了10种分词算法，还提供了10种文本相似度算法，同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。

word1.3新增了大量功能，如：词频统计、refine、词性标注、同义标注、反义标注、拼音标注等，同时，新增了10种文本相似度算法，还新增了两种分词算法：最大Ngram分值算法和最少词数算法，分词速度也有了很大提升，还有很多其他的大大小小的优化，最后还支持当前最新的lucene5.2.1、solr5.2.1和elasticsearch2.0.0-beta1。

更多细节请查看：word分词主页

word分词的分词效果怎么样？请看：Java开源项目cws_evaluation：中文分词器分词效果评估

时间： 2024-12-08 09:20:02

word v1.3 发布，Java 分布式中文分词组件的相关文章

java读取中文分词工具(三)

import java.io.EOFException; import java.io.File; import java.io.FileNotFoundException; import java.io.IOException; import java.io.RandomAccessFile; import java.util.ArrayList; /* * 文件格式:已分词的文本,词语之间用空格,换行等空白符分割. * 到了文件末尾就结束 * 适合读取一行很大的文本,因为这里的缓冲不是一行,

11大Java开源中文分词器的使用方法和分词效果对比

本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断. 11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口: /** * 获取文本的所有分词结果, 对比不同分词器结果 * @author 杨尚川 */ public interface WordSegmenter {

9大Java开源中文分词器的使用方法和分词效果对比

本文的目标有两个: 1.学会使用9大Java开源中文分词器 2.对比分析9大Java开源中文分词器的分词效果 9大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口: /** * 获取文本的所有分词结果, 对比不同分词器结果 * @author 杨尚川 */ public interface WordSegmenter { /** * 获取文本的所有分词结果 * @param text 文本 * @retur

java读取中文分词工具(四)

import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.io.RandomAccessFile; import java.io.Serializable; import java.util.ArrayList; import java.ut

java读取中文分词工具(2)

import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.StringTokenizer; /* * 文件格式:已分词的中文文本,每个词语空格分割,每行一个段落. * 这个类适

全文检索引擎Solr系列——整合中文分词组件IKAnalyzer

IK Analyzer是一款结合了词典和文法分析算法的中文分词组件,基于字符串匹配,支持用户词典扩展定义,支持细粒度和智能切分,比如: 张三说的确实在理智能分词的结果是: 张三 | 说的 | 确实 | 在理最细粒度分词结果: 张三 | 三 | 说的 | 的确 | 的 | 确实 | 实在 | 在理整合IK Analyzer比mmseg4j要简单很多,下载解压缩IKAnalyzer2012FF_u1.jar放到目录:E:\solr-4.8.0\example\solr-webapp\webap

python安装Jieba中文分词组件并测试

python安装Jieba中文分词组件 1.下载http://pypi.python.org/pypi/jieba/ 2.解压到解压到python目录下: 3.“win+R”进入cmd:依次输入如下代码: C:\Users\Administrator>cd D:\softwareIT\Python27\jieba-0.39 C:\Users\Administrator>d: D:\softwareIT\Python27\jieba-0.39>python setup.py install

[分词]Java开源中文分词器ANSJ_SEG初次试用

近日需要对大众点评网60万+的景点评论进行语义分析,所以必须使用分词工具,刚刚开始时我是选择使用NLPIR汉语分词系统(又名ICTCLAS2014),NLPIR的教程在[分词]NLPIR/ICTCLAS2014分词系统的C++ API 在Windows下初次使用,但是直观上感觉分词效果不怎么理想,所以就选用了另一个工具,同学推荐我用一下ANSJ的中文分词,近来也是在学Java,所以对于java的jar包还是挺能接受的,不像dll的那么烦,在Eclipse直接把包加入classpath是一个很简单

java读取中文分词工具

import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.io.RandomAccessFile; import java.util.StringTokenizer; /* * 文本格式:已分词的中文文本,空格分割.有若干行,每行为一个段落.

猜你喜欢

BZOJ1975 [SDOI2010] 魔法猪学院

[问题描述] iPig在假期来到了传说中的魔法猪学院,开始为期两个月的魔法猪训练.经过了一周理论知识和一周基本魔法的学习之后,iPig对猪世界的世界本原有了很多的了解:众所周知,世界是由元素构成的: ...

String.equals()方法的实现代码，

通常对String的比较有两种情况,一个是使用==,另一个是使用equals()方法,注意==是对对象的地址进行比较的,而String中的equals()方法是覆盖了Object类的方法,并且实现为对 ...

线性表实现——单链表

1 #include <stdio.h> 2 #include <stdlib.h> 3 #include <time.h> 4 5 #define OK 1 6 ...

iOS自定义初始化Window

新建工程后删除viewController.h和viewController.m main.storyboard - (BOOL)application:(UIApplication *)applic ...

linux压缩、解压和归档

1 简介压缩格式 gz bz2 xz zip Z 压缩算法:算法不同,压缩比也不相同压缩比:(压缩前的文件大小-压缩后的文件大小)/压缩前的文件大小文本文件压缩比大,图片视频比较小 ...

GlusterFS源码解析—— GlusterFS 命令行常见错误

问题1 [[email protected] ~]# gluster peer status Connection failed. Please check if gluster daemon is ...

Cow Bowling POJ - 3176

The cows don't use actual bowling balls when they go bowling. They each take a number (in the range ...

C# 泛型无法将类型xx隐式转换为“T”

原文:C# 泛型无法将类型xx隐式转换为“T” 直接奖泛型转为T是不能转换的要先转Object 例: public static T GetValue<T>(string inValu ...

SSH整合之spring整合spring(续上)

一.项目结构二.新建UserAction,继承自ActionSupport,并实现ModelDriven<User>接口:getModel方法是用来装配对象属性的:注意,userServ ...

jQuery制作淘宝商城商品列表多条件查询功能

一.介绍这几天做网站的时候,突然用到这个功能,找了好久也没有找到.看到"希伟素材网"有这么一个JS,效果很不错,也正是我一直以来想要的结果.附图如下: 二:使用教程 1 ...

shell 报错'@'localhost' (using password: YES)'root

shell中写了简单的一段 energy.sh内容: #!/bin/bash host=127.0.0.1 user=****** passwd=****** dbname=****** tablen ...

windows下配置android-NDK环境

第一步,下载安装cygwin,(模拟Linux 的编译环境),我们可以到Cygwin的官方网站下载Cygwin的安装程序,地址是: http://www.cygwin.com/; 开始安装Cygwi ...

IOS 自定义滑动返回手势

/** 只需要在你自定义的导航控制器中,改成如下代码即可,自定义手势返回 */ #define KEY_WINDOW [[UIApplication sharedApplication] keyWin ...

codevs 1094 FBI树 2004年NOIP全国联赛普及组 x

题目描述 Description 我们可以把由"0"和"1"组成的字符串分为三类:全"0"串称为B串,全"1"串称为I串 ...

ROC曲线【转】

受试者工作特征曲线(receiver operating characteristic curve, 简称ROC曲线),又称为感受性曲线(sensitivity curve).得此名的原因在于曲线上各 ...

log4j,slf4-log4j12

http://blog.csdn.net/tengdazhang770960436/article/details/18006127 http://blog.csdn.net/tengdazhang7 ...

网页初学者——head头部元素

1. <head></head> 2. <meta 属性="属性值"/> 解释:meta:定义页面的附加信息: &l ...

iOS中发送HTTP请求的方案

在iOS中,常见的发送HTTP请求的方案有苹果原生(自带) NSURLConnection:用法简单,最古老最经典的一种方案 NSURLSession:功能比NSURLCOnnection更加强大, ...

稳定排序和不稳定排序(转)

原文链接:http://www.cnblogs.com/codingmylife/archive/2012/10/21/2732980.html 这几天笔试了好几次了,连续碰到一个关于常见排序算法稳定 ...

crm创建基于fetch自己的自定义报告

在解决方案资源管理器,右键点击"报表"目录.然后点击"增加了新的报告". 打开"报表向导". 在"欢迎来到报表向导"前, ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.