[分词]Java开源中文分词器ANSJ_SEG初次试用

　　近日需要对大众点评网60万+的景点评论进行语义分析，所以必须使用分词工具，刚刚开始时我是选择使用NLPIR汉语分词系统（又名ICTCLAS2014），NLPIR的教程在[分词]NLPIR/ICTCLAS2014分词系统的C++ API 在Windows下初次使用，但是直观上感觉分词效果不怎么理想，所以就选用了另一个工具，同学推荐我用一下ANSJ的中文分词，近来也是在学Java，所以对于java的jar包还是挺能接受的，不像dll的那么烦，在Eclipse直接把包加入classpath是一个很简单的事情。再加上自动填充功能，完全不是问题了。

　　下载jar包：

github 主页：ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典

访问 http://maven.ansj.org/org/ansj/ 最好下载最新版 ansj_seg/
- 如果你用的是1.x版本需要下载tree_split.jar。
- 如果你用的是2.x版本需要下载nlp-lang.jar
导入到eclipse ，开始你的程序吧

至发博文日，我下载的最新版已存在百度云分享链接中: http://pan.baidu.com/s/1sjuKMvV 密码: vcof，把其中一个是1.x版已配备tree_split.jar，另一个是2.x，已配备nlp-lang.jar。下载即用。

ANSJ使用手册：

http://ansjsun.github.io/ansj_seg/

API调用方式：

基本分词调用方式：

基本就是保证了最基本的分词.词语颗粒度最非常小的..所涉及到的词大约是10万左右.

基本分词速度非常快.在macAir上.能到每秒300w字每秒.同时准确率也很高.但是对于新词他的功能十分有限

List<Term> parse = BaseAnalysis.parse("让战士们过一个欢乐祥和的新春佳节。");
    System.out.println(parse);

   result:[让/v, 战士/n, 们/k, 过/ug, 一个/m, 欢乐/a, 祥和/a, 的/uj, 新春/t, 佳节/n, 。/w]

精准分词调用方式（店长推荐款）

精准分词是Ansj分词的店长推荐款

它在易用性,稳定性.准确性.以及分词效率上.都取得了一个不错的平衡.

如果你初次赏识Ansj如果你想开箱即用.那么就用这个分词方式是不会错的.

List<Term> parse = ToAnalysis.parse("让战士们过一个欢乐祥和的新春佳节。");
    System.out.println(parse);

nlp分词调用方式

nlp分词是总能给你惊喜的一种分词方式.

它可以识别出未登录词.但是它也有它的缺点.速度比较慢.稳定性差.ps:我这里说的慢仅仅是和自己的其他方式比较.应该是40w字每秒的速度吧.

个人觉得nlp的适用方式.1.语法实体名抽取.未登录词整理.只要是对文本进行发现分析等工作

若不想分词中添加输出词性标准，可以参考

利用word2vec对关键词进行聚类

本文基于知识共享署名-非商业性使用 3.0 许可协议进行许可。欢迎转载、演绎，但是必须保留本文的署名林羽飞扬,若需咨询，请给我发信

时间： 2024-12-17 23:57:43

[分词]Java开源中文分词器ANSJ_SEG初次试用

nlp分词调用方式

[分词]Java开源中文分词器ANSJ_SEG初次试用的相关文章

11大Java开源中文分词器的使用方法和分词效果对比

9大Java开源中文分词器的使用方法和分词效果对比

java读取中文分词工具(三)

java读取中文分词工具(四)

java读取中文分词工具(2)

word v1.3 发布，Java 分布式中文分词组件

基于开源中文分词工具pkuseg-python，我用张小龙的3万字演讲做了测试

ictclas，ansj，结巴分词，StanfordNLP中文分词以及所用词性标注集

Elasticsearch 2.2.0 分词篇：中文分词