JE分词器

/*这段代码写的是JE分词器对于所输入的文本进行分词

* 这里还可以自己设定,分词的范围和单个词语,这样用户可以更加方便对想要

*处理的文本更加的灵活多变。

*这里我添加的例子是.addWord(“回首雅虎在中国”);

* */

这个截图是没有加入自己设定的分词内容时候的分词结果:

加入自己定义分词内容后的截图:

package analyzer;

import jeasy.analysis.MMAnalyzer;

public class JE {

public JE() {

// TODO Auto-generated constructor stub

try{

String test = "回首雅虎在中国走过的道路,从目录试的搜索到 "

+"综合门户的网站,再回归到搜索,之后再一次抛弃简介的搜索"

+ "引擎界面, 在主页上加入了门户元素,直至目前单独开辟搜"

+"索域名,将cn.yahoo主页定个位门户和论坛社区的结合"

+"体, 可以说雅虎走火了一条颇为曲折的道路,在这个过程"

+"中,不能说没有走出去的机会,但是自身的重重问题让雅虎一"

+ "次次与机会失之交臂,远的暂且不说只从雅虎和阿里巴"

+"巴联盟之后说起";

MMAnalyzer analyzer = new MMAnalyzer();

//这里还可以自己设定分词的每个单个的、词,这里我把”回首雅虎在中国“

//这几个字当做是一个词,那么显示出来的结果就是添加后样子

MMAnalyzer.addWord("回首雅虎在中国");

System.out.println(analyzer.segment(test, " | "));

}catch(Exception e){

e.printStackTrace();

}

}

public static void main(String[] args) {

// TODO Auto-generated method stub

JE je = new JE();

}

}

时间: 2024-09-26 22:31:09

JE分词器的相关文章

lucene整理3 -- 排序、过滤、分词器

1.    排序 1.1. Sort类 public Sort() public Sort(String field) public Sort(String field,Boolean reverse)  //默认为false,降序排序 public Sort(String[] fields) public Sort(SortField field) public Sort(SortField[] fields) Sort sort=new Sort(“bookname”);按照“booknam

lucene分词器中的Analyzer,TokenStream, Tokenizer, TokenFilter

分词器的核心类: Analyzer:分词器 TokenStream: 分词器做好处理之后得到的一个流.这个流中存储了分词的各种信息,可以通过TokenStream有效的获取到分词单元. 以下是把文件流转换成分词流(TokenStream)的过程 首先,通过Tokenizer来进行分词,不同分词器有着不同的Tokenzier,Tokenzier分完词后,通过TokenFilter对已经分好词的数据进行过滤,比如停止词.过滤完之后,把所有的数据组合成一个TokenStream:以下这图就是把一个re

IK分词器 整合solr4.7 含同义词、切分词、停止词

IK分词器如果配置成 <fieldType name="text_ik" class="solr.TextField"> <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/> <analyzer type="query" is

solr5.5.4整合IK分词器

1.下载IK分词器支持5.5.4的     http://download.csdn.net/detail/wang_keng/9535491 2.需要把分析器的jar包添加到solr工程中的tomcat的WEB-INF/lib下   cp IKAnalyzer2012FF_u2.jar /usr/local/solr/tomcat/webapps/solr/WEB-INF/lib/ 3.需要把IKAnalyzer需要的扩展词典及停用词词典.配置文件复制到solr工程的WEB-INF/class

Lucene系列:(6)分词器

1.什么是分词器 采用一种算法,将中英文本中的字符拆分开来,形成词汇,以待用户输入关健字后搜索 2.为什么要分词器 因为用户输入的搜索的内容是一段文本中的一个关健字,和原始表中的内容有差别,但作为搜索引擎来讲,又得将相关的内容搜索出来,此时就得采用分词器来最大限度匹配原始表中的内容. 3.分词器工作流程 (1)按分词器拆分出词汇 (2)去除停用词和禁用词 (3)如果有英文,把英文字母转为小写,即搜索不分大小写 4.演示常用分词器测试 这里测试需要引入IKAnalyzer3.2.0Stable.j

[Nutch]指定LUKE的分词器

在上一篇博文我们有介绍给Solr配置中文分词器mmseg4j,那么我们在LUKE工具中如何配置对应的中文分词器进行查看呢?本篇博文将详细进行解释. 1. 下载中文分词器 由于我们使用的luke是4.0版本的,只能使用mmseg4j的1.9.1版本,因为1.8.5的mmseg4j版本与4.0版本的luke有冲突,请点击下载1.9.1版本的mmseg4j-1.9.1. 2. luke设置mmseg4j 2.1 加压mmseg4j-1.9.1 解压后会有一个dist目录: 在dist目录下面会有3个j

一种拼音分词器的JAVA实现

搜索中的分词器有很多种,包括中文.英文,一般的网站都会有站内搜索功能,也就是对用户输入的内容进行处理,本文对中文的全拼实现了一 个分词器,原理很简单,就是模式匹配.根据中文全拼的特点,即声母和韵母配对,首先列举出所有的声母,再分别列举出所有声母对应的韵母 集,分词的过程就是遍历匹配的过程.具体代码如下: import java.util.ArrayList; public class SpellTool { static String result = "";// 最后要显示的结果 p

重写lucene.net的分词器支持3.0.3.0版本

lucene.net中每个分词器都是一个类,同时有一个辅助类,这个辅助类完成分词的大部分逻辑.分词类以Analyzer结尾,辅助类通常以Tokenizer结尾.分类词全部继承自Analyzer类,辅助类通常也会继承某个类. 首先在Analysis文件夹下建立两个类,EasyAnalyzer和EasyTokenizer. 1 using Lucene.Net.Analysis; 2 using System.IO; 3 4 namespace LuceneNetTest 5 { 6 public

如何在Elasticsearch中安装中文分词器(IK)和拼音分词器?

声明:我使用的Elasticsearch的版本是5.4.0,安装分词器前请先安装maven 一:安装maven https://github.com/apache/maven 说明: 安装maven需要java1.7+ 编译安装分词器时,可能会报错,报错信息如下: [ERROR] COMPILATION ERROR : [INFO] -------------------------------------------------------------[ERROR] No compiler i