JE分词器

/*这段代码写的是JE分词器对于所输入的文本进行分词

* 这里还可以自己设定，分词的范围和单个词语，这样用户可以更加方便对想要

*处理的文本更加的灵活多变。

*这里我添加的例子是.addWord(“回首雅虎在中国”)；

* */

这个截图是没有加入自己设定的分词内容时候的分词结果：

加入自己定义分词内容后的截图：

package analyzer;

import jeasy.analysis.MMAnalyzer;

public class JE {

public JE() {

// TODO Auto-generated constructor stub

try{

String test = "回首雅虎在中国走过的道路，从目录试的搜索到 "

+"综合门户的网站，再回归到搜索，之后再一次抛弃简介的搜索"

+ "引擎界面，在主页上加入了门户元素,直至目前单独开辟搜"

+"索域名，将cn.yahoo主页定个位门户和论坛社区的结合"

+"体，可以说雅虎走火了一条颇为曲折的道路，在这个过程"

+"中，不能说没有走出去的机会，但是自身的重重问题让雅虎一"

+ "次次与机会失之交臂，远的暂且不说只从雅虎和阿里巴"

+"巴联盟之后说起";

MMAnalyzer analyzer = new MMAnalyzer();

//这里还可以自己设定分词的每个单个的、词，这里我把”回首雅虎在中国“

//这几个字当做是一个词，那么显示出来的结果就是添加后样子

MMAnalyzer.addWord("回首雅虎在中国");

System.out.println(analyzer.segment(test, " | "));

}catch(Exception e){

e.printStackTrace();

}

}

public static void main(String[] args) {

// TODO Auto-generated method stub

JE je = new JE();

}

}

时间： 2024-09-26 22:31:09

JE分词器的相关文章

lucene整理3 -- 排序、过滤、分词器

1. 排序 1.1. Sort类 public Sort() public Sort(String field) public Sort(String field,Boolean reverse) //默认为false,降序排序 public Sort(String[] fields) public Sort(SortField field) public Sort(SortField[] fields) Sort sort=new Sort(“bookname”);按照“booknam

lucene分词器中的Analyzer,TokenStream, Tokenizer, TokenFilter

分词器的核心类: Analyzer:分词器 TokenStream: 分词器做好处理之后得到的一个流.这个流中存储了分词的各种信息,可以通过TokenStream有效的获取到分词单元. 以下是把文件流转换成分词流(TokenStream)的过程首先,通过Tokenizer来进行分词,不同分词器有着不同的Tokenzier,Tokenzier分完词后,通过TokenFilter对已经分好词的数据进行过滤,比如停止词.过滤完之后,把所有的数据组合成一个TokenStream:以下这图就是把一个re

IK分词器整合solr4.7 含同义词、切分词、停止词

IK分词器如果配置成 <fieldType name="text_ik" class="solr.TextField"> <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/> <analyzer type="query" is

solr5.5.4整合IK分词器

1.下载IK分词器支持5.5.4的 http://download.csdn.net/detail/wang_keng/9535491 2.需要把分析器的jar包添加到solr工程中的tomcat的WEB-INF/lib下 cp IKAnalyzer2012FF_u2.jar /usr/local/solr/tomcat/webapps/solr/WEB-INF/lib/ 3.需要把IKAnalyzer需要的扩展词典及停用词词典.配置文件复制到solr工程的WEB-INF/class

Lucene系列：（6）分词器

1.什么是分词器采用一种算法,将中英文本中的字符拆分开来,形成词汇,以待用户输入关健字后搜索 2.为什么要分词器因为用户输入的搜索的内容是一段文本中的一个关健字,和原始表中的内容有差别,但作为搜索引擎来讲,又得将相关的内容搜索出来,此时就得采用分词器来最大限度匹配原始表中的内容. 3.分词器工作流程 (1)按分词器拆分出词汇 (2)去除停用词和禁用词 (3)如果有英文,把英文字母转为小写,即搜索不分大小写 4.演示常用分词器测试这里测试需要引入IKAnalyzer3.2.0Stable.j

[Nutch]指定LUKE的分词器

在上一篇博文我们有介绍给Solr配置中文分词器mmseg4j,那么我们在LUKE工具中如何配置对应的中文分词器进行查看呢?本篇博文将详细进行解释. 1. 下载中文分词器由于我们使用的luke是4.0版本的,只能使用mmseg4j的1.9.1版本,因为1.8.5的mmseg4j版本与4.0版本的luke有冲突,请点击下载1.9.1版本的mmseg4j-1.9.1. 2. luke设置mmseg4j 2.1 加压mmseg4j-1.9.1 解压后会有一个dist目录: 在dist目录下面会有3个j

一种拼音分词器的JAVA实现

搜索中的分词器有很多种,包括中文.英文,一般的网站都会有站内搜索功能,也就是对用户输入的内容进行处理,本文对中文的全拼实现了一个分词器,原理很简单,就是模式匹配.根据中文全拼的特点,即声母和韵母配对,首先列举出所有的声母,再分别列举出所有声母对应的韵母集,分词的过程就是遍历匹配的过程.具体代码如下: import java.util.ArrayList; public class SpellTool { static String result = "";// 最后要显示的结果 p

重写lucene.net的分词器支持3.0.3.0版本

lucene.net中每个分词器都是一个类,同时有一个辅助类,这个辅助类完成分词的大部分逻辑.分词类以Analyzer结尾,辅助类通常以Tokenizer结尾.分类词全部继承自Analyzer类,辅助类通常也会继承某个类. 首先在Analysis文件夹下建立两个类,EasyAnalyzer和EasyTokenizer. 1 using Lucene.Net.Analysis; 2 using System.IO; 3 4 namespace LuceneNetTest 5 { 6 public

如何在Elasticsearch中安装中文分词器(IK)和拼音分词器？

声明:我使用的Elasticsearch的版本是5.4.0,安装分词器前请先安装maven 一:安装maven https://github.com/apache/maven 说明: 安装maven需要java1.7+ 编译安装分词器时,可能会报错,报错信息如下: [ERROR] COMPILATION ERROR : [INFO] -------------------------------------------------------------[ERROR] No compiler i

猜你喜欢

javascript 创建对象的几种方式

1.通过new Object创建创建自定义对象的最简单方式就是创建一个Object 的实例,然后再为它添加属性和方法,如下所示. var person = new Object(); person. ...

webhook: requestbin

A Runscope Community Project — Learn more. RequestBin Bin URL Make a request to get started. After m ...

进程间通信(6) - 消息队列posix

1.前言本篇文章的所有例子,基于RHEL6.5平台(linux kernal: 2.6.32-431.el6.i686). 2.介绍消息队列是先进先出FIFO原则. 消息队列就是一个消息的链表.可 ...

论文--文章编号

文章编号其结构为:XXXX-XXXX(YYYY)NN-PPPP-CC. XXXX-XXXX:文章所在期刊的国际标准刊号(ISSN,参见GB 9999) YYYY :文章所在期刊的出版年,NN为文章所在 ...

Linux-静态链接库和动态链接库

博文说明[前言]: 本文将通过个人口吻介绍Linux中静态链接库和动态链接库相关知识,在目前时间点[2017年6月14号]下,所掌握的技术水平有限,可能会存在不少知识理解不够深入或全面,望大家指出问题 ...

ERYREJFSJSFF

http://photo.poco.cn/lastphoto-htx-id-4510408-p-0.xhtml http://photo.poco.cn/lastphoto-htx-id-451048 ...

购物车的设计

大型网站购物车的设计基于session技术: 基于cookie+Db技术: 购物车包括那些项: 购物项(产品+样式) 配送信息/联系人信息配送方式(物流信息+特殊要求配送时间) 支付方式提交订单 ...

WebForm 母版页使用

首先来说一下什么是母版页: 母版页可以为应用程序中的页创建一致的布局.单个母版页可以为应用程序中的所有页(或一组页)定义所需的外观和标准行为. 母版页的使用与普通页面类似,可以在其中放置文件或者图形. ...

VUE的基础语法（二）

数据绑定最常见的形式就是使用 "Mustache" 语法(双大括号)的文本插值: 例如{{name}},如果只想插入一次就用<span v-once>{{name}}& ...

$.type() 与 typeof()的区分

type是jquery框架判断变量类型的方法: $.type('11') //string $.type(11) //number typeof是js原生判断变量类型的方法: typeof('11' ...

优化C/C++代码的小技巧（转）

源:http://www.cnblogs.com/lizhenghn/p/3969531.html 说明: 无意看到一篇小短文,猜测作者应该是一个图形学领域的程序员或专家,介绍了在光线(射线)追踪程序 ...

在GridView控件内文本框实现TextChanged事件

本篇是教你实现GridView控件内的TextBox文本框实现自身的TextChanged事件.由于某些功能的需求,GridView控件内嵌TextBox,当TextBox值发生变化时,触发TextC ...

Nginx之(正)反向代理

在配置nginx反向代理之间我们得先准备两台测试服务器,Web1与Web2. 1.安装httpd 1 2 [[email protected] ~]# yum install -y httpd [[e ...

struts2笔记05-ServletActionContext

1.ServletActionContext ServletActionContext, 这个类继承自ActionContext, 所以它具有ActionContext的很多功能,不过更重要的是它提供 ...

get_included_files

get_included_files (PHP 4, PHP 5, PHP 7) get_included_files — 返回被 include 和 require 文件名的 array http: ...

CodeForces 534D Program B

Description On February, 30th n students came in the Center for Training Olympiad Programmers (CTOP) ...

HiCharacter

SinbadCharacterController.h /*************************************************** ©2014 Pf_D. All rig ...

读书笔记：C++ Primer系列（14）—— C++函数及参数传递

一.函数实际项目中,要实现的功能不是仅靠一些基本语句就可以实现的,通常需要将这些大的功能进行分解,分步骤完成.例如:要实现一个学生信息管理系统, 一个学生信息管理系统至少包括学生信息的添加.查询. ...

性能测试常见指标

1． Vuser虚拟用户 Virtual user,模拟真实业务逻辑步骤的虚拟用户,虚拟用户模拟的操作步骤都被记录在虚拟用户脚本里.Vuser脚本用于描述Vuser在场景中执行的操作. 2． Tr ...

自定义View时，用到Paint Canvas的一些温故，PropertyAnimation中的ObjectAnimator（动画三，“大大姐”的旋转跳跃）

转载请注明出处:王亟亟的大牛之路上一篇讲了一些比较基础的view Animation 这篇会选PropertyAnimation的部分功能来讲一下,因为它的子类还是蛮多的,希望分的篇幅多点,然后可以 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.