Lucene内置的Analyzer分词器

写这篇博客的时候自己在已经读到第六章分词器了，在写代码之前，这个分词器，让我起了浓厚的兴趣。

//===========================================================================================//

以下四条分词器适用于英文，不适用于中文

//===========================================================================================//

1、WhitespaceAnalyzer

仅仅是去除空格，对字符没有lowcase化,不支持中文；

并且不对生成的词汇单元进行其他的规范化处理。

2、SimpleAnalyzer

功能强于WhitespaceAnalyzer, 首先会通过非字母字符来分割文本信息，然后将词汇单元统一为小写形式。该分析器会去掉数字类型的字符。

3、StopAnalyzer

StopAnalyzer的功能超越了SimpleAnalyzer，在SimpleAnalyzer的基础上增加了去除英文中的常用单词（如the，a等），也可以更加自己的需要设置常用单词；不支持中文

4、StandardAnalyzer

英文的处理能力同于StopAnalyzer.支持中文采用的方法为单字切分。他会将词汇单元转换成小写形式，并去除停用词和标点符号。

//=============================================================================================//

以下2条分词器适用于中文

//==============================================================================================//

5、CJKAnalyzer

中日韩分析器，能对中，日，韩语言进行分析的分词器，但是对中文支持效果一般，一般不用

6、SmartChineseAnalyzer

对中文支持稍好，但扩展性差，扩展词库，禁用词库和同义词库等不好处理

5、CJKAnalyzer

中日韩分析器，能对中，日，韩语言进行分析的分词器，但是对中文支持效果一般，一般不用

//=========================================================================//

简单的测试：

网络代码：

//=========================================================================//

public class AnalyzerDemo {

/**WhitespaceAnalyzer分析器*/

public void whitespaceAnalyzer(String msg){

WhitespaceAnalyzer analyzer = new WhitespaceAnalyzer(Version.LUCENE_36);

this.getTokens(analyzer, msg);

}

/**SimpleAnalyzer分析器*/

public void simpleAnalyzer(String msg){

SimpleAnalyzer analyzer = new SimpleAnalyzer(Version.LUCENE_36);

this.getTokens(analyzer, msg);

}

/**StopAnalyzer分析器*/

public void stopAnalyzer(String msg){

StopAnalyzer analyzer = new StopAnalyzer(Version.LUCENE_36);

this.getTokens(analyzer, msg);

}

/**StandardAnalyzer分析器*/

public void standardAnalyzer(String msg){

StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_36);

this.getTokens(analyzer, msg);

}

private void getTokens(Analyzer analyzer,String msg){

TokenStream tokenStream=analyzer.tokenStream("content", new StringReader(msg));

this.printTokens(analyzer.getClass().getSimpleName(),tokenStream);

}

private void printTokens(String analyzerType,TokenStream tokenStream){

CharTermAttribute ta = tokenStream.addAttribute(CharTermAttribute.class);

StringBuffer result =new StringBuffer();

try {

while(tokenStream.incrementToken()){

if(result.length()>0){

result.append(",");

}

result.append("["+ta.toString()+"]");

}

} catch (IOException e) {

e.printStackTrace();

}

System.out.println(analyzerType+"->"+result.toString());

}

}

MAIN方法”：

private TokenizerDemo demo = null;

//private String msg = "我喜欢你，我的祖国！china 中国";

private String msg = "I love you, China!B2C";

@Before

public void setUp() throws Exception {

demo=new TokenizerDemo();

}

@Test

public void testWhitespaceAnalyzer(){

demo.whitespaceAnalyzer(msg);

}

@Test

public void testSimpleAnalyzer(){

demo.simpleAnalyzer(msg);

}

@Test

public void testStopAnalyzer(){

demo.stopAnalyzer(msg);

}

@Test

public void testStandardAnalyzer(){

demo.standardAnalyzer(msg);

}

}

5、CJKAnalyzer

中日韩分析器，能对中，日，韩语言进行分析的分词器，但是对中文支持效果一般，一般不用

时间： 2024-10-25 21:43:14

Lucene内置的Analyzer分词器

Lucene内置的Analyzer分词器的相关文章

lucene内存索引库、分词器

Android通过意图使用内置的音频播放器

Lucene的基本使用之Analyzer分词器

Lucene.Net3.0.3+盘古分词器学习使用

Lucene实现自定义中文同义词分词器

基于lucene的案例开发：分词器介绍

python基础篇【第四篇】内置函数、装饰器：

Python学习之旅 —— 基础篇（四）内置函数、装饰器

python学习之路-4 内置函数和装饰器