Lucene基础(三)-- 中文分词及高亮显示

Lucene分词器及高亮

分词器

在lucene中我们按照分词方式把文档进行索引,不同的分词器索引的效果不太一样,之前的例子使用的都是标准分词器,对于英文的效果很好,但是中文分词效果就不怎么样,他会按照汉字的字直接分词,没有词语的概念。

使用分词的地方只需要把Analyzer实例化成我们第三方的分词器即可

中文分词有很多,这里使用IKAnalyzer 为例, 
下载地址 https://git.oschina.net/wltea/IK-Analyzer-2012FF 现在下来后里面有一篇教程。

高亮

导入lucene-highlighter-xxx.jar 在对查询出来的结果实现高亮显示

// 关键字高亮显示的html标签,需要导入lucene-highlighter-xxx.jar

  SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("<span style=‘color:red‘>", "</span>");

  Highlighter highlighter = new Highlighter(simpleHTMLFormatter, new QueryScorer(query));

  for (int i = 0; i < hits.length; i++) {

    Document doc = isearcher.doc(hits[i].doc);

    // 内容增加高亮显示

    TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(doc.get("content")));

    String content = highlighter.getBestFragment(tokenStream, doc.get("content")); System.out.println(content);

  }

Lucene中文分词器

package lucene_demo04;

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.IndexWriterConfig.OpenMode;
import org.apache.lucene.queryparser.classic.ParseException;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.QueryWrapperFilter;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.InvalidTokenOffsetsException;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;
import org.wltea.analyzer.lucene.IKAnalyzer;

/**
* 中文分词,IKAnalayzer,对索引结果实现高亮显示
*
* @author YipFun
*/
public class LuceneDemo04
{
  private static final Version version = Version.LUCENE_4_9;
  private Directory directory = null;
  private DirectoryReader ireader = null;
  private IndexWriter iwriter = null;
  private IKAnalyzer analyzer;

  // 测试数据
  private String[] content = { "你好,我是中共人", "中华人民共和国", "中国人民从此站起来了", "Lucene是一个不错的全文检索的工具", "全文检索中文分词" };

  /**
   * 构造方法
   */
  public LuceneDemo04()
  {
    directory = new RAMDirectory();
  }

  private IKAnalyzer getAnalyzer()
  {
    if (analyzer == null)
    {
      return new IKAnalyzer();
    } else
    {
      return analyzer;
    }
  }

  /**
  * 创建索引
  */
  public void createIndex()
  {
    Document doc = null;
    try
    {
      IndexWriterConfig iwConfig = new IndexWriterConfig(version, getAnalyzer());
      iwConfig.setOpenMode(OpenMode.CREATE_OR_APPEND);
      iwriter = new IndexWriter(directory, iwConfig);
      for (String text : content)
      {
      doc = new Document();
      doc.add(new TextField("content", text, Field.Store.YES));
      iwriter.addDocument(doc);
    }

  } catch (IOException e)
  {
    e.printStackTrace();
  } finally
  {
  try
  {
    if (iwriter != null)
    iwriter.close();
  } catch (IOException e)
  {
    e.printStackTrace();
  }
  }

  }

  public IndexSearcher getSearcher()
  {
    try
    {
      if (ireader == null)
      {
        ireader = DirectoryReader.open(directory);
      } else
      {
        DirectoryReader tr = DirectoryReader.openIfChanged(ireader);
        if (tr != null)
        {
          ireader.close();
          ireader = tr;
        }
      }
      return new IndexSearcher(ireader);
    } catch (CorruptIndexException e)
    {
      e.printStackTrace();
    } catch (IOException e)
    {
      e.printStackTrace();
    }
    return null;
  }

  public void searchByTerm(String field, String keyword, int num) throws InvalidTokenOffsetsException
  {
    IndexSearcher isearcher = getSearcher();
    Analyzer analyzer = getAnalyzer();
    // 使用QueryParser查询分析器构造Query对象
    QueryParser qp = new QueryParser(version, field, analyzer);
    // 这句所起效果?
    qp.setDefaultOperator(QueryParser.OR_OPERATOR);
    try
    {
      Query query = qp.parse(keyword);
      ScoreDoc[] hits;

      // 注意searcher的几个方法
      hits = isearcher.search(query, null, num).scoreDocs;

      // 关键字高亮显示的html标签,需要导入lucene-highlighter-xxx.jar
      SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("<span style=‘color:red‘>", "</span>");
      Highlighter highlighter = new Highlighter(simpleHTMLFormatter, new QueryScorer(query));

      for (int i = 0; i < hits.length; i++)
      {
        Document doc = isearcher.doc(hits[i].doc);
        // 内容增加高亮显示
        TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(doc.get("content")));
        String content = highlighter.getBestFragment(tokenStream, doc.get("content"));
        System.out.println(content);
      }

    } catch (IOException e)
    {
      e.printStackTrace();
    } catch (ParseException e)
    {
      e.printStackTrace();
    }
  }

  /**
  * 使用过滤器查询
  *
  * @param field
  * @param keyword
  * @param num
  * @throws InvalidTokenOffsetsException
  */
  public void searchByTermFilter(String field, String keyword, int num) throws InvalidTokenOffsetsException
  {
    IndexSearcher isearcher = getSearcher();
    Analyzer analyzer = getAnalyzer();
    // 使用QueryParser查询分析器构造Query对象
    QueryParser qp = new QueryParser(version, field, analyzer);
    // 这句所起效果?
    qp.setDefaultOperator(QueryParser.OR_OPERATOR);
    try
    {
      Query query = qp.parse(keyword);
      Query q2 = qp.parse("全文检索");
      ScoreDoc[] hits;

      QueryWrapperFilter filter = new QueryWrapperFilter(q2);
      // 注意searcher的几个方法
      hits = isearcher.search(query, filter, num).scoreDocs;

      // 关键字高亮显示的html标签,需要导入lucene-highlighter-xxx.jar
      SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("<span style=‘color:red‘>", "</span>");
      Highlighter highlighter = new Highlighter(simpleHTMLFormatter, new QueryScorer(query));

      for (int i = 0; i < hits.length; i++)
      {
        Document doc = isearcher.doc(hits[i].doc);
        // 内容增加高亮显示
        TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(doc.get("content")));
        String content = highlighter.getBestFragment(tokenStream, doc.get("content"));
        System.out.println(content);
      }

    } catch (IOException e)
    {
      e.printStackTrace();
    } catch (ParseException e)
    {
      e.printStackTrace();
    }
  }

  public static void main(String[] args) throws InvalidTokenOffsetsException
  {
    System.out.println("start");
    LuceneDemo04 ld = new LuceneDemo04();
    ld.createIndex();
    long start = System.currentTimeMillis();
    ld.searchByTerm("content", "人民", 500);
    System.out.println("end search use " + (System.currentTimeMillis() - start) + "ms");
  }

}

运行结果:

start 加载扩展词典:ext.dic

加载扩展停止词典:stopword.dic

中华<span style=‘color:red‘>人民</span>共和国

中国<span style=‘color:red‘>人民</span>从此站起来了

end search use 129ms

时间: 2024-11-19 02:07:04

Lucene基础(三)-- 中文分词及高亮显示的相关文章

Lucene实践之中文分词IKAalyzer

做检索怎么都绕不过中文分词去,学习一下用IKAnalyzer分词器做中文分词. Game Starts 参考文档 1) 中文分词之Java实现使用IK Analyzer实现 2) IKAnalyzer 独立使用 配置扩展词典 依赖jar包 1) IKAnalyzer2012FF_u1.jar 最好使用这个版本下面说 [百度网盘下载] 2) IKAnalyzer.cfg.xml [百度网盘下载] 3) keyWord.dic,stopWord.dic 字典 主要的类 1) IKAnalyzer ,

【Lucene】Apache Lucene全文检索引擎架构之中文分词和高亮显示

前面总结的都是使用Lucene的标准分词器,这是针对英文的,但是中文的话就不顶用了,因为中文的语汇与英文是不同的,所以一般我们开发的时候,有中文的话肯定要使用中文分词了,这一篇博文主要介绍一下如何使用smartcn中文分词器以及对结果的高亮显示. 1. 中文分词 使用中文分词的话,首先到添加中文分词的jar包. <!-- lucene中文分词器 --> <dependency> <groupId>org.apache.lucene</groupId> <

Lucene使用IKAnalyzer中文分词笔记

本文主要讲解IKAnalyzer(以下简称'IK')在Lucene中的具体使用,关于Lucene和IK分词器的背景及其作用在这里就不再熬述.不得不感叹下Lucene版本变更的快速,如今最新已经到了4.9.0,相信任何技术的发展壮大都不可避免有这一过程.本文使用的是Lucene4.0,IKAnalyzer使用的是2012FF版. Lucene下载请移步官网,IK下载地址如下: http://code.google.com/p/ik-analyzer/downloads/list IK下载完成够拷贝

lucene(三)分词

分词 lucene在查询和建立索引文件的过程中,都是基于语素单元来操作的.而分词就是将查询语句,转换为一个个单独的语素单元. 主要通过Analyzer类解析实现,Analyzer通过调用TokenStream来实现. 分词的主要架构: Analyzer 常用的有: SimpleAnalyzer: 将查询语句转换为语素单元时完成转换为小写的操作. StandardAnalyzer :最为常用的智能分词器,通过这两个LowerCaseFilter和StopFilterTokenStream.能完成诸

(转)Lucene中文分词图解

本文记录Lucene+Paoding的使用方法图解: 一.下载Lucene(官网:http://archive.apache.org/dist/lucene/java/)本文中使用的是:2.9.4,下载后解压,Lucene所需要的基本jar文件如下列表: lucene-core-2.9.4.jar                   Lucene核心jar lucene-analyzers-2.9.4.jar            Lucene分词jar lucene-highlighter-2

搜索引擎系列四:Lucene提供的分词器、IKAnalyze中文分词器集成

一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在pom.xml里面引入如下依赖 <!-- lucene 核心模块 --> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-core</artifactId&

Elasticsearch 中文分词(elasticsearch-analysis-ik) 安装

由于elasticsearch基于lucene,所以天然地就多了许多lucene上的中文分词的支持,比如 IK, Paoding, MMSEG4J等lucene中文分词原理上都能在elasticsearch上使用.当然前提是有elasticsearch的插件. 至于插件怎么开发,这里有一片文章介绍:http://log.medcl.net/item/2011/07/diving-into-elasticsearch-3-custom-analysis-plugin/暂时还没时间看,留在以后仔细研

Solr5.0配置中文分词包

Solr中默认的中文分词是用Lucene的一元分词包. 现在说明在Solr5.0中配置Lucene的SmartCN中文分词包. 1,进入Solr的安装目录,我这里是:/root/nutch/solr-5.0.0  把contrib/analysis-extras/lucene-libs/lucene-analyzers-smartcn-5.0.0.jar包复制到solr的启动目录的lib目录下. # cp ./contrib/analysis-extras/lucene-libs/lucene-

lucene中文分词——(四)

1.分析器的执行过程: 第一个 TokenFilter将大写字母变为小写,第二次分词去掉空格并换行,第三次去掉不要的 and或者标点符号 2.中文分词器介绍: (1)lucene自带的 (2)第三方的 3.查看标准分词器对中文的分词效果: 最终决定使用的是IKAnalyzer()分词器,支持中文扩展与停用. 1 // 查看标准分析器的分词效果 2 @Test 3 public void testTokenStream() throws Exception { 4 // 创建一个标准分析器对象 5