Lucene.net(4.8.0) 学习问题记录二: 分词器Analyzer中的TokenStream和AttributeSource

前言：目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作，不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ，PanGu分词也是对应Lucene3.6.0版本的。不过好在Lucene.net 已经有了Core 2.0版本，4.8.0 bate版，而PanGu分词，目前有人正在做，貌似已经做完，只是还没有测试~，Lucene升级的改变我都会加粗表示。

Lucene.net 4.8.0

https://github.com/apache/lucenenet

PanGu分词

https://github.com/LonghronShen/Lucene.Net.Analysis.PanGu/tree/netcore2.0

Lucene.net 4.8.0 和之前的Lucene.net 3.6.0 改动还是相当多的，这里对自己开发过程遇到的问题，做一个记录吧，希望可以帮到和我一样需要升级Lucene.net的人。我也是第一次接触Lucene ,也希望可以帮助初学Lucene的同学。

一，Analyzer 中的TokenStream

在这篇博文中，其实已经介绍了TokenStream 是怎么产生的：

原文地址：https://www.cnblogs.com/dacc123/p/8118526.html

时间： 2024-10-17 23:58:47

Lucene.net(4.8.0) 学习问题记录二: 分词器Analyzer中的TokenStream和AttributeSource的相关文章

Lucene.net(4.8.0) 学习问题记录一:分词器Analyzer的构造和内部成员ReuseStategy

前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ,PanGu分词也是对应Lucene3.6.0版本的.不过好在Lucene.net 已经有了Core 2.0版本,4.8.0 bate版,而PanGu分词,目前有人正在做,貌似已经做完,只是还没有测试~,Lucene升级的改变我都会加粗表示. Lucene.net 4.8.0 https:

Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考

前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ,PanGu分词也是对应Lucene3.6.0版本的.不过好在Lucene.net 已经有了Core 2.0版本(4.8.0 bate版),而PanGu分词,目前有人正在做,貌似已经做完,只是还没有测试~,Lucene升级的改变我都会加粗表示. Lucene.net 4.8.0 https

Lucene.net(4.8.0) 学习问题记录三: 索引的创建 IndexWriter 和索引速度的优化

前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ,PanGu分词也是对应Lucene3.6.0版本的.不过好在Lucene.net 已经有了Core 2.0版本(4.8.0 bate版),而PanGu分词,目前有人正在做,貌似已经做完,只是还没有测试~,Lucene升级的改变我都会加粗表示. Lucene.net 4.8.0 https

Lucene5学习之使用MMSeg4j分词器

分类:程序语言|标签:C|日期: 2015-05-01 02:00:24 MMSeg4j是一款中文分词器,详细介绍如下: 1.mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用. 2.MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向

13.solr学习速成之IK分词器

IKAnalyzer简介 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包. IKAnalyzer特性 a. 算法采用"正向迭代最细粒度切分算法",支持细粒度和最大词长两种分词方式,速度最大支持80W字/秒(1600KB/秒). b. 支持多子处理器分析模式:中文.数字.字母,并兼容日文.韩文. c. 较小的内存占用,优化词库占有空间,用户可自定义扩展词库. d. 扩展lucene的扩展实现,采用歧义分析算法优化查询关键字的搜索排列组合,提高lucene检

Vue.js 2.0 学习重点记录

Vue.js兼容性 Vue.js.js 不支持 IE8 及其以下版本,因为 Vue.js.js 使用了 IE8 不能模拟的 ECMAScript 5 特性. Vue.js.js 支持所有兼容 ECMAScript 5 的浏览器. Vue.js安装安装方式有两种: 1.直接下载用script标签引入(推荐引入开发版本,压缩版本会失去错误提示和警告) 2.使用cdn方法引入 3.npm安装 npm安装的前提需要安装了nodejs,这里推荐nvm安装nodejs 附上一小段nvm使用的命令: $ n

APUE学习笔记-记录二

这次回顾APUE中第三四章的内容,主要是文件I/O操作相关的接口函数. UNIX系统的文件I/O是不带缓冲的I/O,不带缓冲是指每个read和write都调用系统内核的一个系统调用. 1.文件描述符 UNIX I/O的所有函数都是基于文件描述符来操作的.那什么是文件描述符呢?文件描述符是一个非负整数.当打开一个现有文件或创建一个新文件时,内核向进程返回一个文件描述符.该文件描述符fd是所有UNIX I/O函数的操作对象.UNIX系统把文件描述符0与进程标准输入关联,把文件描述符1与进程标准

WinCE6.0学习笔记之二——BSP的Clone

转载自:http://blog.csdn.net/nanjianhui/article/details/2896411 BSP的克隆应该算是BSP开发的第一步,在你什么都没有的时候,最好找一个和你的芯片以及平台相近的已有的BSP包,进行克隆,然后再在上面开发新的BSP,这样会节省时间.道理大家都明白,下面介绍一下: 1. 基于WinCE6.0,首先打开VS2005,然后选择”Tools”->”Platform Builder for CE 6.0”->”Clone BSP”以后,会弹出一个克

BIOS MCSDK 2.0 学习笔记（二）————使用Platform Library创建工程

Platform Library提供了一组适用于开发板的API函数.我们可以使用它来快速入手开发板. 启动CCS,建立一个空的工程添加include路径:"C:\Program Files\Texas Instruments\pdk_C####_1_0_0_xx\packages",添加后如下图所示: 添加下列链接库到C6000 Linker section中的File Search Path: "C:\ti\pdk_c667x_2_0_3\packages\ti\plat

猜你喜欢

对编程有点迷茫的人一定要看(转)

某人问: 程序员前辈帮帮我!前途迷茫!26岁了作不了决择! 23岁毕业班到现在26岁了,啥都不会,学的计算机语言有VB,VF! 人生该定目标了! 1.可我26开始重新自修编程,以后有前途吗?我得挣更多 ...

广州竞价网站服务器多少钱

竞价网站服务器首先是我们选择服务器,我认为服务器一直是网站最大的投资,其他什么都可以节约,但服务器不能够节约,因为便宜服务器导致网站一直没有办法把排名做出来,我吃过很多亏,以前用便宜的空间的时候,几乎 ...

多区域显示（3）

多区域显示(3) 设计要点:页面设计.多窗口.冻结窗口阿金:嗨!你不会用"冻结窗口"呐?也能分为4个区域! 秀秀:且!这谁不知道啊?!但是数据还会跟着滚动啊? 阿金:没有那么粗的 ...

IOS 控制当前控制器支持哪些方向

#pragma mark - 实现这个方法来控制屏幕方向 /** * 控制当前控制器支持哪些方向 * 返回值是UIInterfaceOrientationMask* */ - (NSUInteger) ...

mongoengine

近期又一次拾起Django,可是Django并不支持mongodb,可是有一个模块mongoengine能够实现Django Model类似的封装.可是mongoengine的中文文档差点儿没有,有的 ...

Different Ways to Add Parentheses——Leetcode

Given a string of numbers and operators, return all possible results from computing all the differen ...

中断和轮询 VS select和epoll

一. select和epoll 首先我们来定义流的概念,一个流可以是文件,socket,pipe等等可以进行I/O操作的内核对象.不管是文件,还是套接字,还是管道,我们都可以把他们看作流. 通过rea ...

OpenFace库(Tadas Baltrusaitis)中基于Haar Cascade Classifiers进行人脸检测的测试代码

Tadas Baltrusaitis的OpenFace是一个开源的面部行为分析工具,它的源码可以从 https://github.com/TadasBaltrusaitis/OpenFace 下载.O ...

第43课函数的意义

1. C语言中的函数 (1)函数的由来: 程序 = 数据 + 算法 → C程序 = 数据 + 函数 (2)模块化程序设计 (3)C语言中的模块化 2. 面向过程的程序设计 (1)面向过程是一 ...

POJ 1321 深搜dfs

思路其实挺简单的,为什么我想不到呢!!! 原因分析:(1)题目还是做少了 (2)做题目的时候在放音乐 (3)最近脑袋都不愿意想思路总是想一些无用的改进:(1)以后做题目坚决不开音乐,QQ直接挂隐身 ...

delphi备份恢复剪切板

http://blog.csdn.net/youthon/article/details/7327776 分类: Delphi编程2012-03-07 10:31578人阅读评论 ...

4.1 frank习语机经

最小生成树 (Minimum Spanning Tree,MST) ---Kruskal算法

引导问题: 假设要在N个城市之间建立通信联络网,则连通N个城市只需要N - 1条线路.这时,自然会考虑这样一个问题,如何在最省经费的前提下建立这个通信网. 基于问题所建立的定义: 可以用联通网来表示N ...

大数据云计算

大数据:数据量大,数据价值,分析,挖掘云计算:一般分三层构成[IAAS,SAAS,PAAS] IAAS:基础设施既服务 SAAS:平台即服务 PAAS:软件既服务 Apache Hadoop 特点: ...

Thinkphp 5 使用DOMDocument

每一个载入浏览器都会生成一个 Document 对象. Document 对象使我们可以从脚本中对 HTML 页面中的所有元素进行访问.Document 对象是 Window 对象的一部分. 我们项目 ...

ThreadLocalMap里Entry为何声明为WeakReference？

Java里,每个线程都有自己的ThreadLocalMap,里边存着自己私有的对象.Map的Entry里,key为ThreadLocal对象,value即为私有对象T.在spring MVC中,常用T ...

【tool】软件测试中翻页功能测试用例设计

翻页功能我们常碰到的一般有以下几个功能: 1.首页.上一页.下一页.尾页. 2.总页数,当前页数 3.指定跳转页 4.指定每页显示条数当然,有一些是少于多少页,全部以数字的形式显示,多于多少页后,才 ...

推送技术随记

基本概念通常HTTP协议的模型是 Request ---> Respond , 客户端主动发起请求,而服务器不会主动向客户端发起通信. 为了达到数据同步,通常会采用Polling方式:客户端 ...

LNMP笔记：域名重定向、读写权限、显示WP主题、北京时间

将 xxx.com 重定向到 www.xxx.com打开 /usr/local/nginx/conf/vhost/你网站的域名.com.conf 2.查看原有的 server{}中的 server_n ...

RabbitMQ延时任务

概念: 消息的TTL(Time To Live)消息的TTL就是消息的存活时间.RabbitMQ可以对队列和消息分别设置TTL.对队列设置就是队列没有消费者连着的保留时间,也可以对每一个单独的消息做单 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.