Lucene4.0 LogMergePolicy

其特点是给定的段列表顺序归并,不像TieredMergePolicy那样按大小排序之后决定。

norm = log(10),levelFloor=log(minMergeSize)/norm,对段列表中的元素，添加level值为log(size)/norm(即使log 10 size)的seg。

从列表位置0开始,取最大的logLevel为maxLevel,levelBottom=(float)(max-0.75)(如果maxLevel<=levelFloor,levelBottom=-1.0,levelBottom<levelFloor则levelBottom=levelFloor)。

从后往前找到第一个level大于等于levelBottom的位置upto,在[start, upto + 1)中以10个一组，在其中如果找不到任何size >= maxMergeSize,sizeDocs >= maxMergeDocs或正在合并的段时，将其加入merges数组。

下次则从1+upto位置开始找归并段。

findForceMerges只发生在IndexWriter中有maxNumSegments限制的情况下。

LogDocMergePolicy中size按照sizeDocs计算,minMergeSize默认为1000.

LogByteSizeMergePolicy中默认minMergeSize是1.6M,maxMergeSize是2G。

Lucene4.0 LogMergePolicy

时间： 2024-08-09 02:17:26

Lucene4.0 LogMergePolicy的相关文章

lucene4.0与IKAnalyzer的冲突

在网上下载了lucene当前最新版本4.0,以及IKAnalyzer中文分词器的完整发布包. 运行之后发现异常:Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides final method tokenStream.(Ljava/lang/String;Ljava/io/Reader;)Lorg/apache/lucene/analys

Lucene安装配置（4.6.0）

百度文库原始链接:http://wenku.baidu.com/link?url=WxkCi3zeXu8du3XGx9FxAeUxMiEx-e0EaKmoCKqa8_0Zy0INURfv8V5FePF5iSKWgi-VXgJwastrcg1AEH_bw14iCtMb4bhQpUzwiMCcjvy 6Lucene-4.6.0的安装与配置的详细过程第一步:下载安装JDK 在安装lucene之前需要首先安装jdk,因为lucene是在jdk的环境下运行的.最好下载jdk1.7以上的版本.这里我用的是

lucene 4.0学习

一:官方文件 http://lucene.apache.org/core/4_0_0/ ps:网上参考文章:http://www.cnblogs.com/xing901022/p/3933675.html 二:jar包 (1)lucene-core-4.0.0.jar (2)lucene-analyzers-common-4.0.0.jar (3)lucene-analyzers-smartcn-4.0.0.jar (4)lucene-queries-4.0.0.jar (5)lucene-qu

【手把手教你全文检索】Apache Lucene初探

PS: 苦学一周全文检索,由原来的搜索小白,到初次涉猎,感觉每门技术都博大精深,其中精髓亦是不可一日而语.那小博猪就简单介绍一下这一周的学习历程,仅供各位程序猿们参考,这其中不涉及任何私密话题,因此也不用打马赛克了,都是网络分享的开源资料,当然也不涉及任何利益关系. 如若转载,还请注明出处——xingoo 讲解之前,先来分享一些资料首先呢,学习任何一门新的亦或是旧的开源技术,百度其中一二是最简单的办法,先了解其中的大概,思想等等.这里就贡献一个讲解很到位的ppt.已经被我转成了PDF,便于搜藏

java--全文检索框架--Lucene

讲解之前,先来分享一些资料首先呢,学习任何一门新的亦或是旧的开源技术,百度其中一二是最简单的办法,先了解其中的大概,思想等等.这里就贡献一个讲解很到位的ppt.已经被我转成了PDF,便于搜藏. 其次,关于第一次编程初探,建议还是查看官方资料.百度到的资料,目前Lucene已经更新到4.9版本,这个版本需要1.7以上的JDK,所以如果还用1.6甚至是1.5的小盆友,请参考低版本,由于我用的1.6,因此在使用Lucene4.0. 这是Lucene4.0的官网文档:http://lucene.apa

luence全文检索（简介）

刚开始做全文检索也是找了很多资料但是网上的都不是很齐全luence是个很不多的工具 Lucene4.0的官网文档:http://lucene.apache.org/core/4_0_0/core/overview-summary.html 这个工具跟新很快很多风格不一样比如,以前版本的申请IndexWriter时,是这样的: IndexWriter indexWriter = new IndexWriter(indexDir,luceneAnalyzer, true );但是4.0,我们需要配置

Solr配置中文分词器IKAnalyzer及增删改查调用

一.配置IKAnalyzer中文分词器 Solr 版本5.2.1 IKAnalyzer2012_u6.jar报错 ,用IKAnalyzer2012_FF_hf1.jar 替换可解决解决lucene4.0与IKAnalyzer的冲突.解决Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides final method tokenStrea

英文分词的算法和原理

英文分词的算法和原理根据文档相关性计算公式 TF-IDF:http://lutaf.com/210.htm BM25:http://lutaf.com/211.htm 分词质量对于基于词频的相关性计算是无比重要的英文(西方语言)语言的基本单位就是单词,所以分词特别容易做,只需要3步: 根据空格/符号/段落分隔,得到单词组过滤,排除掉stop word 提取词干第一步:按空格/符号分词用正则表达式很容易 pattern = r'''(?x) # set flag to allow

Lucene41PostingWriter源码分析

原来看lucene4.0的posting格式(http://blog.csdn.net/jollyjumper/article/details/30017581),发现这还是比较简单的VInt格式,据说VInt压缩解压都不错(medium),但解压时分支太多打乱CPU流水线因而不够高效,流行的索引压缩有很多,for,simple9,simple16,PForDelta是比较流行的一种,发现lucene 4.1就实现了一个for编码的postings format.从lucene nightly

猜你喜欢

实现微信聊天的尖角图片样式

参考连接 http://www.jianshu.com/p/f77f54720202,不过我感觉他这里实现的不是很完美,因为三角是继承的整个图片,所以做了一些更改效果如下,哈哈在safari里一放大 ...

文本数据特征选取的四种方法

目前大多数中文文本分类系统都采用词作为特征项,作为特征项的词称作特征词.这些特征词作为文档的中间表示形式,用来实现文档与文档.文档与用户目标之间的相似度计算 . 1 基于频率的过滤方法基于频率的过滤 ...

「Rancher社区技术支持计划」全面启动

2015年6月 Rancher Labs第一次推出原始测试版Rancher 2016年3月开源的全栈化容器管理平台Rancher正式版发布 600多个日夜 Rancher推出了共计569个版本在全 ...

如何在大学里脱颖而出（其一）

这几天通过阅读<如何在大学里脱颖而出>这本书的前半部分内容,我总结了一下它在精神上的主题,那就是:真正的脱颖而出,是通过努力把自己喜欢的一件事做到与众不同. 如果我们所做的事不能让自己感到 ...

ORACLE Instant Client 配置

http://www.oracle.com/technetwork/cn/database/features/instant-client/index-092699-zhs.html 在官网下载对应的 ...

巴尔的摩古老的圣保罗教堂上的一首诗

你要对自己诚实尤其不要无情装有情对爱情不要玩世不恭在这干旱,没有希望的土地上它是一片四季常青的绿洲.你要吸取流水年华的经验从容地向青春时光告别你要培养自己的精神力量以抗衡突如其来的不幸的打击但你千万不 ...

拦截器和过滤器的区别

拦截器和过滤器都可以用来实现横切关注功能,其区别主要在于: 1.拦截器是基于java反射机制的,而过滤器是基于函数回调的. 2.过滤器依赖于servlet容器,而拦截器不依赖于servlet容器. 3 ...

安卓3月21日作业

作业一,界面设计的代码:<?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns: ...

hdu 5869 区间gcd的求法及应用

题意:长度n的序列, m个询问区间[L, R], 问区间内的所有连续子段的不同GCD值有多少种. 题解: 1.因为n个数的gcd等于前n-1个数的gcd值再于第n个数gcd一下的值,再加上如果固定终点 ...

打开另外一个App

/** * 打开一个app * * @param packageName * @param data * @return */ public static boolean lanuchApp(Cont ...

第五十三天：优化网站的常用方法

小Q:时光,总是恬淡的,君不见,那翻阅过的书,充满了淡淡的清香,即便有褶皱,有划痕,也无形中沉淀了书的厚重. --------------------------------------------- ...

【教程】如何申请Chrome应用商店（Web Store）开发者

首先你需要一张信用卡,如果你没有的话,可以借用父母或他人的(多见于学生党) 如果你有信用卡,你还得看看信用卡正面是否有注明"VISA"."MasterCard" ...

一次arp防护配置错误导致的故障

故障描述,客户那里能够获得ip地址和dns等信息,但上不了网.三层核心是思科6509,二层设备是华三5130. 处理过程,由于dhcp信息能够获得证明二层是通的,cisco6509上分配ip等信息,查 ...

【SSH进阶之路】Spring的IOC逐层深入——源码解析之IoC的根本BeanFactory(五)

我们前面的三篇博文,简单易懂的介绍了为什么要使用IOC[实例讲解](二).和Spring的IOC原理[通俗解释](三)以及依赖注入的两种常用实现类型(四),这些都是刚开始学习Spring IoC容器时 ...

SSL 通信原理及Tomcat SSL 配置

SSL 通信原理及Tomcat SSL 双向配置目录1 参考资料 .................................................................. ...

ZENCART 打开/关闭日志文件

优秀的php开源程序很多都只带生成日志文件的功能,这类功能的开发可以帮助到站长在调试网站的时候及时的改正网站存在的错误,但是这类错误日志由来并非网站出现什么严重不可挽救的错误,大部分是一些未定义变量这 ...

图片查看器(可拖拽，缩放，轮播)

一直都想写一个图片轮播,可是却一直都没有静下心来,今天终于有时间,就来做个图片查看器吧功能:拖拽,缩放,还原,轮播,透明度拖拽实现原理:鼠标按下onmousedown,鼠标移动onmousemov ...

如何是对，如何是错

有了对错,才能分清善恶分明. <论语>中孔圣人说过,"己所不欲,勿施于人".这么多年来,嘻嘻哈哈地读过去,听过去,再就忘却掉. 从来没有认真地用世事比照一番,也或许是以 ...

夯实基础——插入排序

物理结构:数组插入排序分析: 最优时间复杂度:O(n) 顺序的情况下最坏时间复杂度:O(n^2) 平均时间复杂度:O(n^2) 最坏空间复杂度:O(n) 辅助空间O(1) 稳定性:稳定快速排序法 ...

Hibernate初步部署

下载全套文件: hibernate-release-4.1.7.Final.zip 目录结构 Documentation文件夹下是开发帮助文档 Lib文件夹是开发使用的库,其中该文件夹下面的requi ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.018 s.