ramBufferSizeMB

索引算法确定的情况下，影响Lucene索引速度的因素

MaxBufferedDocs这个参数默认是disabled的，因为Lucene中还用另外一个参数（RAMBufferSizeMB）控制这个bufffer的索引文档个数。
其实MaxBufferedDocs和RAMBufferSizeMB这两个参数是可以一起使用的，一起使用时只要有一个触发条件满足就写入硬盘，生成一个新的索引segment文件。

RAMBufferSizeMB
控制用于buffer索引文档的内存上限，如果buffer的索引文档个数到达该上限就写入硬盘。当然，一般来说值越大索引速度越快。
当我们对文档大小不太确定时，这个参数就相当有用，不至于outofmemory error.

MergeFactor
Lucene中索引总体上是这样进行，索引现写到内存，触发一定限制条件后写入硬盘，生成一个独立的子索引－lucene中叫Segment。

一般来说这些子索引需要合并成一个索引，也就是optimize()，否则会影响检索速度，而且也可能导致open too many files。

MergeFactor 这个参数就是控制当硬盘中有多少个子索引segments，我们就需要现把这些索引合并冲一个稍微大些的索引了。

http://harbey.iteye.com/blog/514356

时间： 2024-10-14 06:24:22

ramBufferSizeMB的相关文章

solr入门教程

Solr 本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在查询中可以应用的高亮显示.拼写检查.搜索建议.分组统计.拼音检索等功能的使用方法. 1. Solr 是什么? Solr它是一种开放源码的.基于 Lucene Java 的搜索服务器,易于加入到 Web 应用程序中.Solr 提供了层面搜索(就是统计).命中醒目显示并且支持多种输出格式(包括XML/XSLT 和JSON等格式).它易于安装和配置,而且附带了一个基于HT

solr配置-Solrconfig.xml

可参考配置:http://wiki.apache.org/solr/SolrConfigXml lib <lib> 标签用于引入solr引用SolrPlugins的jar包,当dir对应的目录不存在时,solr会忽略此, <lib dir="../../../contrib/extraction/lib" regex=".*\.jar" /> dataDir parameter 配置data目录的存放位置,data目录中存放了index和lo

solr4.3 solrconfig.xml配置文件

<?xml version="1.0" encoding="UTF-8" ?> <config>  <luceneMatchVersion>LUCENE_43</luceneMatchVersion>  <lib dir=&quo

lucene 索引合并策略

在索引算法确定的情况下,最为影响Lucene索引速度有三个参数--IndexWriter中的 MergeFactor, MaxMergeDocs, RAMBufferSizeMB .这些参数无非是控制内外存交换和索引合并频率,从而达到提高索引速度.当然这些参数的设置也得依照硬件条件灵活设置. MaxMergeDocs该参数决定写入内存索引文档个数,到达该数目后就把该内存索引写入硬盘,生成一个新的索引segment文件. 所以该参数也就是一个内存buffer,一般来说越大索引速度越快. MaxBu

Lucene源码解析--IndexWriterConfig配置参数说明

原文:http://blog.itpub.net/28624388/viewspace-766134/ 创建IndexWriter实例时,通过IndexWriterConfig来设置其相关配置:1.Analyzer:分析器 2.matchVersion:所用Lucene的版本 3.ramBufferSizeMB:随机内存默认为16M.用于控制buffer索引文档的内存上限,如果buffer的索引文档个数到达该上限就写入硬盘.当然,一般来说越大索引速度越快 4.maxBufferedDocs:最

Solr基础

因为 Solr 包装并扩展了Lucene,所以它们使用很多相同的术语.更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容.通过对 Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引.在 Solr 和 Lucene 中,使用一个或多个 Document 来构建索引.Document包括一个或多个 Field.Field 包括名称.内容以及告诉 Solr 如何处理内容的元数据. 例如,Field 可以包含字符串.

Solr调研总结(转)

Solr调研总结开发类型全文检索相关开发 Solr版本 4.2 文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试.两个核心配置文件介绍.中文分词器配置.维护索引.查询索引,高亮显示.拼写检查.搜索建议.分组统计.自动聚类.相似匹配.拼音检索等功能的使用方法. 在代码文本框中如有显示不全的,请在文本框中按Ctrl+A再复制. 版本作者/修改人日期 V1.0 gzk 2013-06-04 1. Solr 是什么? Solr它是一种开放源码的.基于 Luce

Solr学习之五

一.段管理段是一个自包含,仅可读的solr的索引的子集.一旦一个段被刷新到持久存储后,它将不会改变.当添加新文档到你的索引时候,它们被写入到新的段中.因此,在你的索引中,有很多激活的段.一次查询必须从所有的段中去读数据,以便获得一个完成的结果集.从某种意义上说,有许多小的段将会影响你的查询性能.合并许多小段到少数的大段的过程一般被称为段的合并. 二.优化索引优化索引是一个强制Lucene去合并存在的段到一定数量的大段的操作,这一定数量默认值为1. 举个例子,一个具有32个段的索引,优化后,只

solrconfig.xml解析

solrconfig.xml配置文件主要定义了SOLR的一些处理规则,包括索引数据的存放位置,更新,删除,查询的一些规则配置.下面将对solrconfig进行详细描述:1 <luceneMatchVersion>4.8</luceneMatchVersion> 表示solr底层使用的是lucene4.82 <lib dir="../../../contrib/extraction/lib" regex=".*\.jar" /> 表

猜你喜欢

蒋步星：数据可视化技术的误区

所谓数据可视化是指把数据以图形动画以及地图等形式呈现出来,这样即直观又美观,易于理解从而看出数据背后的问题. 要做好数据可视化,需要两方面的能力.一是"艺术"能力,即知道什么样的数 ...

【转载】设计模式_单例模式（学习）

一般一个类能否做成单例,最容易区别的地方就在于,这些类,在应用中如果有两个或者两个以上的实例会引起错误,又或者我换句话说,就是这些类,在整个应用中,同一时刻,有且只能有一种状态三种实现方式: 1.懒 ...

软件测试第6次博客作业

缺陷编号:01.01.0001 发现人:.. 记录日期:2016/6/11 所属模块:注册确认人:.. 确认日期:20 ...

JS笔记入门第四

小测试: 注意:取消所有的设定可以直接使用 document.getElementById("txt").removeAttribute("style"); 这 ...

hihoCoder #1162 : 骨牌覆盖问题·三

#1162 : 骨牌覆盖问题·三 Time Limit:10000ms Case Time Limit:1000ms Memory Limit:256MB 描述前两周里,我们讲解了2xN,3xN骨牌 ...

Python程序高效地调试

现在我在debug python程序就只是简单在有可能错误的地方print出来看一下,不知道python有没像c++的一些IDE一样有单步调试这类的工具?或者说各位python大神一般是怎么debug ...

用awk数组统计日志访问状况和网络连接状态

统计ip及此ip访问的pv数 #awk '{s[$1]++}END{for(key in s) print key,s[key]}' 12.log | sort -k2rn | head 统计当前网络 ...

将两个有序链表合并成一个有序链表

问题定义: 写一个函数SortedMerge函数,该函数有两个参数,都是递增的链表,函数的功能就是合并这两个递增的链表为一个递增的链表,SortedMerge的返回值是新的链表.新链表由前两个链表按元 ...

python 错误处理

在程序运行的过程中,如果发生了错误,可以事先约定返回一个错误代码,这样,就可以知道是否有错,以及出错的原因.在操作系统提供的调用中,返回错误码非常常见.比如打开文件的函数open(),成功时返回文件描 ...

Android中SensorManager.getRotationMatrix函数原理解释

SensorManager是Android中的一个类,其有一个函数getRotationMatrix,可以计算出旋转矩阵,进而通过getOrientation求得设备的方向(航向角.俯仰角.横滚角). ...

IBM Watson知名科学家谈从人工智能到增强智能

(最具文艺复兴气质的IBM Watson/M首席科学家Grady Booch) 在2016年的科学技术界有一件里程碑的事件,这就是全球庆祝人工智能60周年.2016年10月21日,见证了人工智能60年 ...

在js总使用setTimeout的注意事项

setTimeout 在 js 中的使用频率很高,最常见的就是计时器. setTimeout 的使用方法很简单 var r = setTimeout(func , 1000); 首先它是用返回值,可以 ...

cin中函数的作用

cin是istream类的对象,它是从标准输入设备(键盘)获取数据,程序中的变量通过流提取符">>"从流中提取数据.流提取符">>"从流 ...

Itunes connect State: Developer Action Needed

In-App Purchases have been returned and are highlighted in the table below. Your In-App Purchase has ...

Deepin 15.4桌面版无线网卡打不开或者打开后找不到网络

现象:1) 点击任务栏的无线图标,点击开启会多次返回关闭,偶尔可以正常打开,但找不到网络. 2) 重启网卡管理服务,仍然显示Down [email protected]:systemctl resta ...

1.9.6

06:笨小猴总时间限制: 1000ms 内存限制: 65536kB 描述笨小猴的词汇量很小,所以每次做英语选择题的时候都很头疼.但是他找到了一种方法,经试验证明,用这种方法去选择选项的时候选对的几 ...

用#FFFF2222的string生成color

private Color ToColor(string colorName) { if (colorName.StartsWith("#")) colorName = color ...

js中浮点型运算注意点

先看张图: 这是一个JS浮点数运算Bug,导致我树状图,数据合计不正确,,,,,,两个小数相加,出来那么多位小数 (这是修该之后的) 网上找到以下解决方式: 方法一:有js自定义函数 <scri ...

APMServ开启apache mod_rewrite让php支持伪静态

Atitit.输入法配置说明v1 q229

Atitit.输入法配置说明v1 q229 //------------------------------------------------------ // IME设置 //-------- ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.017 s.