lucene索引数字

1.用途。

索引数字的场景主要有两种：一是把它们当作字符串一样处理，比如“要是搁以前，术士能暴击10000多，有木有！”中的"10000"，它和其它的词没什么区别，你可以把它仅仅想成一个字符串；另一种场景则是某个域只索引数字，且可以搜索数字的范围等，比如设计了某个Field存储邮件的大小，现在要搜索大小在3M－10M的邮件。

对于第一种情况，你要做的仅仅是选一个不会对数字进行分词的分析器。这种分析器很多，比如之前我们用过的WhitespaceAnalyzer和StandardAnalyzer。当然WhitespaceAnalyzer分析器可能仅仅对英语之类的语言还有点用处。对于第二种情况，你不需要为这些专门设计用来存储数字的域进行分词，指定成Field.Index.NOT_ANALYZED就可以了。不过你必须清楚的是，Lucene内部处理的仍然只是String类型！即"10"是排在"2"前面的！若是想支持范围搜索，你需要为数字增加前置0, 即需要索引"02",这样"02"便排在"10"前面了！

2.

时间： 2024-12-20 04:48:30

lucene索引数字的相关文章

Lucene 索引优化

转自---http://www.codeceo.com/article/lucene-index.html 1 数值数据类型索引优化 1.1 数值类型索引问题 lucene本质上是一个全文检索引擎而非传统的数据库系统,它基于倒排索引,非常适合处理文本,而处理数值类型却不是强项. 举个应用场景,假设我们倒排存储的是商家,每个商家都有人均消费,用户想查询范围在500~1000这一价格区间内的商家. 一种简单直接的想法就是,将商家人均消费当做字符串写入倒排(如图所示),在进行区间查询时:1)遍

lucene索引文件大小优化小结

随着业务快速发展,基于lucene的索引文件zip压缩后也接近了GB量级,而保持索引文件大小为一个可以接受的范围非常有必要,不仅可以提高索引传输.读取速度,还能提高索引cache效率(lucene打开索引文件的时候往往会进行缓存,比如MMapDirectory通过内存映射方式进行缓存). 如何降低我们的索引文件大小呢?本文进行了一些尝试,下文将一一介绍. 1 数值数据类型索引优化 1.1 数值类型索引问题 lucene本质上是一个全文检索引擎而非传统的数据库系统,它基于倒排索引,非常适合处理文本

Lucene索引创建方法和步骤

在全文索引工具中,都是由这样的三部分组成 1.索引部分 2.分词部分 3.搜索部分 ---------------------------------- 索引创建域选项 ---------------------------------- Field.Store.YES或者NO(存储域选项) YES:表示会把这个域中的内容完全存储到文件中,方便进行还原[对于主键,标题可以是这种方式存储] NO:表示把这个域的内容不存储到文件中,但是可以被索引,此时内容无法完全还原(doc.get())[对于内容

Lucene索引过程中的内存管理与数据存储

Lucene的索引过程分两个阶段,第一阶段把文档索引到内存中:第二阶段,即内存满了,就把内存中的数据刷新到硬盘上. 倒排索引信息在内存存储方式 Lucene有各种Field,比如StringField,TextField,IntField,FloatField,DoubleField-,Lucene在处理的过程中把各种Field都处理成相应的byte[],以最本质的方式来看待各种Field的内容,统一了数据的存储形式. 在写入内存阶段,第一步就是需要理清各个类之间的关系. 在索

lucene 索引合并策略

在索引算法确定的情况下,最为影响Lucene索引速度有三个参数--IndexWriter中的 MergeFactor, MaxMergeDocs, RAMBufferSizeMB .这些参数无非是控制内外存交换和索引合并频率,从而达到提高索引速度.当然这些参数的设置也得依照硬件条件灵活设置. MaxMergeDocs该参数决定写入内存索引文档个数,到达该数目后就把该内存索引写入硬盘,生成一个新的索引segment文件. 所以该参数也就是一个内存buffer,一般来说越大索引速度越快. MaxBu

Luke 5—— 可视化 Lucene 索引查看工具，可以查看ES的索引

Luke 5 发布,可视化 Lucene 索引查看工具 oschina 发布于2015年08月31日这是一个主要版本,该版本支持 Lucene 5.2.0. 它支持 elasticsearch 1.6.0(Lucene的4.10.4) 已解决的问题:#20增加支持重建索引并不会存储领域,不暴露位置的字段值. Pull Requests:#23 Elasticsearch 支持和阴影插件组装#26 添加 .gitignore 文件#27 支持 Lucene 5#28 luke.sh 新增LUK

一步一步跟我学习lucene（18）---lucene索引时join和查询时join使用示例

了解sql的朋友都知道,我们在查询的时候可以采用join查询,即对有一定关联关系的对象进行联合查询来对多维的数据进行整理.这个联合查询的方式挺方便的,跟我们现实生活中的托人找关系类似,我们想要完成一件事,先找自己的熟人,然后通过熟人在一次找到其他,最终通过这种手段找到想要联系到的人.有点类似于"世间万物皆有联系"的感觉. lucene的join包提供了索引时join和查询时join的功能: Index-time join 大意是索引时join提供了查询时join的支持,且IndexWr

lucene 索引流程整理笔记

索引的原文档(Document). 为了方便说明索引创建过程,这里特意用两个文件为例: 文件一:Students should be allowed to go out with their friends, but not allowed to drink beer. 文件二:My friend Jerry went to school to see his students but found them drunk which is not allowed. 结果处的索引文件: Docume

MySQL和Lucene索引对比分析

MySQL和Lucene都可以对数据构建索引并通过索引查询数据,一个是关系型数据库,一个是构建搜索引擎(Solr.ElasticSearch)的核心类库.两者的索引(index)有什么区别呢?以前写过一篇<Solr与MySQL查询性能对比>,只是简单的对比了下查询性能,对于内部原理却没有解释,本文简单分析下两者的索引区别. MySQL索引实现在MySQL中,索引属于存储引擎级别的概念,不同存储引擎对索引的实现方式是不同的,本文主要讨论MyISAM和InnoDB两个存储引擎的索引实现方式. M

猜你喜欢

Kotlin中变量不同于Java： var 对val（KAD 02）

原文标题:Variables in Kotlin, differences with Java. var vs val (KAD 02) 作者:Antonio Leiva 时间:Nov 28, 201 ...

lucene-查询query->PrefixQuery使用前缀搜索

PrefixQuery就是使用前缀来进行查找的.通常情况下,首先定义一个词条Term.该词条包含要查找的字段名以及关键字的前缀,然后通过该词条构造一个PrefixQuery对象,就可以进行前缀查找了. ...

经典算法学习——希尔排序

希尔排序的实质就是分组插入排序,该方法又称为缩小增量排序.基本思想为:先将整个带排元素序列分割成若干个子序列(由相隔某个增量的元素组成),分别进行直接插入排序,然后依次缩减增量再进行排序,待整个序列中 ...

Mac 學習系列之SVN环境配置及常用命令大全

Windows里面用SVN是比較方便和Easy的,mac下面的其實也一樣. mac下带有SVN因此只需要激活它–环境配置: svnadmin create $Path 用来下载一个svn程序即可下载 ...

软件测试基本方法（四）之测试过程模型

瀑布模型是最常见也是最基本的过程模型,但实践中受到越来越大的局限性,我认为现代软件越发庞大和复杂,我们往往不能一眼洞穿,加上用户需求的多样化和不确定性,都让瀑布模型力不从心.于是出现了原型模型.迭代模 ...

spring注解方式配置AOP

applicationContext.xml里添加: <aop:aspectj-autoproxy/>

1 游戏逻辑架构，Cocos2d-x游戏项目创建，HelloWorld项目创建，HelloWorld程序分析，（CCApplicationProtocol，CCApplication，AppDeleg

1 游戏逻辑架构详细介绍 A 一个导演同一时间只能运行一个场景,场景当中,可以同时加载多个层,一个层可以可载多个精灵.层中亦可以加层. B 场景切换 sceneàaddChild(layer ...

【 js 算法类】数组去重

以 var arr = [1,2,3,1]; 作为测试用例方法一:双循环 (时间复杂度比较高,性能一般.) A.(1) 1 function unique(arr) { 2 var newArr ...

Oracle存储过程编译卡死的解决方法

解决方法如下: 1:查V$DB_OBJECT_CACHE SELECT * FROM V$DB_OBJECT_CACHE WHERE name='CUX_OE_ORDER_RPT_PKG' AND L ...

使用 WinSCP（下载）上文件到 Linux图文教程

问题导读: 1.如何远程链接? 2.如何上传文件? 3.如何对立面的文件进行操作? 4.什么情况下会链接失败? https://yunpan.cn/cYWtNMycjeVPv 访问密码 4f74 Li ...

第14章字符、字符串和文本处理

14.1字符在.Net Framework中,字符总是表示成16位Unicode代码值,这简化了国际化应用程序的开发. 每个字符都表示成System.Char结构的一个实例. 针对Char的一个实例 ...

1.打开父窗口: var url = "http://" + window.location.host + "/ContratorSelfAssess/AssessPap ...

线性时间选择

[题目] 在n个元素的无序数组中选择第k(1<=k<=n)小元素.当k=1时,相当于找最小值.当k=n时,相当于找最大值.当k=n/2时,称中值.[要求]线性时间内完成,即O(n). [算 ...

mysql5.7基础向指定数据库的指定表中插入符合要求的数据

镇场文: 学儒家经世致用,行佛家普度众生,修道家全生保真,悟易理象数通变.以科技光耀善法,成就一良心博客._________________________________________ ...

Linux下查看进程和线程

在linux中查看线程数的三种方法 1.top -H 手册中说:-H : Threads toggle 加上这个选项启动top,top一行显示一个线程.否则,它一行显示一个进程. 2.ps xH 手册 ...

初学swift笔记变量的定义（一）

swift变量的定义 1 import Foundation 2 3 /* 4 变量的定义 5 变量的类型是可以不用写的 6 var a=10 7 常量的定义 let修饰 8 */ 9 10 var ...

php5.4安装配置

./configure --prefix=/usr/local/php --with-mcrypt --with-gettext --with-mysql --with-gd --with-jpeg- ...

HDU 1255 覆盖的面积（扫描线线段树离散化）

题目链接题意:中文题意. 分析:纯手敲,与上一道题目很相似,但是刚开始我以为只是把cnt>=0改成cnt>=2就行了,. 但是后来发现当当前加入的线段的范围之前还有线段的时候就不行了, ...

教你如何取消GCD任务

GCD 是一种非常方便的使用多线程的方式.通过使用 GCD,我们可以在确保尽量简单的语法的前提下进行灵活的多线程编程.在 "复杂必死" 的多线程编程中,保持简单就是避免错误的金科玉 ...

集合拼接成字符串

List<string> idlist = new List<string>(); foreach (BM item in list) { idlist.Add("' ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.027 s.