Lucene基本概念

Lucene基本概念：

1、 Index:索引库，文档的集合组成索引。和一般的数据库不一样，Lucene不支持定义主键，在Lucene中不存在一个叫做Index的类，通过IndexWriter来写索引，通过IndexReader来读索引。索引库在物理形式上一般是位于一个路径下的一系列文件。

2、分析器：一段有意义的文字需要通过Analyzer分析器分割成一个个词语后才能按关键字搜索，StandardAnalyzer是Lucene中最常用的分析器。为了达到更好的搜索效果，不同的语言可以使用不同的搜索器（如CnAnalyzer是一个主要处理中文的分析器）。

3、 Analyzer返回的结果是一串Token，Token包含一个代表词本身含义的字符串和该词在文章中相应的起止偏移位置，Token还包含一个用来存储词类型的字符串。

4、一个Document代表索引库中的一条记录，也叫做文档。要搜索的信息封装成Document后通过IndexWriter写入索引库，调用Searcher接口按关键词搜索后，返回的也是一个封装后的Document列表。

5、一个Document可以包含多个列，叫做Field。例如一篇文章可以包含“标题”、“正文”、“修改时间”等Field。创建这些列对象以后，可通过Document的add方法增加这些列。与一般数据库不同，一个文档的一个列可以有多个值，例如一篇文档既可以术语互联网类，又可以属于科技类。

6、 Term是搜索语法的最小单位，复杂的搜索语法会分解成一个Term查询，他表示文档的一个词语，Term由两部分组成：它表示的词语和这个词语所出现的Field。

时间： 2024-11-05 18:34:47

Lucene基本概念的相关文章

lucene和ElasticSearch基本概念

lucene基本概念索引(Index) 对应一个倒排表,一个检索的基本单位.在lucene中就对应一个目录. lucene基本概念段(Segment) 一个索引可以包含多个段,段与段之间是独立的,添加新文档可以生成新的段,不同的段可以合并.段是索引数据存储的单元. 文档(Document) ?文档是我们建索引的基本单位,不同的文档是保存在不同的段中的,一个段可以包含多篇文档. ?新添加的文档是单独保存在一个新生成的段中,随着段的合并,不同的文档合并到同一个段中. 域(Field) ?一篇文档

Lucene-全文索引

最近接触了lucene,我想也有很多人曾经听过,于是带着好奇心,我开始对lucene进行了解,给我影响最深的是它非常多的应用了索引表,这个工具之所以快是就是因为大量引用到了索引表.今天只说下我刚开始做的校历例子,创建索引. 下面对lucene从概念上做个介绍,Lucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能.Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,你就为你的应用实现全文检索的功能.不过千万别以为Lucene是

Lucene构建索引时的一些概念和索引构建的过程

在搜索文档内容之前要做的事情就是对从各种不同来源(网页,数据库,电子邮件等)的文档进行索引,索引的过程就是对内容进行提取,规范化(通过对内容进行建模来实现),然后存储. 在索引的过程中有几个基本的概念,根据我自己的理解大概写一下: 文档(Document): 文档在索引和搜索的时候都会用到,是索引和搜索的基本单位(类似于关系数据库关系表中的记录),若我们对网页内容进行索引和搜索,则从互联网上爬下来的每一个网页最终都会经过分析,提取出其中有意义的部分(比如网页标题,URL,包含的关键字,发布日期等

全文检索概念，Lucene大致结构

1.1 常见的全文检索 1) 在window系统中,可以指定磁盘中的某一个位置来搜索你想要得到的东西. 2) 在myeclipse中,点击Help->Help Contents,可以利用搜索功能找到你要查询的帮助文档. 3) 在百度和google 中,可以搜索互联网中的信息,有:网页.pdf.word音频.视频等内容. 4) 在bbs系统中,有搜索文章的功能. 以上的查询功能都相似,都是查询的文本内容,查询方法也相似即找出含有指定字符串的资源.只不过是查询的范围不一样.(硬盘.帮助文件.互联网)

看Lucene源码必须知道的基本概念

终于有时间总结点Lucene,虽然是大周末的,已经感觉是对自己的奖励,毕竟只是喜欢,现在的工作中用不到的.自己看源码比较快,看英文原著的技术书也很快.都和语言有很大关系.虽然咱的技术不敢说是部门第一的,说到日语和英语,倒是无人能出其右的.额~~,一个做技术的,感觉自己好弱啊.对语言,只是天赋而已.对技术,却是痴迷.虽然有人跟我说我不做管理白瞎了我这个人儿.但是我就一心想做技术,如果到了40岁,做技术没人要的话.我就去硅谷编代码去,毕竟硅谷的同事都说我技术挺好的,相信找个技术活儿还是不成问题的.话

Lucene的基本概念----转载yufenfei的文章

Lucene的基本概念 Lucene是什么? Lucene是一款高性能.可扩展的信息检索工具库.信息检索是指文档搜索.文档内信息搜索或者文档相关的元数据搜索等操作. 信息检索流程如下: 1. 将即将检索的资源集合放到本地,并使用某种特定的结构存储,称为索引,这个索引的集合称为索引库.由于索引库的结构按照专门为快速查询设计的,所以查询的速度非常的快: 2. 搜索操作时都是在本地的索引库中进行查找: 所以对于全文检索功能的开发,要做两方面:索引库管理(维护索引库中的数据).在索引库中进行搜索.而Lu

基础：从概念理解Lucene的Index（索引）文档模型

转:http://blog.csdn.net/duck_genuine/article/details/6053430 目录(?)[+] Lucene主要有两种文档模型:Document和Field,一个Document可能包含若干个Field. 每一个Field有不同的策略: 1.被索引 or not,将该字段(Field)经过分析(Analyisi)后,加入索引中,并不是原文 . 2.如果被索引,可选择是否保存“term vector”(向量),用于相似检索. 3.可选择是否存储(store

Lucene 基础理论

1. 全文检索系统与Lucene简介 1.1 什么是全文检索与全文检索系统全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式.这个过程类似于通过字典中的检索字表查字的过程. 全文检索的方法主要分为按字检索和按词检索两种.按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合.对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上

[转]分布式搜索elasticsearch几个概念解析

Document 在Elasticsearch世界(或者Lucene世界中),Document是主要的实体,文档这个单词有特殊的含义.它指的是在Elasticsearch中被存储到唯一ID下的由最高级或者根对象 (root object )序列化而来的JSON.Elasticsearch的documents最终被存储为Lucene documents. 文档元数据一个文档不只包含了数据.它还包含了元数据(metadata) —— 关于文档的信息.有三个元数据元素是必须存在的,它们是: 名字说

猜你喜欢

How To Use FETCH_RECORDS In Oracle Forms

When called from an On-Fetch trigger, initiates the default Form Builder processing for fetching rec ...

Makefile 7——自动生成依赖关系三颗星

后面会介绍gcc获得源文件依赖的方法,gcc这个功能就是为make而存在的.我们采用gcc的-MM选项结合sed命令.使用sed进行替换的目的是为了在目标名前加上"objs/"前缀 ...

java实现选择排序

<span style="font-size:18px;">package two.java.test; /** * java中的选择排序 * @author hell ...

随笔记：如何使用Python连接（/操作）Oracle数据库（Windows平台下）

遇到需求,我们需要用Python对Oracle数据库进行操作. 这次我们使用cx_Oracle Oracle Client 在安装cx_Oracle之前,先安装Oracle客户端. cx_Oracle ...

baseline.js

1:throw new TypeError("test"); 2:var list=Object(this) 3:var len = list.length >>> ...

MSSQL分组取后每一组的最新一条记录

数据库中二张表,用户表和奖金记录表,奖金记录表中一个用户有多条信息,有一个生效时间,现在要查询: 奖金生效时间在三天前,每个用户取最新一条奖金记录,且用户末锁定以前用的方法是直接写在C#代码中的: ...

一篇文看懂Hadoop

我们很荣幸能够见证Hadoop十年从无到有,再到称王.感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天.今天和明天,憧憬下一个十年. 本文分为技术篇.产业篇.应用篇.展望篇四部分技 ...

UGUI之Scrollbar使用

这个效果主要用到了3个组件(对象): 1:Scrollbar对象滚动条 2:Scroll Rect组件让对象具有滑动效果 3:Mask组件遮罩层.把多余的部分隐藏不显示 Scrollbar ...

由chrome剪贴板问题研究到了js模拟鼠标键盘事件

写在前面最近公司在搞浏览器兼容的事情,所有浏览器兼容的问题不得不一个人包了.下面来说一下今天遇到的一个问题吧大家都知道IE下面如果要获得剪贴板里面的信息的话,代码应该如下所示 window.cli ...

Python学习-19.Python的Http模块

模拟 http 请求是比较常见的一种需求,在 Python 中,使用 http 模块操作. 1 import http.client 2 3 # 创建 Http 连接. 4 http = http.c ...

Java连接MySQL随笔

//连接时要注意所有jar,以及环境搭建好: package util; import java.sql.DriverManager;import java.sql.ResultSet;import ...

pycharm script模版

#!/usr/bin/env python # encoding: utf-8 #set( $SITE = "http://www.cnblogs.com/wnmjzt/" ) & ...

js中的闭包之我理解

闭包是一个比较抽象的概念,尤其是对js新手来说.书上的解释实在是比较晦涩,对我来说也是一样. 但是他也是js能力提升中无法绕过的一环,几乎每次面试必问的问题,因为在回答的时候.你的答案的深度,对术语的 ...

计算机视觉与模式识别（3）—— FaceMorphing

这是一个非常有意思的应用,可以将一个人的脸逐渐过渡为另一个人的脸.花了大概1天完成了最基本的功能,大概3天去完善它,可能还有不少bug等着我去修改,不过先把目前的进展记录下来吧. 图形 ...

Linux 信号量互斥编程

所谓信号量,其实就是一个数字.内核给这个数字赋予一定的含义,让它等于不同的值时所表示的意义不同.这样就可以用它来标示某种资源是否正被使用.信号的分类其实挺多的,主要还是二值和计数器.这里讨论二值现在 ...

webservice客户端工具

public static Object invokeWebService(String namespaces,String url, String method, Object[] params, ...

分页查询和分页缓存查询，List<Map<String, Object>>遍历和Map遍历

分页查询 String sql = "返回所有符合条件记录的待分页SQL语句"; int start = (page - 1) * limit + 1; int end = pag ...

SCSI软件层对性能的影响

在闪存存储领域,我们可以看到无论在市场.客户还是在研发,大家都在支持NVMe标准,其很重要的一个原因是传统的SCSI已经不能满足性能需求,其变成了存储系统的一个重要性能瓶颈点.从软件层.传输协议效率. ...

java开发_java小程序_邮死你(yousini)_源码下载

http://www.meimeidu.com/Theme/Details/149053/http://www.meimeidu.com/Theme/Details/149052/http://www ...

Redis 数据持久化的理解

一.对持久化的理解 Redis 平时的键值对都是在内存中的,但是一旦意外中断或关闭连接,我们将丢失数据. 为了避免这种情况,就有一个持久化的机制,在某种条件下将数据以某种方式转储到文件中,下次启动服务 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.