solr的基本概念

一、solr的基本概念

　　大家可以把solr搜索引擎看成一个数据库，不过是基于内存的。它可以存储信息，并且根据你的查询条件返回你想要的信息。

　　1、collection和core的概念

　　　　collection和core其实可以看成功一个概念，都是同一种数据格式的集合，可以对照数据库中的一张表。

　　　　在solr集群的情况下，我们称这张表叫collection，在单机的情况下，我们叫它core。

　　　　在solr集群的情况下，每一个shard分片下的副本replica也称为core。

　　2、filed概念

　　　　filed从字面就能看出它的含义，就是字段，或者称为域，可理解为数据库中的一张表中的字段。

　　　　我们在存储数据时，为每个filed赋值，可对照数据库insert时，为每个字段插入值。

　　　　我们在检索时，会查询某个filed “等于” 或者 “like” 你的查询条件，可理解为sql语句中的where条件。

　　　　每个collection或core的filed配置都在managed-schema中进行配置，filed的格式如下：

<field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" />

　　　　name：字段名称；

　　　　type：类型，分为：string，strings，int，ints，long，longs等

　　　　indexed：是否构建索引，true：可通过该字段查询到相应的结果；false：该字段不能进行查询。

　　　　stored：是否存储，true：查询到数据时可以返回此字段；false：该字段不进行存储，即便查询到了结果，也不会返回这个字段。

　　　　required：是否必填，对应数据库中的not null。

　　　　multiValued：solr中的一个重要概念，在数据库中没有与之对应的。是否多指存储，该字段能否存储一个list或者数组。

　　　　　　　　　　例如：一个filed的名字是interest（爱好），一个人的爱好有很多，足球、篮球、游泳等。在solr中，我们可以将爱好组成一个list放到这一个字段中。

　　　　　　　　　　如果在数据库中，我们没有相应的概念，只能新建一张表，做一对多的关系。

　　3、index、query、分词

　　　　index和query很好理解，对应的就是存储数据和查询数据的过程，可对照上面的解释。

　　　　分词，就是将你输入的内容，按照一定的规则分成不同的词，以便于查询。

　　　　举个简单的例子，比如：“我爱北京天安门”，通过分词器过滤后分解成：“我”、“爱”、“北京”、“天安门”。

　　　　当我们查询任意一个词时，都会检索出“我爱被北京天安门”这句话。

　　　　分词的动作在两个过程中触发，分别是：index和query。

　　　　在index构建索引时，触发分词，会将每一个filed中的内容进行分词并构建索引。

　　　　在query查询时，会将你的查询条件进行分词，并在索引中找到你的分词，进而找到你要搜索的数据。

　　4、filed中的一些公用字段。

　　<field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" />
    <field name="_version_" type="long" indexed="true" stored="false"/>
    <field name="_root_" type="string" indexed="true" stored="false" docValues="false" />
    <field name="_text_" type="text_general" indexed="true" stored="false" multiValued="true"/>
    <copyField source="*" dest="_text_"/>

　　　　前面4个是每个collection或filed中都含有的字段，我们注意到最后一行，<copyField source="*" dest="_text_"/>，含义是将所有的字段都复制到“_text_”字段中去，并进行分词。

　　　　如果我们要进行全文检索，就可以查询“_text_”字段。

　　　　我们在managed-schema中，还注意到很多类型<dynamicField name="*_i" type="int" indexed="true" stored="true"/>的配置，

　　　　这些就是动态字段，这个概念在数据库中也没有，我们在构建索引，只要字段符合上面name的格式，就会动态的创建这个字段，无需像上面那样显示的声明这个字段。

　　　　在solr中，已经默认给我们创建好了一些常用的动态字段，方便了我们的使用。我们在编写java通用类时也正是运用了这一特性。

　　　　至此，solr的一些基本概念已经讲解完了，大家还需多在实践中理解，这样才能更加透彻。

　　　　下一篇我们将介绍利用java反射机制和solr的动态值概念，编写java通用类。

时间： 2024-08-08 07:15:03

solr的基本概念的相关文章

Solr中的概念:分析器(analyzer)、字符过滤器(character filter)、分词器（Tokenizer）、词元过滤器（Token Filter）、词干化(Stemming)

文本中包含许多文本处理步骤,比如:分词,大写转小写,词干化,同义词转化和许多的文本处理. 文本分析既用于索引时对一文本域的处理,也用于查询时查询字符串的文本处理.文本处理对搜索引擎的搜索结果有着重要的影响,特别是对如召回率的影响. 文本分析是将一个文本域的值转化为一个词序列.词是Lucene实际索引和搜索时的最小单元.分析作用于索引时原始的输入值,将转化后的词顺序保存到Lucene的索引结构中.文本分析也同样作用于查询时所输入的查询串中的查询词和查询短语,转化后的词将用于查询Lucene的索引.

Solr搜索技术

Solr搜索技术今日大纲回顾上一天的内容: 倒排索引 lucene和solr的关系 lucene api的使用 CRUD 文档.字段.目录对象(类).索引写入器类.索引写入器配置类.IK分词器查询解析器.查询对象(用户要查询的内容).索引搜索器(索引库的物理位置).排名文档集合(包含得分文档数组) 六种高级查询(相似度查询) 分词器(扩展词典.停用词典) 分页得分(激励因子(作弊)) 高亮排序 ● Solr简介.运行 ● Solr基本使用 ● Solr Core 配置

Solr多核的配置

Solr 多核(MultiCore)配置 Solr Multicore意义 Solr Multicore 是 solr 1.3 的新特性.其目的一个solr实例,可以有多个搜索应用.< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 我们既可以把不同类型的数据放到同一index中,也可以使用分开的多indexes.基于这一点,你只需知道如何使用多 inde

Solr6 +mmseg4j+IK-Analyzer + SQLserver +DIH 完全配置

如今做任何一个系统都有搜索,而搜索界有著名的三剑客: solr/elasticsearch/sphinx solr/elasticsearch 为同一类的,都是基于lucene开发的产品,本人也早在几年前用过solr做过类似中关村的产品搜索,faceting功能非常好用. 近期手头上又有个项目要搭建搜索,由于几年没摸过Solr,如今再次打开官网已觉得很陌生,不仅主页换漂亮了,版本更是到了6.1 ,还有了 solr cloud的概念!! 废话不多说,首先来介绍下环境配置: 1. 去 http://

Elasticsearch操作索引

目录操作索引 1. 基本概念 2. 创建索引 2.1 语法 2.2查看索引设置 2.3.删除索引 2.4 映射配置 2.5 新增数据 2.6 修改数据 2.7 删除数据 3. 查询 3.1 基本查询 3.2.结果过滤 3.3 高级查询 3.4 过滤(filter) 3.5 排序 4. 聚合aggregations 4.1 基本概念 4.2 聚合为桶 4.3 桶内度量 4.4 桶内嵌套桶 4.5 划分桶的其它方式操作索引 1. 基本概念 Elasticsearch也是基于Lucene的全文检索

Solr请求概念和配置详解

一.Solr请求概念 Solr最常见的请求类型是在Solr索引中查找相关文档的查询[query].除此之外,Solr还可以处理许多不同类型的请求.所有的请求基本上都是通过请求处理器提交给Solr.搜索处理器[search handler]是查询处理的默认请求处理器,通过调用一个或多个搜索组件,每个组件处理搜索请求的一部分,从而满足查询各个阶段的要求.例如,通过搜索组件执行主查询,其中分面.搜索结果高亮和拼写检查都有各自的搜索组件.要让查询请求能够使用主搜索组件,需要通过一个或多个查询解析器对查询

solr的collection,shard,replica,core概念

一.collection 1.由多个cores组成一个逻辑索引叫做一个collection.一个collection本质上是一个可以跨越多个核的索引,同时包含冗余索引. 2.collection由不同的shard组成,每个shard又多个replica,每个shard中有一个leadereplica,每个replica是一个物理索引,所以一个replica对应一个core 二.core和collection的区别 1.在单节点的solr上,一个core等于一个collection. 2.在sol

全文检索引擎Solr系列——Solr核心概念、配置文件

Document Document是Solr索引(动词,indexing)和搜索的最基本单元,它类似于关系数据库表中的一条记录,可以包含一个或多个字段(Field),每个字段包含一个name和文本值.字段在被索引的同时可以存储在索引中,搜索时就能返回该字段的值,通常文档都应该包含一个能唯一表示该文档的id字段.例如: 1 2 3 4 5 6 7 8 <doc> <field name="id">company123</field> &

Solr

Solr Solr它是一款非常优秀的全文搜索引擎,它是一种开放源码的.基于Lucene的企业级搜索应用服务器.它对外提供类似于Web-service的API接口.用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引:也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果. 官方网址:http://lucene.apache.org/solr/ 官方文档:http://lucene.apache.org/solr/resources.html#documen