Solr字段类型field type的定义

摘要: Solr的字段类型定义了Solr如何解析字段数据并将数据检索出来,了解Solr的字段类型定义有助于更好的配置与使用Solr。

字段类型的定义

字段类型的定义主要包含如下四个方面的信息:

  • 名称
  • 实现的类名
  • 如果field type 是TextField,则可以指定字段解析器
  • 字段类型属性

schema.xml中定义的字段类型

字段类型在schema.xml中指定,每一个字段类型被定义在fieldType标签之间,下面这个例子是一个text_general的字段类型:

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
  <analyzer type="index">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
    <!-- in this example, we will only use synonyms at query time
    <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
    -->
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
  <analyzer type="query">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
    <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
</fieldType>

第一行包含了字段类型的名字“text_general”,是由类”solr.TextField”实现的,这个solr指的是org.apache.solr.schema或者org.apache.solr.analysis,也就是说solr.TextField指的是org.apache.solr.schema.TextField

字段类型属性

字段类型声明中,class已经基本确定了字段类型的行为,当然还可以通过一些属性参数来增加或改变某些行为。

<fieldType name="date" class="solr.TrieDateField"
           sortMissingLast="true" omitNorms="true"/>
  • 1
  • 2

上面的这个date类型有两个额外的属性”sortMissinglast”和”omitNorms”。
所有的属性可以归结为一下三种形式:

  • 字段类型的class
  • 通用属性,支持所有的字段类型
  • 默认属性,一些字段类型的属性是特有的,可以通过指定来修改默认值

通用属性

属性 说明
name 用于定义field的”type”  
class 定义了使用何种方式处理该类型数据  
positionLncrementGap 对于多值字段,指定多值的间距 整数
autoGeneratePhraseQueries 适用于text字段,Solr是否自动生成短语查询 布尔值
docValuesFormat 对于一个字段类型使用定制的DocValuesFormat  
postingsFormat 对于一个字段类型使用定制的PostingsFormat  

默认属性

属性 说明 默认值
indexed 字段值是否用于查询 布尔值 true
stored 字段真实值是否可以被查询到 布尔值 true
docValues 字段值是否列式存储 布尔值 false
sortMissingFirst sortMissingLast 没有指定排序规则时,控制文档排序 布尔值 false
multiValues 字段是否多值 布尔值 false
omitNorms 是否忽略不适用该字段的规范 布尔值 true
omitTermFreqAndPositions 是否忽略词频、位置等 布尔值 true
omitpositions 类似omitTermFreqAndPositions但保留词频 布尔值 true
termVectors 是否保留term vectors 布尔值 false
termPositions 是否保留term position 布尔值 false
termOffsets 是否保留term offset 布尔值 false
termPayloads 是否保留term payload 布尔值 false
required 是否拒绝空值的字段 布尔值 false
useDocValuesAsStored 如果字段是docValues,设置为true将允许字段在fl参数匹配“*”时返回数据 布尔值 false

字段类型相似性

字段类型可以指定一个similarity,用于对全局的相似性文档进行评分。默认情况下,不指定相似性的话,使用的是BM25Similarity

原文地址:https://www.cnblogs.com/cuihongyu3503319/p/9448097.html

时间: 2024-10-28 21:39:15

Solr字段类型field type的定义的相关文章

1.4.2 solr字段类型--(1.4.2.1)字段类型定义和字段类型属性

1.4.2 solr字段类型 (1.4.2.1) 字段类型定义和字段类型属性. (1.4.2.2) solr附带的字段类型 (1.4.2.3) 使用货币和汇率 (1.4.2.4) 使用Dates(日期) (1.4.2.5) 使用枚举字段 (1.4.2.6) 使用外部文件和程序 (1.4.2.7) 字段属性使用案例 字段类型定义和字段类型属性 字段类型元素fieldType包含4个信息的类型:name,class-实现类的名称,analyzer-用于字段类型的分析,字段属性Field. schem

1.4.2 solr字段类型--(1.4.2.5)使用枚举字段

1.4.2 solr字段类型 (1.4.2.1) 字段类型定义和字段类型属性. (1.4.2.2) solr附带的字段类型 (1.4.2.3) 使用货币和汇率 (1.4.2.4) 使用Dates(日期) (1.4.2.5) 使用枚举字段 (1.4.2.6) 使用外部文件和程序 (1.4.2.7) 字段属性使用案例 使用枚举字段 枚举字段类型允许定义一个这样的字段,字段的值是一个封闭的结果集.这排列顺序是预先定义好的,不是按照字母或者数字大小排序的.如严重性列表或者是风险定义的例子. 在schem

1.4.2 solr字段类型--(1.4.2.7)字段属性使用案例

1.4.2 solr字段类型 (1.4.2.1) 字段类型定义和字段类型属性. (1.4.2.2) solr附带的字段类型 (1.4.2.3) 使用货币和汇率 (1.4.2.4) 使用Dates(日期) (1.4.2.5) 使用枚举字段 (1.4.2.6) 使用外部文件和程序 (1.4.2.7) 字段属性使用案例

1.4.2 solr字段类型--(1.4.2.6)使用外部文件和程序

1.4.2 solr字段类型 (1.4.2.1) 字段类型定义和字段类型属性. (1.4.2.2) solr附带的字段类型 (1.4.2.3) 使用货币和汇率 (1.4.2.4) 使用Dates(日期) (1.4.2.5) 使用枚举字段 (1.4.2.6) 使用外部文件和程序 (1.4.2.7) 字段属性使用案例

1.4.2 solr字段类型--(1.4.2.4)使用Dates(日期)

1.4.2 solr字段类型 (1.4.2.1) 字段类型定义和字段类型属性. (1.4.2.2) solr附带的字段类型 (1.4.2.3) 使用货币和汇率 (1.4.2.4) 使用Dates(日期) (1.4.2.5) 使用枚举字段 (1.4.2.6) 使用外部文件和程序 (1.4.2.7) 字段属性使用案例 使用Dates(日期) 日期格式 solr的TrieDateField(DateField已经弃用)字段类型,表示精确到毫秒的时间点.在XML Schema 规范中所使用的格式是一个严

1.4.2 solr字段类型--(1.4.2.2)solr附带的字段类型

1.4.2 solr字段类型 (1.4.2.1) 字段类型定义和字段类型属性. (1.4.2.2) solr附带的字段类型 (1.4.2.3) 使用货币和汇率 (1.4.2.4) 使用Dates(日期) (1.4.2.5) 使用枚举字段 (1.4.2.6) 使用外部文件和程序 (1.4.2.7) 字段属性使用案例

django字段类型(Field types)介绍

字段类型(Field types) AutoField 它是一个根据 ID 自增长的 IntegerField 字段.通常,你不必直接使用该字段.如果你没在别的字段上指定主 键,Django 就会自动添加主键字段. BigIntegerField 64位整数,类似于IntegerField,范围从-9223372036854775808 到9223372036854775807.默认的form widget 是TextInput. BooleanField 一个布尔值(true/false)字段

复杂的核心字段类型(Complex core field types)

除了前面已经提到的简单的数据类型,JSON也有null,array和object类型,这些都是被ES支持的. Multi-value fields 我们想让我们的tag field的值多于一个而不是一个字符串,这个也是可能的,我们能把一个数组存储到tags: {"tag":["search","nosql"]} 对数组来说,不许要特别的mapping.任何的field都可以包含若干个value,就像full text字段一样会被分词器拆分成多个t

C# 程序性能提升篇-2、类型(字段类型、class和struct)的错误定义所影响性能浅析

前景提要: 编写程序时,也许你不经意间,就不知不觉的定义了错误的类型,从而发生了额外的性能消耗,从而降低了效率,不要说就发生那么一次两次,如果说是程序中发生了循环.网络程序(不断请求处理的)等这些时候,减少了不必要额外的消耗,使优化程序提高效率的一种途径.不仅跬步,无以至千里,不积小流,无以至江河.优化从点点滴滴做起. 一.问题抛出: 大家先看这么一段定义 class ReserveData  { public string ReserveId;   public string patient_