solr创建索引、添加数据的关键是配置schema.xml文件,该文件中主要是完成配置数据源、索引字段、数据类型等定义。同时,该文件的配置直接影响到solr搜索的效率和准确性。
一、搜索类型FileType
name:指的是FileType的名字
class:指向org.apache.solr.analysis包里面对应的class名称,用来定义这个类型的行为
<types> <fieldType name="string" class="solr.StrField" sortMissingLast="true" /> <fieldType name="boolean" class="solr.BoolField" sortMissingLast="true"/> <fieldtype name="binary" class="solr.BinaryField"/> <fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0"/> <fieldType name="float" class="solr.TrieFloatField" precisionStep="0" positionIncrementGap="0"/> <fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0"/> <fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" positionIncrementGap="0"/> <fieldType name="tint" class="solr.TrieIntField" precisionStep="8" positionIncrementGap="0"/> <fieldType name="tfloat" class="solr.TrieFloatField" precisionStep="8" positionIncrementGap="0"/> <fieldType name="tlong" class="solr.TrieLongField" precisionStep="8" positionIncrementGap="0"/> <fieldType name="tdouble" class="solr.TrieDoubleField" precisionStep="8" positionIncrementGap="0"/> <fieldType name="date" class="solr.TrieDateField" precisionStep="0" positionIncrementGap="0"/> <fieldType name="tdate" class="solr.TrieDateField" precisionStep="6" positionIncrementGap="0"/> <fieldType name="pint" class="solr.IntField"/> <fieldType name="plong" class="solr.LongField"/> <fieldType name="pfloat" class="solr.FloatField"/> <fieldType name="pdouble" class="solr.DoubleField"/> <fieldType name="pdate" class="solr.DateField" sortMissingLast="true"/> <fieldType name="sint" class="solr.SortableIntField" sortMissingLast="true" omitNorms="true"/> <fieldType name="slong" class="solr.SortableLongField" sortMissingLast="true" omitNorms="true"/> <fieldType name="sfloat" class="solr.SortableFloatField" sortMissingLast="true" omitNorms="true"/> <fieldType name="sdouble" class="solr.SortableDoubleField" sortMissingLast="true" omitNorms="true"/> <fieldType name="random" class="solr.RandomSortField" indexed="true" /> </types>
注明了若干种搜索类型,字符串,数字,浮点,日期,布尔等。
通常,我们对自己定义的类型建立分析器analyzer,来更好的实现对字段更加准确的搜索功能。分析器通常由分词器tokenizer和过滤器filter组成。通常只有solr.TextField 类型的fieldtype允许定制分析器。通常有一下两种方法创建分析器。
方法一:使用任何 org.apache.lucene.analysis.Analyzer的子类进行设定。
<fieldtype name="nametext" class="solr.TextField"> <analyzer class="org.apache.lucene.analysis.WhitespaceAnalyzer"/> </fieldtype>
方法二:指定一个TokenizerFactory ,后面跟一系列的TokenFilterFactories(它们将按照所列的顺序发生作用)
<fieldtype name="text" class="solrTextField"> <analyzer> <tokenizer class="solr.solrStandardTokenizerFactory"/> <filter class="solr.solrStandardFilterFactory"/> <filter class="solr.solrLowerCaseFilterFactory"/> <filter class="solr.solrStopFilterFactory"/> <filter class="solr.solrPorterStemFilterFactory"/> </analyzer> </fieldtype>
需要说明的一点是,Any Analyzer, TokenizerFactory, or TokenFilterFactory 应该用带包名的全类名进行指定,请确保它们位于Solr的classpath 路径下。对于 org.apache.solr.analysis.* 包下的类,仅仅通过solr.*就可以进行指定。
Solr提供的TokenizerFactories,如下:
solr.LetterTokenizerFactory | "I can‘t" | "I", "can", "t" | |
solr.WhitespaceTokenizerFactory | "I can" | "I", "can" | |
solr.LowerCaseTokenizerFactory | "I can‘t" | "i", "can", "t" | |
solr.StandardTokenizerFactory | "I.B.M. cat‘s can‘t" | ACRONYM: "I.B.M.", APOSTROPHE:"cat‘s", APOSTROPHE:"can‘t" | 目前仅仅只有StandardFilter对Token 的类型是敏感的。 |
solr.HTMLStripWhitespaceTokenizerFactory | solr.HTMLStripWhitespaceTokenizerFactory | ||
solr.HTMLStripStandardTokenizerFactory | 从结果中出去HTML标签,将结果交给StandardTokenizer处理 | ||
solr.PatternTokenizerFactory | 按照规则表达式样式对分本进行分词 |
Solr有哪些TokenFilterFactories,如下:
solr.StandardFilterFactory | 仅仅作用于由StandardTokenizer产生的Token |
solr.LowerCaseFilterFactory | |
solr.TrimFilterFactory | 去掉Token两端的空白符 |
solr.StopFilterFactory | 去掉如下的通用词,多为虚词。可通过words="stopwords.txt"来指定字符集 |
solr.KeepWordFilterFactory | 作用与solr.StopFilterFactory相反,保留词的列表也可以通过”word”属性进行指定 |
solr.LengthFilterFactory | 过滤掉长度在某个范围之外的词,有min="2" max="5"属性 |
solr.PorterStemFilterFactory | 采用Porter Stemming Algorithm算法去掉单词的后缀,例如将复数形式变成单数形式,第三人称动词变成第一人称,现在分词变成一般现在时的动词 |
solr.EnglishPorterFilterFactory | 关于句子主干的处理,其中的"protected"指定不允许修改的词的文件 |
solr.SnowballPorterFilterFactory | 关于不同语言的词干处理 |
solr.WordDelimiterFilterFactory | 关于分隔符的处理 |
solr.SynonymFilterFactory | 关于同义词的处理 |
solr.RemoveDuplicatesTokenFilterFactory | 避免重复处理 |
二、定义字段fields
name:字段名
type:之前定义过的各种FieldType
indexed:是否被索引
stored:是否被存储(如果不需要存储相应字段值,尽量设为false)
multiValued:是否有多个值(对可能存在多值的字段尽量设置为true,避免建索引时抛出错误)
compressed(true|false):是否使用gzip压缩存储(仅适用于compressable;TextField和StrField)
compressThreshold():保证压缩到不小于一个integer大小
omitNorms(true|false):当为true时,字段检索时被省略相关的规范
omitTermFreqAndPositions(true|false):当为true时,省略这一领域的长远频率,位置和有效载荷
termVectors(true|false):当设置true,会存储 term vector。当使用MoreLikeThis,用来作为相似词的field应该存储起来。
termPositions:存储 term vector中的地址信息,会消耗存储开销。
termOffsets:存储 term vector 的偏移量,会消耗存储开销。
<fields> <field name="id" type="integer" indexed="true" stored="true" required="true" /> <field name="name" type="text" indexed="true" stored="true" /> <field name="summary" type="text" indexed="true" stored="true" /> <field name="author" type="string" indexed="true" stored="true" /> <field name="date" type="date" indexed="false" stored="true" /> <field name="content" type="text" indexed="true" stored="false" /> <field name="keywords" type="keyword_text" indexed="true" stored="false" multiValued="true" /> <!--拷贝字段--> <field name="all" type="text" indexed="true" stored="false" multiValued="true"/> </fields>
三、拷贝字段copyField
将所有的 全文本 字段复制到一个字段中,以便进行统一的检索。
<copyField source="name" dest="all"/> <copyField source="summary" dest="all"/>
四、其他字段
<uniqueKey>id</uniqueKey>
文档的唯一标识, 必须填写这个field(除非该field被标记required="false"),否则solr建立索引报错。
<defaultSearchField>text</defaultSearchField>
如果搜索参数中没有指定具体的field,那么这是默认的域。优先级比solrconfig.xml中设置的requestHandler低。
<solrQueryParserdefaultOperator="OR" />
配置搜索参数短语间的逻辑,可以是"AND|OR"。