上一篇文章介绍了Lucene的索引结果以及建立索引的步骤,这篇文章就介绍一下如何搜索索引。
第一步,用户输入查询语句。
第二步,对查询语句进行词法分析、语法分析以及语言处理。
1、词法分析主要用来识别单词和关键字。
2、语法分析主要根据查询语句的语法规则来形成一棵语法树。
3、语言处理同索引过程中的语言处理几乎一致,比如词根的处理。
第三步,搜索索引,得到符合语法树的文档。
第四步,计算得到的文档和查询之间的相关性,对查询结果进行排序。
如何来计算文档和查询之间的相关性呢?在此做一个假设,我们将查询看作是一个很短小的文档,这样就变成计算文档和文档之间的相关性了,计算出来的分数越高就说明越相关,排序就越靠前。
那么如何计算文档和文档之间的相关性呢?进过分析可以发现,文档是由很多词(Term)组成的,如lucene、solr、search等,进一步分析还可以发现不同的词对文档的重要性是不一样的,比如对一个文档solr和search在这个文档中是很重要的,但是this、what和a则显得不那么重要。所以对于两篇文档来说如果同时包含solr和search则说明这两篇文档相关性比较高,即使文档中不包含this、what也不会影响到文档的相关性。
因此计算文档的相关性,首先要找出那些词对文档之间的关系比较重要,比如solr和search,然后计算词之间的关系,找出词重要性的过程可以称为计算词在文档中的权重。
计算词的权重,有两个参数,第一个是词(Term),第二个是文档(Document)。词的权重代表词在文档中的重要程度,权重越大,越能影响文档之间的相关性。判断词之间的相关性从而得出文档之间的相关性,有一种方法叫做向量空间模型(Vector Space Model)。
下面就分析一下计算词的权重的过程,
影响一个词在文档中重要性的主要因素有两个。
1:词频,即词出现在文档中的次数,数值越大说明重要性越大。
2:文档频率,即有多少个文档包含此词,这个数值越大说明词的重要性越小,因为这样就无法区分不同的文档了,因此重要性就很低。
计算权重的公式如下图
上面的公式只是计算词的权重的典型实现,不同的搜索引擎可以有不同的实现。
通过上面计算出来的词的权重,计算词之间的关系从而得出文档的相关性,也就是应用空间向量模型方法。
把文档分解成是由多个词组成的,不同词的权重在所在文档中计算,由此我们可以把词的权重看作是向量。
Document={term1,term2,...,termn}
Document Vector={weight1,weight2,...,weightn}
同样的道理我们可以把用户的查询语句看作是向量
Query={term1,term2,...,termn}
Query Vector={weight1,weight2,...,weightn}
然后把搜索出来的文档向量和查询向量放到一个N维空间中,每一个词是一个向量,如下图所示
在这里我们认为向量之间的夹角越小,相关性越大。我们用夹角之间的余弦值计算向量之间的相关性,余弦值越大,夹角越小,相关性越大。计算余弦值得公式如下图
通过计算出来的余弦值进行排序,查询出来的文档就可以按相关性显示出来了,越在前面说明相关性越大。