25.TF&IDF算法以及向量空间模型算法

主要知识点：

boolean model
IF/IDF
vector space model

一、boolean model

在es做各种搜索进行打分排序时，会先用boolean model 进行初步的筛选，boolean model类似and这种逻辑操作符，先过滤出包含指定term的doc。must/must not/should（过滤、包含、不包含、可能包含）这几种情况，这一步不会对各个doc进行打分，只分过滤，为下一步的IF/IDF算法筛选数据。

二、TF/IDF

这一步就是es为boolean model过滤出来的doc进行打分，但是这一步也只是单个term在doc中的分数。现假如：

query: hello world

doc1: java is my favourite programming language, hello world !!!

doc2: hello java, you are very good, oh hello world!!!

hello对doc1的评分

TF: term frequency

找到hello在doc1中出现了几次，1次，会根据出现的次数给个分数

一个term在一个doc中，出现的次数越多，那么最后给的相关度评分就会越高

IDF：inversed document frequency

找到hello在所有的doc中出现的次数，3次

一个term在所有的doc中，出现的次数越多，那么最后给的相关度评分就会越低

length norm

hello搜索的那个field的长度，field长度越长，给的相关度评分越低; field长度越短，给的相关度评分越高

最后，会将hello这个term，对doc1的分数，综合TF，IDF，length norm，计算出来一个综合性的分数

3、vector space model

我们在做搜索时，搜索条件中可能会有多个term，es出来的分数结果也是对多个term的综合分数，多个term对一个doc的总分数的计算，在es中使用的是vector space model(空间向量模型），这个模型的算法很复杂，我们在使用es时不需要知道这种算法，只需要知道综合分数是由灾这种模型计算得出的就行。

25.TF&IDF算法以及向量空间模型算法

原文地址：https://www.cnblogs.com/liuqianli/p/8527702.html

时间： 2024-12-12 11:37:30

25.TF&IDF算法以及向量空间模型算法

25.TF&IDF算法以及向量空间模型算法的相关文章

tf–idf算法解释及其python代码实现(下)

tf–idf算法解释及其python代码实现(上)

55.TF/IDF算法

基于位置信息的聚类算法介绍及模型选择

实现 | 朴素贝叶斯模型算法研究与实例分析

LDA（主题模型算法）

实用性模型算法研究

基于RBM的判别模型/算法

机器学习算法总结(七)——隐马尔科夫模型(前向后向算法、鲍姆-韦尔奇算法、维特比算法)