一、发展
起源:统计语言模型起源于 Ponte 和 Croft 在 1998年的 SIGIR上发表的论文
应用:语言模型的应用很多:
corsslingual retrieval
distributed IR
expert finding
passage retrieval
web search
genomics retrieval 基因组学检索
topic tracking
subtopic retrieval
二、basic model
1、Ponte and Croft
核心思想:query likelihood scoring
算法:
两个核心问题: (1) 如何定义 θD?
(2) 怎么计算θD?
多重伯努利模型 mutiple Bernoulli model : 该词出现(=1)或不出现(=0) ,只有两种情况
上述公式没有考虑 TF,若考虑的话,如下:
2、BBN and Twenty-one in TREC-7
本质: unigram model
公式:
平滑上述公式,如下:
文档的得分用下述公式计算:
三、basic model 变体总结
(1)Bernoulli并没有multinomial 受欢迎,因为前者没有考虑TF,及时考虑了,也不太自然
(2)bernoulli的假设是: term出现与否与其他term是独立的
multinomial的假设是:term出现次数与其他term是独立的,及时是出现在不同地方的同一个term
时间: 2024-11-07 06:41:07