[IR课程笔记]Page Rank

主要目的：

在网络信息检索中，对每个文档的重要性作出评价。

Basic Idea:

如果有许多网页链接到某一个网页，那么这个网页比较重要。

如果某个网页被一个权重较大的网页链接，那么这个网页比较重要。

随机游走模型：

过程：1.在所有网页中，随机选择一个网页作为游走的开端。

2.然后在当前网页上的超链接中，随机选择一个超链接跳转到下一个网页。

3.大量重复1.2的过程。

重要度计算方法：

Pr(pi|p1)表示从编号为1的网页跳转到编号为i的网页的概率，其计算方式为 Pr(Pi|P1) = 1/m ，当编号为1的这个网页上有到i的连接时，否则该值为0。m表示编号为1的网页中的连接总数。

在Page Rank中，我们最终想要得到的是就是w 这个向量，在计算过程中，可以采用迭代的方法：刚开始，所有网页被访问的概率是一样的，所以w⁰=(1,1,...,1)^T

Iterate: w^k = Bw^k-1 直到我们可以认为 w^k= w^k-1

随机游走模型的一个问题：

Solution:

为了解决这个问题，我们引入一个阻尼系数d，假设用户在随机游走模型中，在准备浏览下一个网页的过程中，有概率为d在当前网页选择一个超链接，也有概率为1-d的可能在地址栏键入一个新网址。由此，权重计算公式更新为：

如何排序？

用户输入一个query，搜索引擎首先计算文档的相关度和重要度，将这两个值乘以相应的参数再相加，选取top-n呈现给用户。

Topic Sensetive Page Rank

Basic Idea:

用户在随机选择一个网页进行访问时，一般是选取与当前主题（topic）相同的网页。

Method:

在计算网页的重要度时，需要计算其在每一个主题上的重要度p_i，用户输入一个query时，用分类器计算这个query在每个主题上的概率w_i，最后计算R(P,Q)=w₁p₁+w₂p₂+..+w_np_n

Basic PageRank (in matrix form)

在Topic Sensetive Page Rank 中，假设有主题分类C_i,T_j表示C_i的一个子集

下面是p的初始值，若i页面属于主题分类C_i，那么v_ji = 1/(T_j)，否则为0。

以上式子是根据用户只会向相同主题页面跳转的规律得来的。

把v代替p带入到Basic PageRank的公式中，需要注意的是，对于每一个主题，都需要计算Rank的值

那么，得到每一个页面的每一个Rank值之后，计算每一个页面的R(P,Q)=w₁p₁+w₂p₂+..+w_np_n，其中w_i表示query属于i分类的概率，而P_i表示该页面在i分类上的rank值。

时间： 2024-08-04 21:56:44

[IR课程笔记]Hyperlink-Induced Topic Search(HITS)