3.4 网页分析算法

在搜索引擎中，爬虫爬取了对应的网页之后，会将网页存储到服务器的原始数据库中，之后
搜索引擎会对这些网页进行分析并确定各网页的重要性，即会影响用户的检索的排名结果。
对于这些重要性的确定及排名结果的确定需要算法来解决，所以先来了解一下算法。

搜索引擎的网页分析算法主要分为3类：基于用户行为的网页分析算法、基于网络拓扑的
网页分析算法、基于网页内容的网页分析算法。接下来我们分别对这些算法进行讲解。

搜索引擎的网页分析算法主要分为3类：基于用户行为的网页分析算法、基于网络拓扑的网页
网页分析算法、基于网页内容的网页分析算法。

1 基于用户行为的网页分析算法

这种算法中，会依据用户对这些网页的访问行为，对这些网页进行评价，比如，依据用户对
该网页的访问频率、用户对网页的访问时长、用户的单击率等信息对网页进行综合评价。

2 基于网络拓扑的网页分析算法

基于网络拓扑的网页分析算法是依靠网页的链接关系、结构关系、已知网页或数据等对网页
进行分析的一种算法，所谓拓扑，简单来说即结构关系的意思。基于网络拓扑的网页分析
算法，同样主要可以细分为3种类型：基于网页粒度的分析算法、基于网页块粒度的分析算
法、基于网站粒度的分析算法。

PageRank算法是一种比较典型的基于网页粒度的分析算法。它是谷歌搜索引擎的核心算法，
简单来说，它会根据网页之间的链接关系对网页的权重进行计算，并可以依靠这些计算出来
的权重，对网页进行排名。具体的算法细节有很多，在下也不懂。除了PageRank算法之外，
HITS算法也是一种常见的基于网页粒度的分析算法。

基于网页块粒度的分析算法，也是依靠网页间链接关系进行计算的，但计算规则有所不同。
我们知道，在一个网页中通常会包含多个超链接，但一般其指向的外部链接中并不是所有的
链接都与网站主题相关，或者说，这些外部链接对该网页的重要程度是不一样的，所以若要
基于网页块粒度进行分析，则需要对一个网页中的这些外部链接划分层次，不同层次的外部
链接对于该网页来说，其重要程度不同。这种算法的分析效率和准确率，会比传统的算法好
一些。

基于网页粒度的分析算法，也与pagerank算法类似。而基于网站粒度进行分析，相应的，会
使用siterank算法。即此时我们会划分站点的层次和等级，而不再具体的计算站点下的各个
网页的等级。所以其相对于基于网页粒度的算法来说，则更加简单高效，但是会带来一些缺
点，比如精确度不如基于网页粒度的分析算法精确。

3 基于网页内容的网页分析算法
在基于网页内容的网页分析算法中，会依据网页的数据、文本等网页内容特征，对网页进行相
应的评价。

高手们如果有算法的具体介绍的文章，孩请分享，谢谢爬爬！

时间： 2024-10-08 20:26:45

3.4 网页分析算法

3.4 网页分析算法的相关文章

链接分析算法之：HITS算法

搜索引擎网页排序算法

链接分析算法之：SALSA算法

链接分析算法之：HillTop算法

高效网页去重算法-SimHash

（原创）大数据时代：基于微软案例数据库数据挖掘知识点总结（Microsoft 关联规则分析算法）

node.js基础模块http、网页分析工具cherrio实现爬虫

【微软100题】一个台阶总共同拥有n 级，假设一次能够跳1 级，也能够跳2 级，求总共同拥有多少总跳法，并分析算法的时间复杂度

第十四篇：Apriori 关联分析算法原理分析与代码实现