3.4 网页分析算法

在搜索引擎中,爬虫爬取了对应的网页之后,会将网页存储到服务器的原始数据库中,之后
搜索引擎会对这些网页进行分析并确定各网页的重要性,即会影响用户的检索的排名结果。
对于这些重要性的确定及排名结果的确定需要算法来解决,所以先来了解一下算法。

搜索引擎的网页分析算法主要分为3类:基于用户行为的网页分析算法、基于网络拓扑的
网页分析算法、基于网页内容的网页分析算法。接下来我们分别对这些算法进行讲解。

搜索引擎的网页分析算法主要分为3类:基于用户行为的网页分析算法、基于网络拓扑的网页
网页分析算法、基于网页内容的网页分析算法。

1 基于用户行为的网页分析算法

这种算法中,会依据用户对这些网页的访问行为,对这些网页进行评价,比如,依据用户对
该网页的访问频率、用户对网页的访问时长、用户的单击率等信息对网页进行综合评价。

2 基于网络拓扑的网页分析算法

基于网络拓扑的网页分析算法是依靠网页的链接关系、结构关系、已知网页或数据等对网页
进行分析的一种算法,所谓拓扑,简单来说即结构关系的意思。基于网络拓扑的网页分析
算法,同样主要可以细分为3种类型:基于网页粒度的分析算法、基于网页块粒度的分析算
法、基于网站粒度的分析算法。

PageRank算法是一种比较典型的基于网页粒度的分析算法。它是谷歌搜索引擎的核心算法,
简单来说,它会根据网页之间的链接关系对网页的权重进行计算,并可以依靠这些计算出来
的权重,对网页进行排名。具体的算法细节有很多,在下也不懂。除了PageRank算法之外,
HITS算法也是一种常见的基于网页粒度的分析算法。

基于网页块粒度的分析算法,也是依靠网页间链接关系进行计算的,但计算规则有所不同。
我们知道,在一个网页中通常会包含多个超链接,但一般其指向的外部链接中并不是所有的
链接都与网站主题相关,或者说,这些外部链接对该网页的重要程度是不一样的,所以若要
基于网页块粒度进行分析,则需要对一个网页中的这些外部链接划分层次,不同层次的外部
链接对于该网页来说,其重要程度不同。这种算法的分析效率和准确率,会比传统的算法好
一些。

基于网页粒度的分析算法,也与pagerank算法类似。而基于网站粒度进行分析,相应的,会
使用siterank算法。即此时我们会划分站点的层次和等级,而不再具体的计算站点下的各个
网页的等级。所以其相对于基于网页粒度的算法来说,则更加简单高效,但是会带来一些缺
点,比如精确度不如基于网页粒度的分析算法精确。

3 基于网页内容的网页分析算法
在基于网页内容的网页分析算法中,会依据网页的数据、文本等网页内容特征,对网页进行相
应的评价。

高手们如果有算法的具体介绍的文章,孩请分享,谢谢爬爬!

时间: 2024-10-08 20:26:45

3.4 网页分析算法的相关文章

链接分析算法之:HITS算法

转自 http://blog.csdn.net/hguisu/article/details/8013489 HITS(HITS(Hyperlink - Induced Topic Search) ) 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为"CLEVER"的研究项目中的一部分. HITS算法是链接分析中非

搜索引擎网页排序算法

2.1基于词频统计——词位置加权的搜索引擎 利用关键词在文档中出现的频率和位置排序是搜索引擎最早期排序的主要思想,其技术发展也最为成熟,是第一阶段搜索引擎的主要排序技术,应用非常广泛,至今仍是许多搜索引擎的核心排序技术.其基本原理是:关键词在文档中词频越高,出现的位置越重要,则被认为和检索词的相关性越好. 1)词频统计 文档的词频是指查询关键词在文档中出现的频率.查询关键词词频在文档中出现的频率越高,其相关度越大.但当关键词为常用词时,使其对相关性判断的意义非常小.TF/IDF很好的解决了这个问

链接分析算法之:SALSA算法

SALSA算法的初衷希望能够结合PageRank和HITS算法两者的主要特点,既可以利用HITS算法与查询相关的特点,也可以采纳PageRank的“随机游走模型”,这是SALSA算法提出的背景.由此可见,SALSA算法融合了PageRank和HITS算法的基本思想,从实际效果来说,很多实验数据表明,SALSA的搜索效果也都优于前两个算法,是目前效果最好的链接分析算法之一. 从整体计算流程来说,可以将SALSA划分为两个大的阶段:首先是确定计算对象集合的阶段,这一阶段与HITS算法基本相同:第二个

链接分析算法之:HillTop算法

Hilltop算法是由Krishna Baharat 在2000年左右研究的,于2001年申请专利,但是有很多人以为Hilltop算法是由谷歌研究的.只不过是Krishna Baharat 后来加入了Google成为了一名核心工程师,然后授权给Google使用的. 在与PageRank算法相比之下,Google意识到这个算法的进步会为他们的搜索排名带来非常重要的功能.Google的HillTop算法现在已经能更好的与旧的算法(PR算法)联合起来工作.根据观察HillTop算法比起它在2000年刚

高效网页去重算法-SimHash

记得以前有人问过我,网页去重算法有哪些,我不假思索的说出了余弦向量相似度匹配,但如果是数十亿级别的网页去重呢?这下糟糕了,因为每两个网页都需要计算一次向量内积,查重效率太低了!我当时就想:论查找效率肯定是要考虑hash算法,相同字符串的hashcode肯定相同,不同字符串的hashcode却是大不相同,这也不符合要求啊,会不会存在一种算法能够使相似字符串的code值也相同或相似呢,于是就找到了Google的网页去重算法-SimHash.我们在使用SimHash算法前需要根据文档量级选择SimHa

(原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 关联规则分析算法)

前言 本篇继续我们的微软挖掘算法系列总结,前几篇我们分别介绍了:Microsoft决策树分析算法.Microsoft聚类分析算法.Microsoft Naive Bayes 算法.Microsoft 时序算法,后续还补充了二篇结果预测篇.Microsoft 时序算法——结果预算+下期彩票预测篇,看样子有必要整理一篇目录了,不同的算法应用的场景也是不同的,每篇文章都有它自己的应用场景介绍,有兴趣的同学可以参阅.本篇我们总结微软挖掘算法系列中一款比较重要的算法:Microsoft关联规则分析算法,根

node.js基础模块http、网页分析工具cherrio实现爬虫

node.js基础模块http.网页分析工具cherrio实现爬虫 一.前言      说是爬虫初探,其实并没有用到爬虫相关第三方类库,主要用了node.js基础模块http.网页分析工具cherrio. 使用http直接获取url路径对应网页资源,然后使用cherrio分析. 这里我主要学习过的案例自己敲了一遍,加深理解.在coding的过程中,我第一次把jq获取后的对象直接用forEach遍历,直接报错,是因为jq没有对应的这个方法,只有js数组可以调用. 二.知识点    ①:supera

【微软100题】一个台阶总共同拥有n 级,假设一次能够跳1 级,也能够跳2 级,求总共同拥有多少总跳法,并分析算法的时间复杂度

package ms100; /** * 一个台阶总共同拥有n 级,假设一次能够跳1 级.也能够跳2 级,求总共同拥有多少总跳法.并分析算法的时间复杂度 *注: 这道题近期常常出现.包含MicroStrategy 等比較重视算法的公司都曾先后选用过个这道题作为面试题或者笔试题. 首先我们考虑最简单的情况: 假设仅仅有1 级台阶,那显然仅仅有一种跳法. 假设有2 级台阶,那就有两种跳的方法了:一种是分两次跳.每次跳1 级:第二种就是一次跳2 级. 如今我们再来讨论普通情况: 我们把n 级台阶时的跳

第十四篇:Apriori 关联分析算法原理分析与代码实现

前言 想必大家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事. 那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢? 这就是关联分析所要完成的任务了. 本文将讲解关联分析领域中最为经典的Apriori算法,并给出具体的代码实现. 关联分析领域的一些概念 1. 频繁项集: 数据集中经常出现在一起的物品的集合.例如 "啤酒和尿布" 2. 关联规则: 指两个物品集之间可能存在很强的关系.例如 "{啤酒} -> {尿布}"