11-pagerank 图机器学习之PageRank

pagerank:链接分析


如同图谱的网络

每个网页相互链接,是一个有向图,强连通分量

设计一个计算十堰,找到给定节点的输入与输出成分(?)

节点:网页

边:超链接

次要问题:动态页面如何解决?暗网——无法直接进入的网页

网页的现状:不一定通过导航链接,而通过交易事务(?),例如邮件,评论,评论,点赞,购买等

是一个有向图

其他类型的信息网络:如引用网络,百科中的引用

In(v) OUT(v)的定义:通过输入或输出关系可以接触节点v的节点集合

有向图的推理

有向图的两种类型:

1)强连接(任意两节点间相连)

2)邮箱无环图

强连通分量:任意两节点有通路

事实上,每一个有向图在他的SCCs上都是有向无环图,也就是说,如果把一个图中的连通分量看成一个节点的话,那个这个虚拟的新图就是一个DAG

网络的结构:

一个节点的In(v)和Out(v)的交集,是一个强连通分量,同时=Out(v,G)与Out(v,G‘)交集,G‘是指G中所有边的方向翻转后得到的图

对于网页网络而言,计算其输入与输出分量

结果

蝴蝶结结构


网络的pagerank

对网页的重要度进行排序——基于网络结构

链路分析算法

§ PageRank

§ Personalized PageRank

§ Random Walk with Restarts

将链接看成投票,网页越重要,则有更多的链接

但是,每一个链接都一视同仁吗?

从重要网页来的vote更具价值

当一个节点被其他重要节点指向时,这个点变得更重要

矩阵公式

矩阵的特征向量M=pagerank

迭代方式


pageRank的解方程

3个问题:

是否收敛;收敛结果是所需求的吗?结果合理吗?

还有两个问题:

有些网页没有出度

有些网页是搜索陷阱,即所有的链接都在组内

对于上面的两个问题,那么,他会收敛吗?

解决方案:

在每一次迭代,以某个概率随机链接?

对于teleports,没有出度的,在矩阵中使其出度的概率为1

google的解决方案

例子:


如何实际计算pagerank

当节点多的时候,占用空间大

通过稀疏矩阵的分解

例子:

随机游走的restart以及个性化的pagerank

应用例子:图谱检索

给定:作者与会议的关联网络

目标:图谱中的相似衡量

如:与ICDM关联度最高的会议是?我们应该推荐某个人参加其他哪类会议?

1) 图谱和网页检索:对节点基于重要性排序

2)个性化的PageRank:将节点与teleport node s的亲近度进行排序

3)图中的亲近度: 例如与ICDM最相关的是?重启动的随机游走,启动点位teleport node

如何 random walk

1)从查询点出发,随机游走,并记录每个访问到的点

2)以概率α,多次随机游走

3)访问次数最多的点,即为最相近的点

益处:

考虑了:多链接;多路径;有向和无向的连接;节点的度

pagerank总结:

来自为知笔记(Wiz)

原文地址:https://www.cnblogs.com/combfish/p/12271497.html

时间: 2024-10-30 04:49:35

11-pagerank 图机器学习之PageRank的相关文章

uml精粹——11.活动图(及整个读书笔记分享)

11.活动图activity diagram 活动图是描述过程化逻辑procedural logic.业务过程business process和工作流work flow的技术.他和流程图flowchart类似,但不同是他们支持并行行为parallel bahavior. 见图11.1 我们从初始节点initial node动作开始,然后做Receive Order的动作.完成后遇到一个fork分叉.一个分叉fork有一个收入流incoming flow和一些外出的并行流outgoing conc

哈佛大学用这11张图,让你远离负能量的人

这11张图,可以让你检测自己或身边人是否属于负面的人. 一个人的情绪可以影响到别人,不要把负面情绪带给别人,也不要让别人的负面情绪影响你. 要给予别人正能量,不要在抱怨中度过,生活才能更美好. 转自https://blog.csdn.net/j2IaYU7Y/article/details/84949374 01 负面的人害怕改变, 正面的人则欢迎新的机会到来. 02 负面的人觉得没必要称赞他人所做的事, 正面的人却往往会看到并赞赏他人的好. 03 负面的人说话总在讲着自己, 正面的人会想到去了

pagerank以及个性化的pagerank算法

pagerank最开始是Google提出来用来衡量网页重要度排行的算法. 她的思想是基于网页之间互相的链接作为加权投票.假如网页a指向b, 那么网页b的重要程度受网页a的影响,a越重要,则b就越重要.假如网页c也指向b, 但是c跟a对比,c指向其他网页的数量(出度)较少,那么c对b的贡献程度要大于a对b. 下面是网页i的重要程度的公式,其中d是一个概率,in(i)表示所有指向网页i的网页. 这公式的思想是模拟一个随机冲浪者的浏览网页的行为,公式左边部分表示该冲浪者以(1-d)/N的概率从浏览器输

07-noderepr 图机器学习之图表征学习

网络中的机器学习 节点分类 链接预测 机器学习的生命圈需要特征工程 网络的特征学习--特征向量   embedding network embedding的意义 节点的表征 节点的相似度衡量→网络相似度衡量 网络信息编码,生成节点表征 用途:异常检测,属性预测,聚类,关系预测 例子:deepwalk 难度:当前的深度学习视为序列或网格数据而设计的,但网络结构比这些更复杂,没有固定的空间结构,没有固定的顺序,是动态的,并且有多类特征 Embedding Nodes 假设我们有图G,V是节点集合,A

10-graph-gen 图机器学习之图生成模型

图深度生成模型 deep generative models for graph 回顾上一节课中的图编码,图卷积等 今天,来学习图深度解码,也就是反编码,最终输出一个图结构 Problem of Graph Generation图生成需要解决的问题 给定一个真实图,生成一个合成图 那么,什么才是好的生成模型? 图生成的意义 生成→深入探索图行程的过程 异常检测 预测--从过去预测未来 新网络的仿真 图填充 如果...场景?? 图生成的任务: 真实图的生成 目标导向图的生成,例如分子生成 为什么如

02-gnp-smallworld 图机器学习之最小世界

本节重点:如何衡量一个网络 (网络量化) 网络的关键属性: 1. 度的分布:P(k) 2. 路径长度:h 3. 集聚系数(clustering coefficient):C 4. 连通分量(connected components):s 1. 度的分布 degree distribution:P(k) 统计每个节点的度,形成归一化后的直方图 2. 路径 3. 距离:最短路径 4. 直径:网络中任意节点最短距离的最大值 5. 平均路径长度(针对连通图或强连通的有向图) 6. 集聚系数(无向图):

deepdetect 用c++11写的机器学习caffe和XGBoost API 接口

https://github.com/beniz/deepdetect DeepDetect (http://www.deepdetect.com/) is a machine learning API and server written in C++11. It makes state of the art machine learning easy to work with and integrate into existing applications. DeepDetect relie

01-introduction 图机器学习介绍

Networks: Networks are a general language for describing complex systems of interacting entities. 网络(关系图)是描述交互实体复杂系统的通用语言 Networks/Graph 的两种类型:1) Networks(Natural Graphs 自然网络):如 社会,基因或蛋白质的交互 2) Information Graph(信息图):信息/知识是经过组织和链接的:(scene graphs)实体在特

08-GNN 图机器学习之图神经网络

图神经网络 node embedding 回顾了之前node2vec的例子以及深度学习卷积的一些基础 浅层encoder的局限性: 参数数量O(v):节点间没有共享参数,每个节点有自己的embedding 不能表征未见过的节点 没有综合考虑节点特征 本节学习图神经网络,多层的非线性的 那么,在图中,如何做卷积? 如果输入是邻接矩阵,那么模型不能适配各种规模的网络:对节点的顺序也没有敏感性 图的深度学习基础 起初,对于一个图G V:节点集合 A:邻接矩阵 X:节点的特征向量 图卷机网络 思路:图的