11-pagerank 图机器学习之PageRank

pagerank：链接分析

如同图谱的网络

每个网页相互链接，是一个有向图，强连通分量

设计一个计算十堰，找到给定节点的输入与输出成分（？）

节点：网页

边：超链接

次要问题：动态页面如何解决？暗网——无法直接进入的网页

网页的现状：不一定通过导航链接，而通过交易事务（？），例如邮件，评论，评论，点赞，购买等

是一个有向图

其他类型的信息网络：如引用网络，百科中的引用

In(v) OUT(v)的定义：通过输入或输出关系可以接触节点v的节点集合

有向图的推理

有向图的两种类型：

1）强连接（任意两节点间相连）

2）邮箱无环图

强连通分量：任意两节点有通路

事实上，每一个有向图在他的SCCs上都是有向无环图，也就是说，如果把一个图中的连通分量看成一个节点的话，那个这个虚拟的新图就是一个DAG

网络的结构：

一个节点的In(v)和Out(v)的交集，是一个强连通分量，同时=Out(v，G)与Out(v，G‘)交集，G‘是指G中所有边的方向翻转后得到的图

对于网页网络而言，计算其输入与输出分量

结果

蝴蝶结结构

网络的pagerank

对网页的重要度进行排序——基于网络结构

链路分析算法

§ PageRank

§ Personalized PageRank

§ Random Walk with Restarts

将链接看成投票，网页越重要，则有更多的链接

但是，每一个链接都一视同仁吗？

从重要网页来的vote更具价值

当一个节点被其他重要节点指向时，这个点变得更重要

矩阵公式

矩阵的特征向量M=pagerank

迭代方式

pageRank的解方程

3个问题：

是否收敛；收敛结果是所需求的吗？结果合理吗？

还有两个问题：

有些网页没有出度

有些网页是搜索陷阱，即所有的链接都在组内

对于上面的两个问题，那么，他会收敛吗？

解决方案：

在每一次迭代，以某个概率随机链接？

对于teleports，没有出度的，在矩阵中使其出度的概率为1

google的解决方案

例子：

如何实际计算pagerank

当节点多的时候，占用空间大

通过稀疏矩阵的分解

例子：

随机游走的restart以及个性化的pagerank

应用例子：图谱检索

给定：作者与会议的关联网络

目标：图谱中的相似衡量

如：与ICDM关联度最高的会议是？我们应该推荐某个人参加其他哪类会议？

1）图谱和网页检索：对节点基于重要性排序

2）个性化的PageRank：将节点与teleport node s的亲近度进行排序

3）图中的亲近度: 例如与ICDM最相关的是？重启动的随机游走，启动点位teleport node

如何 random walk

1）从查询点出发，随机游走，并记录每个访问到的点

2）以概率α，多次随机游走

3）访问次数最多的点，即为最相近的点

益处：

考虑了：多链接；多路径；有向和无向的连接；节点的度

pagerank总结：

来自为知笔记(Wiz)

原文地址：https://www.cnblogs.com/combfish/p/12271497.html

时间： 2024-10-30 04:49:35

11-pagerank 图机器学习之PageRank的相关文章

uml精粹——11.活动图（及整个读书笔记分享）

11.活动图activity diagram 活动图是描述过程化逻辑procedural logic.业务过程business process和工作流work flow的技术.他和流程图flowchart类似,但不同是他们支持并行行为parallel bahavior. 见图11.1 我们从初始节点initial node动作开始,然后做Receive Order的动作.完成后遇到一个fork分叉.一个分叉fork有一个收入流incoming flow和一些外出的并行流outgoing conc

哈佛大学用这11张图，让你远离负能量的人

这11张图,可以让你检测自己或身边人是否属于负面的人. 一个人的情绪可以影响到别人,不要把负面情绪带给别人,也不要让别人的负面情绪影响你. 要给予别人正能量,不要在抱怨中度过,生活才能更美好. 转自https://blog.csdn.net/j2IaYU7Y/article/details/84949374 01 负面的人害怕改变, 正面的人则欢迎新的机会到来. 02 负面的人觉得没必要称赞他人所做的事, 正面的人却往往会看到并赞赏他人的好. 03 负面的人说话总在讲着自己, 正面的人会想到去了

pagerank以及个性化的pagerank算法

pagerank最开始是Google提出来用来衡量网页重要度排行的算法. 她的思想是基于网页之间互相的链接作为加权投票.假如网页a指向b, 那么网页b的重要程度受网页a的影响,a越重要,则b就越重要.假如网页c也指向b, 但是c跟a对比,c指向其他网页的数量(出度)较少,那么c对b的贡献程度要大于a对b. 下面是网页i的重要程度的公式,其中d是一个概率,in(i)表示所有指向网页i的网页. 这公式的思想是模拟一个随机冲浪者的浏览网页的行为,公式左边部分表示该冲浪者以(1-d)/N的概率从浏览器输

07-noderepr 图机器学习之图表征学习

网络中的机器学习节点分类链接预测机器学习的生命圈需要特征工程网络的特征学习--特征向量 embedding network embedding的意义节点的表征节点的相似度衡量→网络相似度衡量网络信息编码,生成节点表征用途:异常检测,属性预测,聚类,关系预测例子:deepwalk 难度:当前的深度学习视为序列或网格数据而设计的,但网络结构比这些更复杂,没有固定的空间结构,没有固定的顺序,是动态的,并且有多类特征 Embedding Nodes 假设我们有图G,V是节点集合,A

10-graph-gen 图机器学习之图生成模型

图深度生成模型 deep generative models for graph 回顾上一节课中的图编码,图卷积等今天,来学习图深度解码,也就是反编码,最终输出一个图结构 Problem of Graph Generation图生成需要解决的问题给定一个真实图,生成一个合成图那么,什么才是好的生成模型? 图生成的意义生成→深入探索图行程的过程异常检测预测--从过去预测未来新网络的仿真图填充如果...场景?? 图生成的任务: 真实图的生成目标导向图的生成,例如分子生成为什么如

02-gnp-smallworld 图机器学习之最小世界

本节重点:如何衡量一个网络 (网络量化) 网络的关键属性: 1. 度的分布:P(k) 2. 路径长度:h 3. 集聚系数(clustering coefficient):C 4. 连通分量(connected components):s 1. 度的分布 degree distribution:P(k) 统计每个节点的度,形成归一化后的直方图 2. 路径 3. 距离:最短路径 4. 直径:网络中任意节点最短距离的最大值 5. 平均路径长度(针对连通图或强连通的有向图) 6. 集聚系数(无向图):

deepdetect 用c++11写的机器学习caffe和XGBoost API 接口

https://github.com/beniz/deepdetect DeepDetect (http://www.deepdetect.com/) is a machine learning API and server written in C++11. It makes state of the art machine learning easy to work with and integrate into existing applications. DeepDetect relie

01-introduction 图机器学习介绍

Networks: Networks are a general language for describing complex systems of interacting entities. 网络(关系图)是描述交互实体复杂系统的通用语言 Networks/Graph 的两种类型:1) Networks(Natural Graphs 自然网络):如社会,基因或蛋白质的交互 2) Information Graph(信息图):信息/知识是经过组织和链接的:(scene graphs)实体在特

08-GNN 图机器学习之图神经网络

图神经网络 node embedding 回顾了之前node2vec的例子以及深度学习卷积的一些基础浅层encoder的局限性: 参数数量O(v):节点间没有共享参数,每个节点有自己的embedding 不能表征未见过的节点没有综合考虑节点特征本节学习图神经网络,多层的非线性的那么,在图中,如何做卷积? 如果输入是邻接矩阵,那么模型不能适配各种规模的网络:对节点的顺序也没有敏感性图的深度学习基础起初,对于一个图G V:节点集合 A:邻接矩阵 X:节点的特征向量图卷机网络思路:图的