02-gnp-smallworld 图机器学习之最小世界

本节重点:如何衡量一个网络 (网络量化)

网络的关键属性:

1. 度的分布:P(k)

2. 路径长度:h

3. 集聚系数(clustering coefficient):C

4. 连通分量(connected components):s


1. 度的分布 degree distribution:P(k)

统计每个节点的度,形成归一化后的直方图

2. 路径

3. 距离:最短路径

4. 直径:网络中任意节点最短距离的最大值

5. 平均路径长度(针对连通图或强连通的有向图)

6. 集聚系数(无向图):

首先,看单个节点,其与邻居的连接关系如何。例如节点i,他的度为ki,ei是节点i的邻居间的边的数量

平均集聚系数:

7. 连通性: 最大连通分量(子图/分支)的尺寸,使用BFS广度优先方式


接下来开始量化现实世界中的网络

MSN的联系网络

对分布取log

集聚:

度对应的集聚系数

弱连通分支尺寸的统计:

若连同分支的半径:

平均路径长度为6.6,90%的节点可最小经由8跳后连接


随机图模型  Erd?s-Renyi Random Graphs

两类变量(针对无向图):

Gnp:n个节点,边的出现(顶点相连)满足概率p

Gnm:n个节点,均匀随机选取m个边

n和p不能唯一确定一个图谱,该图谱是随机过程的结果

Gnp的属性:

度的分布:p(k) —— 满足二项分布

路径长度:h

集聚系数: C

p(k)表示度为k的节点的概率

k- 表示度的期望

均值,和方差可通过公式计算

根据大数定律,随着网络规模的增大,分布变得越来越窄,因而可以确定一个点的度在k附近

随机模型的集聚系数较小

如果我们生产不同网络规模但平均度为k的网络,随着网络规模的增大,集聚系数以C的倍数衰减

膨胀Expansion:

图G(V,E)的膨胀α:

事实上,对于一个节点数为n,expansion为α的图,对于所有节点的对,路径长度O((log n)/α).

随机图具有良好的可扩展性,因此BFS访问所有节点需要对数步长

随机图的规模可以变得很大,但节点间的距离会保持在较小的数

对随机图的评估:



Giant Component

一个规模很大的网络中,可能存在多于一个的连通分支/连通分量(Connected Component),即网络中并非所有节点都连通。但是在真实网络中通常存在一个规模很大的连通分支(即Giant Component)会包含网络中大多数的节点(比如超过80%的节点)。

如果一个人刚注册人人,还没加好友,那他就是一个孤立点(没有和任何其他点相连)。而一旦有了好友,就不再是孤立点。如果某个学校规定学生在人人只能加本校好友,不能有外校好友,那么这个学校的学生也会构成一个小的独立的连通分支。不过可以想到,人人里绝大多数的同学都处在一个超大的连通分支中,真正孤立的节点或小的连通分支所占用户数是很少的。

Facebook的数据显示约99.7%的用户处在一个超大的Giant Component中。

来源: https://www.cnblogs.com/guolei/p/3513496.html

随机图的图结构随p变化的示意图:

当p==0时,该图各节点无连接

当p==1/(n-1),即平均度为1时,出现giant component

当p==c/(n-1)时,平均度为一常数,但有多数的孤立点

当p==log(n)/(n-1)时,更少的孤立点

当p==(2*log(n))/(n-1)时,没有孤立点

当p==1时,为完全连通图

giant component的出现:(这个没太看懂)

通过MSN验证上面的推论:

1. 度的分布:二项分布→不成立

2. 平均路径长度:O(log n)   MSN中,n为180M,log n≈8.2  实际为6.6 →满足推论

3. 集聚系数: 度的期望/节点个数  约在8*10-8  不等于0.11→不满足推论

4. 最大连通分量:若度的平均期望>1,则giant component存在,实际上包含99%的点→满足推论

因此,在在很大程度上,现实世界的网络,并不是随机图

随机图存在的问题:

度的分布与现实世界的网络不同

在大多数真实的网络中,giant component并不是通过phase transition产生的

集聚系数太低

既然如此,我们为什么还有学习随机图模型?

因为:

他是其他类型模型的参考模型

帮助我们理解和计算许多属性,从而与真实数据做比对

它将帮助我们理解某一特性在多大程度上是某个随机过程的结果

因此:

虽然随机图模型不实际,但是很有用!


最小世界模型 the small world model

在具有高集聚的情况下同时路径最短?

在上面的推理中,MSN网络的集聚系数的量级比随机图的高7个量级

其他一些真实网络的例子,如:

演员合作网络,电网网络,神经元网络,他们的平均路径长度与随机网络的量级一致,但集聚稀疏的量级比随机网的大

最小世界:高集聚,半径的量级为log n

集聚意味着边缘的局部性

随机性使得捷径存在

最小世界模型的两个成分:

1. 从一个低维规则的晶体开始

在例子中,我们使用一个环作为晶体

拥有高的集聚系数

2. 连接:引入随机性 (捷径)

添加/删除边,用于生成连接较远的晶体间的捷径

对于每一条边,移动另一端点到随机端点的概率为p

下图中,横轴为移动概率p,左纵轴为集聚系数,右纵轴为平均路径长度,可以看出,p的概率越大,集聚系数下降,平均路径长度下降。从降低的斜率来看,需要较大的随机性来破坏集聚性,但较小的就能创造最短路径。

如何创造一个最小世界?—— 一些随机的连接

Watts Strogatz Model:

提供了集聚性与最小世界的相互作用

捕捉许多现实网络的结构

现实网络的高集聚性

没有引向正确的度分布???(不太确定)

Kronecker Graph Model

创建大的真实图谱

设想:如果我们递归生成网络会怎么样?

递归生成网络的结构会是怎样的?→ 自相似性

对象类似于自身的一部分:整体与一个或多个部分形状相似

模拟递归的图谱生成/社区增长:

Kronecker product

克罗内克积:是生成自相似矩阵的方式

数学上,克罗内克积是两个任意大小的矩阵间的运算。克罗内克积是张量积的特殊形式,以德国数学家利奥波德·克罗内克命名。

定义两个图的克罗内克积,主要是使用两图的连接矩阵

克罗内克图是通过图的克罗内克积的迭代生成的

随机克罗内克图:

1. 生成n*n的概率矩阵

2. 计算概率矩阵的克罗内克积

3. 对于最后的结果,每个元素表示两个端点间的连接概率

得到概率矩阵后如何得到图? 抛硬币? 那这样需要抛n2次的硬币,太慢

是否有更快的方式?

是的

设想:探索克罗内克图的递归结构

逐个将图的边放置?那么如何放置一个具备n=2^m个端点的图的边?→ 拆解并重插入


快速生成克罗内克图的算法:(理解得不是很透)

真实网络与克罗内克较为相似

来自为知笔记(Wiz)

附件列表

原文地址:https://www.cnblogs.com/combfish/p/12271462.html

时间: 2024-10-09 01:47:16

02-gnp-smallworld 图机器学习之最小世界的相关文章

图的全局最小割的Stoer-Wagner算法及例题

Stoer-Wagner算法基本思想:如果能求出图中某两个顶点之间的最小割,更新答案后合并这两个顶点继续求最小割,到最后就得到答案. 算法步骤: ------------------------------------------------------------------------------------------------------------------------- (1)首先初始化,设最小割ans = INF                                

hdoj 3251 Being a Hero 【建图后求解最小割 + 输出任意一组最小割里面边 的编号】

Being a Hero Time Limit: 20000/10000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others) Total Submission(s): 1252    Accepted Submission(s): 395 Special Judge Problem Description You are the hero who saved your country. As promised, the ki

图与网络优化——最小费用最大流问题

这个问题真是烧脑.不过弄懂了最后. 这个问题中构建的图是单位运价和容量的网络. 首先把费用提出来单独构建一个图,找到最短路经.然后用这条路径上的最下容量来调整这条路上的流量.调整过后,重新构图就是要把最短路的路径加上反向弧,利用公式当正向弧的时候流量小于容量则价钱不变,容量等于流量则价钱为无穷尽去掉.如果反向弧则流量大于0去价钱的相反数,若等于0则去无穷.调整之后从新找到最短路,然后用最小的容量进行调整,注意这个调整是差额调整,就是你的流量相对于上次变化了多少那相关的弧就要变化多少,不是容量是多

07-noderepr 图机器学习之图表征学习

网络中的机器学习 节点分类 链接预测 机器学习的生命圈需要特征工程 网络的特征学习--特征向量   embedding network embedding的意义 节点的表征 节点的相似度衡量→网络相似度衡量 网络信息编码,生成节点表征 用途:异常检测,属性预测,聚类,关系预测 例子:deepwalk 难度:当前的深度学习视为序列或网格数据而设计的,但网络结构比这些更复杂,没有固定的空间结构,没有固定的顺序,是动态的,并且有多类特征 Embedding Nodes 假设我们有图G,V是节点集合,A

15-outbreak 图机器学习之爆发检测

网络的爆发检测 outbreak detection 近似算法,加速贪婪爬升,证明数据依赖 给一个真实的城市水源分布网络 以及污染物如何再网络中传播的数据 尽可能快的检测到污染物 检测信息的爆发 一般的问题: 1) 两个示例都是同样的潜在的问题 2) 给定一个网络传播的动态过程,我们希望选择一个节点集合来高效的检测过程 更多的应用: 流行病:影响力传播:网络安全 水网络: 放置传感器的用途:水流动力学,家庭需求 下图中的颜色表示不同的应用需求,红,黄,绿 表示不同的影响爆发 给定一个图,outb

05-spectral 图机器学习之谱分解

目标: 1)创建图的表征矩阵 2)分解:计算矩阵的特征值和特征向量:基于一个或多个特征值,将每个点表示成低维的表征 3)分组:基于新的表征,进行聚类 例如,二分图中如何确定好的分类?类间差异大,类内差异小 最小割集 考虑: 1)团外的连接性 2)团内的连接性 评价方式: 团间的连接性与每个团的密度相关 spectral graph partitioning  谱图分割 无向图G的邻接矩阵A x是n维的特征向量,可认为是G中每个节点的label或者value 那么Ax等到的结果的意义是? yi是节

10-graph-gen 图机器学习之图生成模型

图深度生成模型 deep generative models for graph 回顾上一节课中的图编码,图卷积等 今天,来学习图深度解码,也就是反编码,最终输出一个图结构 Problem of Graph Generation图生成需要解决的问题 给定一个真实图,生成一个合成图 那么,什么才是好的生成模型? 图生成的意义 生成→深入探索图行程的过程 异常检测 预测--从过去预测未来 新网络的仿真 图填充 如果...场景?? 图生成的任务: 真实图的生成 目标导向图的生成,例如分子生成 为什么如

01-Structure of Network 图机器学习之网络结构基础

网络结构: 对象: 节点,端点 (nodes, vertices) N 交互:链接,边 (links,edges) E 系统:网络,图,图谱 (network,graph) G(N,E) Graph与Network的区别: Network:真实存在的系统,如网络Web,社交网络social network,新陈代谢网络Metabolic network(常用词:network, node, link) Graph: 网络的数学表示,如网络图谱Web graph,社交图谱 Social graph

11-pagerank 图机器学习之PageRank

pagerank:链接分析 如同图谱的网络 每个网页相互链接,是一个有向图,强连通分量 设计一个计算十堰,找到给定节点的输入与输出成分(?) 节点:网页 边:超链接 次要问题:动态页面如何解决?暗网--无法直接进入的网页 网页的现状:不一定通过导航链接,而通过交易事务(?),例如邮件,评论,评论,点赞,购买等 是一个有向图 其他类型的信息网络:如引用网络,百科中的引用 In(v) OUT(v)的定义:通过输入或输出关系可以接触节点v的节点集合 有向图的推理 有向图的两种类型: 1)强连接(任意两