社交网络初探——链路预测

社交网络可以用来描述现实社会中的实际网络,它包括人与人之间的社会关系,物种之间的捕食关系,科学研究中的合作关系等。大量研究已经表明在真实世界中各种不同社交网络具有许多共同的结构特征,例如小世界性质、无标度性、社团结构等。

目前,社团发现算法已比较成熟,具体的算法有:GN算法、谱平算法、Kernighan-Lin算法等。

社团划分方法也有很多。

以下是《基于链路预测的微博用户关系分析》的一些学习笔记:

微博用户之间形成了复杂的社交网络。在微博用户之间有各种影响因素,链路预测是微博用户关系分析的一种模型,该种方法引入了属性特征,构造了随机森林的链路预测模型,并将模型应用于新浪微博用户数据集,进行微博用户关系的训练预测。通过比较引入微博属性特征前后的预测性能以及特征的重要性分布,分析了各类特征对微博用户关系形成的影响。

网络中的链路预测是指如何通过已知的网络结构等信息,预测网络中尚未产生连接的两个节点之间产生连接的可能性。网络中的顶点代表用户,边代表用户关系,链路预测问题正是对用户未来关系的分析。目前,社会网络链路预测模型主要发展为三大类:

1)基于有监督学习的分类模型,如决策树、朴素贝叶斯、神经网络、SVM、KNN及集成方法中的bagging、boossting和随机森林等。

2)概率模型,该模型主要是建立一组可调参数的模型,然后使用优化策略寻找最优的参数值,使模型能够达到最优,这时两个未连边的节点对的概率就是它们产生连边的条件概率。概率模型的构建方法有贝叶斯网络模型和马尔科夫网络关系模型等。

3)线性代数方法,该方法是通过降阶相似矩阵来计算网络中节点之间的相似性。Kuegis等人利用图的邻接矩阵,并定义一个函数F使得两个时刻的邻接矩阵的差异性最小,这样就将链路预测问题转换成线性代数优化问题,之后再通过矩阵变换和降维的方法将问题转换为一维的最小二乘曲线拟合问题。

该文章从网络拓扑结构特征(度特征、共同朋友特征、朋友总数特征、中介朋友特征、优先链接特征、Adamic-Adar特征、朋友评价特征、反向关系特征、邻居子图特征)、微博属性特征(用户的关注数、粉丝数、微博消息数、所在地)以及朋评价、邻居子图等特征分析了用户关系的影响构造出基于随机森林(Random
Forest)的链路预测模型,最后分析了预测模型中各特征的Gini指标,获得了特征的重要性分布,从而验证了网络拓扑结构特征和微博属性特征对用户关系的影响。

数据集的获取是通过中国爬盟的新浪微博用户关系数据集作为微博研究数据,数据使用之前要对数据进行清洗。

——————————————————————————————————————————————————————

欢迎各位交流探讨,不吝赐教。

时间: 2024-10-07 13:51:57

社交网络初探——链路预测的相关文章

[转]社交平衡理论在链路预测上的应用

社交平衡理论最早是认知心理学的概念,后来相关的概念通过图论的语言被表达出来,从此以后社交平衡理论的研究就从认知过程拓展到网络的结构演化过程中. 社交平衡理论不是什么高深莫测的理论,实际上小到我们的日常生活,大到国家和国家之间的关系到处都能看到它的影子.该理论主要有如下的观点: 1. 日常生活中人们偏好于平衡的友谊关系. (1)人们喜欢相互性(具有互惠性)的友谊关系. 比如说P把O当朋友,那么他内心也会倾向于O把他当朋友:此时O也有压力考虑是否将P当成自己的朋友. (2)人们也倾向于希望朋友的朋友

论文阅读与模型复现——HAN

论文阅读论文链接:https://arxiv.org/pdf/1903.07293.pdf tensorflow版代码Github链接:https://github.com/Jhy1993/HAN 介绍视频:https://www.bilibili.com/video/av53418944/ 参考博客:https://blog.csdn.net/yyl424525/article/details/103804574 文中提出了一种新的基于注意力机制的异质图神经网络 Heterogeneous G

01-introduction 图机器学习介绍

Networks: Networks are a general language for describing complex systems of interacting entities. 网络(关系图)是描述交互实体复杂系统的通用语言 Networks/Graph 的两种类型:1) Networks(Natural Graphs 自然网络):如 社会,基因或蛋白质的交互 2) Information Graph(信息图):信息/知识是经过组织和链接的:(scene graphs)实体在特

大数据系统和分析技术综述【程学旗】

本文结构 1 大数据处理与系统 1.1 批量数据处理系统 1.1.1 批量数据的特征与典型应用 1.1.2 代表性的处理系统 1.2 流式数据处理系统 1.2.1 流式数据的特征及典型应用 1.2.2 代表性的处理系统 1.3 交互式数据处理 1.3.1 交互式数据处理的特征与典型应用 1.3.2 代表性的处理系统 1.4 图数据处理系统 1.4.1 图数据的特征及典型应用 1.4.2 代表性图数据处理系统 1.5 小 结 2 大数据分析 2.1 深度学习 2.2 知识计算 2.3 社会计算 2

LDA主题模型浅析

上个月参加了在北京举办SIGKDD国际会议,在个性化推荐.社交网络.广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结: (一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的. 举个例子,有两个句子分别如下: "乔布斯离我们而去了." "苹果价格会不会降?&

第五章:节点重要性与相似性

第五章节点的重要性与相似性 关键节点是网络科学的重要研究内容之一本章要重点详细介绍无向网络中节点重要性排序的几个常用指标:度值,介数,接近数,k-壳值和特征向量 5.2无向网络节点重要性指标5.2.1度中心性 一个节点度越大就意味着这个节点越重要. 此类问题都与如何刻画节点在网络中的位置有关,这便是度中心性的问题了 5.2.2介数中心性: 概念:以经过某个节点的最短路径的数目来刻画节点重要性的指标就称为介数中心性,简称介数bc这个概念刻画了节点i对于网络中节点对之间沿着最短路径传输信息的控制能力

HEER-Easing Embedding Learning by Comprehensive Transcription of Heterogeneous Information Networks

来源:KDD 2018 原文:HEER code:https://github.com/GentleZhu/HEER 注: 若有错误,欢迎指正 这篇KDD’18的文章,没有按照常规的方法将所有的node嵌入到同一的空间,因为文章提出 node 因为连接的 edge 类型(type)不同,存在不兼容(incompatibility)的特性,所以最好能够根据不同的edge type来定义不同度量空间(metric space),保持同一个度量空间下,node的兼容性. 1. Abstract 在本文

(转)知识图谱研究综述: 表示学习、知识获取与应用

摘要 人类知识提供了对世界的认知理解.表征实体间结构关系的知识图谱已经成为认知和人类智能研究的一个日益流行的方向.在本次综述论文中,我们对知识图谱进行了全面的综述,涵盖了知识图谱表示学习.知识获取与补全.时序知识图谱.知识感知应用等方面的研究课题,并总结了最近的突破和未来的研究方向.我们提出对这些主题进行全视角分类和新的分类法.知识图谱嵌入从表示空间.得分函数.编码模型和辅助信息四个方面进行组织.对知识获取,特别是知识图谱的补全.嵌入方法.路径推理和逻辑规则推理进行了综述.我们进一步探讨了几个新

国外物联网平台初探(六):Electric Imp

国外物联网平台初探(六)--Electric Imp 马智 公司背景 Electric Imp成立于2011年,公司设立在美国加利福尼亚州洛斯阿尔托斯和英国剑桥 公司投资者包括:富士康技术集团.PTI创投.Rampart资本.Redpoint创投 ? 定位 ? Electric Imp提供的硬件.软件.操作系统.安全.API.管理工具和云端服务完全集成的创新型解决方案,能够减少产品上市时间和成本,并具备安全.可扩展和灵活的特性.Electric Imp助力实现创新性的商用和工业应用,使生产商能够