社交网络可以用来描述现实社会中的实际网络,它包括人与人之间的社会关系,物种之间的捕食关系,科学研究中的合作关系等。大量研究已经表明在真实世界中各种不同社交网络具有许多共同的结构特征,例如小世界性质、无标度性、社团结构等。
目前,社团发现算法已比较成熟,具体的算法有:GN算法、谱平算法、Kernighan-Lin算法等。
社团划分方法也有很多。
以下是《基于链路预测的微博用户关系分析》的一些学习笔记:
微博用户之间形成了复杂的社交网络。在微博用户之间有各种影响因素,链路预测是微博用户关系分析的一种模型,该种方法引入了属性特征,构造了随机森林的链路预测模型,并将模型应用于新浪微博用户数据集,进行微博用户关系的训练预测。通过比较引入微博属性特征前后的预测性能以及特征的重要性分布,分析了各类特征对微博用户关系形成的影响。
网络中的链路预测是指如何通过已知的网络结构等信息,预测网络中尚未产生连接的两个节点之间产生连接的可能性。网络中的顶点代表用户,边代表用户关系,链路预测问题正是对用户未来关系的分析。目前,社会网络链路预测模型主要发展为三大类:
1)基于有监督学习的分类模型,如决策树、朴素贝叶斯、神经网络、SVM、KNN及集成方法中的bagging、boossting和随机森林等。
2)概率模型,该模型主要是建立一组可调参数的模型,然后使用优化策略寻找最优的参数值,使模型能够达到最优,这时两个未连边的节点对的概率就是它们产生连边的条件概率。概率模型的构建方法有贝叶斯网络模型和马尔科夫网络关系模型等。
3)线性代数方法,该方法是通过降阶相似矩阵来计算网络中节点之间的相似性。Kuegis等人利用图的邻接矩阵,并定义一个函数F使得两个时刻的邻接矩阵的差异性最小,这样就将链路预测问题转换成线性代数优化问题,之后再通过矩阵变换和降维的方法将问题转换为一维的最小二乘曲线拟合问题。
该文章从网络拓扑结构特征(度特征、共同朋友特征、朋友总数特征、中介朋友特征、优先链接特征、Adamic-Adar特征、朋友评价特征、反向关系特征、邻居子图特征)、微博属性特征(用户的关注数、粉丝数、微博消息数、所在地)以及朋评价、邻居子图等特征分析了用户关系的影响构造出基于随机森林(Random
Forest)的链路预测模型,最后分析了预测模型中各特征的Gini指标,获得了特征的重要性分布,从而验证了网络拓扑结构特征和微博属性特征对用户关系的影响。
数据集的获取是通过中国爬盟的新浪微博用户关系数据集作为微博研究数据,数据使用之前要对数据进行清洗。
——————————————————————————————————————————————————————
欢迎各位交流探讨,不吝赐教。