社会计算·序
零、概念、定义与符号
一、大规模网络的属性
1.无尺度分布(scale-free distribution)
也叫幂律分布(power law distribution)。大规模网络中,大部分结点度数不大,而少数结点则拥有很大的度数。在重对数尺度下(log-log scale)大规模网络都展现了相似的模式:一条直线或者近似直线。这个模式称为幂律分布或者无尺度分布,这种自相似性与尺度无关。结点的度具有幂律分布的网络称为无尺度网络。
Friendship Network in YouTube:
图1. Long tail distribution, scale-free distribution 图 2. Straight line if plot in a log-log scale
2.小世界效应(the small-world effect)
网络中最长的最短路径就是它的直径(diameter),从现实的大规模网络中,都可以观察到一个小的路径。如著名的六度分隔理论。
3.强的社区结构(strong community structure)
人们更倾向于与一个圈子的人联系,而圈子外的人的联系往往相对较少。朋友的朋友很容易成为朋友,这个传递性可以通过聚类系数(clustering coefficient)来度量,也就有了朋友之间的联系(connection)数量与所有联系数量的比例。假设结点vi 有di个邻居,这些邻居中有ki条边,那么聚类系数Ci就是:
聚类系数(clustering coefficient)度量了一个人朋友之间的联系密度。拥有社区的网络比一个随机网络更有可能具有较高的平均聚类系数。
图3.包含9个用户和14个联系的社会网络.直径为5.
各点的聚类系数C1= 2/3、C2=1、C3=2/3、C4=1/3、C5=2/3、C6=2/3、C7=1/2、C8=1、C9=0平均聚类系数C = (C1 + C2 + … + C9)/9 = 0.61;而包含9个用户和14个联系的随机网络的聚类系数期望值是14/(9*8/2) = 0.19.
二、社会媒体挖掘的新挑战
- 可扩展性(scalability)传统的社会网络分析只能处理数百个对象甚至更少。社会媒体中的网络是巨大的,直接应用传统的网络分析是行不通的。
- 混杂型(heterogeneity)个体之间存在多种关系。两人可能同时是朋友和同事,因此在一个网络的同一群人中,存在着各种不同的相互作用.分析这些混杂网络涉及混杂实体和混杂交互,需要采用新的理论和工具。
- 演化(evolution)社会媒体强调时效性。比如,在内容共享网站和博客空间中,人们很快会对许多共享的内容和博客帖子失去兴趣。这与传统的web瓦解大不相同,新用户加进来,新的连接在已有成员之间建立,而老的用户变得不活跃或者简单地离开。应该如何获取网络个体的动力学特征?我们怎样找到那些作为网络骨干的硬核成员?他们能否决定社区的兴衰?
- 集体智慧(collective intelligence)在社会媒体中,人们趋于分享他们的联系。通过标签、注释、评论和排名的形式,通常可以得到群体的智慧。与用户交织在一起的元信息(meta information),对许多应用来说是有用的。如何有效的利用社会连接信息和集体智慧构建社会计算应用程序仍然是一个挑战。
- 评价(evaluation)在传统的数据挖掘中,可以使用训练-测试的评价模型,但在社会媒体中就不一样了。因为多数社会媒体网站需要保护用户隐私,所以只有很少数的基准数据(benchmark data)可以获取。另外,经常遇到的问题是许多社会计算任务缺乏真实的背景,它们进一步阻碍对不同工作的比较研究。没有真实的背景,就难以进行公平的比较与评价。
三、社会计算的任务
? 中心性分析与影响建模 社会计算(贰)
? 社区发现 社会计算(叁)
? 分类与推荐 社会计算(肆)
? 隐私、垃圾信息与安全 社会计算(伍)