社会计算(壹)

社会计算·序

零、概念、定义与符号

一、大规模网络的属性

1.无尺度分布(scale-free distribution)

也叫幂律分布(power law distribution)。大规模网络中,大部分结点度数不大,而少数结点则拥有很大的度数。在重对数尺度下(log-log scale)大规模网络都展现了相似的模式:一条直线或者近似直线。这个模式称为幂律分布或者无尺度分布,这种自相似性与尺度无关。结点的度具有幂律分布的网络称为无尺度网络。

Friendship Network in YouTube:

图1. Long tail distribution, scale-free distribution 图 2. Straight line if plot in a log-log scale

2.小世界效应(the small-world effect)

网络中最长的最短路径就是它的直径(diameter),从现实的大规模网络中,都可以观察到一个小的路径。如著名的六度分隔理论

3.强的社区结构(strong community structure)

人们更倾向于与一个圈子的人联系,而圈子外的人的联系往往相对较少。朋友的朋友很容易成为朋友,这个传递性可以通过聚类系数(clustering coefficient)来度量,也就有了朋友之间的联系(connection)数量与所有联系数量的比例。假设结点vi di个邻居,这些邻居中有ki条边,那么聚类系数Ci就是:

聚类系数(clustering coefficient)度量了一个人朋友之间的联系密度。拥有社区的网络比一个随机网络更有可能具有较高的平均聚类系数。

图3.包含9个用户和14个联系的社会网络.直径为5.

各点的聚类系数C1= 2/3、C2=1、C3=2/3、C4=1/3、C5=2/3、C6=2/3、C7=1/2、C8=1、C9=0平均聚类系数C = (C1 + C2 + … + C9)/9 = 0.61;而包含9个用户和14个联系的随机网络的聚类系数期望值是14/(9*8/2) = 0.19.

二、社会媒体挖掘的新挑战

  • 可扩展性(scalability)传统的社会网络分析只能处理数百个对象甚至更少。社会媒体中的网络是巨大的,直接应用传统的网络分析是行不通的。
  • 混杂型(heterogeneity)个体之间存在多种关系。两人可能同时是朋友和同事,因此在一个网络的同一群人中,存在着各种不同的相互作用.分析这些混杂网络涉及混杂实体和混杂交互,需要采用新的理论和工具。
  • 演化(evolution)社会媒体强调时效性。比如,在内容共享网站和博客空间中,人们很快会对许多共享的内容和博客帖子失去兴趣。这与传统的web瓦解大不相同,新用户加进来,新的连接在已有成员之间建立,而老的用户变得不活跃或者简单地离开。应该如何获取网络个体的动力学特征?我们怎样找到那些作为网络骨干的硬核成员?他们能否决定社区的兴衰?
  • 集体智慧(collective intelligence)在社会媒体中,人们趋于分享他们的联系。通过标签、注释、评论和排名的形式,通常可以得到群体的智慧。与用户交织在一起的元信息(meta information),对许多应用来说是有用的。如何有效的利用社会连接信息和集体智慧构建社会计算应用程序仍然是一个挑战。
  • 评价(evaluation)在传统的数据挖掘中,可以使用训练-测试的评价模型,但在社会媒体中就不一样了。因为多数社会媒体网站需要保护用户隐私,所以只有很少数的基准数据(benchmark data)可以获取。另外,经常遇到的问题是许多社会计算任务缺乏真实的背景,它们进一步阻碍对不同工作的比较研究。没有真实的背景,就难以进行公平的比较与评价。

三、社会计算的任务

? 中心性分析与影响建模   社会计算(贰)

? 社区发现           社会计算(叁)

? 分类与推荐          社会计算(肆)

? 隐私、垃圾信息与安全   社会计算(伍)

时间: 2024-11-18 19:57:12

社会计算(壹)的相关文章

社会计算中一些名词笔记

社会计算中相关的一些概念,整理下笔记: 1.弱连接[weak tie]:最早来源于Granovetter的"弱连接假设"(weak tie hypothesis),比如下图,弱连接假设是说,如果A和B.C有一条强连接,可以理解成A和B.C是好朋友,则B.C之间形成连接的可能性就会很大,即B.C很有可能也称为好朋友. 也就是说,A和B.C通过强连接连接,则B.C之间的连接一般是存在的,如果B.C之间不存在连接,则B.C之间的连接很容易生成,这个叫做"三元闭包"(For

大数据学习笔记6·社会计算中的大数据(4)

上一篇介绍了LifeSpec项目,这个项目是关于用户理解和用户画像的.这篇是社会计算部分的最后一篇,关于用户连接和图隐私. 用户连接与隐私保护 用户连接与隐私保护有很强的相关性. 上图中,左边有两个网络.对于用户连接,我们的目标是映射这两个网络和连接这些网络中的用户节点.然后,我们就能产生一个更大的网络.这样,用户就能够被连接在一起,我们就可以知道跨网络的用户信息. 但是,如果从隐私的角度来看这个问题,把第一个图看成一个匿名化处理后的图,称其为目标图:把第二张图看成辅助图或者攻击者可获得的信息.

社会计算 一

参考<社会媒体挖掘> 为什么社会计算领域会兴起? 社会媒体的快速发展使得更多的人开始活跃在网络上,产生的数据量十分巨大,这些数据是研究人类社会,发展人工智能技术的重要资源.微博,微信,知乎,QQ等等社交媒体拥有巨大的用户数量,其他新兴的app(有些甚至不是以社交为主打功能的)也正在不停的吸收着用户,从交友,饮食,出行,娱乐到投资,咨询,教育各个生活领域都已开展了线上业务,不仅仅是信息量爆炸,信息的维度也逐渐变得丰富,将一系列APP的用户数据整合就可以刻画出一个大概的用户画像,随着数据挖掘技术的

大数据学习笔记5&#183;社会计算中的大数据(3)

前两篇文章介绍了我们在用户移动规律的理解方面的研究工作,包括如何处理用户轨迹中的缺失数据以及如何为用户推荐感兴趣的位置.在这一部分,我将展示我们在用户特征研究方面的研究项目. LifeSpec 首先,我想介绍我们近期开展的LifeSpec项目.这个项目的目标是利用社交网络中的用户数据来探索城市生活方式的方方面面. 我们从多个社交网络收集了数据,包括街旁,微博,图书和电影评论网站豆瓣,以及著名的餐馆评论网站点评.我们收集的数据覆盖了超过140万用户,这些用户在我们的数据集中至少有两个账号. 右边这

大数据学习笔记4&#183;社会计算中的大数据(2)

本篇继续讨论对用户移动规律的理解:结合地理建模和矩阵分解来做兴趣点推荐. 位置推荐是一类非常受欢迎的应用.在位置推荐中,我们需要理解用户的潜在兴趣并熟悉用户所处的环境.然后,我们就可以根据用户的兴趣和位置的属性发现用户可能感兴趣的地点.与普通推荐任务相比,地理位置在位置推荐中是改进推荐性能的一个重要因素. 在前面一篇中,我们讨论了如何恢复用户行为数据用于移动规律的理解.我们发现,用户移动行为通常集中在像家庭.工作场所和最喜欢的餐馆这样的重要地点.而且,两个地点之间的距离通常很短.所以,我们想要利

大数据学习笔记3&#183;社会计算中的大数据(1)

背景信息 什么是用户行为数据,用户行为数据是怎么积累的.为什么我们需要研究用户理解以及为什么用户理解这么重要.在第二部分,我会介绍我们最近关于移动规律理解应用的研究工作.例如,怎样处理用户轨迹中的数据缺失问题,怎么样为用户推荐有趣的地点.在最后一部分,我会展示我们近期在用户分析和隐私保护方面的研究项目. 这张图展示了每分钟用户在一些网站上产生的数据量. 用户数据是怎么样收集的 二十多年之前,那时候普适计算的概念才刚刚被提出来.马克.维瑟提出了普适计算的概念.那时候已经有了大型机和个人计算机,人们

《社会媒体挖掘》pdf格式下载免费电子书下载

<社会媒体挖掘>pdf格式下载免费电子书下载  https://u253469.ctfile.com/fs/253469-300325732更多电子书下载: http://hadoopall.com/book 内容简介 本书集成了近年来社会媒体.社会网络分析以及数据挖掘的前沿成果,为学生.从业者.研究人员和项目经理提供了一个方便的平台,以便理解社会媒体挖掘的基础知识和潜能.本书介绍了社会媒体数据的问题,并阐述了网络分析和数据挖掘的基本概念.新问题以及有效的算法. 作者简介 Reza Zafar

自然语言处理怎么最快入门?

http://www.zhihu.com/question/19895141 stanford NLP课程网址 https://class.coursera.org/nlp/lecture 14 个回答 赞同337反对,不会显示你的姓名 吴俣,自然语言处理民工 杨泽.林斌.王汪汪 等人赞同 推荐<数学之美>,这个书写得特别科普且生动形象,我相信你不会觉得枯燥.这个我极力推荐,我相信科研的真正原因是因为兴趣,而不是因为功利的一些东西. 接下来说,<统计自然语言处理基础>这本书,这书实

文本情感分析的基础在于自然语言处理、情感词典、机器学习方法等内容。以下是我总结的一些资源。

词典资源:SentiWordNet<知网>中文版中文情感极性词典 NTUSD情感词汇本体下载 自然语言处理工具和平台:哈尔滨工业大学社会计算与信息检索研究中心isnowfy/snownlp · GitHub 汉语分词:自然语言处理与信息检索共享平台 NLPIR.orgfxsjy/jieba · GitHub 语料资源:信息分类与情感发现 课程:斯坦福大学自然语言处理第七课"情感分析(Sentiment Analysis)" 网站和博客:Text Classification