社会计算 一

参考《社会媒体挖掘》

为什么社会计算领域会兴起?

社会媒体的快速发展使得更多的人开始活跃在网络上,产生的数据量十分巨大,这些数据是研究人类社会,发展人工智能技术的重要资源。微博,微信,知乎,QQ等等社交媒体拥有巨大的用户数量,其他新兴的app(有些甚至不是以社交为主打功能的)也正在不停的吸收着用户,从交友,饮食,出行,娱乐到投资,咨询,教育各个生活领域都已开展了线上业务,不仅仅是信息量爆炸,信息的维度也逐渐变得丰富,将一系列APP的用户数据整合就可以刻画出一个大概的用户画像,随着数据挖掘技术的发展,未来有可能你的智能助理会真的比你还了解你自己。

从个人层面看,社会计算可以利用用户数据刻画出用户画像,然后进行个性化推荐等服务(现在已经有了一些例子,比如淘宝,京东的购物推荐,网易云音乐的每日推荐);从人类社会层面来看,如此庞大的数据量,如此丰富的数据维度使得人类社会可以被表示,从而发现人类社会的模式,使得我们能更好的理解社会。

利用计算方法处理社会媒体数据,我们可以比以往更加有效的进行社会学方面的研究,我们不仅会更加了解人类个体,而且会更加了解人类社会,一些亟待解决的社会问题可以通过这种方式研究。这次新型冠状病毒引发的疫情中,就利用大数据等技术分析了社会人员流动,对疫情防控提供了精准有效的数据支持。

总的来说,社会计算领域是一个有着极大发展潜力的新兴领域。当今人类社会被信息技术以一种更加快速高效的方式组织在了一起,巨大的社会数据存储在互联网中,等待我们去挖掘其中的宝藏,人类社会的新一轮“淘金热”即将兴起

社会计算涉及的领域十分广泛,主要是传统的社会学与信息技术相结合,需要掌握的技术包括但不限于数据挖掘,机器学习,文本挖掘,社会网络分析,信息检索。社会计算要做的工作就是像一个淘金者一样,在数据河流中淘金。

社会媒体挖掘面临的问题与挑战

最为主要的问题就是数据的噪声很大而且完全无结构化

当越来越多的人接入社会媒体,网络上的数据爆炸式增长,但我们却“沉浸在数据的海洋,却渴望着知识”,如果我们不能有效的挖掘数据中的知识,那么这些数据只是浪费存储资源的垃圾罢了。

社交媒体中的数据噪声很大,网络中充斥着各种的垃圾数据,好不夸张的说,互联网是一片鱼龙混杂的海洋,里面有着质量参差不齐的数据来源,有着各种性质的社区。网络中的信息完全无结构化,里面有各种形式的信息,比如文本,图像,音频等等,这些信息没有统一的结构,使得数据挖掘面临巨大的困难。同时社会媒体中还蕴含着丰富多样的社交关系等新的数据类型。要解决这些问题,必须研究新的计算方法,也就是社会计算。

大数据悖论

社交媒体中的数据量十分巨大,但当我们聚焦到个体,想要做个性化推荐时却发现数据少的可怜,所以我们不能只专注于单一的数据来源,我们们要利用社会媒体的特性,从不同的维度,从不同的来源整合个体的数据,从而更准确的刻画用户,这里的挑战就是如何搜集并整合数据。

样本采集

常用的数据采集方式是通过社交媒体的API,但是在采样过程中,我们如何才能确定样本的代表性与准确性,如何确定使用的统计方法是正确的,如何才能保证挖掘出的模式是能够真正代表人类真实的行为模式的?

噪声消除谬误

传统数据挖掘中,有很大一部分工作是在进行数据预处理与降噪,但是社交媒体中的噪声极多,而且其与有价值的信息往往混杂在一起,盲目的降噪会将有价值的数据一并剔除,这样会加剧大数据悖论。噪声的定义往往是相对的,噪声有可能是有价值的,有价值的数据在特定情况下也有可能成为噪声。社会媒体数据本身的性质使得对其的降噪处理变得很难。

评价困境

就算我们获得了足够的有效的数据,学习得到了模式,但是如何评价该模式也是一个很困难的问题。数据挖掘中常用的模式评价的方法是将数据集分为训练集与测试集。而社会媒体挖掘中往往没有标准答案,这使得评价难以进行,难以评价模式的正确性。

To be continued >>>>>

原文地址:https://www.cnblogs.com/zhanghad/p/12420265.html

时间: 2024-07-31 01:15:53

社会计算 一的相关文章

社会计算中一些名词笔记

社会计算中相关的一些概念,整理下笔记: 1.弱连接[weak tie]:最早来源于Granovetter的"弱连接假设"(weak tie hypothesis),比如下图,弱连接假设是说,如果A和B.C有一条强连接,可以理解成A和B.C是好朋友,则B.C之间形成连接的可能性就会很大,即B.C很有可能也称为好朋友. 也就是说,A和B.C通过强连接连接,则B.C之间的连接一般是存在的,如果B.C之间不存在连接,则B.C之间的连接很容易生成,这个叫做"三元闭包"(For

社会计算(壹)

社会计算·序 零.概念.定义与符号 一.大规模网络的属性 1.无尺度分布(scale-free distribution) 也叫幂律分布(power law distribution).大规模网络中,大部分结点度数不大,而少数结点则拥有很大的度数.在重对数尺度下(log-log scale)大规模网络都展现了相似的模式:一条直线或者近似直线.这个模式称为幂律分布或者无尺度分布,这种自相似性与尺度无关.结点的度具有幂律分布的网络称为无尺度网络. Friendship Network in YouT

大数据学习笔记6·社会计算中的大数据(4)

上一篇介绍了LifeSpec项目,这个项目是关于用户理解和用户画像的.这篇是社会计算部分的最后一篇,关于用户连接和图隐私. 用户连接与隐私保护 用户连接与隐私保护有很强的相关性. 上图中,左边有两个网络.对于用户连接,我们的目标是映射这两个网络和连接这些网络中的用户节点.然后,我们就能产生一个更大的网络.这样,用户就能够被连接在一起,我们就可以知道跨网络的用户信息. 但是,如果从隐私的角度来看这个问题,把第一个图看成一个匿名化处理后的图,称其为目标图:把第二张图看成辅助图或者攻击者可获得的信息.

大数据学习笔记5·社会计算中的大数据(3)

前两篇文章介绍了我们在用户移动规律的理解方面的研究工作,包括如何处理用户轨迹中的缺失数据以及如何为用户推荐感兴趣的位置.在这一部分,我将展示我们在用户特征研究方面的研究项目. LifeSpec 首先,我想介绍我们近期开展的LifeSpec项目.这个项目的目标是利用社交网络中的用户数据来探索城市生活方式的方方面面. 我们从多个社交网络收集了数据,包括街旁,微博,图书和电影评论网站豆瓣,以及著名的餐馆评论网站点评.我们收集的数据覆盖了超过140万用户,这些用户在我们的数据集中至少有两个账号. 右边这

大数据学习笔记4·社会计算中的大数据(2)

本篇继续讨论对用户移动规律的理解:结合地理建模和矩阵分解来做兴趣点推荐. 位置推荐是一类非常受欢迎的应用.在位置推荐中,我们需要理解用户的潜在兴趣并熟悉用户所处的环境.然后,我们就可以根据用户的兴趣和位置的属性发现用户可能感兴趣的地点.与普通推荐任务相比,地理位置在位置推荐中是改进推荐性能的一个重要因素. 在前面一篇中,我们讨论了如何恢复用户行为数据用于移动规律的理解.我们发现,用户移动行为通常集中在像家庭.工作场所和最喜欢的餐馆这样的重要地点.而且,两个地点之间的距离通常很短.所以,我们想要利

大数据学习笔记3·社会计算中的大数据(1)

背景信息 什么是用户行为数据,用户行为数据是怎么积累的.为什么我们需要研究用户理解以及为什么用户理解这么重要.在第二部分,我会介绍我们最近关于移动规律理解应用的研究工作.例如,怎样处理用户轨迹中的数据缺失问题,怎么样为用户推荐有趣的地点.在最后一部分,我会展示我们近期在用户分析和隐私保护方面的研究项目. 这张图展示了每分钟用户在一些网站上产生的数据量. 用户数据是怎么样收集的 二十多年之前,那时候普适计算的概念才刚刚被提出来.马克.维瑟提出了普适计算的概念.那时候已经有了大型机和个人计算机,人们

《社会媒体挖掘》pdf格式下载免费电子书下载

<社会媒体挖掘>pdf格式下载免费电子书下载  https://u253469.ctfile.com/fs/253469-300325732更多电子书下载: http://hadoopall.com/book 内容简介 本书集成了近年来社会媒体.社会网络分析以及数据挖掘的前沿成果,为学生.从业者.研究人员和项目经理提供了一个方便的平台,以便理解社会媒体挖掘的基础知识和潜能.本书介绍了社会媒体数据的问题,并阐述了网络分析和数据挖掘的基本概念.新问题以及有效的算法. 作者简介 Reza Zafar

自然语言处理怎么最快入门?

http://www.zhihu.com/question/19895141 stanford NLP课程网址 https://class.coursera.org/nlp/lecture 14 个回答 赞同337反对,不会显示你的姓名 吴俣,自然语言处理民工 杨泽.林斌.王汪汪 等人赞同 推荐<数学之美>,这个书写得特别科普且生动形象,我相信你不会觉得枯燥.这个我极力推荐,我相信科研的真正原因是因为兴趣,而不是因为功利的一些东西. 接下来说,<统计自然语言处理基础>这本书,这书实

文本情感分析的基础在于自然语言处理、情感词典、机器学习方法等内容。以下是我总结的一些资源。

词典资源:SentiWordNet<知网>中文版中文情感极性词典 NTUSD情感词汇本体下载 自然语言处理工具和平台:哈尔滨工业大学社会计算与信息检索研究中心isnowfy/snownlp · GitHub 汉语分词:自然语言处理与信息检索共享平台 NLPIR.orgfxsjy/jieba · GitHub 语料资源:信息分类与情感发现 课程:斯坦福大学自然语言处理第七课"情感分析(Sentiment Analysis)" 网站和博客:Text Classification