参考《社会媒体挖掘》
为什么社会计算领域会兴起?
社会媒体的快速发展使得更多的人开始活跃在网络上,产生的数据量十分巨大,这些数据是研究人类社会,发展人工智能技术的重要资源。微博,微信,知乎,QQ等等社交媒体拥有巨大的用户数量,其他新兴的app(有些甚至不是以社交为主打功能的)也正在不停的吸收着用户,从交友,饮食,出行,娱乐到投资,咨询,教育各个生活领域都已开展了线上业务,不仅仅是信息量爆炸,信息的维度也逐渐变得丰富,将一系列APP的用户数据整合就可以刻画出一个大概的用户画像,随着数据挖掘技术的发展,未来有可能你的智能助理会真的比你还了解你自己。
从个人层面看,社会计算可以利用用户数据刻画出用户画像,然后进行个性化推荐等服务(现在已经有了一些例子,比如淘宝,京东的购物推荐,网易云音乐的每日推荐);从人类社会层面来看,如此庞大的数据量,如此丰富的数据维度使得人类社会可以被表示,从而发现人类社会的模式,使得我们能更好的理解社会。
利用计算方法处理社会媒体数据,我们可以比以往更加有效的进行社会学方面的研究,我们不仅会更加了解人类个体,而且会更加了解人类社会,一些亟待解决的社会问题可以通过这种方式研究。这次新型冠状病毒引发的疫情中,就利用大数据等技术分析了社会人员流动,对疫情防控提供了精准有效的数据支持。
总的来说,社会计算领域是一个有着极大发展潜力的新兴领域。当今人类社会被信息技术以一种更加快速高效的方式组织在了一起,巨大的社会数据存储在互联网中,等待我们去挖掘其中的宝藏,人类社会的新一轮“淘金热”即将兴起
社会计算涉及的领域十分广泛,主要是传统的社会学与信息技术相结合,需要掌握的技术包括但不限于数据挖掘,机器学习,文本挖掘,社会网络分析,信息检索。社会计算要做的工作就是像一个淘金者一样,在数据河流中淘金。
社会媒体挖掘面临的问题与挑战
最为主要的问题就是数据的噪声很大而且完全无结构化
当越来越多的人接入社会媒体,网络上的数据爆炸式增长,但我们却“沉浸在数据的海洋,却渴望着知识”,如果我们不能有效的挖掘数据中的知识,那么这些数据只是浪费存储资源的垃圾罢了。
社交媒体中的数据噪声很大,网络中充斥着各种的垃圾数据,好不夸张的说,互联网是一片鱼龙混杂的海洋,里面有着质量参差不齐的数据来源,有着各种性质的社区。网络中的信息完全无结构化,里面有各种形式的信息,比如文本,图像,音频等等,这些信息没有统一的结构,使得数据挖掘面临巨大的困难。同时社会媒体中还蕴含着丰富多样的社交关系等新的数据类型。要解决这些问题,必须研究新的计算方法,也就是社会计算。
大数据悖论
社交媒体中的数据量十分巨大,但当我们聚焦到个体,想要做个性化推荐时却发现数据少的可怜,所以我们不能只专注于单一的数据来源,我们们要利用社会媒体的特性,从不同的维度,从不同的来源整合个体的数据,从而更准确的刻画用户,这里的挑战就是如何搜集并整合数据。
样本采集
常用的数据采集方式是通过社交媒体的API,但是在采样过程中,我们如何才能确定样本的代表性与准确性,如何确定使用的统计方法是正确的,如何才能保证挖掘出的模式是能够真正代表人类真实的行为模式的?
噪声消除谬误
传统数据挖掘中,有很大一部分工作是在进行数据预处理与降噪,但是社交媒体中的噪声极多,而且其与有价值的信息往往混杂在一起,盲目的降噪会将有价值的数据一并剔除,这样会加剧大数据悖论。噪声的定义往往是相对的,噪声有可能是有价值的,有价值的数据在特定情况下也有可能成为噪声。社会媒体数据本身的性质使得对其的降噪处理变得很难。
评价困境
就算我们获得了足够的有效的数据,学习得到了模式,但是如何评价该模式也是一个很困难的问题。数据挖掘中常用的模式评价的方法是将数据集分为训练集与测试集。而社会媒体挖掘中往往没有标准答案,这使得评价难以进行,难以评价模式的正确性。
To be continued >>>>>
原文地址:https://www.cnblogs.com/zhanghad/p/12420265.html