社会模式的发掘和可视化

《数据可视化之美》一书的第五章和第六章分别讲了两个故事:重新设计纽约地铁图和航班飞行动态图。这两个故事共同点都是“地图的二次开发”。这两个故事不同点在于前者更近是传统的信息可视化的扩展,后者是以美国航班实际数据作得典型的数据可视化。地图可以说是人类最早做出的信息可视化成品,千百年来一直在不断演进,相关技术资料、衍生品内容极多。日后可能需要对地图制作及其相关技术进行专门的讨论。本人目前研究的主要内容是数据挖掘和数据可视化。故而我的第五篇读后感从第七章“你的选择揭示你是谁——社会模式的挖掘与可视化”开始。

DATA MINING AND DATA VISUALIzATION GO HAND IN HAND. Finding complex patterns in data and making them visible for further interpretation utilizes the power of comput- ers, along with the power of the human mind. Used properly, this is a great combina- tion, enabling efficient and sophisticated data crunching and pattern recognition.

数据挖掘和数据可视化密不可分。发现数据中的复杂模式并将其可视化,便于提高人类的计算和思维能力。这是一个伟大的组合,可以催生出高效复杂的数据处理和模式识别。

案例一:关于18个女人的社区网络分析图

社区网络分析(social network analysis, SNA)是当前流行的一门社会科学,可以用于市场营销、追踪疾病暴发、揭露欺骗和腐败、分析在线社交网络中的发现模式以及干扰恐怖分子网络。SNA在20世纪早期作为社会人际学的方式产生。下面是一个小数据集的例子:

这个图是20世纪30年代美国南部一个小城镇中18个女人的社交图。数据来源自报纸上公开发表的数据。这个图上每个圆圈代表一个女士,之间的线条代表她们之间联系(通过女士们参与社交活动的频率统计出来),越粗的线代表连接越强。绘制此图的方法是“逐步纳入算法”,首先关注结构图中最强的关联,然后逐渐减低阈值找出网络图中的弱关联。有点类似求最小生成树的克鲁斯卡尔算法。

最终,该网络图揭示了关于该小镇的社交结构的一些有趣方面:

  • 存在两个显著不同的社交聚类(图中用红色和蓝色区分)
  • 两个聚类之间是互相连接的,这反映了两个聚类之间的兴趣和关系可能有一些共同性。
  • 产生了各种不同的网络角色。例如我们可以看到有些女士起着两个聚类的连接作用(如w13,w03),有些女士起到聚类内部核心作用(如w15),有些女士可能是新来这个小镇的,与其他人士只有弱连接(如w16,w17,w18)。

案例二:亚马逊的“购买了该商品的顾客还购买了…”社交图

人类网络的一个基本规则是“物以类聚,人以群分”。朋友的朋友成为朋友,同事的同事成为同事。两个人购买的相同商品越多,这些商品之间的关联就越强,同时两个人继续购买相同商品的概率就越大。基于这种认识,亚马逊建设了商品推介的自主学习网络,并获得了极大的成功。亚马逊能够生包含顾客选择和偏好的网络,并且不会暴露关于顾客的个人信息(虽然我们现在知道这不过是此地无银三百两,在大数据情形下考察一个人的选择就会暴露他是谁,但这不是我这里讨论的重点)。只需要很少的数据挖掘和可视化,我们就可以对亚马逊的顾客习惯和选择产生很有价值的理解。

上面这个图的内容显示了购买《数据之美》(beautiful data)在这里,作者从《数据之美》这本书出发,寻找“购买了该商品的顾客还购买了…”的书(用灰色带箭头的线连接),然后再从这本书开始,再次寻找“购买了该商品的顾客还购买了…”的书。也就是说从《数据之美》作为初始点,探寻了亚马逊的商品推荐网络的第一层和第二层节点。不过在选择节点时,有个限制条件是度至少为3,即入度为1或2的节点不会选入该网络,这是为了消除网络中不大相关的节点设计的。最后,图中用红色表示了O‘Reilly出版社出版的书,黄色为其他出版社出版的图书。

《数据可视化之美》一书中指出,在这个网络中,一本书的优势不在于其拥有的关联数量,而是在于这些管理的指向。网络的黄金规则与房地产一样:就是位置。在房地产中,真正重要的只有其地理位置。在网络中,则是虚拟位置。

从该图中的位置关系我们可以发现什么呢?

  • 首先是“同时也购买了”这个特性使得书籍可以自组织在一起形成聚类。很明显,图的上半部关于语义web,图的下半部则关于程序员和编程。注意,在生成这个图时并没有故意设置气显示顺序,造成这种结构完全是由于节点之间的指向关系。
  • 其次,这是一个有向网络(虽然有向箭头很不容易看),跟万维网本身很相似,作者通过计算每个节点的出度和入度,绘制了每个节点的大小。大的节点并不是说这本书会卖的很好,而是说明它在该聚类中影响很大,或者说它代表了该聚类的兴趣所在。这种评价方法类似google的pageRank算法,在web上连接更重要的节点产生的影响也就越大。
  • 另一种常见的网络测量方式叫做“结构等价性”,这种测量措施揭示了哪个节点在网络中发挥了相同作用,而等价的节点是可以相互取代的。作为一个作者,肯定不希望自己的书可以被别的书取代,但对于读者而言则希望有更多选择。没错,这是矛盾的。在该图中,数据之美的等价节点是《云计算架构》(cloud Application Architectures)。我们可以对比一下这两本书的目录,了解一下这两本书为何是等价节点:

《云计算架构》(cloud Application Architectures)目录:
Chapter 1 Cloud Computing
Chapter 2 Amazon Cloud Computing
Chapter 3 Before the Move into the Cloud
Chapter 4 Ready for the Cloud
Chapter 5 Security
Chapter 6 Disaster Recovery
Chapter 7 Scaling a Cloud Infrastructure
Appendix Amazon Web Services Reference
Appendix GoGrid
Appendix Rackspace
Colophon

《数据之美》的目录:

第1章 在数据中观察生活
第2章 美丽的人们:设计数据收集方法时牢记用户
第3章 火星上的嵌入式图像数据处理
第4章 PNUTSheII中的云存储设计
第5章 信息平台和数据科学家的兴起
第6章 照片档案的地理之美
第7章 数据发现数据
第8章 实时的可移动数据
第9章 探寻Deep Web
第1 0章 构建Radiohead的“House of Cards
第11章 都市数据可视化
第12章 Sense的设计
第13章 数据所做不到的
第14章 自然语言语料库数据
第15章 数据中的生命:DNA漫谈
第16章 美化真实世界中的数据
第17章 数据浅析:探索形形色色的社会定型
第18章 旧金山海湾区之殇:次贷危机的影响
第19章 美丽的政治数据
第20章 连接数据

分析两本书的内容,似乎完全不搭调:《云计算架构》基本是以亚马逊云计算为例讲云计算架构的,而《数据之美》是讲数据发现、数据存储、数据可视化的。但事实上由于《数据之美》的中数据存储、计算、加工都离不开云计算,而《云计算架构》中又必须以数据为例子讲解,于是两本书如同一本叙事,一本讲人,而叙事线索离不开中心人物,人物性格离不开故事表现,这就是大数据和云计算的关系。总的来说,《数据之美》这本书是以数据为中心,用很多实例讲解数据处理过程;而《云计算架构》则是以处理方式为中心,以个别详细案例讲解云计算处理数据的过程。所以可以理解两本书对于有相同兴趣的人来说互为等价节点了。

最后,书中以2004年与2008年美国大选前的亚马逊政治类书籍的购买网络为例分析了进行了数据分析。结论证明,通过这些数据和简单的可视化,不需要知道任何人的个人信息,表露任何私人数据,我们就能够理解基于书籍购买的大规模政治模式,其结果与代价很高的全国范围选民调查基本一致。如同帕累托法则所述的那样,我们获得了80%的洞察,而花费的时间和精力远远小于20%——这就是合理结合数据挖掘和数据可视化的高回报。

时间: 2024-11-02 16:56:58

社会模式的发掘和可视化的相关文章

告别学生生涯,进入社会模式—2015总结,2016规划

写在开头的话 转眼之间,2015就成为了过去,园子里的园友们纷纷发表了自己的年终总结以及新年规划.当时钟转向12点,微信上各种红包如雨后春笋般袭来,我一个一个地点,也将收到的红包凑成一个个红包又发了出去,就这样折腾到现在12:30,准备沉下心来总结一下我这一年来的得失,规划一下2016. 一.路漫漫的2015 1.研究生生涯终于划上句号 2015进入研三最后一学期,自然是苦逼的毕业论文写作阶段,毕业论文经过了20多个小版本的迭代,经历了无数次的自我否定-肯定-再否定的过程,终于形成了终稿,也得到

vim 可视化模式(visual模式)

为了便于选取文本,VIM 引入了可视(Visual)模式.要选取一段文本,首先将光标移到段首,在普通模式下按 v 进入可视模式,然后把光标移到段末.需要注意,光标所在字符是包含在选区中的. v 进入字符可视化模式 V 进入行可视化模式 Ctrl+v 进入块可视化模式 块选择Ctrl+v  在表格中删除指定列非常有用 用v命令进入的字符可视化模式(Characterwise visual mode).文本选择是以字符为单位的. 用V命令进入的行可视化模式(Linewise visual mode)

2015年可视化研究前沿动态

2015年可视化研究前沿动态 注:本文为作者最近所看文献的一点总结,可能比较片面,比较粗糙,也有可能存在错误,望相关领域的各大神们多加指点:-). 利用Web of Science,分析当前可视化研究前沿,热点,与动态,新型技术. 1.可视化分析 可视化分析作为信息可视化与科学可视化的副产物,通过可交互界面,集中在可视化推理的推进. 主要应用于海量数据关联分析,由于所涉及到的信息比较分散.数据结构有可能不统一,而且通常以人工分析为主,加上分析过程的非结构性和不确定性,所以不易形成固定的分析流程或

运维学习之管理输入输出及vim编辑模式

unit 4 1.管理输入输出 在linux系统中,正确输出的编号为1,错误输出编号为2 在系统中用普通用户执行 "student" find /etc -name passwd > file ##重定向正确输出 find /etc -name passwd 2> file ##重定向错误输出 find /etc -name passwd &> file ##重定向所有输出 注意: >, 2> ,&>  都会覆盖源文件内容 >f

大数据架构和模式(四)——了解用于大数据解决方案的原子模式和复合模式

摘要:本文中介绍的模式有助于定义大数据解决方案的参数.本文将介绍最常见的和经常发生的大数据问题以及它们的解决方案.原子模式描述了使用.处理.访问和存储大数据的典型方法.复合模式由原子模式组成,并根据大数据解决方案的范围进行分类.由于每个复合模式都有若干个维度,所以每个模式都有许多变化.复合模式使得业务和技术用户可以应用一个结构化方法为大数据问题建立范围,并定义高级的解决方案. 简介 本系列的 第 3 部分 介绍了大数据解决方案的逻辑层.这些层定义了各种组件,并对它们进行分类,这些组件必须处理某个

大数据架构和模式(四)了解用于大数据解决方案的原子模式和复合模式

本文收藏于:http://kb.cnblogs.com/page/510982/ 作者: Divakar等  来源: DeveloperWorks  发布时间: 2015-01-29 18:21   推荐: 0   原文链接   [收藏] 摘要:本文中介绍的模式有助于定义大数据解决方案的参数.本文将介绍最常见的和经常发生的大数据问题以及它们的解决方案.原子模式描述了使用.处理.访问和存储大数据的典型方法.复合模式由原子模式组成,并根据大数据解决方案的范围进行分类.由于每个复合模式都有若干个维度,

机房3D可视化动力环境监控系统?

如果说一本书可以改变一个人的思维模式,那么3D可视化管理则可能会改变一个企业的发展轨迹.优质的数据中心3D可视化管理系统能够协助企业整合优化企业信息资源和服务.提高生产率和竞争力,是为企业创造更多价值的有力保障.今天跟大家分享下什么是3D可视化动力环境监控系统. 机房是整个信息系统的核心部分,为保证计算机系统和通讯网络的安全正常运行,与之配套的机房动力系统.环境系统.消防系统.保安系统必须时刻处于稳定正常受控状态,否则造成的后果不堪设想.因此对机房进行实时集中的监控,及时发现存在的隐患,做到少人

时间序列数据挖掘综述

时间序列数据挖掘综述 http://hi.baidu.com/superkiki1989/item/33d609ec4d936204560f1d14 一.引言 时间序列是指按时间顺序排列的一组数据,是一类重要的复杂数据对象.作为数据库中的一种数据形式,它广泛存在于各种大型的商业.医学.工程和社会科学等数据库中,如股票价格.各种汇率.销售数量.产品的生产能力.天气数据等.大量时间序列数据真实地记录了系统在各个时刻的所有重要信息,若能改进某种高效的数据处理方法,发现其中各时间序列之间的相互关系,必将

我国的大数据战略

  一.我国的大数据战略 近年来,对大数据的定义较为多样.第462次香山会议 (2013年5月29日-31日)提出了大数据通俗的定义:大数据是数字化生存时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式.大数据是来源众多.类型多样.大而复杂.具有潜在价值,但难以在期望时间内处理和分析的数据集.我国的"十三五"规划纲要提出实施国家大数据战略,把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新. 大