《数据可视化之美》一书的第五章和第六章分别讲了两个故事:重新设计纽约地铁图和航班飞行动态图。这两个故事共同点都是“地图的二次开发”。这两个故事不同点在于前者更近是传统的信息可视化的扩展,后者是以美国航班实际数据作得典型的数据可视化。地图可以说是人类最早做出的信息可视化成品,千百年来一直在不断演进,相关技术资料、衍生品内容极多。日后可能需要对地图制作及其相关技术进行专门的讨论。本人目前研究的主要内容是数据挖掘和数据可视化。故而我的第五篇读后感从第七章“你的选择揭示你是谁——社会模式的挖掘与可视化”开始。
DATA MINING AND DATA VISUALIzATION GO HAND IN HAND. Finding complex patterns in data and making them visible for further interpretation utilizes the power of comput- ers, along with the power of the human mind. Used properly, this is a great combina- tion, enabling efficient and sophisticated data crunching and pattern recognition.
数据挖掘和数据可视化密不可分。发现数据中的复杂模式并将其可视化,便于提高人类的计算和思维能力。这是一个伟大的组合,可以催生出高效复杂的数据处理和模式识别。
案例一:关于18个女人的社区网络分析图
社区网络分析(social network analysis, SNA)是当前流行的一门社会科学,可以用于市场营销、追踪疾病暴发、揭露欺骗和腐败、分析在线社交网络中的发现模式以及干扰恐怖分子网络。SNA在20世纪早期作为社会人际学的方式产生。下面是一个小数据集的例子:
这个图是20世纪30年代美国南部一个小城镇中18个女人的社交图。数据来源自报纸上公开发表的数据。这个图上每个圆圈代表一个女士,之间的线条代表她们之间联系(通过女士们参与社交活动的频率统计出来),越粗的线代表连接越强。绘制此图的方法是“逐步纳入算法”,首先关注结构图中最强的关联,然后逐渐减低阈值找出网络图中的弱关联。有点类似求最小生成树的克鲁斯卡尔算法。
最终,该网络图揭示了关于该小镇的社交结构的一些有趣方面:
- 存在两个显著不同的社交聚类(图中用红色和蓝色区分)
- 两个聚类之间是互相连接的,这反映了两个聚类之间的兴趣和关系可能有一些共同性。
- 产生了各种不同的网络角色。例如我们可以看到有些女士起着两个聚类的连接作用(如w13,w03),有些女士起到聚类内部核心作用(如w15),有些女士可能是新来这个小镇的,与其他人士只有弱连接(如w16,w17,w18)。
案例二:亚马逊的“购买了该商品的顾客还购买了…”社交图
人类网络的一个基本规则是“物以类聚,人以群分”。朋友的朋友成为朋友,同事的同事成为同事。两个人购买的相同商品越多,这些商品之间的关联就越强,同时两个人继续购买相同商品的概率就越大。基于这种认识,亚马逊建设了商品推介的自主学习网络,并获得了极大的成功。亚马逊能够生包含顾客选择和偏好的网络,并且不会暴露关于顾客的个人信息(虽然我们现在知道这不过是此地无银三百两,在大数据情形下考察一个人的选择就会暴露他是谁,但这不是我这里讨论的重点)。只需要很少的数据挖掘和可视化,我们就可以对亚马逊的顾客习惯和选择产生很有价值的理解。
上面这个图的内容显示了购买《数据之美》(beautiful data)在这里,作者从《数据之美》这本书出发,寻找“购买了该商品的顾客还购买了…”的书(用灰色带箭头的线连接),然后再从这本书开始,再次寻找“购买了该商品的顾客还购买了…”的书。也就是说从《数据之美》作为初始点,探寻了亚马逊的商品推荐网络的第一层和第二层节点。不过在选择节点时,有个限制条件是度至少为3,即入度为1或2的节点不会选入该网络,这是为了消除网络中不大相关的节点设计的。最后,图中用红色表示了O‘Reilly出版社出版的书,黄色为其他出版社出版的图书。
《数据可视化之美》一书中指出,在这个网络中,一本书的优势不在于其拥有的关联数量,而是在于这些管理的指向。网络的黄金规则与房地产一样:就是位置。在房地产中,真正重要的只有其地理位置。在网络中,则是虚拟位置。
从该图中的位置关系我们可以发现什么呢?
- 首先是“同时也购买了”这个特性使得书籍可以自组织在一起形成聚类。很明显,图的上半部关于语义web,图的下半部则关于程序员和编程。注意,在生成这个图时并没有故意设置气显示顺序,造成这种结构完全是由于节点之间的指向关系。
- 其次,这是一个有向网络(虽然有向箭头很不容易看),跟万维网本身很相似,作者通过计算每个节点的出度和入度,绘制了每个节点的大小。大的节点并不是说这本书会卖的很好,而是说明它在该聚类中影响很大,或者说它代表了该聚类的兴趣所在。这种评价方法类似google的pageRank算法,在web上连接更重要的节点产生的影响也就越大。
- 另一种常见的网络测量方式叫做“结构等价性”,这种测量措施揭示了哪个节点在网络中发挥了相同作用,而等价的节点是可以相互取代的。作为一个作者,肯定不希望自己的书可以被别的书取代,但对于读者而言则希望有更多选择。没错,这是矛盾的。在该图中,数据之美的等价节点是《云计算架构》(cloud Application Architectures)。我们可以对比一下这两本书的目录,了解一下这两本书为何是等价节点:
《云计算架构》(cloud Application Architectures)目录:
Chapter 1 Cloud Computing
Chapter 2 Amazon Cloud Computing
Chapter 3 Before the Move into the Cloud
Chapter 4 Ready for the Cloud
Chapter 5 Security
Chapter 6 Disaster Recovery
Chapter 7 Scaling a Cloud Infrastructure
Appendix Amazon Web Services Reference
Appendix GoGrid
Appendix Rackspace
Colophon
《数据之美》的目录:
第1章 在数据中观察生活
第2章 美丽的人们:设计数据收集方法时牢记用户
第3章 火星上的嵌入式图像数据处理
第4章 PNUTSheII中的云存储设计
第5章 信息平台和数据科学家的兴起
第6章 照片档案的地理之美
第7章 数据发现数据
第8章 实时的可移动数据
第9章 探寻Deep Web
第1 0章 构建Radiohead的“House of Cards
第11章 都市数据可视化
第12章 Sense的设计
第13章 数据所做不到的
第14章 自然语言语料库数据
第15章 数据中的生命:DNA漫谈
第16章 美化真实世界中的数据
第17章 数据浅析:探索形形色色的社会定型
第18章 旧金山海湾区之殇:次贷危机的影响
第19章 美丽的政治数据
第20章 连接数据
分析两本书的内容,似乎完全不搭调:《云计算架构》基本是以亚马逊云计算为例讲云计算架构的,而《数据之美》是讲数据发现、数据存储、数据可视化的。但事实上由于《数据之美》的中数据存储、计算、加工都离不开云计算,而《云计算架构》中又必须以数据为例子讲解,于是两本书如同一本叙事,一本讲人,而叙事线索离不开中心人物,人物性格离不开故事表现,这就是大数据和云计算的关系。总的来说,《数据之美》这本书是以数据为中心,用很多实例讲解数据处理过程;而《云计算架构》则是以处理方式为中心,以个别详细案例讲解云计算处理数据的过程。所以可以理解两本书对于有相同兴趣的人来说互为等价节点了。
最后,书中以2004年与2008年美国大选前的亚马逊政治类书籍的购买网络为例分析了进行了数据分析。结论证明,通过这些数据和简单的可视化,不需要知道任何人的个人信息,表露任何私人数据,我们就能够理解基于书籍购买的大规模政治模式,其结果与代价很高的全国范围选民调查基本一致。如同帕累托法则所述的那样,我们获得了80%的洞察,而花费的时间和精力远远小于20%——这就是合理结合数据挖掘和数据可视化的高回报。