遇见大数据可视化:基础研究

近日星巴克与微信推出的社交礼品功能“用星说”,可以说刷遍了朋友圈。无论你爱不爱喝咖啡,星巴克似乎都成为了一种文化象征。上班族青睐,小清新喜欢,基本上大家看到绿色的人鱼标志就能马上认出它来。

虽然一直也有喝咖啡的习惯,但至今不知道星巴克菜单版上列的【摩卡】、【拿铁】、【美式】、【卡布奇诺】等等有什么区别。直到看到下列图,才很直观的了解到每个咖啡类别的区别是什么。

类似上图示,针对内容复制,难以形象表达的信息,通过图形简单清晰地向受众呈现出来,这种图称之为信息图。

信息图

信息图本身是一个合成词,由信息和图两个词组成多称之为(Infographics或Infographics Graphics),在40年代的时候就开始出现,使用在报纸及新闻类杂志方面,其中杰出的代表阿根廷的信息图先驱Alejandro Malofiej,在1993年西班牙设立了以他为名的主要针对信息图表设计的Malofiej奖。

在报纸、杂志等纸质媒体中,为了让读者感到新奇且直观容易的理解,运用了大量的信息图解的表现。

如下图所示:

信息图早已融入我们的日常生活中,目的为了创造方便舒适的生活环境,使人们的生活变得更加更加安全舒适。

为什么人们会对信息图的传播内容更有效呢?主要原因是因为视觉是人类最强的信息输入方式,人类感知周围世界最强的方式,在Brain Rules《大脑法则》一书中,发展分子生物学家John Medina写道:“视觉是迄今我们最主要的感官,占用了我们大脑中一半的资源。”信息图提供了一种语境的方法(Language of Context),通过展示多个维度数值并且相互比较来为受众提供语境,使我们更高效的把内容反射到大脑中。

后来随着技术的发展,除了传统的纸质媒体出现了以互联网为主的电脑,电视,手机,大屏终端等更多类型的电子媒体。信息图的分类也逐步划分为:图解(Diagram) 、图表(Chart) 、 表格(Table) 、统计图(Graph) 、 地图(Map)和图形符号(Pictogram)这几部分。

图解Diagram – 主要运用插图对事物进行说明

图表 Chart - 运用图形、线条及插图等,阐明事物的相互关系

表格 Table – 根据特定信息标准进行区分,设置纵轴与横轴

统计图 Graph – 通过数值来表现变化趋势或进行比较

地图 Map – 描述在特定区域和空间里的位置关系

图形符号 Pictogram – 不使用文字,运用图画直接传达信息

在以纸质媒体为主的报刊杂志的传统行业中信息图是对实际事物的描述, 而在互联网行业中侧更多的是对数据的描述。将数据图形化的过程又称之为数据可视化。把数据,包括测量获得的数值、图像或是计算中涉及、产生的数字信息变为直观的、以图形图像信息表示的、随时间和空间变化的物理现象或物理量呈现出来。

我们来看一组简单的数据,比较下图形和数据对于人脑感观的差异。

这组数据包括I、II、III、IV,一共四组,每组有X和Y两个维度。数据很简单,但从数据上来看,你能说出这四组数据的区别吗?

从数据上很难看出有什么区别,因为每组数据看上去都十分的相近。下面我们把这四组数据转换成图表来进行对比下。

通过图表的比较,我们很容易就能找出这四组数据的区别了。I组数据呈现整体离散向上的趋势。II组数据呈现弧度上升,然后再下降的趋势。III组数据呈现线性上涨的趋势,但有一个点突出。IV组数据呈现Y坐标不变X上升的趋势,但有一点突出。

将数据图形化后,大脑天然的会对图形的不同点做出反应,从而更高效的理解数据带来的意义。

我们再来看下其他例子:

将当前QQ的在线人数,通过可视化的方式展示给用户。把数据置于视觉控件中,这样用户就能很直观的了解到QQ当前使用的人群分布在中国是怎么样的,那里的人群分布多,那里的人群少。

Eric Fischer针对Twitter 发短消息的位置和Flickr 拍照片的位置为数据源做的名为“看图或说话”(SeeSomething or Say Something)的大数据可视化展示,通过简单但大量的数据,做出非常美的数据图展示。

这种用图形化对数据进行描述设计的过程,我们通常称为【数据可视化】。有时候,可视化的结果可能只是一个条形图表,但大多数的时候可视化的过程会很复杂的,因为数据本身可能会很复杂的。一般流程包括【数据收集】-【数据分析&清理】-【可视化设计】,从抽象的原始数据到可视化图像。

要做出好的【数据可视化】,拆分出来核心要先了解什么是【数据】

数据

数据是可视化的基础,它不仅仅是数字,要想把数据可视化,就必须知道它表达的是什么。根据Ben Shneiderman的分类,信息可视化的数据分为以下几类:

一维数据:X轴一个维度如果1、2、3、4 ???

二维数据:X,Y两个二维度(1、2),(3、4),(5、6),(7、8)???

三维数据:X,Y,Z三个维度(1、2、3),(4、5、6),(7、8、9) ???

多维数据:X,Y,Z,???多个维度(1、2、3、4、???),(5、6、7、8、???)

时态数据:具有数据属性的数据集合。

层次数据:具有等级或层次关系数据集合。

数据种类划分是十分多的,但是这些数据都描述了现实的世界中的一部分,是现实世界的一个快照。除了类型,数据的数量级也影响这数据的表达结果。

小数据量(小于1K)展示一下静态结果,中数据量(1K~100K)呈现数据反映的事实,大数据量(大于1M+)用于研究分析,推测结果。

我们来看一个数据:【2017年1月28号,成都PM2.5值245】,从这个数据里能看出什么,可能只是会觉得当天成都空气质量不好,我们可能会联想到这个样一个画面。

好像就不能得出什么了。其实从单个数据上,我们很难得到什么有价值的信息。所以要想发挥出数据可视化的作用,首先我们需要大量真实的数据,知道数据的来龙去脉,把它作为一个整体来理解,关注全貌对原始数据了解得越多,打造的基础就越坚实,也就越可能制作出令人信服的数据图表。

OK,我们继续丰富我们的原始数据,在中国环境监测总站(http://www.cnemc.cn/) 的网站获取到成都2017年整个1月份的PM2.5的数据。

中国环境监测总站作为空气质量公开的数据来源,它提供了获取数据的API接口。通过API接口我们可以获取到原始数据。

原始数据一般包含的信息都比较多,什么PM2.5,、空气质量指数、PM10、一氧化碳、二氧化碳、臭氧、二氧化硫等等。我们只需要PM2.5的,所以清理数据,把其他不必要的内容去掉。然后导入到Excel表中,可以得到我们最终需要的数据。

有了【数据】下一步就可以开始做数据的【可视化】。

可视化

通俗地说,可视化设计的目的是“让数据说话”,用图形去讲述数据的故事。可视化是一种表达数据的方式,是现实世界的抽象表达。它像文字一样,为我们讲述各种各样的故事。作为一种媒介,可视化已经发展成为一种很好的故事讲述方式。

我们把成都PM2.5的数据,按照日期和当天的PM2.5指数做出最简单图形来,我们可以得到下面这类的图表来。

这类的图用Excel很简单就能得到。我们可去修改下柱状图的配色,但它依然只是一个简单的图表,而不是好的可视化作品。

那什么是好的可视化作品呢?

好的可视化设计需要具备统计和设计方面的知识。没有前者,可视化只是插图和美术练习;没有后者,可视化就只是研究分析结果。统计和设计的知识都只能帮助你完成数据图形的一部分。

我们需要去讲述数据的故事。那PM2.5代表的是什么,是当天天气的情况,所以我们可以用天气的维度去讲述这个故事。

我们把成都2017年1月份的天气照片的到,天气好的时候天是蓝色,PM2.5超标的时候是灰色。把它图形化我们可以得到这样一个展示,可以看出对于成都来说一个月中天气好的时间是十分少的。

好的可视化设计能让你有一见钟情的感觉,你知道眼前的东西就是你想看到的。既可以是艺术的,同时又是真实的。而不是直接把数据转换成图表,找到数据和它所代表事物之间的关系按照“数字化叙事”去做设计,这是全面分析数据的关键,同样还是深层次理解数据的关键。

我们在网上可以看到大量的优秀的数据可视化图,这些优秀的作品都会以这种“数字化叙事”的方式,告诉用户数据的意义。

这是哈佛做的一个数据可视化项目,将全球价15万亿美元的大宗交易表现在这里。地图上的每个点都代表 1 亿美元的进出口商品,十分的形象和震撼。

当然好的数据可视化图都是不断迭代优化出来的,判断是不是一个好的数据可视化可以按照以下的步骤去考虑。【你有什么数据】 -> 【关于数据你想知道什么】 -> 【数据可视化的表现方式】 -> 【你看到了什么?有意义吗?】。每一个问题的答案都取决于前一个答案,不断的去问自己,每个环节有没有问题,这样才能做出最好的设计。

我们一直在讲数据可视化的目的是有两个:一个是更好地分享和传达数据信息,二个是通过设计之美有效地缩短信息的传达。这是可视化的最根本的目的,可视化的定义在不同人眼中是不一样的。作为一个整体,可视化的广度每天都在变化,但是这是一个新的领域,我们可以用一种全新的方式去认识世界的过程,数据可视化,改变对数据的呈现和思考方式。

参考资料

《图解力》 – 木村博之

《数据之美》 – 邱南森

《可视化沟通》 – Randy Krun

《信息设计》 – Dopress Books

Designing Data Visualizations with Noah Iliinsky – TED演讲

信息可视化研究综述 - 河北科技大学学报


阁主点评:光有数据,有什么用?只有靠形象的可视化展示,才能提取出数据背后的东西。本文是大数据可视化团队的系列文章,将分享如何实现数据可视化的经验与技巧。另外,腾讯云还提供了专门的可视化平台RayData,可以帮助企业、开发者制作出高端大气的可视化作品。

时间: 2024-10-12 19:16:30

遇见大数据可视化:基础研究的相关文章

遇见大数据可视化 : 那些幸运28 加拿大28 源码 WOW 的数据可视化案例

幸运28 加拿大28 源码[大神源码论坛]dsluntan.com  [布丁源码论坛]budingbbs.com 企娥3393756370 . 数据可视化的内涵并非只是专业人员才能看得的懂的图表,当你想要通过数据来宣传证明自己时,你遇到的问题是大多数人并不能看懂你的图表.那么让数据可视化的过程更加的生动有趣.通俗易懂就显的尤为重要了. 如何才能让数据可视化在面向普罗大众更容易接受和理解,甚至产生WOW的感觉呢?下面我试着通过一些具体的数据可视化案例来说明. U.S. Gun Deaths "U.

大数据基础--大数据可视化(刘鹏《大数据》课后习题答案)

1.数据可视化有哪些基本特征? (1)易懂性,可视化可以使碎片化的数据转换成具有特定结构的知识,从而为决策支持提供帮助. (2)必然性,大数据所产生的数据量必然要求人们对数据进行归纳总结,对数据的结构和形式进行转换处理. (3)片面性,数据可视化的片面性特征要求可视化模式不能替代数据本身,只能作为数据表达的一种特定形式. (4)专业性,专业化特征是人们从可视化模型中提取专业知识的环节,它是数据可视化应用的最后流程. 2.简述可视化技术支持计算机辅助数据认识的3个基本阶段. (1)数据表达,数据表

39个大数据可视化工具

无论是在行政演示中为数据点创建一个可视化进程,还是用可视化概念来细分客户,数据可视化都显得尤为重要.本文将推荐39个可用于处理大数据的可视化工具. <img class="size-full wp-image-407608 aligncenter" src="http://image.woshipm.com/wp-files/2016/09/dashuju-1.png" alt="dashuju-1" width="

大数据入门基础系列之初步认识大数据生态系统圈(博主推荐)

之前在微信公众平台里写过 大数据入门基础系列之初步认识hadoop生态系统圈 http://mp.weixin.qq.com/s/KE09U5AbFnEdwht44FGrOA 大数据入门基础系列之初步认识大数据生态系统圈 1.概述 最近收到一些同学和朋友的邮件,说能不能整理一下 Hadoop 生态圈的相关内容,然后分享一些,我觉得这是一个不错的提议,于是,花了一些业余时间整理了 Hadoop 的生态系统,并将其进行了归纳总结,进而将其以表格的形式进行了罗列.涉及的内容有以下几点: 分布式文件系统

2017最新大数据零基础视频教程下载

2017零基础大数据就业课程(全网最全,856课时) 课程观看地址:http://www.xuetuwuyou.com/course/181 课程出自学途无忧网:http://www.xuetuwuyou.com 本套课程是风舞烟老师团队历时四个月打造的全网最全的一套大数据就业课程.可以说是完全0编程基础起步,一部到就业!课程分2大模块,14个课程,65章,共计856课时! 课程大纲: 一.Java模块课程 课程一.[大数据必知必会]- Java负基础扫盲篇 01.Java基础语法.变量.数据类

跟风舞烟学大数据可视化-Echarts从入门到上手实战

跟风舞烟学大数据可视化-Echarts从入门到上手实战 课程观看地址:http://www.xuetuwuyou.com/course/180 课程出自学途无忧网:http://www.xuetuwuyou.com 课程讲师:风舞烟 课时数:三个模块,共70课时   一.课程特色: 1.最全的Echarts课程讲解     70学时课时量,360度全方位,无死角的课程设计,让你通透Echarts可视化技术 2.最适合小白学员学习的课程,没有之一     只要你了解一点基本的Html,CSS,Ja

大数据可视化设计在信息安全领域的案例分析

大数据可视化是个热门话题,在信息安全领域,也由于很多企业希望将大数据转化为信息可视化呈现的各种形式,以便获得更深的洞察力.更好的决策力以及更强的自动化处理能力,数据可视化已经成为网络安全技术的一个重要趋势. 一.什么是网络安全可视化 攻击从哪里开始?目的是哪里?哪些地方遭受的攻击最频繁--通过大数据网络安全可视化图,我们可以在几秒钟内回答这些问题,这就是可视化带给我们的效率.大数据网络安全的可视化不仅能让我们更容易地感知网络数据信息,快速识别风险,还能对事件进行分类,甚至对攻击趋势做出预测.可是

55个最实用的大数据可视化分析工具

俗话说的好:工欲善其事,必先利其器!一款好的工具可以让你事半功倍,尤其是在大数据时代,更需要强有力的工具通过使数据有意义的方式实现数据可视化,还有数据的可交互性:我们还需要跨学科的团队,而不是单个数据科学家.设计师或数据分析员:我们更需要重新思考我们所知道的数据可视化,图表和图形还只能在一个或两个维度上传递信息, 那么他们怎样才能与其他维度融合到一起深入挖掘大数据呢?此时就需要倚仗大数据可视化(BDV)工具,因此,笔者收集了适合各个平台各种行业的多个图表和报表工具,这些工具中不乏有适用于NET.

大数据可视化分析平台新应用:提升企业的数字营销策略

数字化时代,催生了不少社交媒体和搜索引擎公司.无论是国内还是国外乃至全球,社交媒体的势力愈加强大,与此也产生了大量的数据,成为大数据中的一部分.企业发展到一定地步,免不了大大小小的决策,这驱使着越来越多的企业选择商业智能产品——大数据可视化分析平台来合理利用它们积累的数据基础. 如今,从Facebook到Instagram,许多社交媒体渠道现在正在淹没在大量数据中.每天,超过400万小时的视频内容上传到YouTube,而每天有43亿条消息在Facebook网上发布. 随着可用于分析的数据量继续呈