【数据可视化 参考资料】

数据挖掘:用可视化效果展现你的数据

【编者按】本文作者星河里的章鱼喵,文章通过介绍Visualization 即可视化,罗列了数据的展现方式。对于数据分析最困难的一部分就是数据的展示,解读数据之间的关系,清晰有效的传达并且沟通数据信息。

对于数据挖掘,我们可以通过文中对数据可视化的案例找到分析数据、展现数据的方法和思路。

Data visualization 是一件很有趣的事情。最近在尝试处理数据,便顺手翻了翻 visualization 的进展,然后除了 IBM 大名鼎鼎的的 many-eyes 。

还有一个比较好有意思的网站是visualizing。Visualizing 跟 many-eyes 很像,都是社区形式的网站,用户可以注册然后上传,而且网站还有积累下来的很多数据供用户使用。

当然我不是为了介绍这个网站才写这篇 post 的,写 post 是一个记笔记的过程,如果我不能从中学到什么,就有点浪费时间了。下面进入正题,我尝试总结一下 visualization 的时候的几个可用的经验。

应该使用何种形式来表现数据

从 visualizing.org 的分类中提取出来的有用的形式包括(不过说实话这样分类并不是很好用)

  1. Chart
  2. Time series
  3. Map
  4. Flow
  5. Matrix
  6. Network
  7. Hierarchy
  8. Info-graphic

要可视化的数据可以分几类(我想的不全面,欢迎补充,共同学习)

有一系列对象,他们之间相互有关联

写成 A↔B 粗体的拉丁字母表示一系列对象,比如一系列地点。

这种情况下因为要展示数据之间相互关系,所以实质上是一个 network 图,不过通过一些技巧可以把简单的 network 图变成更好的形式。

方式一:使用转换成 flow 图。通过把对象列出两遍来是的原本应该是一个比较复杂难以看清的 network 变成了清晰易查找的 flow。

这类图中我喜欢的一个是 people moving 的 flow

这个 flow 图非常好的展示了从一个国家移民到另一个国家,上面的截图就是人们移居(migrate,是移民么?)到加拿大的情况,可以看到中国(CH)移民到加拿大的还是比较多的。通过这样的 flow,我们可以很容易很直观的分析数据。

方式二:圈形的 network 图。为什么要做出圈形呢?因为圈形可以使得连线集中在圈内部,而且可以减少数据交叉。通过 interactive design,可以使得连线无交叉。比如这个 Migrants moving money

这个截图是中国的侨款,也就是中国移民所寄回祖国中国的钱数。可以看排除香港地区,美国是最大的来源。

事实上这种方法与第一种本质是相同的。

方式三:network 图。通过点和连线来关联。例子比如Attractions of Councils: WEF GAC interlink survey

但是这个图实际上并不好。而且有时候,线条是可以去掉的,比如这个国际航班的可视化

Click a nation to see all connected nations via flights. Click again to see arranged nations based on the distance. Double-click the background to reset.

截图:

方式四:使用 table。不过为了更直观,使用面积等方式来代表数据的大小。

比如 10 个人任意两个人之间相互按照对对方的好感程度打分,为了展示任意两个人 A 和 B 之间相互的好感程度,可以使用颜色柱来展示,选定一个作为两个人好感程度相同,颜色柱之上的颜色表示 A 对 B 的好感大于 B 对 A 的好感,反之亦然。

这里有个 council 之间的例子,截图如下:

层级数据,数据之间可以分成几个层级关系

就是 Hierarchy 图,不过有时候可以省掉连线。

比如这个 soft drink 的 hierarchy 图

从这张截图立刻可以看到 coca-cola 和 pepsi 的庞大,通过原网页可以自由的放大缩小来查看不同的公司的产品。

这样的 hierarchy 图要比单调的并列的整整齐齐的列举要包含了更多的信息,因为圆圈的大小可以表示数据的一个维度,甚至还可以引入颜色等等来表示更多的维度。

简单的两维数据,比如某种现象出现的频数

方式一:使用 Histogram。这是比较经典的选择,即使用矩形或者线条的长度来表示数据的大小。例如这个关于能源的 visualization

方式二:使用树图(Tree map),使用面积表示数据的大小。这里有个 UN 的 Global Pulse Visualization 的例子

方式三:使用散点,使用散点的大小或者颜色等属性来表示数据的大小。

一个很优秀的例子是学生坐座位习惯的例子,截图:

事实上 tag page 也是属于这类,我们可以通过每个 tag 的大小颜色等等来标示数据的大小。

坐标数据

除了可以使用上面说提到的方式,对于坐标数据,有个特点是可以绘制地图(Map),而 Map 可以与其他形式结合,比如 flow。一个比较好的例子是关于我们坐飞机的一张图,截图如下:

图片上部的地图是飞行的出发城市,下部的地图是终点城市。更多内容可以查看UCSB的这个站点,其中提供了 demo 软件。

不同 visualization 的结合

前些时候,以为天文学家 Goodman 写过一篇关于高维天文数据可视化的论文,其中提到了 linked views 很重要,就是说我们要多种可视化方式联合起来展示数据,我截取论文中一张图片来说明。

不同的 visualization 结合起来对数据进行多角度的呈现,可以使我们对数据有更深刻的理解。所以 data mining 实际上是一个应用非常广泛的专业,一个 data mining 专业的学生在现在这种天文专业被大量数据所轰炸(有篇论文就是说 data tsunami 时代)真是个宝贝啊。

有一个不错的历史方面的数据可视化例子,把时间线和地图集合起来展示的,这个方案实际是一种深层次的 linked views: Conflict History of the World

一些有用的工具

1、http://en.wikipedia.org/wiki/Data_visualization 自然要先查看一下 wikipedia 啦啦啦~

2、visualizing.org 有个列表:

3、http://selection.datavisualization.ch/ 列举了很多有用的工具。

4、https://github.com/blprnt/Kepler-Visualization This is a Processing sketch to visualize data from NASA’s Kepler mission.

5、http://flowingmedia.com/timeflow.html Time Flow is an open-source timeline built to help journalists analyze temporal data. The application offers several view modes–timelime, calendar, list, table–to help explore thousands of data points.

6、http://mapbox.com/ Mapbox is a tool for map making.

Data Visualization 的机构/组织/社区

1、http://envisioningtech.com/

有些不错的 data visualization,比如(图片来自 envisioningtech.com)

2、IBM 的 Many-eyes.com

这个一开始提到了,是个 visualization 的社区。

3、http://datavisualization.ch/

之前提到过它的工具列表了。这个网站是

Datavisualization.ch is the premier news and knowledge resource for data visualization and infographics.

4、http://visual.ly/

一个类似 data visualization 社区的网站。

5、http://visualization.geblogs.com/

来自 GE 的例子。

6、http://oicweave.org/

Web-based Analysis and Visualization Environment



本文所用的数据按照 visualizing.org 所标示,使用 CC BY-NC-SA 协议,除了明确指明的图片,其他图片皆出自 visualizing.org。

好了讲完了,可以用 exoplanets.org 的数据来玩玩。

参考资料:

大数据和数据可视化的重要性:http://www.ciotimes.com/bigdata/110469.html

21款酷炫的数据可视化工具,拿走不谢!:http://www.woshipm.com/xiazai/216656.html

国云数据魔镜:http://www.moojnn.com/index.html

盘点:55个最实用大数据可视化分析工具:http://tech.it168.com/a2015/0318/1712/000001712286.shtml

数据挖掘:用可视化效果展现你的数据:http://www.leiphone.com/news/201406/warlial-visualization.html

30 个最好的数据可视化工具推荐:http://www.iteye.com/news/28936/

全球最牛的28个大数据可视化应用案例(四):http://mt.sohu.com/20160226/n438541718.shtml

时间: 2024-10-27 07:28:48

【数据可视化 参考资料】的相关文章

遇见大数据可视化:基础研究

近日星巴克与微信推出的社交礼品功能"用星说",可以说刷遍了朋友圈.无论你爱不爱喝咖啡,星巴克似乎都成为了一种文化象征.上班族青睐,小清新喜欢,基本上大家看到绿色的人鱼标志就能马上认出它来. 虽然一直也有喝咖啡的习惯,但至今不知道星巴克菜单版上列的[摩卡].[拿铁].[美式].[卡布奇诺]等等有什么区别.直到看到下列图,才很直观的了解到每个咖啡类别的区别是什么. 类似上图示,针对内容复制,难以形象表达的信息,通过图形简单清晰地向受众呈现出来,这种图称之为信息图. 信息图 信息图本身是一个

Linux 上的数据可视化工具

Linux 上的数据可视化工具 5 种开放源码图形化工具简介 Linux® 上用来实现数据的图形可视化的应用程序有很多,从简单的 2-D 绘图到 3-D 制图,再到科学图形编程和图形模拟.幸运的是,这方面的工具有很多开放源码实现,包括 gnuplot.GNU Octave.Scilab.MayaVi.Maxima 等.每个工具都有自己的优缺点,并且都是针对不同的应用程序而设计的.对这些开放源码图形可视化工具进行一下探索,有助于我们更好地决定哪个工具最适合我 们的应用程序. 0 评论: M. Ti

ROS数据可视化工具Rviz和三维物理引擎机器人仿真工具V-rep Morse Gazebo Webots USARSimRos等概述

ROS数据可视化工具Rviz和三维物理引擎机器人仿真工具V-rep Morse Gazebo Webots USARSimRos等概述 Rviz Rviz是ROS数据可视化工具,可以将类似字符串文本等枯燥的数据以二维或三维等非常形象的可视化方式进行显示,如下:   除此之外,也是重要的人机交互界面,如下以一个六足机器人为例: 单足(初始--调整):           数值结果如下: --- header: seq: 9034 stamp: secs: 1487127789 nsecs: 815

Python进阶(四十)-数据可视化の使用matplotlib进行绘图

Python进阶(四十)-数据可视化の使用matplotlib进行绘图 前言 ??matplotlib是基于Python语言的开源项目,旨在为Python提供一个数据绘图包.我将在这篇文章中介绍matplotlib API的核心对象,并介绍如何使用这些对象来实现绘图.实际上,matplotlib的对象体系严谨而有趣,为使用者提供了巨大的发挥空间.用户在熟悉了核心对象之后,可以轻易的定制图像.matplotlib的对象体系也是计算机图形学的一个优秀范例.即使你不是Python程序员,你也可以从文中

d3.js:数据可视化利器之快速入门

hello,data! 在进入d3.js之前,我们先用一个小例子回顾一下将数据可视化的基本流程. 任务 用横向柱状图来直观显示以下数据: var data = [10,15,23,78,57,29,34,71]; 简单地思考一下,要完成这个任务有两个问题需要解决: 用什么可视元素来表现横向柱? 数据对应到可视元素的什么属性? 这个不算困难,我们使用HTML的DIV元素来实现,代码参见http://www.hubwiz.com/course/54fd40cfe564e50d50dcf284/:快速

Python - matplotlib 数据可视化

在许多实际问题中,经常要对给出的数据进行可视化,便于观察. 今天专门针对Python中的数据可视化模块--matplotlib这块内容系统的整理,方便查找使用. 本文来自于对<利用python进行数据分析>以及网上一些博客的总结. 1  matplotlib简介 matplotlib是Pythom可视化程序库的泰斗,经过几十年它仍然是Python使用者最常用的画图库.有许多别的程序库都是建立在它的基础上或直接调用它,比如pandas和seaborn就是matplotlib的外包, 它们让你使用

地理数据可视化:Simple,Not Easy

如果要给2015年的地理信息行业打一个标签,地理大数据一定是其中之一.在信息技术飞速发展的今天,“大数据”作为一种潮流铺天盖地的席卷了各行各业,从央视的春运迁徙图到旅游热点预测,从大数据工程师奇货可居到马云布道“DT”时代,“大数据”被推到了一个前所未有的高度,连国家领导人出访演讲都言必称大数据.地理信息数据天生具有大数据属性,作为整天和地理信息数据打交道的地信人自然不甘落后,地理大数据概念脱颖而出. 地理大数据是什么?大体来说就是把社会经济.自然资源.商业信息等但凡具有一点空间维度的数据一股脑

数据可视化-gojs插件使用技巧总结

随着云计算时代的到来,由于Web技术的快速革新以及为了提供高质量的用户体验,数据可视化成为了前端技术发展的一大方向.为了解决这个问题,现如今涌现了很多优秀的第三方的javascript图形库,比如highcharts.js,echarts.js,d3.js,go.js- 数据可视化javascript插件对比 在HTML5标准支持下,web实现图形标准主要分为canvas和svg,上述的javascript图形库都是依赖2者之一作为底层库.Canvas基于像素,提供2D绘制函数,是一种HTML标

蒋步星:数据可视化技术的误区

所谓数据可视化是指把数据以图形动画以及地图等形式呈现出来,这样即直观又美观,易于理解从而看出数据背后的问题. 要做好数据可视化,需要两方面的能力.一是"艺术"能力,即知道什么样的数据用什么形式去表现最合适,该用柱图时不能用饼图,颜色搭配也要合理,另一个是"技术"能力,设计好的呈现方案还要能真地做出来,并且要把成本控制在可接受范围内.这里我们不深入讨论"艺术"问题,来看看考察和选择可视化技术中的一些常见误区. 误区|考察报表,挑可视化技术最好? 报