非编程篇/可直接上手的工具
1. Excel
Excel是最容易上手的图表工具,善于处理快速少量的数据。结合数据透视表,VBA语言,可制作高大上的可视化分析和dashboard仪表盘。
单表或单图用Excel制作是不二法则,它能快速地展现结果。但是越到复杂的报表,excel无论在模板制作还是数据计算性能上都稍显不足,任何大型的企业也不会用Excel作为数据分析的主要工具。
2. 可视化 BI(Power BI \Tableau \ 帆软FineBI等等)
也许是Excel也意识到自己在数据分析领域的限制和眼下自助分析的趋势,微软在近几年推出了BI工具Power BI。同可视化工具Tableau和国内帆软的BI工具一样,封装了所有可能分析操作的编程代码,操作上都是以点击和拖拽来实现,几款工具的定位稍有不同。
Power BI
最大的明显是提供了可交互、钻取的仪表板,利用Power Pivot可直接生产数据透视报告,省去了数据透视表。
Tableau
可视化图表较为丰富,堪称一等, 操作更为简单。
帆软FineBI
企业级的BI应用,实用性较强,因2B市场的大热受到关注。千万亿级的数据性能可以得到保证,业务属性较重,能与各类业务挂钩。
对于个人,上手简单,可以腾出更多的时间去学习业务逻辑的分析。
编程篇
对于寻求更高境界数据分析师或数据科学家,如果掌握可视化的编程技巧,就可以利用数据做更多的事情。熟练掌握一些编程技巧,赋予数据分析工作更加灵活的能力,各种类型的数据都能适应。大多数设计新颖、令人惊艳的数据图几乎都可以通过代码或绘图软件来实现。
与任何语言一样,你不可能立刻就开始进行对话。要从基础开始,然后逐步建立自己的学习方式。很可能在你意识到之前,你就已经开始写代码了。关于编程最酷的事情在于,一旦你掌握了一门语言,学习其他语言就会更加容易,因为它们的逻辑思路是共通的。
1. Python语言
Python 语言最大的优点在于善于处理大批量的数据,性能良好不会造成宕机。尤其适合繁杂的计算和分析工作,而且,Python的语法干净易读,可以利用很多模块来创建数据图形比较受IT人员的欢迎。
利用 Python 生成的图表
2. PHP语言
PHP这个语言松散却很有调理,用好了功能很强大。在数据分析领域可以用php做爬虫,爬取和分析百万级别的网页数据,也可与Hadoop结合做大数据量的统计分析。
因为大部分 Web 服务器都事先安装了 PHP 的开源软件,省去了部署之类的工作,可直接上手写。
比如 Sparkline(微线表)库,它能让你在文本中嵌入小字号的微型图表,或者在数字表格中添加视觉元素,就像下面这张图一样:
利用 PHP 图形函数库生成的微线表
一般 PHP会和 MY SQL 数据库结合使用,这使它能物尽其用,处理大型的数据集。
3. HTML、JavaScript和 CSS语言
很多可视化软件都是基于web端的,可视化的开发,这几类语言功不可没。而且随着人们对浏览器工作越来越多的依赖,Web 浏览器的功能也越来越完善,借助 HTML、JavaScript 和 CSS,可直接运行可视化展现的程序。
可交互日历,同时也是用户使用 your.flowingdata 的热度图
不过还是有几点需要注意。由于相关的软件和技术还比较新,在不同浏览器中你的设计可能在显示上会有所差别。在 Internet Explorer 6 这类老旧的浏览器中,有些工具可能无法正常运行。比如一些银行单位仍旧使用着IE,无论是自己使用还是开发的时候都要考虑这样的问题。
4. R语言
R语言是绝大多数统计学家最中意的分析软件,开源免费,图形功能很强大。
谈到R语言的历史,它是专为数据分析而设计的,面向的也是统计学家,数据科学家。但是由于数据分析越来越热门,R语言的使用也不瘦那么多限制了。
R的使用流程很简洁,支持 R 的工具包也有很多,只需把数据载入到 R 里面,写一两行代码就可以创建出数据图形。比如利用 Portfolio 工具包快速创建出如下的板块层级图。
比如热度图
R 生成的热度图
当然还有很多传统的统计图表。