大数据分析学习必须用到的工具,一定要收藏

简单来说,我们可以把大数据分析工具简单分成两个维度:

第一维度:数据存储层——数据报表层——数据分析层——数据展现层

第二维度:用户级——部门级——企业级——BI级

1、数据存储层

数据存储涉及到数据库的概念和数据库语言,这方面不一定要深钻研,但至少要理解数据的存储方式、数据的基本结构和数据类型。SQL查询语言必不可少,精通最好。可从常用的select查询,update修改,delete删除,insert插入的基本结构和读取入手。

Access2003. Access07等 ,这是最基本的个人数据库,经常用于个人或部分基本的数据存储;MySQL数据库,这个对于部门]级或者互联网的数据库应用是必要的,这个时候关键掌握数据库的库结构和SQL语言的数据查询能力;

SQL Server 2005或更高版本,对中小企业, - -些大型企业也可以采用SQL Server数据库,其实这个时候本身除了数据存储,也包括了数据报表和数据分析了,甚至数据挖掘工具都在其中了;

DB2,Oracle数据库都是大型数据库了,主要是企业级,特别是大型企业或者对数据海量存储需求的就是必须的了, 一般大型数据库公司都提供非常好的数据整合应用平台;

BI级别,实际上这个不是数据库,而是建立在前面数据库基础上的,企业级应用的数据仓库。DataWarehouse,建立在DW级上的数据存储基本上都是商业智能平台,整合了各种数据分析,报表、分析和展现! BI级别的数据仓库结合BI产品也是近几年的大趋势。

.在入门学习大数据的过程当中有遇见学习,行业,缺乏系统学习路线,系统学习规划,欢迎你加入我的大数据学习交流裙:251956502 ,裙文件有我这几年整理的大数据学习手册,开发工具,PDF文档书籍,你可以自行下载。

2、报表层

企业存储了数据需要读取,需要展现,报表工具是最普遍应用的工具,尤其是在国内。传统报表解决的是展现问题,目前国内的帆软报表FineReport已经算在业内做到顶尖,是带着数据分析思想的报表,因其优异的接口开放功能、填报、表单功能,能够做到打通数据的进出,涵盖了早期商业智能的功能。

Tableau,同FineBI一样,可分在报表层也可分为数据展现层。FineBI和Tableau同属于近年来非常棒的软件,可作为可视化数据分析软件,我常用FineBI从数据库中进行报表和可视化分析。相对而言,可视化Tableau更优,但FineBI又有另一种身份——商业智能,所以在大数据处理方面的能力更胜一筹。

3、数据分析层

这个层其实有很多分析工具,当然我们最常用的就是Excel ,我经常用的就是统计分析和数据挖掘工具;

Excel软件,首先版本越高越好用这是肯定的;当然对Excel来讲很多人只是掌握了5%Excel功能,Excel功能非常强大,甚至可以完成所有的统计分析工作!但是我也常说,有能力把Excel玩成统计工具不如专门学会统计软件;

SPSS软件:当前版本是18,名字也改成了PASW Statistics ;我从3.0开始Dos环境下编程分析,到现在版本的变迁也可以看出SPSS社会科学统计软件包的变化,从重视医学、化学等开始越来越重视商业分析,现在已经成为了预测分析软件;

SAS软件: SAS相对SPSS其实功能更强大,SAS是平台化的,EM挖掘模块平台整合,相对来讲,SAS比较难学些,但如果掌握了SAS会更有价值,比如离散选择模型,抽样问题,正交实验设计等还是SAS比较好用,另外, SAS的学习材料比较多,也公开,会有收获的!

JMP分析: SAS的一个分析分支

XLstat : Excel的插件,可以完成大部分SPSS统计分析功能

4、表现层

表现层也叫数据可视化,以上每种工具都几乎提供了一点展现功能。FineBI和Tableau的可视化功能上文有提过。其实,近年来Excel的可视化越来越棒,配上一些插件,使用感更佳。

PPT:办公常用,用来写数据分析报告;

Xmind&百度脑图:梳理流程,帮助思考分析,展现数据分析的层次;

Xcelsius软件:Dashboard制作和数据可视化报表工具,可以直接读取数据库,在Excel里建模,互联网展现,最大特色还是可以在PPT中实现动态报表。

最后,需要说明的是,这样的分类并不是区分软件,只是想说明软件的应用。有时候我们把数据库就用来进行报表分析,有时候报表就是分析,有时候分析就是展现;当然有时候展现就是分析,分析也是报表,报表就是数据存储了!

原文地址:https://blog.51cto.com/14296550/2415765

时间: 2024-11-06 09:31:02

大数据分析学习必须用到的工具,一定要收藏的相关文章

大数据分析学习之路

大数据分析学习之路 目录: 一.大数据分析的五个基本方面 二.如何选择适合的数据分析工具 三.如何区分三个大数据热门职业 四.从菜鸟成为数据科学家的 9步养成方案 五.从入门到精通--快速学会大数据分析                             一.大数据分析的五个基本方面 1,可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一

大数据分析学习之使用R语言实战机器学习视频课程

大数据分析学习之使用R语言实战机器学习网盘地址:https://pan.baidu.com/s/1Yi9H6s8Eypg_jJJlQmdFSg 密码:0jz3备用地址(腾讯微云):https://share.weiyun.com/5tk6j1Z 密码:rdia9t 机器学习的核心主要侧重于找出复杂数据的意义.这是一个应用广泛的任务,机器学习的使用是非常广泛的. 本课程主要分为两个阶段,第一个部分:掌握R语言的处理数据的基本语法.第二部分:介绍机器学习原理,并通过大量的案例,为学员介绍R语言通过机

保护【大数据】应用的步骤和工具

大数据应用的安全性方面往往被忽视或者被视为次要的需求.但是,数据的安全性在数据处理过程有着十分巨大的影响.本文将介绍一些保护大数据应用的步骤和工具. 随着大数据在不同的领域蔓延,安全方面受到越来越多的关注.以前,我们使用具有中心控制的安全系统,但这并不足以保护你的应用程序免受入侵.大数据带来了另外一些安全关切问题,与正常的应用程序有很大不同. 在当今世界,安全性相关的探索非常困难,前进方向也难以界定.整个软件系统中实现合适的端至端安全系统是非常昂贵的.总有一个突破安全防护的可能性存在,无论你遵循

Hadoop和大数据:60款顶级开源工具

虽然此文尽力做到全面,但难免遗漏,欢迎大家补充,点击文末右下角"写评论",分享你的观点. 说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,"100%的大公司"会采用Hadoop.Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长:到2020年,市场产值会超过10亿美元.IBM更是非

大数据从业者应该知道的开源工具

前言 想要成为大数据工程师这些开源工具你要有所了解 一.Hadoop相关工具 1. Hadoop Apache的Hadoop项目已几乎与大数据划上了等号.它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算. 支持的操作系统:Windows.Linux和OS X. 相关链接:http://hadoop.apache.org 2. Ambari 作为Hadoop生态系统的一部分,这个Apache项目提供了基于Web的直观界面,可用于配置.管理和监控Hadoop集群.有些开

python数据分析学习(2)pandas二维工具DataFrame讲解

目录 二:pandas数据结构介绍 ??下面继续讲解pandas的第二个工具DataFrame. 二:pandas数据结构介绍 2.DataFarme ??DataFarme表示的是矩阵的数据表,包含已排序的列集合,是一个二维数据工具.每一列可以是不同的数据类型值.它既有行索引又有列索引,可以看作是一组共享相同索引的Series对象.DataFarme的数组方法有很多,比如用index.name获取某列的值,用values获取行的值.这里先介绍一些常用的知识. ??(1)构建DataFrame

spark快速大数据分析学习笔记*初始化sparkcontext(一)

初始化SparkContext 1// 在java中初始化spark 2 import org.apache.spark.SparkConf; 3 import org.apache.spark.api.java.JavaSparkContext; 4 5 SparkConf conf=new SparkConf().setMaster("local").setAppName("my app"); 6 //集群url:本例是运行在本地单机local:应用名,可以在集

spart快速大数据分析学习提纲(一)

Spart是什么 Spart是一个用来实现快速而而通用的集群计算平台. 在速度方面,Spart扩展了广泛使用的Mapreduce计算模型,而且高效的支持更多的计算模式,包括交互式查询和流处理.Spart的一个主要特点是能够在内存中进行计算,因而更快.即使必须在硬盘上进行复杂计算,Spart依然比Mapreduce快. Spart适用于各种各样原先需要多种不同分布式平台的场景,包括批处理,迭代算法,交互式查询,流处理.通过在一个统一的框架下支持这些不同的计算,Spart使我们可以简单而低耗的把各种

大数据工具千千万,到底谁才是最强王者?

外面有成千上万的大数据工具.它们都承诺可以为你节省时间和资金,并帮助发掘之前从来见过的业务洞察力.虽然确实如此,可是面对那么多的选择,想理清这么多的工具谈何容易. 哪一种工具适合你的技能组合?哪一种工具适合你的项目? 为了替你节省一点时间,并帮助你首次选对工具,我们列出了我们青睐的几款数据工具,涉及数据提取.存储.清理.挖掘.可视化.分析和整合等领域. 数据存储和管理 如果你准备处理大数据,就要考虑该如何存储大数据.大数据得到"大"这个名号,一方面在于,大数据太庞大了,传统系统处理不了