大数据具体是什么意思?虽然都知道高薪,但如何学习大数据呢?有哪些学习路径和方法?今天我们就来具体看一下
大数据是什么?
来看看维基百科的定义
大数据(英语:Big data或Megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。
在总数据量相同的情况下,与个别分析独立的小型数据集相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。
上面那段看起来比较绕,可以一起看看通俗解释:
如果你是负责做淘宝网的产品推荐工作的,想知道购买首饰的用户是否也会购买电子产品,然后再决定是否给三星做推荐。
在这种条件下就需要调用前一段时间(例如一年)的用户数据,只有通过大量数据的证明才能确认两者是否有关联性,如果使用传统数据处理方法,就会耗费大量时间,等确认正相关的时候,三星的促销期都已经过去了,而像淘宝、京东等每天数据量动辄以TB计数,要迅速处理、分析并给出精准恰当的投放推荐,这就是大数据的作用。
.在入门学习大数据的过程当中有遇见学习,行业,缺乏系统学习路线,系统学习规划,欢迎你加入我的大数据学习交流裙:××× ,裙文件有我这几年整理的大数据学习手册,开发工具,PDF文档书籍,你可以自行下载。
与大数据相关的工作?
在美国,与大数据相关的职位统称为“数据科学家”;而在国内,与大数据相关的岗位则细分得多,主要分为数据分析、数据挖掘、数据工程师、数据架构师四类。
?数据分析:运用工具,提取、分析、呈现数据,实现数据的商业意义
?数据挖掘:机器学习,算法实现
?数据工程师:开发运用简单数据工具,实现数据建模等功能,需要业务理解
?数据架构师:高级算法设计与优化;数据相关系统设计与优化,有垂直行业经验最佳
关于大数据学习
很多人在问大数据处理技术怎么学习?
在这里,对于大数据工程师,我们给出一个具体的学习路径
java基础----linux----hadoop-----hive、hbase----scala—spark
首先我们要学习Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。
Java:大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?
只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts、Spring、Hibernate,Mybatis都是JavaEE方向的技术在大数据技术里用到的并不多,只需要了解就可以了;
当然Java怎么连接数据库还是要知道的,像JDBC一定要掌握一下,有同学说Hibernate或Mybites也能连接数据库啊,为什么不学习一下,我这里不是说学这些不好,而是说学这些可能会用你很多时间,到最后工作中也不常用,我还没看到谁做大数据处理用到这两个东西的,当然你的精力很充足的话,可以学学Hibernate或Mybites的原理,不要只学API,这样可以增加你对Java操作数据库的理解,因为这两个技术的核心就是Java的反射加上JDBC的各种使用。
Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。
其他的技术顺次学习就可以了。
另外2个基础的学科,也是必须要修炼的:
?统计学
?计算机(或许还能加上点机器学习的知识)
这两门学科是大数据基础中的基础,跨过这两道坎就有了从事大数据工作的资格。所以也有人说,大数据工程师是一个精通统计学的程序员,而不会编程的统计狗也不是好的大数据专家。
统计学:多元统计分析、应用回归
计算机:R、python、SQL、数据分析、机器学习
matlab和mathematica两个软件也是需要掌握的,前者在实际的工程应用和模拟分析上有很大优势,后者则在计算功能和数学模型分析上十分优秀,相互补助可以取长补短。
原文地址:https://blog.51cto.com/14296550/2445349