这几年来大数据非常的热门,到处都有大数据分析的演讲。 演讲内容通常是宣传各种大数据分析成功的案例。 但实际上大数据该怎么做呢? 大部份的讨论似乎都仅止于怎么搜集大量的数据, 然后用个工具(hadoop/spark)后就会马上变出商机和钱来。大数据技术最重要的核心在于如何设计可以高性能处理大量数据的程式 (highly scalable programs.)
学习大数据开发不能急于求成,要分阶段分步骤来一步步完成,大概可以分为四步:
第一个阶段:了解大数据的基本概念
首先,学习一门课程的时候,要对这门课程有一个简单的了解,比如说,要先学习这门课程的一些专业的术语,学习一些入门概念知道这么课程是做什么的,主要的学习知识有哪些。那么学习大数据就必须知道什么是大数据,一般大数据的运用领域是那些,避免自己在对大数据一无所知的情况下就开始盲目学习。
第二个阶段:学习计算机的编程语言
对于零基础的小伙伴们来说,开始入门可能并不是那么容易,需要学习大量的理论知识,阅读枯燥的教材。因为要掌握一门计算机编程语言,还是很难的。大家都知道计算机编程语言有很多,比如:R,C++,Python,Java等等。
第三阶段:大数据有关的学习课程
经过了前两阶段的基础学习后,我们对编程语言也基本掌握了,接下来就可以进行大数据部分的课程学习了。在这里小编要特别提醒大家:行业真正大数据,82%主讲都是hadoop、spark生态体系、storm实时开发,初学者请务必认清你要学的是不是真正大数据!
第四个阶段:项目实战阶段
实战训练可以帮助我们更好的理解所学的内容,同时对相关知识加强记忆。在以后的实际运用中,可以更快的上手,对于相关知识的使用方法也有了经验。世上无难事只怕有心人,无论你是有基础也好还是没基础也好,只要你认真学习大数据就一定会学好。
目前大数据相关工作可以粗分几类。有资料系统串接者, 设计大数据演算法实做的人,以及管理大型丛集 (cluster) 的工程师。 很多人对大数据工程师的理解还停留在资料系统串接者的程度, 以为只要将资料汇入某个神奇系统,就能将自己想要的结果生出来。 但实际上数据量变得很大时,我们往往需要自己客制化自己的资料系统,并且撰写特殊的演算法处理之。 以台湾和美国业界而言,第二种工程师是最稀少也需求量最高的。
原文地址:http://blog.51cto.com/13890787/2162557