大数据学习可以基本分为六大模块:
一。linux
1.Linux基础和分布式集群技术学完此阶段可掌握的核心能力:熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构;学完此阶段可解决的现实问题:搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量,保证服务不间断地对外服务;学完此阶段可拥有的市场价值:具备初级程序员必要具备的Linux服务器运维能力。1.内容介绍:在大数据领域,使用最多的操作系统就是Linux系列,并且几乎都是分布式集群。该课程为大数据的基础课程,主要介绍Linux操作系统、Linux常用命令、Linux常用软件安装、Linux网络、防火墙、Shell编程等。2.案例:搭建互联网高并发、高可靠的服务架构。
二: MapReduce、Hadoop 集群
在学习MAPREDUCE后,我们了解:1 MAPREDUCE快速上手为什么需要MAPREDUCE、MAPREDUCE程序运行演示、MAPREDUCE编程示例及编程规范、MAPREDUCE程序运行模式、MAPREDUCE程序调试debug的几种方式。2 MAPREDUCE程序的运行机制MAPREDUCE程序运行流程解析、MAPTASK并发数的决定机制、MAPREDUCE中的combiner组件应用、MAPREDUCE中的序列化框架及应用、MAPREDUCE中的排序、MAPREDUCE中的自定义分区实现、MAPREDUCE的shuffle机制、MAPREDUCE利用数据压缩进行优化、MAPREDUCE程序与YARN之间的关系、MAPREDUCE参数优化通过以上各组件的详解,深刻理解MAPREDUCE的核心运行机制,从而具备灵活应对各种复杂应用场景的能力
Hadoop核心技术框架学完此阶段可掌握的核心能力:1、通过对大数据技术产生的背景和行业应用案例了解hadoop的作用;2、掌握hadoop底层分布式文件系统HDFS的原理、操作和应用开发;3、掌握MAPREDUCE分布式运算系统的工作原理和分布式分析应用开发;4、掌握Hive数据仓库工具的工作原理及应用开发。学完此阶段可解决的现实问题:1、熟练搭建海量数据离线计算平台;2、根据具体业务场景设计、实现海量数据存储方案;3、根据具体数据分析需求实现基于mapreduce的分布式运算程序;学完此阶段可拥有的市场价值:具备企业数据部初级应用开发人员的能力
三、hive/impala
这章学习了HIVE应用场景、HIVE内部架构、HIVE与hadoop的关系、HIVE与传统数据库对比、HIVE的数据存储机制、HIVE的运算执行机制。
学完此阶段可掌握的核心能力:
1、通过对数据仓库知识的加强初步掌握数据仓库的核心概念和设计流程;
2、通过对HADOOP生态圈关键辅助工具的学习掌握hadoop分析系统的整合能力;
3、通过电商系统点击流日志数据挖掘系统实战项目,掌握hadoop离线数据挖掘系统从数据采集、入库、分析及报表展现的整套流程。
学完此阶段可解决的现实问题:
1、可根据企业具体场景设计海量数据分析系统的通用架构
2、根据具体场景的特点有针对性地调整数据分析各环节的技术选型;
3、根据具体需求搭建起整套离线数据分析系统;
4、简单数据仓库模型的设计和架构
5、各环节具体功能模块的开发实现学完此阶段可拥有的市场价值:具备企业数据部中高级应用开发和初级架构师能力
四、python
是否具备code的能力是数据分析的一个分水岭,senior的数据分析师会至少精通一种数据分析语言,并且如果想做数据挖掘,网络爬虫,交互可视化等等都是需要一定的代码处理和理解能力的。这里主要说Python,就我理解Python是一种万能的语言,适用性非常强,除了数据分析还能够做很多的事情,比如编写程序,网站开发,深度学习等等。如果你决定使用Python,那么你需要了解的点主要是各种包的搜索和调用,函数的编写和嵌套,数据类型的把握(list, tuple, series, dict),条件判断,循环迭代等等。最好的开发环境推荐Anaconda。
五、流式计算
1.流式计算核心技术流式计算核心技术主要分为两个核心技术点:Storm和Kafka,学完此阶段能够掌握Storm开发及底层原理、Kafka的开发及底层原理、Kafka与Storm集成使用。具备开发基于storm实时计算程序的技术能力。学完此阶段可掌握的核心能力:(1)、理解实时计算及应用场景(2)、掌握Storm程序的开发及底层原理、掌握Kafka消息队列的开发及底层原理(3)、具备Kafka与Storm集成使用的能力
六、机器学习
首先是数学:线性代数、数学分析、概率论和数理统计。其次是机器学习基础。基本功要打扎实。
接下来就是我总结的学习资源推荐:
01.Apache 官网
02.Stackoverflow
04.github
03.Cloudra官网
04.Databrick官网
05.过往的记忆(技术博客)
06.CSDN,51CTO
07.至于书籍当当一搜会有很多,其实内容都差不多
原文地址:http://blog.51cto.com/12682031/2073544