北京上海Cloudera Hadoop大数据培训:CCAH(管理员)、CCA(Spark and Hadoop)
北京9月27-30日Cloudera Administrator Training for Apache Hadoop(CCAH)
上海9月27-30日Cloudera Administrator Training for Apache Hadoop(CCAH)
北京10月17-20日Cloudera Data Analyst Training
上海10月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175)
【其他课程安排请咨询】400-679-6113
Cloudera大数据 478790619
课程内容:
【Cloudera Apache Hadoop管理员课程】
课时:4天
学习系统管理的概念和Apache Hadoop的最佳实践,
从安装和配置到负载均衡和调优。
这个4天的的课程通过动手时间来赋予你部署的经验,
以及更多的安全方面的经验和故障排除。
课程结束后,学员被鼓励去参加Cloudera和Apache Hadoop管理员(CCAH)考试。
【课程内容】
1、Hadoop分布式文件系统(HDFS)
2、YARN/MapReduce的工作原理
3、如何优化Hadoop机群所需要的硬件配置
4、搭建Hadoop机群所需要考虑的网络因素
5、Hadoop机群维护和控制
6、如何利用Hadoop配置选项进行系统性能调优
7、如何利用FairScheduler为多用户提供服务级别保障
8、Hadoop机群维护和监控
9、如何使用Flume从动态生成的文件加载到Hadoop
10、如何使用Sqoop从关系型数据加载数据
11、Hadoop生态系统工具(如Hive、Impala、Pig和Base)
【学员基础】
具备基本Linux系统管理经验。不需要事先掌握Hadoop相关知识。
【授课形式】
案例教学+上机实践
【Cloudera Apache Hadoop开发者课程】
课时:4天
【课程内容】
什么是Spark?
回顾:从Hadoop MapReduce到Spark
回顾:HDFS
回顾:YARN
spark概述
spark Shell的使用
RDDS(弹性分布式数据集)
Spark中的函数式编程
创建RDDs
其它通用RDD操作
键值对RDD(Pair RDDs)
Map-Reduce
其它键值对RDD(Pair RDDS)操作
Spark应用程序vs. Spark Shell
创建SparkContext
建立Spark应用程序(Scala和java)
运行Spark应用程序
Spark应用程序网页用户界面(Web UI)
配置Spark属性
日志记录
回顾:集群上的Spark
RDD分区
基于文件RDDs的分区
HDFS和数据本地性
执行并行操作
阶段和任务
RDD沿袭
RDD持久化概述
分布式持久化
Spark Streaming概述
实例:流请求计数
DStreams
开发Spark Streaming应用程序
多批处理操作
状态操作
滑动窗口操作
高级数据源
通用的Spark使用案例
Spark中的迭代算法
图处理与分析
机器学习
实例:K-means
共享变量:广播变量(Broadcast Variables)
共享变量:累加器(Accumulators)
常见性能问题
诊断性能问题
SparkSQL和SQL Context
创建DataFrames
DataFrames转化和查询
保存DataFrames
DataFrames和RDDS
SparkSQL,Impala和Hive-on-Spark的比较
【学员基础】
具备项目经验;熟悉Python与Scala;熟悉MySQL会有帮助
【授课形式】
案例教学+上机实践