CCA Spark and Hadoop 开发者认证技能点【2016只为hadoop达到巅峰】

Required Skills

技能要求:

Data Ingest

数据消化:

The skills to transfer data between external systems and your cluster. This includes the following:

在外部系统和集群之间转移数据的技能,包括以下几个:

  • Import data from a MySQL database into HDFS using Sqoop

    使用sqoop将数据从mysql导入HDFS

  • Export data to a MySQL database from HDFS using Sqoop

    使用sqoop将数据从HDFS导入mysql

  • Change the delimiter and file format of data during import using Sqoop

    使用sqoop导入的时候改变数据的分隔符和文件格式

  • Ingest real-time and near-real time (NRT) streaming data into HDFS using Flume

    使用Flume处理实时和接近实时的流数据导入到HDFS中

  • Load data into and out of HDFS using the Hadoop File System (FS) commands

    使用HDFS 的hadoop FIle System命令导入导出数据

Transform, Stage, Store

转化,筹划,存储

Convert a set of data values in a given format stored in HDFS into new data values and/or a new data format and write them into HDFS. This includes writing Spark applications in both Scala and Python:

将给定的HDFS上的一套数据值转化成为一套新的数据值和数据格式,并且写入到HDFS中。这包括使用Scala和Python编写Spark程序

  • Load data from HDFS and storing results back to HDFS using Spark

    使用Spark从HDFS中加载数据,并且将运算结果写回到HDFS

  • Join disparate datasets together using Spark

    使用Spark合并不同的数据集

  • Calculate aggregate statistics (e.g., average or sum) using Spark

    使用Spark计算汇总统计数据

  • Filter data into a smaller dataset using Spark

    使用Spqrk过滤数据得到更小的数据集

  • Write a query that produces ranked or sorted data using Spark

    使用Spqrk编写查询得到排名或者排序的数据

Data Analysis

数据分析

Use DDL (Data Definition Language) in order to create tables in the Hive metastore for use by Hive and Impala.

使用DDL(数据定义语言)在Hive元数据库中创建表便于hive和impala使用

  • Read and/or create a table in the Hive metastore in a given schema

    使用指定的模式在Hive metastore中读取或者创建一个表

  • Extract an Avro schema from a set of datafiles using avro-tools

    使用avro工具从一套数据文件中提取Avro schema

  • Create a table in the Hive metastore using the Avro file format and an external schema file

    使用Avro 文件格式和一个外部schema 文件在hive metastore中创建一个表

  • Improve query performance by creating partitioned tables in the Hive metastore

    在hive metastore中创建分区来提升查询的效率

  • Evolve an Avro schema by changing JSON files

    改变JSON文件升级Avro schema

Charles 2016-1-1 于Phnom Phen


版权说明:

本文由Charles Dong原创,本人支持开源以及免费有益的传播,反对商业化谋利。

CSDN博客:http://blog.csdn.net/mrcharles

个人站:http://blog.xingbod.cn

EMAIL:[email protected]

时间: 2024-10-29 19:10:52

CCA Spark and Hadoop 开发者认证技能点【2016只为hadoop达到巅峰】的相关文章

上海市信息技术培训中心Cloudera Hadoop管理认证培训

上海市信息技术培训中心Cloudera Hadoop管理认证培训 作为大数据核心技术,Hadoop为企业提供了高扩展.高冗余.高容错.和经济有效的"数据驱动"解决方案,针对企业目前普遍缺乏海量数据技术人员的现状,上海市信息技术培训中心Cloudera Hadoop认证培训系列课程,为企业经理.CTO.架构师.技术带头人.系统管理员.数据管理员.数据/商务分析元和应用开发人员带来了业内最领先并得到全球认可的Apache Hadoop技术培训.该课程由Cloudera指定的授权讲师授课,采

hadoop生态搭建(3节点)-04.hadoop配置

如果之前没有安装jdk和zookeeper,安装了的请直接跳过 # https://www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.html # ==================================================================安装 jdk mkdir -p /usr/java tar -zxvf ~/jdk-8u111-linux-x64

hadoop快速扫盲帖,从零了解hadoop

1.MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果.简单地说,MapReduce就是"任务的分解与结果的汇总". 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker:另一个是TaskTracker,JobTracker是用于调度工作的,TaskTracke

Hadoop HA HDFS启动错误之org.apache.hadoop.ipc.Client: Retrying connect to server问题解决

近日,在搭建Hadoop HA QJM集群的时候,出现一个问题,如本文标题. 网上有很多HA的博文,其实比较好的博文就是官方文档,讲的已经非常详细.所以,HA的搭建这里不再赘述. 本文就想给出一篇org.apache.hadoop.ipc.Client: Retrying connect to server错误的解决的方法. 因为在搜索引擎中输入了错误问题,没有找到一篇解决问题的.这里写一篇备忘,也可以给出现同样问题的朋友一个提示. 一.问题描述 HA按照规划配置好,启动后,NameNode不能

Hadoop MapReduce执行过程详解(带hadoop例子)

https://my.oschina.net/itblog/blog/275294 摘要: 本文通过一个例子,详细介绍Hadoop 的 MapReduce过程. 分析MapReduce执行过程 MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出.Reducer任务会接收Mapper任务输出的数据,作为自己的输入数据,调用自己的方法,最后输出到HDFS的文件中.整个流程如图: Mapper任务的执行过程详解 每个Mapper任

[Hadoop] 在Ubuntu系统上一步步搭建Hadoop(单机模式)

1 创建Hadoop用户组和Hadoop用户 Step1:创建Hadoop用户组: ~$ sudo addgroup hadoop Step2:创建Hadoop用户: ~$ sudo adduser -ingroup hadoop hadoop 回车后会提示输入密码,这是新建Hadoop的密码,输入两次密码敲回车即可.如下图所示: Step3:为Hadoop用户添加权限: ~$ sudo gedit /etc/sudoers 点击回车后,打开sudoers文件,在 root ALL=(ALL:A

Hadoop入门进阶步步高(三)-配置Hadoop

三.配置Hadoop 1.设置$HADOOP_HOME/conf/hadoop-env.sh 这个文件中设置的是Hadoop运行时需要的环境变量,在1.2.1版中共有19个环境变量,如下: 变量名称 默认值 说明 JAVA_HOME 设置JDK的路径,这个必须设置,否则Hadoop无法启动,值如: /usr/local/jdk1.6.0_33 HADOOP_CLASSPATH 空 这个用以设置用户的类路径,也可以在执行计算之前设置 HADOOP_HEAPSIZE 1000m 设置Hadoop堆的

Hadoop入门进阶步步高(四)-测试Hadoop

四.测试Hadoop 一个简单的求每年温度最大值的程序. 1.准备两个文本测试数据 准备两个名为data1.txt及data2.txt的文件,用于做为计算的输入数据,将其放于/home/fenglibin/java/data目录下: data1.txt data2.txt 1999 10 1999 20 1999 25 2000 21 2000 22 2000 18 2000 40 2001 45 2001 65 2002 90 2002 89 2002 70 2003 40 2003 80 1

Hadoop入门进阶步步高(五)-搭建Hadoop集群

五.搭建Hadoop集群 上面的步骤,确认了单机可以执行Hadoop的伪分布执行,真正的分布式执行无非也就是多几台slave机器而已,配置方面的有一点点区别,配置起来就非常简单了. 1.准备三台服务器 192.168.56.101 192.168.56.102 192.168.56.103 在每台机器的/etc/hosts中都将ip及hostname给映射上: 192.168.56.101  nginx1 192.168.56.102  nginx2 192.168.56.103  nginx3