hadoop扫盲

1 hadoop 大数据平台架构和实践

掌握大数据存储与处理技术的原理

掌握hadoop开发

2 课程预报知识

linux 常用命令

java编程基础

3 hadoop前世今生

大数据到来 PB 级别的数据。

mapreduce、GFS

并行,节点同步,开发了技术论文,没开放源代码。

hadoop ***小象。

4 hadoop 的功能和优势

开源 分布式存取 + 分布式计算平台。

HDFS:分布式文件系统,

任务调度。

高扩展、低成本、成熟的生态圈。

hadoop 人才需求,开发人才、运维

5 生态系统版本

HDFS MAPreduce hive

sql -> hive -> hadoop

hbase 非关系型数据库

zookeeper 动物管理员

版本选择,2.6版本 1.2 版本 稳定版

6 hadoop的安装

1 linux 环境

2 安装jdk

3 配置hadoop 4 个配置文件

可以租用云主机。阿里云不错的选择哦。

7 hadoop的核心文件

HDFS 体系结构

读取元数据 dateNode 是 工作节点

数据管理策略:三份存、64M数据库,心跳检测、定期汇报状态、二级namenode、定期同步到,就是各种备份,自动同步呗。

读写流程:什么程序都有可能。流水线复制。更新源数据。

特点:数据冗余、硬件容错。流式的数据访问、无法修改,直接删除后添加。存储大文件。批量读写,吞吐量大,一次写入,多次读写,交互性能差

命令行操作:类似shell 编程。

8 map reduce 分大任务到小任务、合并结果在一起。

100GB的网站访问日志文件,找错访问次数最多的IP

交换很重要、

运行流程:

基本概念:job task  one job to more task

jobtracker map任务 和 reduce任务。

jobtracker 1 作业调度 2 分配任务、监控任务执行进度

监控tasktracker的状态

执行任务、汇报任务状态。

输入数据分片、map任务、中间结果、reduce任务、输出结果。

HDFS表中。

jobtracker 任务、执行过程。

容错机制、重复执行、先重试4次,默认放弃,推测执行。map端完成后,tasktracker执行。

9 应用案例:

wordcount 经典记录:

计算文件中出现每个单词的频数、

map过程 分

reduce过程 合

时间: 2024-11-13 03:32:43

hadoop扫盲的相关文章

hadoop快速扫盲帖,从零了解hadoop

1.MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果.简单地说,MapReduce就是"任务的分解与结果的汇总". 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker:另一个是TaskTracker,JobTracker是用于调度工作的,TaskTracke

Hadoop入门扫盲:hadoop发行版介绍与选择

一.hadoop发行版介绍 目前Hadoop发行版非常多,有Intel发行版,华为发行版.Cloudera发行版(CDH).Hortonworks版本等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,是由于Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布/销售. 目前而言,不收费的Hadoop版本主要有三个,都是国外厂商,分别是: Apache(最原始的版本,所有发行版均基于这个版本进行改进) Cloudera版本(

HDFS(Hadoop Distributed File System )

HDFS(Hadoop Distributed File System ) HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.是根据google发表的论文翻版的.论文为GFS(Google File System)Google 文件系统(中文,英文). 1. 架构分析 基础名词解释: Block: 在HDFS中,每个文件都是采用的分块的方式存储,每个block放在不同的datanode上,每个block的标识是一个三元组(block id, n

Hadoop自测题及参考答案(持续更新中--2015.6.14)

单选题 1.与其他几项不同的是 A. Mesos B. Mongodb C. Corona D. Borg E. YARN 注:其他几项都是资源统一管理系统或者资源统一调度系统,而 Mongodb一种非关系型数据库. 2.[java基础] 以下不属于线程安全的数据结构是 A. HashMap B. HashTable C. CopyOnWriteArrayList D. ConcurrentHashMap 3.hadoop2.x采用什么技术构建源代码 A. ant B. ivy C. maven

hadoop rpc principle

一.RPC协议 在分析协议之前,我觉得我们很有必要先搞清楚协议是什么.下面我就谈一点自己的认识吧.如果你学过java的网络编程,你一定知道:当客户端发送一个字节 给服务端时,服务端必须也要有一个读字节的方法在阻塞等待:反之亦然. 这种我把它称为底层的通信协议.可是对于一个大型的网络通信系统来说,很显然这种说法的协议粒度太小,不方便我们理解整个网络通信的流程及架构,所以我造 了个说法:架构层次的协议.通俗一点说,就是我把某些接口和接口中的方法称为协议,客户端和服务端只要实现这些接口中的方法就可以进

源码级强力分析Hadoop的RPC机制

分析对象: hadoop版本:hadoop 0.20.203.0 必备技术点: 1. 动态代理(参考 :http://weixiaolu.iteye.com/blog/1477774 )2. Java NIO(参考 :http://weixiaolu.iteye.com/blog/1479656 )3. Java网络编程 目录: 一.RPC协议二.ipc.RPC源码分析三.ipc.Client源码分析四.ipc.Server源码分析 分析:  一.RPC协议 在分析协议之前,我觉得我们很有必要先

Hadoop:Windows 7 32 Bit 编译与运行

所需工具 1.Windows 7 32 Bit OS(你懂的) 2.Apache Hadoop 2.2.0-bin(hadoop-2.2.0.tar.gz) 3.Apache Hadoop 2.2.0-src(hadoop-2.2.0-src.tar.gz) 3.JDK 1.7 4.Maven 3.2.1(apache-maven-3.2.1-bin.zip) 5.Protocol Buffers 2.5.0 6.Unix command-line tool Cygwin(Setup-x86.e

编译hadoop 的native library

os:centos 6.7 x64 要解决的问题:   WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 解决的必要性 hadoop的cache和短路读(Short-Circuit Local Reads)都需要native library的支持 解决步骤 编译方法是 http://had

Hadoop Hive基础sql语法

Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言查询,汇总,分析数据.而mapreduce开发人员可以把己写的mapper 和reducer 作为插件来支持