大数据基础Hadoop 2.x入门

hadoop概述

存储和分析网络数据
三大组件
- MapReduce
  - 对海量数据的处理
  - 思想：
    - 分而治之
    - 每个数据集进行逻辑业务处理map
    - 合并统计数据结果reduce
- HDFS
  - 储存海量数据
  - 分布式存储
  - 安全性高
    - 副本数据
- YARN
  - 分布式资源管理框架
    - 管理整个集群的资源（内存、CPU核数）
    - 分配调度集群资源
- Common
  - 工具

hadoop生态圈

Hive（蜜蜂）通过使用sql语句来执行hadoop任务
HBase 存储结构化数据的分布式数据库
- HBase放弃了事务特性，追求更高的扩展
- 和HDFS不同的，HBase提供数据的随机读写和实时访问，实现对表数据的读写功能
zookeeper 维护节点状态

Hadoop安装

使用docker安装

docker run -i -t -p 50070:50070 -p 9000:9000 -p 8088:8088 -p 8040:8040 -p 8042:8042  -p 49707:49707  -p 50010:50010  -p 50075:50075  -p 50090:50090 sequenceiq/hadoop-docker:2.6.0 /etc/bootstrap.sh -bash

HDFS基本概念

块（Block）
- HDFS的文件被分成块进行存储
- HDFS块的默认大小64M
- 块是文件储存处理的逻辑单元
NameNode
- NameNode是管理节点，存放文件元数据
- 文件与数据块的映射表
- 数据块与数据节点的映射表
DataNode
- 是HDFS的工作节点，存放数据块

HDFS中数据管理与容错

数据块副本
心跳检测
二级NameNode

HDFS中文件读写的流程

HDFS写入文件的流程

HDFS的特点

数据冗余，硬件容错
流式的数据访问
适合存储大文件
适合数据批量读写，吞吐量高
不适合交互式应用，低延迟很难满足
适合一次写入多次读取，顺序读写
不支持多用户并发写相同文件

HDFS命令行操作

hadoop fs -ls /
hadoop namenode -format 格式化操作
hadoop fs -ls /user
hadoop fs -put hadoop-env.sh /user/root 把文件放入hadoop
hadoop fs -rm input
hadoop fs -rm hadoop-env.sh
hadoop fs -mkdir input
hadoop fs -cat input/hadoop-env.sh
hadoop fs -get input/hadoop-env.sh hadoop-env2.sh
hadoop dfsadmin -report

MapReduce原理

分而治之，一个大人物分成多个小的子任务（map），并行执行后，合并结果（reduce）
比如：100GB的网站访问日志文件，找出访问次数最多的IP地址
- 根据日期切分，比如按周，每周一份进行统计
- 再合并到某几个机器进行分析合并

MapReduce运行流程

基本概念
- Job & Task 一个job就例如上面的例子，task可以分为map task和reduce task
- JobTracker
  - 作业调度
  - 分配任务、监控任务执行进度
  - 监控TaskTracker的状态
- TaskTracker
  - 执行任务
  - 汇报任务状态
MapReduce作业执行过程

MapReduce的容错机制

重复执行
- 重复4次仍旧失败放弃
推测执行
- 假设有个TaskTracker执行特别慢，它会启动另一个TaskTracker执行相同的任务，两个谁先执行完，就放弃另一个

MapReduce应用

WordCount单词计数

由于我是docker安装，具体例子可以参考如下

https://blog.csdn.net/qq_16563637/article/details/81702633
docker安装的容器里，自带了例子，位置是/usr/local/hadoop-2.6.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar

参考 https://www.imooc.com/video/7777

原文地址：https://www.cnblogs.com/sky-chen/p/10054373.html

时间： 2024-08-30 14:08:48

大数据基础Hadoop 2.x入门的相关文章

大数据之hadoop，国内首部:Zookeeper从入门到精通课程分享

对这个课程感兴趣的朋友可以加我QQ2059055336和我联系. ZooKeeper是Hadoop的开源子项目(Google Chubby的开源实现),它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护.命名服务.分布式同步.组服务等. Zookeeper的Fast Fail 和 Leader选举特性大大增强了分布式集群的稳定和健壮性,并且解决了Master/Slave模式的单点故障重大隐患,这是越来越多的分布式产品如HBase.Storm(流计算).S4(流计算)等强依赖Zoo

大数据：Hadoop入门

大数据:Hadoop入门一:什么是大数据什么是大数据: (1.)大数据是指在一定时间内无法用常规软件对其内容进行抓取,管理和处理的数据集合,简而言之就是数据量非常大,大到无法用常规工具进行处理,如关系型数据库,数据仓库等.这里“大”是一个什么量级呢?如在阿里巴巴每天处理数据达到20PB(即20971520GB). 2.大数据的特点: (1.)体量巨大.按目前的发展趋势来看,大数据的体量已经到达PB级甚至EB级. (2.)大数据的数据类型多样,以非结构化数据为主,如网络杂志,音频,视屏,图片,

Hadoop基础之初识大数据与Hadoop

前言从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢? 学习Hadoop有一个8020原则,80%都是在不断的配置配置搭建集群,只有20%写程序! 一.引言(大数据时代) 1.1.从数据中得到信息我们看一张图片: 我们知道这个图片上的人叫张小妹,年龄20岁,职业模特.但是如果只有数据没有图片的话,就没有意义的数据了.所以数据一定是在特定的环境下才有意义的. 我们再来看一张图片: 从这张图片分析出: 从纵向分析,

跟风舞烟学大数据可视化－Echarts从入门到上手实战

跟风舞烟学大数据可视化-Echarts从入门到上手实战课程观看地址:http://www.xuetuwuyou.com/course/180 课程出自学途无忧网:http://www.xuetuwuyou.com 课程讲师:风舞烟课时数:三个模块,共70课时一.课程特色: 1.最全的Echarts课程讲解 70学时课时量,360度全方位,无死角的课程设计,让你通透Echarts可视化技术 2.最适合小白学员学习的课程,没有之一只要你了解一点基本的Html,CSS,Ja

细细品味大数据--初识hadoop

初识hadoop 前言之前在学校的时候一直就想学习大数据方面的技术,包括hadoop和机器学习啊什么的,但是归根结底就是因为自己太懒了,导致没有坚持多长时间,加上一直为offer做准备,所以当时重心放在C++上面了(虽然C++也没怎么学),计划在大四下有空余时间再来慢慢学习.现在实习了,需要这方面的知识,这对于我来说,除去校招时候投递C++职位有少许影响之外,无疑是有很多的好处. 所以,接下来的很长日子,我学习C++之外的很多时间都必须要花在大数据上面了. 那么首先呢,先来认识一下这处理大数据

区块链这些技术与h5房卡斗牛平台出售，大数据基础软件干货不容错过

在IT产业发展中,包括CPU.操作系统h5房卡斗牛平台出售官网:h5.super-mans.com 企娥:2012035031 vx和tel:17061863513 h5房卡斗牛平台出售在内的基础软硬件地位独特,不但让美国赢得了产业发展的先机,成就了产业巨头,而且因为技术.标准和生态形成的壁垒,主宰了整个产业的发展.错失这几十年的发展机遇,对于企业和国家都是痛心的. 当大数据迎面而来,并有望成就一个巨大的应用和产业机会时,企业和国家都虎视眈眈,不想错再失这一难得的机遇.与传统的IT产业一样,大

大数据基础教程：创建RDD的二种方式

大数据基础教程:创建RDD的二种方式 1.从集合中创建RDD val conf = new SparkConf().setAppName("Test").setMaster("local") val sc = new SparkContext(conf) //这两个方法都有第二参数是一个默认值2 分片数量(partition的数量) //scala集合通过makeRDD创建RDD,底层实现也是parallelize val

大数据云计算高级实战Hadoop，Flink，Spark，Kafka，Storm，Docker高级技术大数据和Hadoop技能

大数据和Hadoop技能可能意味着有你的梦想事业和被遗忘之间的差异.骰子引用:“技术专业人员应该志愿参与大数据项目,这使他们对目前的雇主更有价值,对其他雇主更有销路.” 1.与Hadoop的职业:根据福布斯2015年的一份报告,约有90%的全球性组织报告了中高级别的大数据分析投资,约三分之一的投资者称其投资“非常重要”.最重要的是,约三分之二的受访者表示,数据和分析计划对收入产生了重大的可衡量的影响. Hadoop技能是需求的 - 这是不可否认的事实!因此,IT专业人士迫切需要使用 Hadoop

大数据和Hadoop什么关系？为什么大数据要学习Hadoop？

大数据是一系列技术的统称,经过多年的发展,大数据已经形成了从数据采集.整理.传输.存储.安全.分析.呈现和应用等一系列环节,这些环节涉及到诸多大数据工作岗位,这些工作岗位与物联网.云计算也都有密切的联系. Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是用Java语言开发的一个开源分布式计算平台,适合大数据的分布式存储和计算平台. 广义上讲,大数据是时代发展和技术进步的产物.Hadoop只是一种处理大数据的技术手段. Hadoop是目前被广泛使用的大数据平台,本身就是大数据平