Hadoop之——前期准备篇

转载请注明出处：http://blog.csdn.net/l1028386804/article/details/45950837

一、Hadoop核心项目

HDFS: Hadoop Distributed File System 分布式文件系统
MapReduce：并行计算框架

二、HDFS的架构

主从结构

主节点，只有一个: namenode

从节点，有很多个: datanodes

namenode负责：

接收用户操作请求

维护文件系统的目录结构

管理文件与block之间关系，block与datanode之间关系

datanode负责：

存储文件

文件被分成block存储在磁盘上

为保证数据安全，文件会有多个副本

三、MapReduce的架构

主从结构

主节点，只有一个: JobTracker

从节点，有很多个: TaskTrackers

JobTracker负责：

接收客户提交的计算任务

把计算任务分给TaskTrackers执行

监控TaskTracker的执行情况

TaskTrackers负责：

执行JobTracker分配的计算任务

四、Hadoop的特点

扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（PB）数据。

成本低（Economical）：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

高效率（Efficient）：通过分发数据，hadoop可以在数据所在的节点上并行地（parallel）处理它们，这使得处理非常的快速。

可靠性（Reliable）：hadoop能自动地维护数据的多份副本，并且在任务失败后能自动地重新部署（redeploy）计算任务。

五、Hadoop集群的物理分布

六、单节点物理结构

七、Hadoop部署方式

本地模式
伪分布模式
集群模式

八、伪分布模式安装步骤

关闭防火墙
修改ip
修改hostname
设置ssh自动登录
安装jdk
安装hadoop

九、修改hadoop配置文件

hadoop-env.sh

export JAVA_HOME=/usr/local/jdk/

2.core-site.xml

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://hadoop0:9000</value>
        <description>change your own hostname</description>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
</configuration>

3.hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

4.mapred-site.xml

<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>hadoop0:9001</value>
        <description>change your own hostname</description>
    </property>
</configuration>

十、启动Hadoop

先格式化namenode hadoop namenode -format

在执行start-all.sh

十一、浏览Hadoop

时间： 2024-10-28 08:57:39

Hadoop之——前期准备篇的相关文章

Hadoop实战第一篇

前言: 都说现在是草根为尊的时代,近年来hadoop及spark技术在国内越来越流行.而且渐渐现成为企业的新宠.在DT时代全面来临之前,能提早接触大数据的技术必然能先人一步.本文作为Hadoop系列的第一篇,将HDFS和MapRed两个技术核心用2个实例简单实现一些,希望能供hadoop入门的朋友些许参考. --HDFS 1 import java.io.IOException; 2 3 import org.apache.hadoop.conf.Configuration; 4 import

Hadoop源码篇---解读Mapprer源码outPut输出

一.前述上次讲完MapReduce的输入后,这次开始讲MapReduce的输出.注意MapReduce的原语很重要: "相同"的key为一组,调用一次reduce方法,方法内迭代这一组数据进行计算!!!!! 二.代码继续看MapTask任务. private <INKEY,INVALUE,OUTKEY,OUTVALUE> void runNewMapper(final JobConf job, final TaskSplitIndex splitIndex, final

第一节：框架前期准备篇之Log4Net日志详解

一. Log4Net简介 Log4net是从Java中的Log4j迁移过来的一个.Net版的开源日志框架,它的功能很强大,可以将日志分为不同的等级,以不同的格式输出到不同的存储介质中,比如:数据库.txt文件.内存缓冲区.邮件.控制台.ANSI终端.远程接收端等等,我们这里主要介绍最常用的两种:txt文件和数据库. (PS:其它的存储介质详见 http://logging.apache.org/log4net/release/config-examples.html) Log4net将日志分为五

hadoop之存储篇

目录: 集群规划 HDFS HA 冒烟测试功能特性集群规划: 负载类型容量规划可扩展性角色分离管理节点 Master节点 Worker节点边缘节点 HDFS HA(高可用) 架构原理见下图: 冒烟测试: 详细说明参见之前的博客:https://www.cnblogs.com/huxinga/p/9627084.html 功能特性: HDFS Balancer 快照 Snapshots 配额 Quota 权限 ACLs 存储策略集中缓存管理机架感知 Erasure Coding

第三节：框架前期准备篇之利用Newtonsoft.Json改造MVC默认的JsonResult

一. 背景在MVC框架中,我们可能经常会用到 return Json(),而Json方法内部又是一个JsonResult类,那么JsonResult内部又是什么原理呢?在MVC框架中,各种xxxResult便捷了我们的开发,但这些都不是本节的重点,在这里我们只需要知道JsonResult内部的原理即可. JsonResult内部原理是基于 JavaScriptSerializer来做的序列化,在使用过程中,有这么几个弊端: ①:DateTime类型返回给前端是这个玩意:\/Date(15350

第四节：框架前期准备篇之进程外Session的两种配置方式

一. 基本介绍 1. 背景:Asp.Net默认的Session机制是进程内,存储在服务器端内存中,有这么几个缺点: ①:既然存在内存中,空间有限,不能存储大数据量信息,数据量多的话Session会被挤爆. ②:IIS只要一重启,Session就会丢失,哪怕就是改一下配置文件,IIS也会重启,此时如果客户端有用户通过浏览器正在访问该网站,如果用到Session,原Session是丢失的了,就会报“未将对象引用设置到对象的实例”类似的错误. ③:Session是依赖Cookie来保存SessionI

Hadoop实战视频教程完整版完整的Hadoop大数据视频教程

分享一套迪伦老师的完整的Hadoop实战视频教程,教程从学习Hadoop需要的数据库.Java和Linux基础讲起,非常适合零基础的学员,课程最后结合了实战项目演练,理论结合实战,深入浅出,绝对是当前最为完整.实战的Hadoop教程. <Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦课程分类:大数据适合人群:初级课时数量:230课时用到技术:部署Hadoop集群涉及项目:京东商城.百度.阿里巴巴咨询QQ:1337192913(小公子)

Hadoop大数据零基础高端实战培训视频

<Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦课程分类:大数据适合人群:初级课时数量: 300课时用到技术:部署Hadoop集群涉及项目:京东商城.百度.阿里巴巴咨询QQ:779591710 下载地址: 链接:http://pan.baidu.com/share/link?shareid=3299239734&uk=3289559542 密码:8tkb 第一阶段:Hadoop基础篇(50课时) - 千里之行,始于足下(赠送课

Hadoop实战实例

Hadoop实战实例 Hadoop 是Google MapReduce的一个Java实现.MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行.就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求.这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大的分布式系统得资源. 一.概论作为Hado