Hadoop学习笔记_4_实施Hadoop集群 --伪分布式安装

实施Hadoop集群

--伪分布式安装

准备与配置安装环境

安装虚拟机和linux,虚拟机推荐使用vmware,PC可以使用workstation,服务器可以使用ESXi,在管理上比较方便。ESXi还可以通过拷贝镜像文件复制虚拟机,复制后自动修改网卡号和ip,非常快捷。如果只是实验用途,硬盘大约预留20-30G空间。

以Centos为例,分区可以选择默认[如果想要手动分区,请参考博客:http://blog.csdn.net/zjf280441589/article/details/17548525],安装选项选择Desktop Gnome,以及Server、Server GUI即可。其它Linux,注意选项里应包括ssh,vi(用于编辑配置文件),perl等(有些脚本里包含perl代码需要解析)

推荐使用Oracle自家的jdk,请到Oracle官网下载java jdk安装包,并且进行安装

三种运行模式

单机模式:安装简单,几乎不用作任何配置,用处不大,仅限于调试用途

伪分布模式:在单节点上同时启动namenode、datanode、jobtracker、tasktracker、secondary namenode等5个进程,模拟分布式运行的各个节点.

[伪分布式还是运行在单节点上面,但完全分布式的安装步骤与伪分布式几乎一模一样,仅有几个步骤稍作修改]

完全分布式模式:真正的Hadoop集群,由多个各司其职的节点构成[要求至少有3个结点:一台Master,安装NameNode,JobTracker;两台Slave,安装DataNode,TaskTracker].

伪分布式模式的安装和配置Hadoop步骤

1. 下载Hadoop安装包,下载网址如下

http://mirror.bit.edu.cn/apache/hadoop/common/

2. 解压Hadoop安装包

tar -xzvf hadoop-x.y.z.tar.gz
mv hadoop-x.y.z.tar.gz hadoop	#为了便于以后使用,重命名

[tar命令详细说明请参考:

http://blog.csdn.net/zjf280441589/article/details/17653615]

3. 编辑/etc/profile文件,设置环境变量

a) 增加一行

export HADOOP_HOME=/usr/local/hadoop

b) 修改一行

export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH

c) 执行命令source /etc/profile 使得设置立即执行

_____________________________________________________________________________________________________________________

修改Hadoop配置文件:位于$HADOOP_HOME/conf目录下的四个文件,hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml

1. 进入Hadoop的解压目录,编辑conf/hadoop-env.sh文件(注意0.23版后配置文件的位置有所变化),一般在第九行,修改为:

export JAVA_HOME=/usr/local/jdk/

[附:Hadoop有关配置文件]

1. 编辑conf目录下core-site.xml[对Hadoop进行核心配置的文件]、hdfs-site.xml[配置HDFS系统]和mapred-site.xml[配置Map-Reduce]三个核心配置文件

a) 配置core-site.xml文件

常见配置参数: fs.default.name NameNode的IP地址和端口

具体修改意见:将<configuration>与</configuration>之间的内容修改为[9000为工作端口]:

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://hadoop:9000</value>
        <description>change your own hostname</description>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
</configuration>

注意:如果以后做完全分布式安装,切记将hadoop0位置改为NameNode真实的IP地址(或者是已经绑定了的主机名).如果是伪分布式安装,其实直接写成localhost即可.

b)配置hdfs-site.xml文件

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

说明:dfs.replication用以设置在分布式文件系统中将数据块复制多少份

[附:hdfs-site.xml文件中常用配置参数]

C)修改mapred-site.xml文件

<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>hadoop:9001</value>
        <description>change your own hostname</description>
    </property>
    </configuration>

说明:mapred.job.tracker,配置Hadoop作业跟踪器JobTracker所在位置,9001为Hadoop常用的缺省端口;如果是完全分布式安装,则一定要将hadoop0给修改了(类似core-site.xml文件),一定!

[附:mapred-site.xml文件中常用配置参数]

1. 格式化HDFS

执行hadoop namenode -format命令进行格式化

2. 启动Hadoop

使用start-all.sh启动Hadoop[5个starting]

3. 验证Hadoop启动

a) 使用jps查看Java进程

b) 使用Linux浏览器进行验证,在地址栏输入:

http://hadoop:50070/

查看NameNode,DataNode详细信息

http://hadoop:50030/

查看JobTracker,TaskTracker详细信息

c) 使用Windows(宿主机)浏览器访问

i. 进入C:\Windows\System32\drivers\etc,编辑hosts文件

ii. 添加一行:

192.168.20.100 hadoop #192.168.20.100为虚拟机内Linux IP地址

iii.即可访问

访问方法同上

4. 可以使用stop-all.sh关闭Hadoop

去除hadoop的启动过程中警告信息

1.编辑/etc/profile文件,添加一行:

export HADOOP_HOME_WARN_SUPPRESS=1

2.执行source /etc/profile立即生效

Hadoop安装期间的常见错误

1. HDFS没有格式化

2. 配置文件只copy,没有做修改

3. Hostname与IP没有绑定

4. SSH免密码登录没有配置成功

5. 多次格式化HDFS

解决方法:删除/usr/local/hadoop/tmp文件夹,重新格式化

SSH原理

 
   

客户端向服务器端发出连接请求,服务器端向客户端发出自己的公钥,客户端使用服务器端的公钥加密通讯密钥然后发给服务器端,如果通讯过程被截获,由于窃听者即使获知公钥和经过公钥加密的内容,但不拥有私钥依然无法解密(RSA算法),服务器端接收到密文后,用私钥解密,获知通讯密钥,ssh-keygen命令给服务器端产生公私钥密钥对,cp命令将服务器端公钥复制到客户端(注意在伪分布模式下服务器端和客户端是同一台机器),因此客户端本身就拥有了服务器端公钥,可以直接进行免密码接入.

Hadoop目录结构

docs目录:有关于Hadoop的详细说明信息

bin目录:Hadoop的执行命令

conf目录:Hadoop的配置文件

src目录:Hadoop的源代码,其中含有的.xml文件,有关于Hadoop conf目录下的配置文件的详细说明信息,如hdfs-site.xml,mapred-site.xml等

Hadoop学习笔记_4_实施Hadoop集群 --伪分布式安装

时间: 2024-10-08 03:10:37

Hadoop学习笔记_4_实施Hadoop集群 --伪分布式安装的相关文章

Hadoop学习笔记_8_实施Hadoop集群 --分布式安装Hadoop

实施Hadoop集群 --分布式安装Hadoop 说明: 以Ubuntu配置为例,其中与CentOS不同之处会给出详细说明 现有三台服务器:其IP与主机名对应关系为: 192.168.139.129 master #NameNode/JobTrackerr结点 192.168.139.132 slave01 #DataNode/TaskTracker结点 192.168.139.137 slave02 #DataNode/TaskTracker结点 一.配置ssh实现Hadoop节点间用户的无密

Heartbeat学习笔记--HA高可用集群实现

一.部署环境: 服务器版本:CentOS6.5 双主热备模式: VIP:192.168.3.30(MASTER上) VIP:192.168.3.32(BACKUP上) 主机网络参数: 接口 MASTER BACKUP 说明 eth1 192.168.3.23 192.168.3.24 内网管理IP eth2 192.168.5.23 192.168.5.24 心跳线 eth3 192.168.2.23 192.168.2.24 外网(临时下载文件用) 网络拓扑: 二.需求分析: 通过Heartb

Hadoop学习笔记0003——从Hadoop URL读取数据

Hadoop学习笔记0003--从Hadoop URL读取数据 从HadoopURL读取数据   要从Hadoop文件系统中读取文件,一个最简单的方法是使用java.net.URL对象来打开一个数据流,从而从中读取数据.一般的格式如下: InputStream in = null; try { in = new URL("hdfs://host/path").openStream(); // process in } finally { IOUtils.closeStream(in);

【整理学习Hadoop】Hadoop学习基础之一:服务器集群技术

        服务器集群就是指将很多服务器集中起来一起进行同一种服务,在客户端看来就像是只有一个服务器.集群可以利用多个计算机进行并行计算从而获得很高的计算速度,也可以用多个计算机做备份,从而使得任何一个机器坏了整个系统还是能正常运行. 集群(cluster)技术是一种较新的技术,通过集群技术,可以在付出较低成本的情况下获得在性能.可靠性.灵活性方面的相对较高的收益,其任务调度则是集群系统中的核心技术.集群是一组相互独立的.通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理

Hadoop学习笔记之一:Hadoop介绍

在学习Hadoop之前,先了解一下大数据相关的知识:         1.             大数据背景 大数据的产生:众所周知,随着信息社会的快速发展,信息量以爆发式的速度增长,这些信息包括来自互联网的大数据.大量传感器的机器数据.行业的内容数据.这些数据的特征表现为数据量大,一般为TB级或PB级甚至更大.数据类型多,可以是结构化的表单.半结构化的文本.视频.图像.语音.及非结构话的文件. 大数据的挑战:如何对这些数据进行高效存储,如何对这些数据进行分析和处理,以获取更多有价值的信息.大

Spark学习笔记5:Spark集群架构

Spark的一大好处就是可以通过增加机器数量并使用集群模式运行,来扩展计算能力.Spark可以在各种各样的集群管理器(Hadoop YARN , Apache Mesos , 还有Spark自带的独立集群管理器)上运行,所以Spark应用既能够适应专用集群,又能用于共享的云计算环境. Spark运行时架构 Spark在分布式环境中的架构如下图: 在分布式环境下,Spark集群采用的是主/从结构.在Spark集群,驱动器节点负责中央协调,调度各个分布式工作节点.执行器节点是工作节点,作为独立的Ja

spark学习笔记-CentOS 6.4集群搭建(2)

CentOS 6.5安装 1.使用课程提供的CentOS 6.5镜像即可,CentOS-6.5-i386-minimal.iso. 2.创建虚拟机:打开Virtual Box,点击"新建"按钮,点击"下一步",输入虚拟机名称为spark1,选择操作系统为Linux,选择版本为Red Hat,分配1024MB内存,后面的选项全部用默认,在Virtual Disk File location and size中,一定要自己选择一个目录来存放虚拟机文件,最后点击"

Hadoop学习笔记-011-CentOS_6.5_64_HA高可用-Zookeeper3.4.5安装Kafka+消息监控KafkaOffsetMonitor

参考: http://www.cnblogs.com/smartloli/p/4538173.html http://blog.csdn.net/lsshlsw/article/details/47342821 虚拟机中共五个centos系统,每个系统有两个用户root和hadoop:cdh1,cdh2,cdh3,cdh4,cdh5 集群规划 安装kafka(cdh3机器) 第一步,解压已下载好的kafka安装包 #tar -zxvf kafka_2.9.2-0.8.2.2.tgz 解压后删除k

学习笔记--HA高可用集群

实验环境:火墙 selinux关闭 实验机时间同步 各节点解析完整 配置好yum源: [source] name=Red Hat Enterprise Linux $releasever - $basearch - Source baseurl=http://172.25.60.250/rhel6 gpgcheck=0 [HighAvailability] name=Red Hat Enterprise Linux $releasever - $basearch - Source baseurl