hadoop伪分布式集群搭建与安装（ubuntu系统）

1：Vmware虚拟软件里面安装好Ubuntu操作系统之后使用ifconfig命令查看一下ip;

2：使用Xsheel软件远程链接自己的虚拟机，方便操作。输入自己ubuntu操作系统的账号密码之后就链接成功了；

3：修改主机的名称vi /etc/hostname和域名和主机映射对应的关系 vi /etc/hosts，改过之后即生效，自己可以ping一下，我这里ip对应master，比如ping master之后发现可以ping通即可；

4:修改过主机名称和主机名与ip对应的关系之后；开始上传jdk，使用filezilla这个工具将jdk文件以及其他文件上传到ubuntu操作系统中;

鼠标左击选中想要上传的文件拖到右边即可，如下所示：

上传成功之后可以检查一下，这里默认上传到root目录下面；显示已经上传成功即可；

5：上传之后创建一个文件夹用于存放上传的文件或者压缩包；

记住-C是大写，小写的-c会报错，见下面的测试结果；

解压缩之后可以进到自己创建的hadoop目录下面看看效果，确定已经解压缩了；

6：解压缩jdk之后开始将java添加到环境变量中（ubuntu操作系统中配置jdk的环境变量）：

进去之后按shift+g到最后面，到最前面双击g，点击a/s/i这三个任意一个字母进入命令行模式，可以对配置文件进行修改；

配置的方式有很多种，这只是其中一种。

配置好jdk之后可以测试一下是否配置成功，如下图，如果没有使用source /etc/profile刷新配置是无法测试成功的；

使用source /etc/profile刷新配置之后查看java的版本即可以查看出来；

这里出了一点小插曲，我的linux版本的jdk第一次好像不能用，报了错，以为没配置好呢，后来才发现是jdk错了，所以这里都小心点；

7：开始上传hadoop和解压缩hadoop;上传和上传jdk一样的做法，这里不做多叙述；

查看hadoop的目录：hadoop-2.4.1/share/hadoop里面是核心jar包；

8：解压缩之后开始配置hadoop,找到如下所示的路径；

修改如下几个配置文件；详细修改见如下配置所示：

修改的第一个配置文件，hadoop-env.sh;

修改的内容如下所示：主要修改就是jdk的JAVA_HOME;如果忘记自己jdk的目录可以执行命令echo $JAVA_HOME复制一下结果即可；

修改第二个配置文件：core-site.xml;

修改的内容如下所示：因为是伪分布式，所以节点配置直接配置主机名了；

修改第三个配置文件：hdfs-site.xml

修改的内容如下所示：

修改第四个配置文件：首先将mapred-site.xml.template修改为mapred.site.xml，然后就将开始修改配置文件；

修改内容如下所示：

修改第五个配置文件：yarn-site.xml;

修改的内容如下所示：至此配置基本结束；

修改第六个配置文件：vi slaves

修改的内容即是自己的主机名称：

9：查看一下ubuntu下面的防火墙的状态和关闭开启防火墙：

下图所示分别是关闭防火墙，查看防火墙的状态，开始防火墙和查看防火墙的状态；

10：为了执行hadoop命令方便，同样配置一下hadoop的环境变量；同样vi /etc/profile ,配置如下所示：

配置保存之后记得source /etc/profile刷新配置；

11：格式化namenode（是对namenode进行初始化）

执行格式化命令后看到successfully表示格式化成功；

12：启动hadoop，先启动HDFS，sbin/start-dfs.sh；再启动YARN，sbin/start-yarn.sh；

启动过程中输出大概三次yes和密码；输入即可；

13：验证是否启动成功，使用jps命令验证；查看有几个进程；分别是启动start-dfs.sh和start-yarn.sh的效果；

14：搭建好伪分布式集群之后可以在window访问集群的web服务；

15：简单测试一下，将一个文件上传到hdfs上面，如下所示：

去web服务查看效果如下所示：就是刚刚上传的文件；

16：将文件从hdfs分布式集群中下载下来：

效果如下所示：

17：使用hadoop自带的mapreduce程序来测试mapreduce的效果：

计算圆周率的程序；

简单使用一下mapreduce，以计算单词的个数为例；

创建一个count.txt用于测试里面的单词重复的次数：

因为数据是在集群上面跑的，所以文件要放到集群上面；

首先需要创建一个文件夹，用于存放文件；

创建好的文件夹可以在web服务器里面查看，如下所示：

将新建的count.txt文件放到input文件夹里面，如下所示：

开始使用mapreduce的自带案例进行单词重读测试：

可以查询执行之后出现的结果：也可以直接去web服务器查看执行的结果；

可以使用命令查看执行的结果，如下所示：

HDFS的大体实现的思想：
1：hdfs是通过分布式集群来存储文件，为客户端提供了一个便捷的访问方式，就是一个虚拟的目录结构
2：文件存储到hdfs集群中去的时候是被切分成block块的
3：文件的block存放在若干台datanode节点上的
4：hdfs文件系统中的文件于真实的block之间有映射关系，由namenode管理
5：每一个block在集群中会存储多个副本，好处是可以提高数据的可靠性，还可以提供访问的吞吐量；

18：hdfs常使用的命令：

hadoop fs　　　　　　　　　　　　　　　　　　　　　　　　　显示hadoop 的fs的功能　hadoop fs -ls /  　　　　　　　　　　　　　　 　　　　　 列举某目录下面的文件夹
hadoop fs -lsr　　　　　　　　　　　　　　　  　　　　　　列举某目录下面的文件夹及其文件夹里面的文件
hadoop fs -mkdir /user/hadoop            　　　　　　在user文件夹下面创建一个hadoop文件夹
hadoop fs -put a.txt /user/hadoop/       　　　　　　将a.txt文件上传到user文件夹下面的hadoop文件夹下面
hadoop fs -get /user/hadoop/a.txt /      　　　　　　获取到user文件夹下面的hadoop文件夹下面的a.txt文件
hadoop fs -cp /原路径 /目标路径　　　　　　　　　　　 　 拷贝文件，从原路径拷贝到目标路径　　
hadoop fs -mv /原路径 /目标路径　　　　　　　　　　　　  从原路径移动到目标路径
hadoop fs -cat /user/hadoop/a.txt        　　　　　　查看a.txt文件里面的内容
hadoop fs -rm /user/hadoop/a.txt　　　　　　　　　　　 删除user文件夹下面的hadoop文件夹下面的a.txt文件hadoop fs -rm -r /user/hadoop/a.txt　　　　　　　　　 递归删除，文件夹和文件
hadoop fs -copyFromLocal /本地路径 /目的路径  　　　　 与hadoop fs -put功能类似。
hadoop fs -moveFromLocal localsrc dst 　　　　　　　 将本地文件上传到hdfs，同时删除本地文件。
hadoop fs -chown 用户名：用户组名 /文件名　　　　　　 　 修改所属的用户和用户组，权限修改hadoop fs -chmod 777 /文件名　　　　　　　　 　　　　　 文件的权限可读可写可执行的的权限修改hadoop fs -df -h /　　　　　　　　　　　　　　　　　　　 查看根目录下面的磁盘空间，可用和未用等等hadoop fs -du -s -h /　　　　　　　　　　　　　　　　　  查看某文件的大小hadoop fs -du -s -h hdfs://主机名:9000/*            查看根目录下面的所有文件的大小

未完待续.......

时间： 2024-10-10 16:50:05

hadoop伪分布式集群搭建与安装（ubuntu系统）的相关文章

Hadoop伪分布式集群搭建总结

Hadoop伪分布式集群搭建总结一.所需软件VMware15!CentOS6.5JDK1.8Hadoop2.7.3二.安装注意:对文件进行编辑:输入a,表示对该文件进行编辑,最后保存该文件,操作为:点击键盘上的Esc按钮,然后输入英文的:字符,再输入wq,点击回车,完成文件的保存.1.关闭防火墙和禁用SELINUX(1).永久关闭防火墙,重启Linux系统(2) .禁用SELINUX:修改文件参数重启Linux使其生效(3).检查防火墙是否运行,显示下图即为关闭2.配置hostname与IP

Hadoop伪分布式集群搭建-此文章在个人51.cto转载

一.HDFS伪分布式环境搭建 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统.它和现有的分布式文件系统有很多共同点.但同时,它和其他的分布式文件系统的区别也是很明显的.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用.HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的.HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架

Hadoop伪分布式集群的安装部署

一.如何为虚拟机做快照? 1.什么是快照? 快照就是对当前的虚拟机状态进行拍照,保留虚拟机当前状态的操作信息. 2.为什么要为虚拟机做快照? 第一:为克隆不同状态的虚拟机提前做准备. 第二:当对虚拟机的某些操作执行错误而且改正比较麻烦的时候,可以切换到之前正常的虚拟机状态重新进行相关的操作. 3.如何为虚拟机做快照? (1)选择要克隆的虚拟机,然后“右键”,选择“快照”,然后选择“拍摄快照”. (2)可以为快照取个名称,也可以为虚拟机当前的状态做个描述,然后点击“拍摄快照”. 4.如何转到某一特

Hadoop完全分布式集群搭建

Hadoop的运行模式 Hadoop一般有三种运行模式,分别是: 单机模式(Standalone Mode),默认情况下,Hadoop即处于该模式,使用本地文件系统,而不是分布式文件系统.,用于开发和调试. 伪分布式模式(Pseudo Distrubuted Mode),使用的是分布式文件系统,守护进程运行在本机机器,模拟一个小规模的集群,在一台主机模拟多主机,适合模拟集群学习. 完全分布式集群模式(Full Distributed Mode),Hadoop的守护进程运行在由多台主机搭建的集群上

ZooKeeper的伪分布式集群搭建以及真分布式集群搭建

zk集群的一些基本概念 zookeeper集群搭建: zk集群,主从节点,心跳机制(选举模式) 配置数据文件 myid 1/2/3 对应 server.1/2/3 通过 zkCli.sh -server [ip]:[port] 命令检测集群是否配置成功和其他大多数集群结构一样,zookeeper集群也是主从结构.搭建集群时,机器数量最低也是三台,因为小于三台就无法进行选举.选举就是当集群中的master节点挂掉之后,剩余的两台机器会进行选举,在这两台机器中选举出一台来做master节点.而当原

ZooKeeper的伪分布式集群搭建

ZooKeeper集群的一些基本概念 zookeeper集群搭建: zk集群,主从节点,心跳机制(选举模式) 配置数据文件 myid 1/2/3 对应 server.1/2/3 通过 zkCli.sh -server [ip]:[port] 命令检测集群是否配置成功和其他大多数集群结构一样,zookeeper集群也是主从结构.搭建集群时,机器数量最低也是三台,因为小于三台就无法进行选举.选举就是当集群中的master节点挂掉之后,剩余的两台机器会进行选举,在这两台机器中选举出一台来做maste

Hadoop全分布式集群搭建（详细）

一.准备物理集群.1.物理集群搭建方式.采用搭建3台虚拟机的方式来部署3个节点的物理集群.2.虚拟机准备.准备一个已近建好的虚拟机进行克隆.(建议为没进行过任何操作的)在要选择克隆的虚拟机上右击鼠标,管理,克隆.在弹出对话框中进行以下操作.(1).下一步.(2).选择虚拟机中的当前状态,下一步. (3).选择创建完整克隆,下一步.(4).输入虚拟机名称,下一步.(5).克隆完成.(6).按照上述步骤再创建一个虚拟机名称为slave02的.3.虚拟机网络配置.由于slave01和slave02虚拟

Linux下redis5的安装及伪分布式集群搭建

redis5 官网下载地址:https://redis.io/download redis5-Linux安装:https://blog.csdn.net/qq_39135287/article/details/83474865 redis 集群搭建官网文档:https://redis.io/topics/cluster-tutorial redis5 集群搭建:https://blog.csdn.net/qq_39135287/article/details/84189397 redis5 集群

Hadoop(二)——分布式集群搭建

前两天和一个朋友在聊天的时候说,很多自学Hadoop的朋友80%都会夭折在集群环境的搭建上,原因吗无在乎:1,没有很好的电脑配置,不能像机房一样用多台电脑搭建起集群:2,对linux的不熟悉,各种小黑窗,linux命令--:3,环境搭建的反锁步骤,需要耐心+细心+认真等等吧.不过吗,我觉的,只要敢于坚持,敢于付出都是会成功的.下边讲述一下我的Hadoop集群搭建过程,由于条件有限,也是在虚拟机中进行的. 一,准备资料: 1,一台笔记本:I5的CPU,4G内存,500硬盘(内存有些小,运行的时候比