hadoop伪分布式安装【翻译自hadoop1.1.2官方文档】

1.hadoop支持的平台:

  • GNU/Linux平台是一个开发和生产的平台. hadoop已经被证明可以在GNU/Linux平台不是2000多个节点.
  • win32是一个开发平台,分布式操作还没有在win32系统上很好的测试, 所以它不被作为生产环境。

2.安装hdoop需要的软件:

linux和windows下安装hadoop需要的软件:

2.1从sun官网下载的1.6的jdk必须被安装.

2.2ssh 必须被安装 and ssh协议必须使用hadoop脚本用来管理远程的hadoop进程。

2.3windows环境下,额外需要安装下面软件:Cygwin - 运行上述软件必须安装的shell环境。

3.安装软件:

如果你的集群没有必要的软件,那么你必须安装它们

在unbuntu linux上执行命令如下:

$ sudo apt-get install ssh

$ sudo apt-get install rsync

在windows环境下,如果你安装cywin的话,你不必安装上述软件,只需要在安装cygwin的时候选择相关的软件包即可。

openssh - the Net category

4.下载hadoop地址:

http://hadoop.apache.org/releases.html

5.准备开始hadoop的集群:

解压下载好的hadoop软件包,在该软件包中,编辑conf/hadoop-env.sh文件,在其中定义JAVA_HOME。

尝试一下命令:

$ bin/hadoop

它会给你展示如何使用hadoop脚本。

现在你将进行安装三种hadoop支持模式中的一种即本地安装:

  • 本地(单节点) 模式
  • 伪分布模式
  • 分布式安装模式

6.单节点安装:

在默认情况下,hadoop被配置用来运行不是分布式的模式,作为一个单独的java进程。这种模式对于调试来说非常有用。

这个示例程序是hadoop自带的,用于把conf下的xml文件拷贝到input目录下,并且找到并显示所有与最后一个参数的正则表达式相匹配的行,output是输出文件夹

$ mkdir input

$ cp conf/*.xml input

$ bin/hadoop jar hadoop-examples-*.jar grep input output ‘dfs[a-z.]+‘

$ cat output/*

如此,本地安装完毕!

7.伪分布式安装

hadoop同样也可以以伪分布式模式在一个独立的节点上运行,其中每个hadoop进程都以独立的java进程运行。

7.1配置:

使用以下配置:

conf/core-site.xml:

<configuration>
     <property>
         <name>fs.default.name</name>
         <value>hdfs://localhost:9000</value>
         <description>localhost切换成本地的机器名</description>
     </property>
</configuration>

conf/hdfs-site.xml:

<configuration>
     <property>
         <name>dfs.replication</name>
         <value>1</value>
     </property>
</configuration>

conf/mapred-site.xml:

<configuration>
     <property>
         <name>mapred.job.tracker</name>
         <value>localhost:9001</value>
     </property>
</configuration>

7.2安装ssh

现在可以测试本地免密码登录了:

$ ssh localhost

如果你无法本地免密码登录,你可以执行以下密令,重新生成ssh 秘钥:

$ ssh-keygen -t dsa -P ‘‘ -f ~/.ssh/id_dsa

$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

7.3执行:

格式化一个新的分布式文件系统:

$ bin/hadoop namenode -format

启动hadoop进程:

$ bin/start-all.sh

hadoop进程的日志输出目录是: ${HADOOP_LOG_DIR} directory (defaults to ${HADOOP_HOME}/logs).

通过网页来浏览Namenode和Jobtracker状态, 默认情况下它们的访问地址是:

7.4测试hadoop:

把input中的文件拷贝到分布式系统:

$ bin/hadoop fs -put conf input

运行提供一些示例:

$ bin/hadoop jar hadoop-examples-*.jar grep input output ‘dfs[a-z.]+‘

检查输出:

从分布式系统中拷贝output中的文件到本地目录,并进行检测它们:

$ bin/hadoop fs -get output output

$ cat output/*

or

查看output下的分布式目录:

$ bin/hadoop fs -cat output/*

停止进程:

$ bin/stop-all.sh

至此,伪分布式安装hadoop完成。

时间: 2024-08-25 06:04:03

hadoop伪分布式安装【翻译自hadoop1.1.2官方文档】的相关文章

Hadoop伪分布式安装

本文介绍的主要是Hadoop的伪分布式的搭建以及遇到的相关问题的解决,做一下记录,jdk的安装这里就不做太多的介绍了,相信大家根据网上的安装介绍很快就能安装成功. 环境 操作系统 Oracle VM VirtualBox-rhel-6.4_64   本机名称 yanduanduan   本机IP 192.168.1.102   JDK 1.7.0_79   hadoop 2.7.3 点此下载 Hadoop 有两个主要版本,Hadoop 1.x.y 和 Hadoop 2.x.y 系列,比较老的教材

Window 10 WSL 下hadoop 伪分布式安装

Window 10 下的WSL子系统的安装可以参考之前的文章:window10 WSL子系统上设置redis开发环境 有时候,为了在window系统上进行hadoop开发和测试,可以在WSL上安装hadoop的伪分布式系统 因为子系统使用的是ubuntu 18.04,所以下面的安装以此为参考 下面是具体的配置步骤: 1:JDK的安装配置:这是必不可少的步骤 2:ssh的安装配置:Ubuntu SSH安装及配置免密码登录,安装完后可以用 ssh localhost来验证是否成功 3:hadoop伪

win7+Ubuntu双系统安装以及hadoop伪分布式安装

首先安装双系统进行伪分布式实验,安装win7+ubuntu双系统: 1.右键单击“我的电脑”进入“管理”,双击“存储”,再双击“磁盘管理”,在D盘位置右击“压缩卷”,分出一个大小为50G的磁盘空间,然后格式化,之后再删除卷,作为安装ubuntu系统所用. 2.下载安装easyBCD软件,新建一个Neo Grub启动,然后在点击设置,添加一下语句: title install ubuntu 12.04 LTS root(hd0,5) kernel(hd0,5)/vmlinuz boot=caspe

基于centos6.5 hadoop 伪分布式安装

步骤1:修改IP 地址和主机名: vi /etc/sysconfig/network-scripts/ifcfg-eth0 如果该文件打开为空白文件代表你计算机上的网卡文件不是这个名称"ifcfg-eth0" ,可以 cd /etc/sysconfig/network-scripts/ 这个目录查看以ifcfg-***开头的文件,就是你的网卡文件.再进行编辑 vi /etc/sysconfig/network-scripts/ifcfg-*** 主要修改项为: BOOTPROTO=&q

macbook 下hadoop伪分布式安装

1 准备原材料 1.1  jdk 1.8.0_171 1.2 Hadoop 2.8.3 2 免密登陆配置(否则安装过程需要不断输入密码) 2.1 开启macbook 允许远程登录 系统偏好设置--共享--选中 远程登录(远程登录状态为绿灯时,说明OK) p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Menlo; color: #000000; background-color: #ffffff } span.s1 { } p.p1 {

【翻译】Emmet(Zen Coding)官方文档 之六 自定义 Emmet

[说明]本系列博文是依据 Emmet 官方文档翻译的,原文地址为:http://docs.emmet.io/,部分内容已经在博主之前的博文中节选过,为方便已经收藏过之前博文的朋友,没有删除这些博文,仅将其完整的收录于本系列中. 自定义 Emmet 提供了大范围的微调,以使你可以用之提升自己的插件体验.几乎所有的正式开发的编辑器插件 (除了 PSPad 和基于浏览器的) 都有 扩展支持: 一个用于扩展 Emmet可以放置 json 和 js 文件的文件夹.请参考随编辑器插件发布的 README 文

Hbase伪分布式安装

前面的文章已经讲过hadoop伪分布式安装,这里直接介绍hbase伪分布式安装. 1. 下载hbase 版本hbase 1.2.6 2. 解压hbase 3. 修改hbase-env.sh 新增如下内容 export JAVA_HOME=/home/cauchy/software/jdk export HADOOP_HOME=/home/cauchy/software/hadoop export HBASE_HOME=/home/cauchy/software/hbase export HBAS

Hadoop日记Day3---Hadoop的伪分布式安装

导录 比较仔细的读者可能发现,注意本章的图片又不太对劲的地方,那就是linux中的主机名有的是hadoop,有的是localhost,是由于使用的不同的电脑编辑的本文章,有的电脑上并没有修改主机名,一直使用默认的localhost主机名,不影响大家的学习,只是主机名不一样,其他的都一样,大家注意一下就可以了,自己是什么主机名,就把他看成自己的主机名就可以了,文章中的localhost和hadoop只是不同的主机名,他们的目录结构都是一样的.还有就是一下的软件下载地址:http://pan.bai

centos安装hadoop(伪分布式)

在本机上装的CentOS 5.5 虚拟机, 软件准备:jdk 1.6 U26 hadoop:hadoop-0.20.203.tar.gz ssh检查配置 Linux代码   [[email protected] ~]# ssh-keygen -t  rsa Generating public/private rsa key pair. Enter file in which to save the key (/root/.ssh/id_rsa): Created directory '/root