虚拟器上部署hadoop常见的一些问题

一、hadoop部署步骤。

  1、下载hadoop和Zookeeper的压缩包。

  2、部署Zookeeper:

    ①tar -zxvf zookeeper-3.3.6

    ②cd 到Zookeeper的conf目录下 将zoo_sample.cfg 修改为zoo.cfg

    ③

tickTime=2000(是Zookeeper独立的工作时间单元)
dataDir=/Users/tom/zookeeper(存储数据的地址)
clientPort=2181(2181是经常的选择,此处是关于用户和Zookeeper相连的地方)  

   3、安装部署hadoop
    ①tar -zxvf   hadoop-2.6.4

    ②cd 进入hadoop的 etc/hadoop目录里面有一些列的配置文件    

    etc/hadoop/core-site.xml

参数 属性值 解释
fs.defaultFS NameNode URI hdfs://host:port/

io.file.buffer.size 131072

SequenceFiles文件中.读写缓存size设定

hadoop.tmp.dir /home/enzo/web/server/hadoopdata

指定hadoop运行时产生文件的存储目录

<configuration>
 2     <property>
 3         <name>fs.defaultFS</name>
 4         <value>hdfs://192.168.1.100:900</value>
 5         <description>192.168.1.100为服务器IP地址,其实也可以使用主机名</description>
 6     </property>
 7     <property>
 8         <name>io.file.buffer.size</name>
 9         <value>131072</value>
10         <description>该属性值单位为KB,131072KB即为默认的64M</description>
11     </property>
12 </configuration>

etc/hadoop/hdfs-site.xml

 

参数 属性值 解释
dfs.namenode.name.dir 在本地文件系统所在的NameNode的存储空间和持续化处理日志 如果这是一个以逗号分隔的目录列表,然 后将名称表被复制的所有目录,以备不时 需。
dfs.namenode.hosts/
dfs.namenode.hosts.exclude
Datanodes permitted/excluded列表 如有必要,可以使用这些文件来控制允许 数据节点的列表
dfs.blocksize 268435456 大型的文件系统HDFS块大小为256MB
dfs.namenode.handler.count 100 设置更多的namenode线程,处理从 datanode发出的大量RPC请求
 1<configuration>
 2     <property>
 3         <name>dfs.replication</name>
 4         <value>1</value>
 5         <description>分片数量,伪分布式将其配置成1即可    </description>
 6     </property>
 7     <property>
 8         <name>dfs.namenode.name.dir</name>
 9         <value>file:/usr/local/hadoop/tmp/namenode</value>
10         <description>命名空间和事务在本地文件系统永久存储的路径</description>
11     </property>
12     <property>
13         <name>dfs.namenode.hosts</name>
14         <value>datanode1, datanode2</value>
15         <description>datanode1, datanode2分别对应DataNode所在服务器主机名</description>
16     </property>
17     <property>
18         <name>dfs.blocksize</name>
19         <value>268435456</value>
20         <description>大文件系统HDFS块大小为256M,默认值为64M</description>
21     </property>
22     <property>
23         <name>dfs.namenode.handler.count</name>
24         <value>100</value>
25         <description>更多的NameNode服务器线程处理来自DataNodes的RPCS</description>
26     </property>
27 </configuration>

etc/hadoop/yarn-site.xml

  • 配置ResourceManager 和 NodeManager
yarn.resourcemanager.address 客户端对ResourceManager主机通过 host:port 提交作业 host:port
yarn.resourcemanager.scheduler.address ApplicationMasters 通过ResourceManager主机访问host:port跟踪调度程序获资源 host:port
yarn.resourcemanager.resource-tracker.address NodeManagers通过ResourceManager主机访问host:port host:port
yarn.resourcemanager.admin.address 管理命令通过ResourceManager主机访问host:port host:port
yarn.resourcemanager.webapp.address ResourceManager web页面host:port. host:port
yarn.resourcemanager.scheduler.class ResourceManager 调度类(Scheduler class) CapacityScheduler(推荐),FairScheduler(也推荐),orFifoScheduler
yarn.scheduler.minimum-allocation-mb 每个容器内存最低限额分配到的资源管理器要求 以MB为单位
yarn.scheduler.maximum-allocation-mb 资源管理器分配给每个容器的内存最大限制 以MB为单位
yarn.resourcemanager.nodes.include-path/ NodeManagers的permitted/excluded列表 如有必要,可使用这些文件来控制允许NodeManagers列表
yarn.resourcemanager.nodes.exclude-path
<configuration>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>192.168.1.100:8081</value>
        <description>IP地址192.168.1.100也可替换为主机名</description>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>192.168.1.100:8082</value>
        <description>IP地址192.168.1.100也可替换为主机名</description>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>192.168.1.100:8083</value>
        <description>IP地址192.168.1.100也可替换为主机名</description>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>192.168.1.100:8084</value>
        <description>IP地址192.168.1.100也可替换为主机名</description>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>192.168.1.100:8085</value>
        <description>IP地址192.168.1.100也可替换为主机名</description>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.class</name>
        <value>FairScheduler</value>
        <description>常用类:CapacityScheduler、FairScheduler、orFifoScheduler</description>
    </property>
    <property>
        <name>yarn.scheduler.minimum</name>
        <value>100</value>
        <description>单位:MB</description>
    </property>
    <property>
        <name>yarn.scheduler.maximum</name>
        <value>256</value>
        <description>单位:MB</description>
    </property>
    <property>
        <name>yarn.resourcemanager.nodes.include-path</name>
        <value>nodeManager1, nodeManager2</value>
        <description>nodeManager1, nodeManager2分别对应服务器主机名</description>
    </property>
</configuration>
  • 配置NodeManager
参数 属性值 解释
yarn.nodemanager.resource.memory-mb givenNodeManager即资源的可用物理内存,以MB为单位 定义在节点管理器总的可用资源,以提供给运行容器
yarn.nodemanager.vmem-pmem-ratio 最大比率为一些任务的虚拟内存使用量可能会超过物理内存率 每个任务的虚拟内存的使用可以通过这个比例超过了物理内存的限制。虚拟内存的使用上的节点管理器任务的总量可以通过这个比率超过其物理内存的使用
yarn.nodemanager.local-dirs 数据写入本地文件系统路径的列表用逗号分隔 多条存储路径可以提高磁盘的读写速度
yarn.nodemanager.log-dirs 本地文件系统日志路径的列表逗号分隔 多条存储路径可以提高磁盘的读写速度
yarn.nodemanager.log.retain-seconds 10800 如果日志聚合被禁用。默认的时间(以秒为单位)保留在节点管理器只适用日志文件
yarn.nodemanager.remote-app-log-dir logs HDFS目录下的应用程序日志移动应用上完成。需要设置相应的权限。仅适用日志聚合功能
yarn.nodemanager.remote-app-log-dir-suffix logs 后缀追加到远程日志目录。日志将被汇总到yarn.nodemanager.remote-app-logdir/yarn.nodemanager.remote-app-logdir/{user}/${thisParam} 仅适用日志聚合功能。
yarn.nodemanager.aux-services mapreduce-shuffle Shuffle service 需要加以设置的Map Reduce的应用程序服务
<configuration>
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>256</value>
        <description>单位为MB</description>
    </property>
    <property>
        <name>yarn.nodemanager.vmem-pmem-ratio</name>
        <value>90</value>
        <description>百分比</description>
    </property>
    <property>
        <name>yarn.nodemanager.local-dirs</name>
        <value>/usr/local/hadoop/tmp/nodemanager</value>
        <description>列表用逗号分隔</description>
    </property>
    <property>
        <name>yarn.nodemanager.log-dirs</name>
        <value>/usr/local/hadoop/tmp/nodemanager/logs</value>
        <description>列表用逗号分隔</description>
    </property>
    <property>
        <name>yarn.nodemanager.log.retain-seconds</name>
        <value>10800</value>
        <description>单位为S</description>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce-shuffle</value>
        <description>Shuffle service 需要加以设置的MapReduce的应用程序服务</description>
    </property>
</configuration>

etc/hadoop/mapred-site.xml

  • 配置mapreduce
参数 属性值 解释
mapreduce.framework.name yarn 执行框架设置为 Hadoop YARN.
mapreduce.map.memory.mb 1536 对maps更大的资源限制的.
mapreduce.map.java.opts -Xmx2014M maps中对jvm child设置更大的堆大小
mapreduce.reduce.memory.mb 3072 设置 reduces对于较大的资源限制
mapreduce.reduce.java.opts -Xmx2560M reduces对 jvm child设置更大的堆大小
mapreduce.task.io.sort.mb 512 更高的内存限制,而对数据进行排序的效率
mapreduce.task.io.sort.factor 100 在文件排序中更多的流合并为一次
mapreduce.reduce.shuffle.parallelcopies 50 通过reduces从很多的map中读取较多的平行 副本

范例:

 1 <configuration>
 2     <property>
 3         <name> mapreduce.framework.name</name>
 4         <value>yarn</value>
 5         <description>执行框架设置为Hadoop YARN</description>
 6     </property>
 7     <property>
 8         <name>mapreduce.map.memory.mb</name>
 9         <value>1536</value>
10         <description>对maps更大的资源限制的</description>
11     </property>
12     <property>
13         <name>mapreduce.map.java.opts</name>
14         <value>-Xmx2014M</value>
15         <description>maps中对jvm child设置更大的堆大小</description>
16     </property>
17     <property>
18         <name>mapreduce.reduce.memory.mb</name>
19         <value>3072</value>
20         <description>设置 reduces对于较大的资源限制</description>
21     </property>
22     <property>
23         <name>mapreduce.reduce.java.opts</name>
24         <value>-Xmx2560M</value>
25         <description>reduces对 jvm child设置更大的堆大小</description>
26     </property>
27     <property>
28         <name>mapreduce.task.io.sort</name>
29         <value>512</value>
30         <description>更高的内存限制,而对数据进行排序的效率</description>
31     </property>
32     <property>
33         <name>mapreduce.task.io.sort.factor</name>
34         <value>100</value>
35         <description>在文件排序中更多的流合并为一次</description>
36     </property>
37     <property>
38         <name>mapreduce.reduce.shuffle.parallelcopies</name>
39         <value>50</value>
40         <description>通过reduces从很多的map中读取较多的平行副本</description>
41     </property>
42 </configuration>

  • 配置mapreduce的JobHistory服务器
参数 属性值 解释
maprecude.jobhistory.address MapReduce JobHistory Server host:port 默认端口号 10020
mapreduce.jobhistory.webapp.address MapReduce JobHistory Server Web UIhost:port 默认端口号 19888
mapreduce.jobhistory.intermediate-done-dir /mr-history/tmp 在历史文件被写入由MapReduce作业
mapreduce.jobhistory.done-dir /mr-history/done 目录中的历史文件是由MR JobHistory Server管理

范例:

 1 <configuration>
 2     <property>
 3         <name> mapreduce.jobhistory.address</name>
 4         <value>192.168.1.100:10200</value>
 5         <description>IP地址192.168.1.100可替换为主机名</description>
 6     </property>
 7     <property>
 8         <name>mapreduce.jobhistory.webapp.address</name>
 9         <value>192.168.1.100:19888</value>
10         <description>IP地址192.168.1.100可替换为主机名</description>
11     </property>
12     <property>
13         <name>mapreduce.jobhistory.intermediate-done-dir</name>
14         <value>/usr/local/hadoop/mr-history/tmp</value>
15         <description>在历史文件被写入由MapReduce作业</description>
16     </property>
17     <property>
18         <name>mapreduce.jobhistory.done-dir</name>
19         <value>/usr/local/hadoop/mr-history/done</value>
20         <description>目录中的历史文件是由MR JobHistoryServer管理</description>
21     </property>
22 </configuration>

原文地址:https://www.cnblogs.com/enzoluo-blog/p/8425634.html

时间: 2024-08-20 05:04:50

虚拟器上部署hadoop常见的一些问题的相关文章

4张图看懂delphi 10生成ipa和在iPhone虚拟器上调试(教程)

4张图看懂delphi 10生成ipa和在iPhone虚拟器上调试(教程) (2016-02-01 03:21:06) 转载▼ 标签: delphi ios delphi10 教程 编程 分类: 编程学习 参见: delphi XE4生成ipa并部署到越狱iPad视频教程 os x el capitan / Xcode_7.2 / delphi 10 切换不同版本的模拟器.png在虚拟器上调试的正确设置.png域名设置.png记得选择的平台要选虚拟器.png

在RHEL 6.5上部署Hadoop 2.6伪分布式模式(单机)

第一步:安装JAVA 1.7               此步骤略过,太简单了,可参考这个: http://blog.sina.com.cn/s/blog_6a7cdcd40101b1j6.html   第二步:创建Haddop专用用户             虽然使用root用户也可以部署hadoop,但从系统安全及规范的角度考虑,还是建议大家创建专用的用户(本例中为hadoop,实际中可以是任意用户名),创建用户的命令: # useradd hadoop # passwd hadoop   

集群配置虚拟主机及部署Hadoop集群碰到的问题

配置集群方案 Ubuntu下的配置apache虚拟主机方案: 对其中的Master节点配置虚拟主机,可以通过Chrome浏览器访问目录. 安装虚拟主机之前,先安装Apache2 sudo apt-get install apache2 再安装php5 sudo apt-get install php5 然后,进入 /etc/apache2/sites-available文件夹,添加”*.conf”文件 往该文件里写入 <VirtualHost *:80> ServerName author.x

在万网虚拟主机上部署MVC5

参考 要想部署mvc,需要把一些mvc用到的全局程序集改为本地部署,通过N次试验,终于搞定. 特写个备忘录,免得以后忘了. 首先更改web.config,在里面加上 <system.web> <customErrors mode="Off"/> </system.web> 这样部署到服务器上时,如果有错误,会提示详细的信息,可以按照提示改正. 然后把必须的程序集改为本地部署 vs 引用中找到相应的程序集,右键属性,有个"复制到本地"

linux上部署hadoop集群系列 基础篇

介绍 这一系列博文介绍hadoop集群的部署和安装,因为hadoop确实比较复杂,所以分为几个部分来一一介绍.大致有基础篇,HA-QJM篇,Federation篇. 正文 一.操作环境 虚拟机4台,配置基于hadoop的集群中包括4个节点:1个Master,3个Salve,节点之间局域网连接,可以相互ping通,Ip分布为: 168.5.15.112 hadoop1(Master) 168.5.15.116 hadoop2(Slave) 168.5.15.207 hadoop3(Slave) 1

linux上部署hadoop集群 HA-QJM篇

环境 基础篇需要4台机器(一台namenode,三台datanode); HA篇需要8台机器:两台namenode(一台作active nn,另一台作standby nn),三台datanode,三台zookeeper(也可以省去这三台,把zookeeper daemon部署在其他机器上).实际上还需要3台journalnode,但因为它比较轻量级,所以这里就把它部署在datanode上了. 三台zookeeper机器上配置以下信息: 1 创建hadoop用户 2 做好ssh免密码登陆 3 修改

在阿里云虚拟主机上部署Laravel

拿laravel5.1来说: 在根目录下创建一个local文件夹,把网站根目录下除了public文件夹以外所有文件及文件夹剪切到local文件夹中 然后把public文件夹下的所有文件剪切到网站根目录,接着删除public文件夹,这样入口就变成根目录而不是public了,接下来 打开根目录下的index.php(之前/public/index.php) 将 require __DIR__.'/../bootstrap/autoload.php'; 修改为 require __DIR__.'/lo

在Ubutun 14.04 Desktop LTS上部署Hadoop 2.7.1(伪分布式)

1.安装Ubutun 14.04 Desktop LTS 下载ISO文件,ubuntu-14.04.1-desktop-amd64.iso. 在Virtualbox或者VmWare中新建虚拟机,将ISO文件设置为启动光盘. 一路下一步,在需要输入用户的地方,输入用户名hduser,直到系统安装完成. 重启虚拟机,使用hduser登录系统.设置root的密码,输入sudo passwd命令: [email protected]:~$ sudo passwd [sudo] password for

通过Sahara部署Hadoop集群

声明: 本博客欢迎转载,但请保留原作者信息,并请注明出处! 作者:郭德清 团队:华为杭州OpenStack团队 在前一篇文章对Sahara的安装配置做了下总结,今天主要对如何在Sahara环境上部署Hadoop集群做一个总结,也把自己部署的时候填过的坑总结下,避免其他人在同一个坑掉下. 1.  上传镜像 这边选择的是vanilla的镜像,下载地址:http://docs.openstack.org/developer/sahara/userdoc/vanilla_plugin.html ,我选择