hadoop配置文件说明

1、dfs.hosts 记录即将作为datanode加入集群的机器列表
2、mapred.hosts 记录即将作为tasktracker加入集群的机器列表
3、dfs.hosts.exclude mapred.hosts.exclude 分别包含待移除的机器列表
4、master 记录运行辅助namenode的机器列表
5、slave 记录运行datanode和tasktracker的机器列表
6、hadoop-env.sh 记录脚本要用的环境变量,以运行hadoop
7、core-site.xml hadoop core的配置项,例如hdfs和mapreduce常用的i/o设置等
8、hdfs-site.xml hadoop守护进程的配置项,包括namenode、辅助namenode和datanode等
9、mapred-site.xml mapreduce守护进程的配置项,包括jobtracker和tasktracker
10、hadoop-metrics.properties 控制metrics在hadoop上如何发布的属性
11、log4j.properties 系统日志文件、namenode审计日志、tasktracker子进程的任务日志的属性

hadoop的集群配置中,大部分都用的默认设置,如果想要提高整个集群的性能,可以考虑通过修改配置的方法实现,配置项大部分都配置在这三个文件里:core_site.xml, hdfs_site.xml, mapred_site.xml, 下面将经常会用到的配置项总结如下:(待补充)

core_site.xml

fs.default.name

说明: Name Node的URI

value: hdfs://hostname:port/

备注:hostname要用主机名或域名,不能使用ip

fs.trash.interval

说明:hadoop垃圾回收机制,每隔多长时间清理一次垃圾

value:1440

备注:默认值是0,不打开垃圾收回机制。删除掉的文件将直接清除,不保存。如果设置了,则将保存到本地的.crash文件夹下。

fs.checkpoint.dir

说明:本地文件系统DFS secondaryname节点存储临时图像目录

value:/disk2/cloudera/hadoop/dfs/namesecondary

备注:用于:hadoop namenode -importCheckpoint,从检查点目录装载镜像并保存到当前检查点目录,检查点目录由fs.checkpoint.dir指定。

hadoop.tmp.dir

说明:Hadoop的默认临时文件存放路径

value:/home/hadoop/hadoop/tmp

备注:这个最好配置,如果在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的tmp目录即可。

不过如果删除了NameNode机器的此目录,那么就需要重新执行NameNode格式化的命令

io.file.buffer.size

说明:读写序列文件缓冲区大小

value:16384

备注:值应该设置为硬件页面大小的倍数,默认设置为4096,请设置为4096的倍数

io.bytes.per.checksum

说明:

value:

备注:

io.skip.checksum.errors

说明:

value:

备注:

io.compression.codecs

说明:

value:

备注:

io.serializations

说明:

value:

备注:

hdfs_site.xml

dfs.name.dir

说明:设定DFS Name节点中的命名空间表格文件,在本地系统中的保存位置。 可以设置多个,通过","分隔,fsimage文件,会被复制到多个路径中,用于备份。

value:/home/hadoop/hadoop/name

备注:其中的一个路径,可以利用nfs映射到我们的共享文件夹下,形成异地备份

dfs.data.dir

说明:设定DFS Data节点中的数据块在本地系统中的保存位置。可以设置多个,通过 "," 分隔。设置的文件夹如果不存在,将被忽略。

value:/home/hadoop/data1, /home/hadoop/data2

备注:

dfs.replication

说明:缺省的文件块被复制的次数。在文件被创建的时候可以指定复制的块数,如果在创建的时候没有指定,则使用该缺省值。

value:3

备注:

dfs.block.size

说明:新文件被分隔的缺省块容量。

value:268435456

备注:必须是512的倍数

dfs.datanode.max.xcievers

说明:datanode所允许同时执行的发送和接受任务的数量

value:10240

备注:默认是256.该值太小。可以修改为10240

dfs.web.ugi

说明:hadoop的web界面访问权限设置。

value:hadoop,hadoop

备注:value语法:用户名,用户组

如何设置: 
             hadoop fs -chmod (修改文件所有者,文件所属组,其他用户的读、写、执行权限) 
             haddop fs -chown  (修改文件所有者) 
             hadoop fs -chgrp   (修改文件所属组)

dfs.permissions

说明:对HDFS是否启用认证。

value:true

备注:默认为true

dfs.permissions.supergroup

说明:超级用户组名称

value:supergroup

备注:

dfs.safemode.threshold.pct

说明:启动的时候,NameNode会等待所有的datanode报告block状态,查看所有的block的副本是否达到最低要求,当报告合格的数量达到设置的值,则退出safemode。

value:0.95f

备注:默认为0.999f

dfs.safemode.extension

说明:Namenode在合格的datanode数目达到要求的时候,并不是马上离开safemode状态,会有一个扩展时间,让剩余的 datanode来报告block信息,这个扩展时间默认是30秒,单位是毫秒。

value:30000

备注:时间默认是30秒,单位是毫秒

dfs.balance.bandwidthPerSec

说明:用于平衡数据。每秒平衡数据量最大带宽。可以放大。

value:10485760

备注:默认是10485760

dfs.replication.min

说明:创建文件时的最小复制数。主要用于dfs.safemode.threshold.pct

value:1

备注:默认为1

dfs.datanode.handler.count

说明:datanode上用于处理RPC的线程数。

value:3

备注:默认为3,较大集群,可适当调大些,比如8。需要注意的是,每添加一个线程,需要的内存增加。

dfs.datanode.du.reserved

说明:表示在datanode对磁盘写时候,保留多少非dfs的磁盘空间, 从而避免dfs将所在的磁盘写满

value:10737418240

备注:默认为0,单位是字节

dfs.df.interval

说明:磁盘使用统计刷新时间间隔,单位毫秒

value:60000

备注:默认是60000,单位是毫秒

dfs.namenode.handler.count

说明:namenode的rpc调用线程数。

value:10

备注:默认是10

dfs.namenode.plugins

说明:

value:

备注:

dfs.datanode.plugins

说明:

value:

备注:

dfs.thrift.address

说明:

value:

备注:

dfs.hosts/dfs.hosts.exclude

说明:Data Node白名单/黑名单文件
value:
备注:

mapred_site.xml

mapred.job.tracker

说明:JobTracker的地址

value:

备注:格式为 hostname:port

mapred.local.dir

说明:运行 mapreduce 中间结果存储处,保存MapReduce临时文件的本地目录

value:

备注:可设置多个,用逗号分隔

mapred.system.dir

说明:HDFS上MapReduce保存系统文件的目录

value:

备注:

mapred.job.tracker.handler.count

说明: jobtracker同时与tasktracker通信的线程数

value:

备注:

mapreduce.jobtracker.staging.root.dir

说明:

value:

备注:

mapred.temp.dir

说明:

value:

备注:

mapred.child.java.opts

说明:设置JVM堆的最大可用内存,需从应用程序角度进行配置。

value:

备注:

mapred.tasktracker.map.tasks.maximum

说明:tasktracker上同时运行的map的最大数量

value:2

备注:默认为2

mapred.tasktracker.reduce.tasks.maximum

说明:tasktracker上同时运行的task的最大数量

value:2

备注:默认为2

mapred.hosts/mapred.host.exclude

说明:MapReduce白名单/黑名单文件

value:

备注:

mapred.queue.names
说明: 队列名

value:
备注: hadoop MapReduce系统默认有一个"default"的Job队列(pool).

mapred.map.tasks.speculative.execution

说明:

value:

备注:

mapred.reduce.tasks.speculative.execution

说明:

value:

备注:

io.sort.mb

说明:排序使用的最大内存

value:

备注:

io.sort.factor

说明: 排序因子。同时合并的数据流的数量

value:

备注:当一个map task执行完之后,本地磁盘上(mapred.local.dir)有若干个spill文件,merge sort 把这些文件合成一个。执行merge sort的时候,每次同时打开多少个spill文件由该参数决定。 打开的文件越多,不一定merge sort就越快,所以要根据数据情况适当的调整。

keep.failed.task.files

说明:

value:

备注:

mapred.job.reuse.jvm.num.tasks

说明:

value:

备注:

mapred.child.env

说明:

value:

备注:

mapred.child.ulimit

说明:

value:

备注:

mapred.output.compress/mapred.compress.map.output

说明:中间结果和最终结果是否要进行压缩,如果是,指定压缩方式(Mapred.compress.map.output.codec/ Mapred.output.compress.codec)。 推荐使用LZO压缩。Intel内部测试表明,相比未压缩,使用LZO压缩的 TeraSort作业,运行时间减少60%,且明显快于Zlib压缩。

value

备注:

tasktracker.http.threads

说明:HTTP server上的线程数。运行在每个TaskTracker上, 用于处理map task输出。

value:8

备注:tasktracker开http服务的线程数。用于reduce拉取map输出数据,大集群可以将其设为40~50。

fs.inmemory.size.mb

说明:reducer在合并map输出数据使用的内存空间

value:

备注: 默认使用200M

mapred.reduce.parallel.copies

说明:reducer同时从mapper上拉取的文件数

value:

备注:

mapred.output.compression.codec

说明:

value:

备注:

mapred.map.output.compression.codec

说明:

value:

备注:

jobtracker.thrift.address

说明:

value:

备注:

mapred.jobtracker.plugins

说明:

value:

备注:

时间: 2025-01-04 22:04:00

hadoop配置文件说明的相关文章

hadoop分布式安装部署具体视频教程(网盘附配好环境的CentOS虚拟机文件/hadoop配置文件)

參考资源下载:http://pan.baidu.com/s/1ntwUij3视频安装教程:hadoop安装.flvVirtualBox虚拟机:hadoop.part1-part5.rarhadoop文件:hadoop-2.2.0.tar.gzhadoop配置文件:hadoop_conf.tar.gzhadoop学习教程:炼数成金-hadoop 虚拟机下载安装:VirtualBox-4.3.12-93733-Win.exehttp://dlc.sun.com.edgesuite.net/virtu

Hadoop配置文件解析

Hadoop源码解析 2 --- Hadoop配置文件解析 1 Hadoop Configuration简介    Hadoop没有使用java.util.Properties管理配置文件, 也没有使用Apache Jakarta Commons Configuration管理配置文件,而是使用了一套独有的配置文件管理系统,并提供自己的API,即使用 org.apache.hadoop.conf.Configuration处理配置信息. org.apache.hadoop.conf目录结构如下:

Hadoop配置文件与HBase配置文件

本Hadoop与HBase集群有1台NameNode, 7台DataNode 1. /etc/hostname文件 NameNode: node1 DataNode 1: node2 DataNode 2: node3 ....... DataNode 7: node8 2. /etc/hosts文件 NameNode: 127.0.0.1 localhost #127.0.1.1 node1 #-------edit by HY(2014-05-04)-------- #127.0.1.1 n

Hadoop学习(二) Hadoop配置文件参数详解

Hadoop运行模式分为安全模式和非安全模式,在这里,我将讲述非安全模式下,主要配置文件的重要参数功能及作用,本文所使用的Hadoop版本为2.6.4. etc/hadoop/core-site.xml 参数 属性值 解释 fs.defaultFS NameNode URI hdfs://host:port/ io.file.buffer.size 131072 SequenceFiles文件中.读写缓存size设定 范例: <configuration> <property> &

hadoop配置文件加载顺序

用了一段时间的hadoop,现在回来看看源码发现别有一番味道,温故而知新,还真是这样的 在使用hadoop之前我们需要配置一些文件,hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml.那么这些文件在什么时候被hadoop使用? 一般的在启动hadoop的时候使用最多就是start-all.sh,那么这个脚本都干了些什么? start-all.sh # Start all hadoop daemons. Run this on mas

Hadoop配置文件hdfs-site.xml

<property> <name>dfs.ha.automatic-failover.enabled</name> <value>true</value> <description>配置是否启动故障恢复,配置此项为true的时候,core-site.xml需要配置ha.zookeeper.quorum</description> </property> <property> <name>

hadoop配置文件: hdfs-site.xml, mapred-site.xml

dfs.name.dir Determines where on the local filesystem the DFS name node should store the name table(fsimage). If this is a comma-delimited list of directories then the name table is replicated in all of the directories, for redundancy. 这个参数用于确定将HDFS文

Hadoop配置文件core-site.xml

<property> <name>fs.defaultFS</name>     <value>hdfs://ns1</value>   <description>缺省文件服务的协议和NS逻辑名称,和hdfs-site里的对应此配置替代了1.0里的 fs.default.name,ns1 与  hdfs-site.xml中的dfs.nameservices配置项对应</description> </property&

Hadoop配置文件

部分内容參考:http://www.linuxqq.net/archives/964.html  http://slaytanic.blog.51cto.com/2057708/1100974/ hadoop的重要配置文件有下面几个: 在1.2.1版本号中.core-default.xml有73个属性.hdfs-default.xml有76个属性,mapred-default.xml有136个属性. 很多其它内容请參考P328 一.masters/slaves 1.masters记录的是须要启动

hadoop配置文件的加载机制

hadoop通过Configuration类来保存配置信息 1.通过Configuration.addResource()来加载配置文件 2.通过Configuration.get***()来获取配置属性 1.创建一个新的Configuration实例时,会加载core-default.xml与core-site.xml,若还有其它配置,则调用addResource()继续添加. package org.jediael.hadoopdemo; import org.apache.hadoop.c