Hadoop入门进阶步步高(二)-文件夹介绍

二、Hadoop文件夹结构

这里重点介绍几个文件夹bin、conf及lib文件夹。

1、$HADOOP_HOME/bin文件夹


文件名


说明


hadoop


用于运行hadoop脚本命令,被hadoop-daemon.sh调用运行,也能够单独运行,一切命令的核心


hadoop-config.sh


Hadoop的配置文件


hadoop-daemon.sh


通过运行hadoop命令来启动/停止一个守护进程(daemon)。

该命令会被bin文件夹以下全部以“start”或“stop”开头的全部命令调用来运行命令。hadoop-daemons.sh也是通过调用hadoop-daemon.sh来运行优命令的,而hadoop-daemon.sh本身由是通过调用hadoop命令来运行任务。


hadoop-daemons.sh


通过运行hadoop命令来启动/停止多个守护进程(daemons),它也是调用hadoop-daemon.sh来完毕的。


rcc


The Hadoop record compiler


slaves.sh


该命令用于向全部的slave机器上发送运行命令


start-all.sh


全部启动,它会调用start-dfs.sh及start-mapred.sh


start-balancer.sh


启动balancer


start-dfs.sh


启动Namenode、Datanode及SecondaryNamenode


start-jobhistoryserver.sh


启动Hadoop任务历史守护线程,在须要运行历史服务的机器上运行该命令。

原文:

Start hadoop job history daemons.  Run this on node where history server need to run


start-mapred.sh


启动MapReduce


stop-all.sh


全部停止,它会调用stop-dfs.sh及stop-mapred.sh


stop-balancer.sh


停止balancer


stop-dfs.sh


停止Namenode、Datanode及SecondaryNamenode


stop-jobhistoryserver.sh


停止Hadoop任务历史守护线程


stop-mapred.sh


停止MapReduce


task-controller


任务控制器,这不是一个文本文件。没有被bin以下的shell调用

2、$HADOOP_HOME/conf文件夹


文件名


说明


capacity-scheduler.xml


configuration.xsl


core-site.xml


Hadoop核心全局配置文件。能够其他配置文件里引用该文件里定义的属性。如在hdfs-site.xml及mapred-site.xml中会引用该文件的属性。

该文件的模板文件存在于$HADOOP_HOME/src/core/core-default.xml,可将模板文件复制到conf文件夹,再进行改动。


fair-scheduler.xml


hadoop-env.sh


Hadoop环境变量


hadoop-metrics2.properties


hadoop-policy.xml


hdfs-site.xml


HDFS配置文件。该模板的属性继承于core-site.xml。

该文件的模板文件存在于$HADOOP_HOME/src/hdfs/hdfs-default.xml,可将模板文件复制到conf文件夹,再进行改动。


log4j.properties


Log4j的日志属于文件


mapred-queue-acls.xml


MapReduce的队列


mapred-site.xml


MapReduce的配置文件,该模板的属性继承于core-site.xml。

该文件的模板文件存在于$HADOOP_HOME/src/mapred/mapredd-default.xml,可将模板文件复制到conf文件夹。再进行改动。


masters


用于设置全部secondaryNameNode的名称或IP。每一行存放一个。假设是名称。那么设置的secondaryNameNode名称必须在/etc/hosts有ip映射配置。


slaves


用于设置全部slave的名称或IP,每一行存放一个。

假设是名称,那么设置的slave名称必须在/etc/hosts有ip映射配置。


ssl-client.xml.example


ssl-server.xml.example


taskcontroller.cfg


task-log4j.properties

3、$HADOOP_HOME/lib文件夹

存放的是Hadoop运行时依赖的的jar包,Hadoop在运行的时候会把lib文件夹以下的jar全部加到classpath中。

假设不想通过HADOOP_CLASSPATH指定自己的JAR文件所在路径。能够把计算须要用的jar全部都复制到lib文件夹中。

时间: 2024-10-29 03:01:36

Hadoop入门进阶步步高(二)-文件夹介绍的相关文章

Hadoop入门进阶步步高(二)-目录介绍

二.Hadoop目录结构 这里重点介绍几个目录bin.conf及lib目录. 1.$HADOOP_HOME/bin目录 文件名称 说明 hadoop 用于执行hadoop脚本命令,被hadoop-daemon.sh调用执行,也可以单独执行,一切命令的核心 hadoop-config.sh Hadoop的配置文件 hadoop-daemon.sh 通过执行hadoop命令来启动/停止一个守护进程(daemon). 该命令会被bin目录下面所有以"start"或"stop&quo

Hadoop入门进阶步步高(六)-Hadoop1.x与Hadoop2的区别

六.Hadoop1.x与Hadoop2的区别 1.变更介绍 Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更: l HDFS的NameNodes可以以集群的方式布署,增强了NameNodes的水平扩展能力和可用性: l MapReduce将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的组件,并更名为YARN(Yet Another Re

Hadoop入门进阶步步高(一)-环境准备

前言 Hadoop从存储上来说,是类似于冗余磁盘阵列(RAID)的存储方式,将数据分散存储并提供以提供吞吐量,它的存储系统就是HDFS(Hadoop Distuibute Fils System):从计算上来说,它通过MapReduce模型,将大数据的计算分发到多台计算机上完成,再将结果合并,减少计算的时间. Hadoop适合于: 1.超大数据的计算: 2.一次写入.多次读取的模式: 3.可以跑在普通的硬件上. Hadoop不适合: 1.低延迟的数据访问,它是为高数据吞吐量应用优化的: 2.大量

Hadoop入门进阶步步高(三)-配置Hadoop

三.配置Hadoop 1.设置$HADOOP_HOME/conf/hadoop-env.sh 这个文件中设置的是Hadoop运行时需要的环境变量,在1.2.1版中共有19个环境变量,如下: 变量名称 默认值 说明 JAVA_HOME 设置JDK的路径,这个必须设置,否则Hadoop无法启动,值如: /usr/local/jdk1.6.0_33 HADOOP_CLASSPATH 空 这个用以设置用户的类路径,也可以在执行计算之前设置 HADOOP_HEAPSIZE 1000m 设置Hadoop堆的

Hadoop入门进阶步步高(四)-测试Hadoop

四.测试Hadoop 一个简单的求每年温度最大值的程序. 1.准备两个文本测试数据 准备两个名为data1.txt及data2.txt的文件,用于做为计算的输入数据,将其放于/home/fenglibin/java/data目录下: data1.txt data2.txt 1999 10 1999 20 1999 25 2000 21 2000 22 2000 18 2000 40 2001 45 2001 65 2002 90 2002 89 2002 70 2003 40 2003 80 1

Hadoop入门进阶步步高(五)-搭建Hadoop集群

五.搭建Hadoop集群 上面的步骤,确认了单机可以执行Hadoop的伪分布执行,真正的分布式执行无非也就是多几台slave机器而已,配置方面的有一点点区别,配置起来就非常简单了. 1.准备三台服务器 192.168.56.101 192.168.56.102 192.168.56.103 在每台机器的/etc/hosts中都将ip及hostname给映射上: 192.168.56.101  nginx1 192.168.56.102  nginx2 192.168.56.103  nginx3

hadoop入门之HDFS常用文件操作命令及注意事项

HDFS 文件操作命令 HDFS 文件系统提供了相当多的shell 操作命令,大大方便了程序员和系统管理人员查看.修改HDFS 上的文件.进一步,HDFS的操作命令和Unix/Linux 的命令名称和格式相当一致,因而学习HDFS 命令的成本也大为缩小. HDFS 的基本命令格式如下: bin/hadoop dfs–cmd <args> 这里cmd 就是具体的命令,记住cmd 前面的短线"–"千万不要忽略.     1.ls hadoop fs -ls /     列出hd

Hadoop学习笔记之二 文件操作

HDFS分布式文件系统:优点:支持超大文件存储.流式访问.一次写入多次读取.缺点:不适应大量小文件.不适应低时延的数据访问.不适应多用户访问任意修改文件. 1.hadoop用于大数据处理,在数据量较小时,并不适用于实时性强的任务,并不是所有的job放到hadoop上,性能都会提升. 2.大量小文件的情况下会极大的降低系统的性能,所以处理前需要先将少文件聚合成大文件,map的输出也应该首先combine在传输给reduce. 3.数据传输时的IO开销,存储在内存中还是硬盘中,节点之间共享数据的分发

Windows各个文件夹介绍

windows文件介绍 总结 ├WINDOWS │ ├-system32(存放Windows的系统文件和硬件驱动程序) │ │ ├-config(用户配置信息和密码信息) │ │ │ └-systemprofile(系统配置信息,用于恢复系统) │ │ ├-drivers(用来存放硬件驱动文件) │ │ ├-spool(用来存放系统打印文件.包括打印的色彩.打印预存等) │ │ ├-wbem(存放WMI测试程序,用于查看和更改公共信息模型类.实例和方法等) │ │ ├-IME(用来存放系统输入法