转载请注明出处:http://blog.csdn.net/l1028386804/article/details/45950837
一、Hadoop核心项目
- HDFS: Hadoop Distributed File System 分布式文件系统
- MapReduce:并行计算框架
二、HDFS的架构
- 主从结构
- 主节点,只有一个: namenode
- 从节点,有很多个: datanodes
- namenode负责:
- 接收用户操作请求
- 维护文件系统的目录结构
- 管理文件与block之间关系,block与datanode之间关系
- datanode负责:
- 存储文件
- 文件被分成block存储在磁盘上
- 为保证数据安全,文件会有多个副本
三、MapReduce的架构
- 主从结构
- 主节点,只有一个: JobTracker
- 从节点,有很多个: TaskTrackers
- JobTracker负责:
- 接收客户提交的计算任务
- 把计算任务分给TaskTrackers执行
- 监控TaskTracker的执行情况
- TaskTrackers负责:
- 执行JobTracker分配的计算任务
四、Hadoop的特点
扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。
成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。
可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。
五、Hadoop集群的物理分布
六、单节点物理结构
七、Hadoop部署方式
- 本地模式
- 伪分布模式
- 集群模式
八、伪分布模式安装步骤
- 关闭防火墙
- 修改ip
- 修改hostname
- 设置ssh自动登录
- 安装jdk
- 安装hadoop
九、修改hadoop配置文件
- hadoop-env.sh
export JAVA_HOME=/usr/local/jdk/
- 2.core-site.xml
<configuration> <property> <name>fs.default.name</name> <value>hdfs://hadoop0:9000</value> <description>change your own hostname</description> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/tmp</value> </property> </configuration>
- 3.hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.permissions</name> <value>false</value> </property> </configuration>
- 4.mapred-site.xml
<configuration> <property> <name>mapred.job.tracker</name> <value>hadoop0:9001</value> <description>change your own hostname</description> </property> </configuration>
十、启动Hadoop
先格式化namenode hadoop namenode -format
在执行start-all.sh
十一、浏览Hadoop
时间: 2024-10-28 08:57:39