Spark环境搭建（一）-----------HDFS分布式文件系统搭建

spark 环境搭建

下载的压缩文件放在~/software/ 解压安装在~/app/

一：分布式文件系统搭建HDFS

1，下载Hadoop

　　HDFS环境搭建使用版本：hadoop-2.6.0-cdh5.7.0

　　下载：wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz

　　解压：tar http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz -C ~/app/

2，安装JDK

　　下载：从官网下载，ftp上传到software下

　　安装： tar -zxvf jdk-7u51-linux-x64.tar.gz -C ~/app/

　　配置环境变量：vim ./bash_profile

　　　　　　插入 export JAVA_HOME=/root/app/jdk1.7.0_51

　　　　　　　　　　　 export PATh=$JAVA_HOME/bin:$PATH

　　　　　　　　保存 wq

　　　　　　　　　生效 source ./bash_profile

3，机器参数设置：将多个Linux通过免密SSH连接

　　修改机器名：以便直接通过hosts 机器名与IP映射关系直接登录

　　　　vim /etc/sysconfig/network

　　　　NETWORKING=yes

　　　　HOSTNAME=hadoop001

　　设置IP与机器名的映射：

　　　　vim /etc/hosts

　　　　192.168.1.116 hadoop001

　　　　127.0.0.1 localhost

　　ssh免密登录（这个可以不设置，但是重启hadoop进程时是需要手工输入密码才行）

　　　　cd ~

　　　　ssh-keygen -t rsa (不需输入密码，一直回车)

　　　　cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

　　测试：ssh hadoop001 直接连接上另一个虚拟机

4，Hadoop文件修改

　　cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop

　　　　1）hadoop-env.sh 配置Java环境

　　　　　　export JAVA_HOME=/root/app/jdk1.7.0_51

　　　　2）core-site.xml

　　　　　　<name>fs.defaultFS</name>
　　　　　　<value>hdfs://hadoop001:8020<alue>
　　　　　　</property>

　　　　　　<property>
         　　　　　　<name>hadoop.tmp.dir</name>
        　　　　　　 <value>/home/hadoop/app/tmp<alue>
     　　　　　　</property>

　　　　　　第一个<property>：添加默认的HDFS名称：hostname 为Hadoop000 端口8020

　　　　　　第二个<property>：更改Hadoop配置文件目录，默认在temp中，每当系统重启会消失，所有要改成自己建立的文件夹
　　　　

　　　　3） hdfs-site.xml 修改文件系统的副本系数，默认为三个，自己只有一台机器，所以改为1

　　　　　　　　<property>
        　　　　　　　　<name>dfs.replication</name>
        　　　　　　　　<value>1</value>
    　　　　　　 </property>

5，格式化HDFS
　　注意：只是在配置完Hadoop后进行的操作,格式化后数据会丢失

　　命令：bin/hdfs namenode -format

6，启动HDFS

　命令：sbin/start-dfs.sh

　　验证是否启动成功：

　　　　1）jps

　　　　　　DataNode

　　　　　　SecondaryNameNode

　　　　　　NameNode

　　　　2)浏览器

　　　　　　http://hadoop000:50070/

时间： 2024-10-14 10:44:52

Spark环境搭建（一）-----------HDFS分布式文件系统搭建的相关文章

FastDFS 分布式文件系统搭建部署

搭建部署FastDFS 分布式文件系统什么是分布式文件系统分布式文件系统 ( Distributed File System ) 是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连分布是文件系统的设计基于客户机/服务器模式一个典型的网络可能包括多个供多用户访问的服务器对等特性允许一些系统扮演客户机和服务的双重角色衡量分布式文件系统的优劣数据的存储方式数据的读取速率数据安全机制 FastDFS介绍 FastDFS是一款开源分布式文件系统,它用纯

54.HDFS分布式文件系统

HDFS分布式文件系统 HDFS系统借助于一款hadoop工具进行部署,文件系统的主要优势是主要是提高客户端的读取效率,假如一块1TB的磁盘数据需要读取,读取速度为100MB/S,如果将1块磁盘中的数据分别存储到100块磁盘上,那么当用户读取时,它们并行运行,那么用户读取操作就可以瞬间完成. 一个HDFS群集由一个运行于master上的Namenode和多个运行于slave上的Datanode组成. Namenode负责管理文件系统的命名空间和客户端对文件系统的访问操作. Datanode负责管

Hadoop系列之hdfs(分布式文件系统)安装配置

Hadoop系列之hdfs(分布式文件系统)安装配置环境介绍: ip 节点192.168.3.10 hdfs-master192.168.3.11 hdfs-slave1192.168.3.12 hdfs-slave21.在所有机器添加hosts192.168.3.10 hdfs-master192.168.3.11 hdfs-slave1192.168.3.12 hdfs-slav

HDFS分布式文件系统资源管理器开发总结

HDFS,全称Hadoop分布式文件系统,作为Hadoop生态技术圈底层的关键技术之一,被设计成适合运行在通用硬件上的分布式文件系统.它和现有的分布式文件系统有很多共同点,但同时,它和其他的分布式文件系统的区别也是很明显的.HDFS是一个高度容错性的系统,适合部署在连接的机器上.HDFS能够提供高吞吐量的数据访问,非常适合大规模数据集上的应用. 笔者本人接触研究HDFS也有半年之久了,了解了HDFS Java API接口后,就一直设想着设计一个类似于Windows操作系统上的资源管理器一样的

Hadoop之HDFS分布式文件系统具有哪些优点？

随着互联网数据规模的不断增大,对文件存储系统提出了更高的要求,需要更大的容量.更好的性能以及更高安全性的文件存储系统,与传统分布式文件系统一样,HDFS分布式文件系统也是通过计算机网络与节点相连,但也有优于传统分布式文件系统的优点. 1. 支持超大文件 HDFS分布式文件系统具有很大的数据集,可以存储TB或PB级别的超大数据文件,能够提供比较高的数据传输带宽与数据访问吞吐量,相应的,HDFS开放了一些POSIX的必须接口,容许流式访问文件系统的数据. 2. 高容错性能 HDFS面向的是成百上千的

详细讲解MFS分布式文件系统搭建(内含源码包)

初步了解分布式原理: 分布式文件系统(Distributed File Systemm)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连.简单来说,就是把一些分散的(分布在局域网内各个计算机上)共享文件夹,集合到一个文件夹内(虚拟共享文件夹).对于用户来说,要访问这些共享文件夹时,只要打开这个虚拟共享文件夹,就可以看到所有链接到虚拟共享文件夹内的共享文件夹,用户感觉不到这些共享文件是分散在各个计算机上的.分布式文件系统的好处是集中访问.简化操作.数据容灾,以

hadoop[4]-hdfs分布式文件系统的基本工作机制

一.Namenode 和 Datanode HDFS采用master/slave架构.一个HDFS集群是由一个Namenode和一定数目的Datanodes组成.Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问.集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储.HDFS暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据.从内部看,一个文件其实被分成一个或多个数据块,这些块存储在一组Datanode上.Name

Hadoop学习之路(2)Hdfs分布式文件系统

@[TOC] 1.Hadoop架构 Hadoop由三个模块组成:分布式存储HDFS.分布式计算MapReduce.资源调度引擎Yarn 2.HDFS体系架构 2.1NameNode NameNode负责:文件元数据信息的操作以及处理客户端的请求 NameNode管理:HDFS文件系统的命名空间NameSpace. NameNode维护:文件系统树(FileSystem)以及文件树中所有的文件和文件夹的元数据信息(matedata)维护文件到块的对应关系和块到节点的对应关系 Na

HDFS分布式文件系统

参考资料:http://os.51cto.com/art/201211/364374.htm 上边这是个结构概览吧.默认情况下,一个file被分成很多个block,每个block被分配到两个rack(机架)的共3个DataNode上,也就是有两个备份.在NameNode保存了每个block对应的DataNode标号,可以快速的定位.主要是读写操作以及同步操作,还有某个机架故障后的备份操作.这也是分布式文件系统的精髓吧.