spark 环境搭建
下载的压缩文件放在~/software/ 解压安装在~/app/
一:分布式文件系统搭建HDFS
1,下载Hadoop
HDFS环境搭建 使用版本:hadoop-2.6.0-cdh5.7.0
下载:wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz
解压:tar http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz -C ~/app/
2,安装JDK
下载:从官网下载,ftp上传到software下
安装: tar -zxvf jdk-7u51-linux-x64.tar.gz -C ~/app/
配置环境变量:vim ./bash_profile
插入 export JAVA_HOME=/root/app/jdk1.7.0_51
export PATh=$JAVA_HOME/bin:$PATH
保存 wq
生效 source ./bash_profile
3,机器参数设置:将多个Linux通过免密SSH连接
修改机器名:以便直接通过hosts 机器名与IP映射关系直接登录
vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=hadoop001
设置IP与机器名的映射:
vim /etc/hosts
192.168.1.116 hadoop001
127.0.0.1 localhost
ssh免密登录(这个可以不设置,但是重启hadoop进程时是需要手工输入密码才行)
cd ~
ssh-keygen -t rsa (不需输入密码,一直回车)
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
测试:ssh hadoop001 直接连接上另一个虚拟机
4,Hadoop文件修改
cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop
1)hadoop-env.sh 配置Java环境
export JAVA_HOME=/root/app/jdk1.7.0_51
2)core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop001:8020<alue>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/app/tmp<alue>
</property>
第一个<property>:添加默认的HDFS名称:hostname 为Hadoop000 端口8020
第二个<property>:更改Hadoop配置文件目录,默认在temp中,每当系统重启会消失,所有要改成自己建立的文件夹
3) hdfs-site.xml 修改文件系统的副本系数,默认为三个,自己只有一台机器,所以改为1
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
5,格式化HDFS
注意:只是在配置完Hadoop后进行的操作,格式化后数据会丢失
命令:bin/hdfs namenode -format
6,启动HDFS
命令:sbin/start-dfs.sh
验证是否启动成功:
1)jps
DataNode
SecondaryNameNode
NameNode
2)浏览器
http://hadoop000:50070/