hadoop2.7+Spark1.4环境搭建

一、hadoop伪分布式搭建

其实官网有比较详实的说明，英语好的可以直接看官网，地址

1、安装JDK1.7

这个省略，官网显示1.6可以，但是我用openjdk1.6出了异常，JDK1.6没试，直接用了JDK1.7

配置好环境变量

vi /etc/profile

JAVA_HOME=/jdk1.7.0_45
CLASSPATH=.:$JAVE__HOME/lib.tools.jar
PATH=$PATH：$JAVA__HOME/bin

添加完后执行命令使配置生效

source /etc/profile

2、安装ssh、rsync,（以ubuntu为例）

  $ sudo apt-get install ssh
  $ sudo apt-get install rsync

3、下载hadoop编译包，镜像地址（国内镜像竟然比US的还慢，不能忍，注意2.7的编译包为64位）

查是32还是64位的办法

cd hadoop-2.7.0/lib/native
file libhadoop.so.1.0.0

hadoop-2.7.0/lib/native/libhadoop.so.1.0.0: ELF 64-bit LSB shared object, AMD x86-64, version 1 (SYSV), not stripped

4、配置环境变量

hadoop配置文件指定java路径

etc/hadoop/hadoop-env.sh

export JAVA_HOME=/jdk1.7.0_45

系统环境变量

export HADOOP_HOME=/usr/hadoop/hadoop-2.7.0
export PATH=$PATH:$HADOOP_HOME/bin

添加完后执行命令使配置生效

source /etc/profile

执行命令查看是否成功

hadoop version

5、修改hadoop配置文件

etc/hadoop/core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

6、设置hadoop ssh无密码访问

  $ ssh-keygen -t dsa -P ‘‘ -f ~/.ssh/id_dsa
  $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
  $ export HADOOP\_PREFIX=/usr/local/hadoop

7、格式化节点和启动hadoop

$ bin/hdfs namenode -format
$ sbin/start-dfs.sh

打开浏览器 http://localhost:50070/看是否成功

hdfs配置：username最好和当前用户名相同，不然会可能出现权限问题

  $ bin/hdfs dfs -mkdir /user
  $ bin/hdfs dfs -mkdir /user/<username>

8、yarn配置

etc/hadoop/mapred-site.xml:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

etc/hadoop/yarn-site.xml:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

启动yarn

$ sbin/start-yarn.sh

http://localhost:8088/查看是否成功

至此hadoop单节点伪分布式安装配置完成

二、spark安装配置

spark的安装相对就要简单多了

1、首先下载，地址

因为我之前已经有hadoop了所以选择第二个下载

2、下载解压后进入目录

cd conf
cp spark-env.sh.template spark-env.sh
cp spark-defaults.conf.template spark-defaults.conf
vi conf/spark-env.sh

最后添加

export HADOOP_HOME=/usr/hadoop/hadoop-2.7.0

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export SPARK_DIST_CLASSPATH=$(hadoop classpath)

最后一个需要hadoop添加了环境变量才行。

官网配置中没有前两个配置，我运行例子时总报错，找不到hdfs jar 包。

3、回到解压目录运行示例

./bin/run-example SparkPi 10

成功则到此配置完成

想运行python或者scala请参考官网

时间： 2024-08-29 23:15:02

hadoop2.7+Spark1.4环境搭建的相关文章

Hadoop2.6集群环境搭建

Hadoop2.6集群环境搭建(HDFS HA+YARN)原来4G内存也能任性一次. 准备工作: 1.笔记本4G内存 ,操作系统WIN7 (屌丝的配置) 2.工具VMware Workstation 3.虚拟机:CentOS6.4共四台虚拟机设置: 每台机器:内存512M,硬盘40G,网络适配器:NAT模式选择高级,新生成虚机Mac地址(克隆虚拟机,Mac地址不会改变,每次最后手动重新生成) 编辑虚拟机网络: 点击NAT设置,查看虚机网关IP,并记住它,该IP在虚机的网络设置中非常重要. N

Hadoop2.6集群环境搭建（HDFS HA+YARN）

[hadoop]hadoop2.6完全分布式环境搭建

在经过几天的环境搭建,终于搭建成功,其中对于hadoop的具体设置倒是没有碰到很多问题,反而在hadoop各节点之间的通信遇到了问题,而且还反复了很多遍,光虚拟机就重新安装了4.5次,但是当明白了问题之后才发现这都是无用功,有了问题应该找具体的解决方案,并不是完全的重装,这样不会明白问题是怎么解决的,除了费时费力没有多大的用处,接下来就把搭建的过程详细叙述一下. 环境配置: 计算机: CPU-I7 2630QM 6G内存 256G SSD 虚拟机: vmware workstation 11 系

Hadoop2.6集群环境搭建（HDFS HA+YARN）原来4G内存也能任性一次.

准备工作: 1.笔记本4G内存 ,操作系统WIN7 (屌丝的配置) 2.工具VMware Workstation 3.虚拟机:CentOS6.4共四台虚拟机设置: 每台机器:内存512M,硬盘40G,网络适配器:NAT模式选择高级,新生成虚机Mac地址(克隆虚拟机,Mac地址不会改变,每次最后手动重新生成) 编辑虚拟机网络: 点击NAT设置,查看虚机网关IP,并记住它,该IP在虚机的网络设置中非常重要. NAT设置默认IP会自动生成,但是我们的集群中IP需要手动设置. 本机Win7 :VMn

Hadoop2.6集群环境搭建（伪分布式）

本文地址:http://www.cnblogs.com/myresearch/p/hadoop-fully-distributed-operation.html,转载请注明源地址. 以前安装过hadoop几个版本的单机版,主要是为了研究hadoop源代码,现在想更加深入hadoop整个生态系统,选择安装hadoop完全分布式,由于目前hadoop最新版本为2.6,于是选择这个版本安装使用准备工作: 1.笔记本4G内存 ,操作系统WIN7(纯屌丝配置) 2.工具:VMware Workstati

Hadoop2.x伪分布式环境搭建(一)

1.安装hadoop环境,以hadoop-2.5.0版本为例,搭建伪分布式环境,所需要工具包提供网盘下载:http://pan.baidu.com/s/1o8HR0Qu 2.上传所需要的工具包到linux相对就应的目录中 3.接上篇(Linux基础环境的各项配置(三)中最后一部分,需卸载系统自带的jdk,以免后续安装的jdk产生冲突),卸载jdk完成后,安装jdk-7u67-linux-x64.tar.gz版本,上述工具包可下载 (1).解压JDK tar -zxf jdk-7u67-linux

hadoop2.7.0实践-环境搭建

文档说明本文档为hadoop搭建实践文档,相关理论可到hadoop官网查看学习. 操作系统:Ubuntu14 x64位 Hadoop:Hadoop 2.7.0 Ubuntu官网:http://www.ubuntu.com/download/desktop 下载地址: http://211.167.105.77:83/1Q2W3E4R5T6Y7U8I9O0P1Z2X3C4V5B/releases.ubuntu.com/14.04.2/ubuntu-14.04.2-desktop-amd64.is

hadoop2.6---windows下开发环境搭建

一.准备插件 1.自己编译 1.1 安装Ant 官网下载Ant,apache-ant-1.9.6-bin.zip 配置环境变量,新建ANT_HOME,值是E:\apache-ant-1.9.6:PATH后面追加";%ANT_HOME%\bin" 测试,ant -version 1.2 下载hadoop2.6.0 http://hadoop.apache.org/releases.html#News,选择2.6.0的binary 1.3 下载hadoop2x-eclipse-plugin

centos7 hadoop2.7.7 分布式环境搭建

一.安装准备(完整版带图片的找 [email protected]) 1.IP配置打开终端输入ifconfig查看网卡配置名字为 ens33 所以为本机为ifcfg-ens33(各个版本系统的名字不一样) 在ROOT下通过vim /etc/sysconfig/network-scripts/ifcfg-ens33进入界面再通过 I 进行文件修改将BOOTROTO 修改为 static (静态获取ip) 再添加网关,子网掩码,和dns解析服务器(有没有都行)和静态ip 在