从hadoop一路配置到spark

安装

jdk-8u131-linux-x64.gz

scala-2.11.8.tgz

hadoop-2.7.3.tar.gz

spark-2.1.1-bin-hadoop2.7.tgz

vim /etc/profile

export ZOOKEEPER_HOME=/opt/zookeeper-3.4.8

export PATH=$ZOOKEEPER_HOME/bin:$PATH

export JAVA_HOME=/opt/jdk1.8.0_131

export CLASSPATH=$JAVA_HOME/lib

export PATH=$JAVA_HOME/bin:$PATH

export CLASSPATH=$ZOOKEEPER_HOME/lib:$CLASSPATH

export JSTORM_HOME=/opt/jstorm-2.2.1

export PATH=$JSTORM_HOME/bin:$PATH

export SCALA_HOME=/opt/scala-2.11.8

export PATH=$SCALA_HOME/bin:$PATH

export HADOOP_HOME=/opt/hadoop-2.7.3

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export SPARK_HOME=/opt/spark-2.1.1-bin-hadoop2.7

export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

ssh免密码登陆

ssh-keygen -t rsa

cd /root/.ssh

cat id_rsa.pub >> authorized_keys     三台机器的id_rsa.pub合并

vim /etc/hosts

192.168.56.101 j001

192.168.56.102 j002

192.168.56.103 j003

hadoop配置

mkdir  /opt/data

mkdir  /opt/data/hadoop

mkdir  /opt/data/hadoop/tmp

cd /opt/hadoop-2.7.3/etc/hadoop

vim   hadoop-env.sh

export JAVA_HOME=/opt/jdk1.8.0_131

export HADOOP_PREFIX=/opt/hadoop-2.7.3

vim  yarn-env.sh

export JAVA_HOME=/opt/jdk1.8.0_131

vim  core-site.xml

<configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>/opt/data/hadoop/tmp</value>

</property>

<property>

<name>fs.default.name</name>

<value>hdfs://主节点IP:9000(未被占用的端口号都可以)</value>

</property>

</configuration>

vim hdfs-site.xml

<configuration>

<property>

<name>dfs.replication</name>

<value> hdfs的副本数</value>

</property>

<property>

<name>dfs.name.dir</name>

<value>dfs名称(/opt/data/hadoop/tmp/dfs/name)</value>

</property>

<property>

<name>dfs.data.dir</name>

<value>dfs数据路径(/opt/data/hadoop/tmp/dfs/data)</value>

</property>

</configuration>

cp mapred-site.xml.template mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>

</configuration>

vim yarn-site.xml

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.resourcemanager.hostname</name>

<value>j001</value>

</property>

---新增

在mapred-site.xml配置文件中添加:

<property>

<name>mapreduce.jobhistory.address</name>

<value>sjfx:10020</value>

</property>

在namenode上执行命令:mr-jobhistory-daemon.sh start historyserver

这样在,namenode上会启动JobHistoryServer服务,可以在historyserver的日志中查看运行情况

vim  slaves

j001

j002

j003

启动

hdfs namenode -format

cd sbin

start-dfs.sh

start-yarn.sh

http://192.168.56.101:50070/

停止Yarn及HDFS

#stop-yarn.sh

#stop-dfs.sh

SPARK配置

cd /opt/spark-2.1.1-bin-hadoop2.7/conf

mv spark-env.sh.template spark-env.sh

vim spark-env.sh

export JAVA_HOME=/opt/jdk1.8.0_131

export SCALA_HOME=/opt/scala-2.11.8

export SPARK_MASTER_HOST=192.168.56.101

export SPARK_MASTER_IP=192.168.56.101

export SPARK_LOCAL_IP=192.168.56.103

export SPARK_MASTER_PORT=7077

export SPARK_MASTER_WEBUI_PORT=8080

export SPARK_WORKER_PORT=7078

export SPARK_WORKER_WEBUI_PORT=8081

export SPARK_WORKER_MEMORY=400m

export HADOOP_HOME=/opt/hadoop-2.7.3

export HADOOP_CONF_DIR=/opt/hadoop-2.7.3/etc/hadoop

export SPARK_HOME=/opt/spark-2.1.1-bin-hadoop2.7

mv slaves.template slaves

j002

j003

start-master.sh

等http://192.168.56.101 :8080能访问了再执行start-slaves.sh

#stop-master.sh

#stop-slaves.sh

http://www.jianshu.com/p/e2665ddd5d31

http://blog.csdn.net/tangzwgo/article/details/25893989

hdfs dfs -mkdir /input

hdfs dfs -put aa.xtx /input

hadoop jar

时间: 2024-07-28 18:43:50

从hadoop一路配置到spark的相关文章

ubuntu下hadoop环境配置

软件环境: 虚拟机:VMware Workstation 10 操作系统:ubuntu-12.04-desktop-amd64 JAVA版本:jdk-7u55-linux-x64 Hadoop版本:hadoop-1.2.1 Hadoop下载地址:http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-1.2.1/ 选择hadoop-1.2.1.tar.gz这个 第一阶段:安装JDK 请参考上篇文章:http://www.cnblogs.com/ma

Hadoop的配置过程(虚拟机中的伪分布模式)

1引言 hadoop如今已经成为大数据处理中不可缺少的关键技术,在如今大数据爆炸的时代,hadoop给我们处理海量数据提供了强有力的技术支撑.因此,了解hadoop的原理与应用方法是必要的技术知识. hadoop的基础原理可参考如下的三篇论文: The Google File System, 2003 MapReduce: Simplified Data Processing on Large Clusters, 2004 Bigtable: A Distributed Storage Syst

CentOS 7 Hadoop安装配置

前言:我使用了两台计算机进行集群的配置,如果是单机的话可能会出现部分问题.首先设置两台计算机的主机名 root 权限打开/etc/host文件 再设置hostname,root权限打开/etc/hostname文件设置 从机设为Slaver.Hadoop 1.安装java jdk 并配置环境 centos 自带安装了一个jdk,如果我们要自己安装jdk并配置环境的话首先卸载掉原本的jdk 在命令行模式下健入命令:yum remove java (root用户,非root用户请在命令前加sudo)

Hadoop常见配置

core-site.xml:   fs.default.name:hdfs://hadoop:9000 fs.tmp.dir:/usr/local/hadoop/tmp   hdfs-site.xml:   dfs.name.dir: dfs.name.edits.dir:eidts  dfs.replicationHadoop常见配置,布布扣,bubuko.com

CentOS Hadoop安装配置详细

总体思路,准备主从服务器,配置主服务器可以无密码SSH登录从服务器,解压安装JDK,解压安装Hadoop,配置hdfs.mapreduce等主从关系. 1.环境,3台CentOS7,64位,Hadoop2.7.3需要64位Linux,CentOS7 Minimal的ISO文件只有600M,操作系统十几分钟就可以安装完成,Master 192.168.6.220 Slave1 192.168.6.221 Slave2 192.168.6.222 2.SSH免密码登录,因为Hadoop需要通过SSH

hadoop(四):配置参数

hadoop参数配置,主要是配置 core-site.xml,hdfs-site.xml,mapred-site.xml 三个配置文件,core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置,core-default.xml,hdfs-default.xml,mapred-default.xml 是集群的默认配置,HDP2.4 安装包中 hadoop 版本为2.7,分别可从下面的地址获取到默认的参数说明: core-

Centos下Hadoop安装配置

首先声明本人的配置是根据: http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html 进行修改的,因此在这里表示感谢. 在这里我自己对于原有的文章进行了修改. 原作的某些命令不适合在centos上进行使用. 以及一些不太注意的细节,在这里我提了出来. 首先在安装之前,应先建立hadoop的用户组和hadoop用户, 然后再进行以下的安装配置.这里是很多新手都忽略的地方. 1.2 环境说明 集群中包括4个节点:1个Master,

hadoop安装配置——伪分布模式

1. 安装 这里以安装hadoop-0.20.2为例 先安装java,参考这个 去着下载hadoop 解压 tar -xzf hadoop-0.20.2 2. 配置 修改环境变量 vim ~/.bashrc export HADOOP_HOME=/home/rte/hadoop-0.20.2 #这里为实际hadoop解压的目录位置 export PATH=$PATH:$HADOOP_HOME/bin source ~/.bashrc 配置hadoop-env.sh vim conf/hadoop

spark 与 Hadoop 融合后 Neither spark.yarn.jars nor spark.yarn.archive is set

参考文献: http://blog.csdn.net/lxhandlbb/article/details/54410644 每次提交Spark任务到yarn的时候,总会出现uploading resource(打包spark jars并上传)到hdfs上. 恶劣情况下,会在这里卡住很久. 解决: 在hdfs上创建目录: hdfs dfs -mkdir   /spark_jars 上传spark的jars(spark1.6 只需要上传spark-assembly-1.6.0-SNAPSHOT-ha