Spark Standalone 以及 HDFS系统环境搭建

Hdfs环境搭建

下载最新版本的Hadoop编译好的tar包：http://hadoop.apache.org/releases.html
确认HDFS namenode和datanode的角色，并将namenode以及datanode的ip机器名对应关系写进每台机器的/etc/hosts文件。

确认namenode可以不需要密码就一个通过ssh联通datanode结点。

执行如下命令
(1) ssh-keygen -t  rsa "" //生成sshkey
(2) 将 ~/.ssh/id_rsa.pub 公钥文件的内容拷贝到每台datanode机器的 ~/.ssh/authorized_keys文件中。
(3) 测试从namenode 到 datanode的连接，现在应该是通的了。

配置hadoop的配置文件。

(1) 在环境变量中配置HADOOP_HOME、JAVA_HOME、HADOOP_CONF_DIR,其中 HADOOP_CONF_DIR指向 $HADOOP_HOME/etc/hadoop
(2) 修改 HADOOP_CONF_DIR 目录下的几个*.site.xml文件，参考官网：http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/ClusterSetup.html
(3) 将配置好后的hadoop包分发到每个namenode和datanode结点，并相应的配置环境变量。
(4) 剩下的在namenode结点按照官网来启动 sbin/目录下的那些shell，参考上面的官网链接。
(5) 此时去每台机器用JPS命令看下，结点进程应该都起来了。
(6) 访问 namenode的50070端口，应该能看到相应的结点信息。

Spark环境搭建

Spark以Standalone的方式启动，文件系统可以依赖上面搭建的HDFS文件系统。Spark Standalone搭建启动方式如下：

    (1) 从官网：http://spark.apache.org/ 下载最新版本的spark 编译好的 tar包。
    (2) 解压后参考官网配置：http://spark.apache.org/docs/latest/spark-standalone.html
    (3) 注意master结点和worker结点的spark安装包要在同一个linux文件系统路径下。
    (4) 在master结点的 conf/slaves 文件中，将work结点的ip地址填写好，每行一个。
    (5) 分别执行sbin/start-master.sh 和 sbin/start-slaves文件。
    (6) 此时可以看到master结点启动了一个master进程，worker结点启动了slave进程。

注意点

通过如下命令提交spark任务时，注意jar包如果是本地文件（即：还没有put到hdfs文件系统中，file:/xxxx.jar 本地文件访问协议），则需要这个jar包在每个结点都存在，并且是完全相同的路径。如果是已经put到了hdfs文件系统中，则指定hdfs文件系统的路径就可以了例如：hdfs://xxxx.jar

./bin/spark-submit   --class <main-class>
  --master <master-url>   --deploy-mode <deploy-mode>   --conf <key>=<value>   ... # other options
  <application-jar>   [application-arguments]

时间： 2024-12-03 04:34:41

Spark Standalone 以及 HDFS系统环境搭建的相关文章

（二）win7下用Intelij IDEA 远程调试spark standalone 集群

关于这个spark的环境搭建了好久,踩了一堆坑,今天环境: WIN7笔记本 spark 集群(4个虚拟机搭建的) Intelij IDEA15 scala-2.10.4 java-1.7.0 版本问题: 个人选择的是hadoop2.6.0 spark1.5.0 scala2.10.4 jdk1.7.0 关于搭建集群环境,见个人的上一篇博客:(一) Spark Standalone集群环境搭建,接下来就是用Intelij IDEA来远程连接spark集群,这样就可以方便的在本机上进行调试.

Spark Standalone模式环境搭建

前提:安装好jdk1.7,hadoop 安装步骤: 1.安装scala 下载地址:http://www.scala-lang.org/download/ 配置环境变量: export SCALA_HOME=/..../scala export PATH=.:$SCALA_HOME/bin .... 验证:scala -version 2.安装spark 使用自己编译过的对应自己hadoop的spark 配置环境变量: export SPARK_HOME=/.../spark export P

Spark Standalone模式

Spark Standalone模式安装Spark Standalone集群手动启动集群集群创建脚本提交应用到集群创建Spark应用资源调度及分配监控与日志与Hadoop共存配置网络安全端口高可用性基于Zookeeper的Master 本地系统的单节点恢复除了运行在mesos或yarn集群管理器中,spark也提供了简单的standalone部署模式.你可以通过手动启动master和worker节点来创建集群,或者用官网提供的启动脚本.这些守护进程也可以只在一台机器上以便

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（三）安装spark2.2.1

如何配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.> 如何安装hadoop2.9.0请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二)安装hadoop2.9.0> 安装spark的服务器: 192.168.0.120 master 192.168.0.121 slave1 192.168.0.122 slave

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十三）kafka+spark streaming打包好的程序提交时提示虚拟内存不足（Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 G）

异常问题:Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing container. spark-submit提交脚本: [[email protected] work]$ more submit.sh #! /bin/bash jars=""

Spark Standalone 以及 HDFS系统环境搭建

Hdfs环境搭建

Spark环境搭建

注意点

Spark Standalone 以及 HDFS系统环境搭建的相关文章

（二）win7下用Intelij IDEA 远程调试spark standalone 集群

Spark Standalone模式环境搭建

Spark Standalone模式

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（三）安装spark2.2.1

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十三）kafka+spark streaming打包好的程序提交时提示虚拟内存不足（Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 G）

Spark standalone HA

大数据：Spark Standalone 集群调度（一）从远程调试开始说application创建

Windows下IntelliJ IDEA中运行Spark Standalone

Linux系统环境搭建SVN服务器环境详解