Spark Standalone 以及 HDFS系统环境搭建

Hdfs环境搭建

  1. 下载最新版本的Hadoop编译好的tar包:http://hadoop.apache.org/releases.html
  2. 确认HDFS namenode和datanode的角色,并将namenode以及datanode的ip机器名对应关系写进每台机器的/etc/hosts文件。
  3. 确认namenode可以不需要密码就一个通过ssh联通datanode结点。
    执行如下命令
    (1) ssh-keygen -t  rsa "" //生成sshkey
    (2) 将 ~/.ssh/id_rsa.pub 公钥文件的内容拷贝到每台datanode机器的 ~/.ssh/authorized_keys文件中。
    (3) 测试从namenode 到 datanode的连接,现在应该是通的了。
    
  4. 配置hadoop的配置文件。
    (1) 在环境变量中配置HADOOP_HOME、JAVA_HOME、HADOOP_CONF_DIR,其中 HADOOP_CONF_DIR指向 $HADOOP_HOME/etc/hadoop
    (2) 修改 HADOOP_CONF_DIR 目录下的几个*.site.xml文件,参考官网:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/ClusterSetup.html
    (3) 将配置好后的hadoop包分发到每个namenode和datanode结点,并相应的配置环境变量。
    (4) 剩下的在namenode结点按照官网来启动 sbin/目录下的那些shell,参考上面的官网链接。
    (5) 此时去每台机器用JPS命令看下,结点进程应该都起来了。
    (6) 访问 namenode的50070端口,应该能看到相应的结点信息。
    

Spark环境搭建

Spark以Standalone的方式启动,文件系统可以依赖上面搭建的HDFS文件系统。Spark Standalone搭建启动方式如下:

    (1) 从官网:http://spark.apache.org/ 下载最新版本的spark 编译好的 tar包。
    (2) 解压后参考官网配置:http://spark.apache.org/docs/latest/spark-standalone.html
    (3) 注意master结点和worker结点的spark安装包要在同一个linux文件系统路径下。
    (4) 在master结点的 conf/slaves 文件中,将work结点的ip地址填写好,每行一个。
    (5) 分别执行sbin/start-master.sh 和 sbin/start-slaves文件。
    (6) 此时可以看到master结点启动了一个master进程,worker结点启动了slave进程。

注意点

通过如下命令提交spark任务时,注意jar包如果是本地文件(即:还没有put到hdfs文件系统中,file:/xxxx.jar 本地文件访问协议),则需要这个jar包在每个结点都存在,并且是完全相同的路径。如果是已经put到了hdfs文件系统中,则指定hdfs文件系统的路径就可以了例如:hdfs://xxxx.jar

./bin/spark-submit   --class <main-class>
  --master <master-url>   --deploy-mode <deploy-mode>   --conf <key>=<value>   ... # other options
  <application-jar>   [application-arguments]
时间: 2024-12-03 04:34:41

Spark Standalone 以及 HDFS系统环境搭建的相关文章

(二)win7下用Intelij IDEA 远程调试spark standalone 集群

关于这个spark的环境搭建了好久,踩了一堆坑,今天 环境: WIN7笔记本  spark 集群(4个虚拟机搭建的) Intelij IDEA15 scala-2.10.4 java-1.7.0 版本问题: 个人选择的是hadoop2.6.0 spark1.5.0 scala2.10.4  jdk1.7.0 关于搭建集群环境,见个人的上一篇博客:(一) Spark Standalone集群环境搭建,接下来就是用Intelij IDEA来远程连接spark集群,这样就可以方便的在本机上进行调试.

Spark Standalone模式环境搭建

前提:安装好jdk1.7,hadoop 安装步骤: 1.安装scala 下载地址:http://www.scala-lang.org/download/ 配置环境变量: export SCALA_HOME=/..../scala export PATH=.:$SCALA_HOME/bin   .... 验证:scala -version 2.安装spark 使用自己编译过的对应自己hadoop的spark 配置环境变量: export SPARK_HOME=/.../spark export P

Spark Standalone模式

Spark Standalone模式 安装Spark Standalone集群 手动启动集群 集群创建脚本 提交应用到集群 创建Spark应用 资源调度及分配 监控与日志 与Hadoop共存 配置网络安全端口 高可用性 基于Zookeeper的Master 本地系统的单节点恢复 除了运行在mesos或yarn集群管理器中,spark也提供了简单的standalone部署模式.你可以通过手动启动master和worker节点来创建集群,或者用官网提供的启动脚本.这些守护进程也可以只在一台机器上以便

Kafka:ZK+Kafka+Spark Streaming集群环境搭建(三)安装spark2.2.1

如何配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.> 如何安装hadoop2.9.0请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二)安装hadoop2.9.0> 安装spark的服务器: 192.168.0.120 master 192.168.0.121 slave1 192.168.0.122 slave

Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十三)kafka+spark streaming打包好的程序提交时提示虚拟内存不足(Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 G)

异常问题:Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing container. spark-submit提交脚本: [[email protected] work]$ more submit.sh #! /bin/bash jars=""

Spark standalone HA

配置Spark standalone HA 主机:node1,node2,node3 master: node1,node2 slave:node2,node3 修改配置文件: node1,node3: spark-env.sh export SPARK_MASTER_IP=node1 export SPARK_MASTER_PORT=7077 export SPARK_WORKER_CORES=1 export SPARK_WORKER_INSTANCES=1 export SPARK_WOR

大数据:Spark Standalone 集群调度(一)从远程调试开始说application创建

远程debug,特别是在集群方式时候,会很方便了解代码的运行方式,这也是码农比较喜欢的方式 虽然scala的语法和java不一样,但是scala是运行在JVM虚拟机上的,也就是scala最后编译成字节码运行在JVM上,那么远程调试方式就是JVM调试方式 在服务器端: -Xdebug -Xrunjdwp:server=y,transport=dt_socket,address=7001,suspend=y 客户端通过socket就能远程调试代码 1. 调试submit, master, worke

Windows下IntelliJ IDEA中运行Spark Standalone

ZHUAN http://www.cnblogs.com/one--way/archive/2016/08/29/5818989.html http://www.cnblogs.com/one--way/p/5814148.html 前提条件: 1.Spark Standalone 集群部署完成 2.Intellij Idea 能够运行 Spark local 模式的程序. 源码: 1 import org.apache.spark.{SparkContext, SparkConf} 2 imp

Linux系统环境搭建SVN服务器环境详解

Linux系统环境搭建SVN服务器环境详解: 本篇文章主要介绍的内容是在Linux系统下如何搭建SVN服务器的,目的是为了很好的实现代码版本控制管理,具体如下所示介绍: 一.安装需要的软件包 #yum install subversion     ---安装SVN服务工具 #yum install httpdmod_dav_svn mod_perl    ---用于支持WEB方式管理SVN服务 #yum install wgetmake unzip perl*       ---必备的软件包 二