spark-1.1.0-bin-hadoop2.4.tgz安装

Apache Spark1.1.0部署与开发环境搭建 - Mark Lin

0. 准备

出于学习目的，本文将Spark部署在虚拟机中。在虚拟机中，需要安装以下软件：

Ubuntu 14.04
hadoop-2.4.0.tar.gz
jdk-7u67-linux-x64.tar.gz
scala-2.10.4.tgz
spark-1.1.0-bin-hadoop2.4.tgz

1. 安装JDK

....

2. 安装及配置SSH

....

3. 安装hadoop2.4.0

....

4. 安装scala

@下载编译好的spark，通过查看pom.xml文件得到对应Scala的版本号；

@下载对应scala：

@解压，设置环境变量：

source /etc/profile

@测试Scala：

[[email protected] local]# source /etc/profile
[[email protected] local]# scala -version
Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL

5.安装spark

@解压，设置环境变量

@ $SPARK_HOME/conf/ spark-env.sh

export SCALA_HOME=/usr/local/scal
export JAVA_HOME=/usr/local/jdk
export SPARK_MASTER_IP=localhost
export SPARK_WORKER_MEMORY=1000m

6.spark启动和测试：

启动：

#到spark安装目录下：
sbin/start-all.sh

测试：

bin/run-example SparkPi

时间： 2024-10-08 11:13:24

spark-1.1.0-bin-hadoop2.4.tgz安装的相关文章

【原创 Spark动手实践 1】Hadoop2.7.3安装部署实际动手

目录: 第一部分:操作系统准备工作: 1. 安装部署CentOS7.3 1611 2. CentOS7软件安装(net-tools, wget, vim等) 3. 更新CentOS7的Yum源,更新软件速度更快 4. CentOS 用户配置,Sudo授权第二部分:Java环境准备 1. JDK1.8 安装与配置第三部分:Hadoop配置,启动与验证 1. 解压Hadoop2.7.3更新全局变量 2. 更新Hadoop配置文件 3. 启动Hadoop 4. 验证Hadoop =========

Hadoop2.7.2安装与集群搭建

1.环境准备 jdk需要1.7以上版本64位. 创建hadoop用户. 在hadoop用户目录下解压安装包hadoop-2.7.2.tar.gz 2.配置免密码登录各节点分别执行生成公钥和私钥:ssh-keygen -t rsa 四次enter. 将公钥添加进公钥库:cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 修改authorized_keys权限:chmod 600 ~/.ssh/authorized_keys 验证:ssh local

spark cdh5编译安装[spark-1.0.2 hadoop2.3.0 cdh5.1.0]

前提你得安装有Hadoop 我的版本hadoop2.3-cdh5.1.0 1.下载maven包 2.配置M2_HOME环境变量,配置maven 的bin目录到path路径 3.export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m" 4.到官方下载spark-1.0.2.gz压缩包.解压 5.进入spark解压包目录 6.执行./make-distribution.sh --hadoop

CentOS7+Hadoop2.7.2(HA高可用+Federation联邦)+Hive1.2.1+Spark2.1.0 完全分布式集群安装

1 VM网络配置... 3 2 CentOS配置... 5 2.1 下载地址... 5 2.2 激活网卡... 5 2.3 SecureCRT. 5 2.4 修改主机名... 6 2.5 yum代理上网... 7 2.6 安装ifconfig. 8 2.7 wget安装与代理... 8 2.8

Spark修炼之道（进阶篇）——Spark入门到精通：第一节 Spark 1.5.0集群搭建

作者:周志湖网名:摇摆少年梦微信号:zhouzhihubeyond 本节主要内容操作系统环境准备 Hadoop 2.4.1集群搭建 Spark 1.5.0 集群部署注:在利用CentOS 6.5操作系统安装spark 1.5集群过程中,本人发现Hadoop 2.4.1集群可以顺利搭建,但在Spark 1.5.0集群启动时出现了问题(可能原因是64位操作系统原因,源码需要重新编译,但本人没经过测试),经本人测试在ubuntu 10.04 操作系统上可以顺利成功搭建.大家可以利用CentOS

mac os x 编译spark-2.1.0 for hadoop-2.8.0

mac os x maven编译spark-2.1.0 for hadoop-2.8.0 1.官方文档中要求安装Maven 3.3.9+ 和Java 8 ; 2.执行 export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m" 3.cd spark2.1.0源码根目录下 ./build/mvn -Pyarn -Phadoop-2.8 -Dhadoop.version=2.8.0 -Dscala-2.11

hadoop2.2.0伪分布模式64位安装

hadoop2.2.0伪分布模式64位安装用到的软件:jdk-6u45-linux-x64.bin,hadoop-2.2.0.x86_64.tar.gz 修改主机名vim /etc/sysconfig/networkHOSTNAME=h1 修改主机名和ip的映射关系192.168.1.1 h1 关闭防火墙chkconfig --list | grep iptablesservice iptables stopchkconfig iptables offchkconfig --list | gre

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Input DStreams 和 Receivers(接收器) DStreams 上的 Transformations(转换) DStreams 上的输出操作 DataFrame 和 SQL 操作 MLlib 操作缓存 / 持久性 Checkpointing Accumulators, Broadcas

Apache Spark 2.2.0 中文文档 - SparkR (R on Spark) | ApacheCN

SparkR (R on Spark) 概述 SparkDataFrame 启动: SparkSession 从 RStudio 来启动创建 SparkDataFrames 从本地的 data frames 来创建 SparkDataFrames 从 Data Sources(数据源)创建 SparkDataFrame 从 Hive tables 来创建 SparkDataFrame SparkDataFrame 操作 Selecting rows(行), columns(列) Groupin

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN

Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession 创建 DataFrames 无类型的Dataset操作 (aka DataFrame 操作) Running SQL Queries Programmatically 全局临时视图创建Datasets RDD的互操作性使用反射推断Schema 以编程的方式指定Schema Aggregatio