spark 概述与安装

概述

spark 是一个快速的通用集群计算系统。它提供了丰富的高水平的api供java,scala和python调用。

安装

到官网下载最新版本spark-1.3.1 http://spark.apache.org/downloads.html,这里以这个版本的安装为列,下载后解压,进入到软件根目录,它有两种安装方式,一种通过mvn,另一种通过sbt,两种区别不到,以mvn安装为列说明,执行下面命令

build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package

这个命令在初次执行时会花费很长一段时间,因为她需要下载很多的依赖包,比如scala,akka,netty等等,大概整个过程在一个小时以上,所以到杯水,可以喝茶了,中间若有停顿,杀掉重启就是,知道任务执行完,表示安装完毕

启动运行

安装完后,可以先简单试下处理任务效果,以python调用spark处理任务为列,假设你电脑已经安装过python,执行下面名利

./bin/pyspark

这时会利用python的交互模式启动,执行下面的命令,试下执行速度

>>>textFile =sc.textFile("README.md")

>>>textFile.count() # Number of items in this RDD

126

>>>textFile.first() # First item in this RDD

u‘# Apache Spark‘

spark也会有个ui界面可以看下spark的运行环境,任务的执行情况,可以访问:http://127.0.0.1:4040/jobs/   查看

时间: 2024-10-11 17:08:12

spark 概述与安装的相关文章

spark概述和安装部署

1.spark概述 1.什么是spark 基于内存的计算引擎,它的计算速度非常快.但是spark仅仅只涉及到数据的计算,没有涉及到数据的存储. 2.为什么学习spark 比mapreduce计算速度快很多. 3.spark特点 1.速度快 比mapreduce在内存中快100x,在磁盘中快10x 1.由于mapreduce每次job的中间结果数据都会落地到磁盘中,而spark每次中间结果数据可以不落地(可以保存在内存中) 2.mapreduce任务对应都会产生一些map任务和reduce任务,这

Spark概述及集群部署

Spark概述 什么是Spark (官网:http://spark.apache.org) Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目.目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Streaming.GraphX.MLlib等子项目,Spark是基于内存计算的大数据并行计算框架.Spark基

Spark-Unit1-spark概述与安装部署

一.Spark概述 spark官网:spark.apache.org Spark是用的大规模数据处理的统一计算引擎,它是为大数据处理而设计的快速通用的计算引擎.spark诞生于加油大学伯克利分校AMP实验室. mapreduce(MR)与spark的对比: 1.MR在计算中产生的结果存储在磁盘上,spark存储在内存中: 2.磁盘运行spark的速度是MR的10倍,内存运行spark是MR的100多倍: 3.spark并不是为了替代Hadoop,而是为了补充Hadoop: 4.spark没有存储

Spark 概述及其高可用集群部署

Spark入门 一. 学习目标 目标1:熟悉Spark相关概念 目标2:搭建一个Spark集群 二. Spark概述 2.1什么是Spark(官网:http://spark.apache.org) Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目.目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Str

Spark 概述

Apache Spark 是一个快速的.多用途的集群计算系统.在 Java,Scala,Python 和 R 语言以及一个支持常见的图计算的经过优化的引擎中提供了高级 API.它还支持一组丰富的高级工具,包括用于 SQL 和结构化数据处理的 Spark SQL,用于机器学习的 MLlib,用于图形处理的 GraphX 以及 Spark Streaming. 下载 从该项目官网的 下载页面 获取 Spark,该文档用于 Spark 2.0.2 版本.Spark 使用了用于 HDFS 和 YRAN

第一课 MongoDB 概述与安装

1.课程大纲 本次课主要介绍 MongoDB 背景知识和 MongoDB 的安装与配置,让大家对 MongoDB 有一个初认识. 其基本的知识点包含: NoSQL数据库概述 MongoDB 数据库简单介绍 Linux 下安装 MongoDB 数据库 Mac 和 Windows 下安装 MongoDB 数据库 2.课程简单介绍 MongoDB是由MongoDB.inc研发的一款NoSQL类型的文档型数据库,MonogoDB名字来源于英文单词humongous,这个单词的意思是巨大无比.暗喻Mong

Spark 个人实战系列(1)--Spark 集群安装

前言: CDH4不带yarn和spark, 因此需要自己搭建spark集群. 这边简单描述spark集群的安装过程, 并讲述spark的standalone模式, 以及对相关的脚本进行简单的分析. spark官网: http://spark.apache.org/downloads.html *)安装和部署 环境: 172.16.1.109~172.16.1.111三台机器(对应域名为tw-node109~tw-node111), centos6.4, 已部署cdh4 目标是: 搭建一个spar

【转】Struts1.x系列教程(4):标签库概述与安装

转载地址:http://www.blogjava.net/nokiaguy/archive/2009/01/archive/2009/01/archive/2009/01/archive/2009/01/15/251411.html Struts的整个视图层(就是MVC模式中的View层)是由Struts的定制标签(或者称为定制动作)和客户端代码(Javascript.HTML等)实现的.这些Struts标签被写在JSP页面中,用于生成客户端代码.进行逻辑判断等工作,使用Struts标签可以尽量

Spark介绍,安装

1.简单介绍和安装: (1)Spark使用scala编写,运行在JVM(java虚拟机)上.所以,安装Spark需要先安装JDK.安装好java后,到官网下载安装包(压缩文件):http://spark.apache.org/downloads.html ,当前使用的版本是:spark-1.6.1-bin-hadoop2.4.tgz. (2)解压,查看目录内容: tar -zxvf spark-1.6.1-bin-hadoop2.4.tgz cd spark-1.6.1-bin-hadoop2.