spark 概述与安装

概述

spark 是一个快速的通用集群计算系统。它提供了丰富的高水平的api供java，scala和python调用。

安装

到官网下载最新版本spark-1.3.1 http://spark.apache.org/downloads.html，这里以这个版本的安装为列，下载后解压，进入到软件根目录，它有两种安装方式，一种通过mvn，另一种通过sbt，两种区别不到，以mvn安装为列说明，执行下面命令

build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package

这个命令在初次执行时会花费很长一段时间，因为她需要下载很多的依赖包，比如scala，akka，netty等等，大概整个过程在一个小时以上，所以到杯水，可以喝茶了，中间若有停顿，杀掉重启就是，知道任务执行完，表示安装完毕

启动运行

安装完后，可以先简单试下处理任务效果，以python调用spark处理任务为列，假设你电脑已经安装过python，执行下面名利

./bin/pyspark

这时会利用python的交互模式启动，执行下面的命令,试下执行速度

>>>textFile =sc.textFile("README.md")

>>>textFile.count() # Number of items in this RDD

126

>>>textFile.first() # First item in this RDD

u‘# Apache Spark‘

spark也会有个ui界面可以看下spark的运行环境，任务的执行情况，可以访问：http://127.0.0.1:4040/jobs/ 查看

时间： 2024-12-11 13:38:27

spark 概述与安装的相关文章

spark概述和安装部署

1.spark概述 1.什么是spark 基于内存的计算引擎,它的计算速度非常快.但是spark仅仅只涉及到数据的计算,没有涉及到数据的存储. 2.为什么学习spark 比mapreduce计算速度快很多. 3.spark特点 1.速度快比mapreduce在内存中快100x,在磁盘中快10x 1.由于mapreduce每次job的中间结果数据都会落地到磁盘中,而spark每次中间结果数据可以不落地(可以保存在内存中) 2.mapreduce任务对应都会产生一些map任务和reduce任务,这

Spark概述及集群部署

Spark概述什么是Spark (官网:http://spark.apache.org) Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目.目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Streaming.GraphX.MLlib等子项目,Spark是基于内存计算的大数据并行计算框架.Spark基

Spark-Unit1-spark概述与安装部署

一.Spark概述 spark官网:spark.apache.org Spark是用的大规模数据处理的统一计算引擎,它是为大数据处理而设计的快速通用的计算引擎.spark诞生于加油大学伯克利分校AMP实验室. mapreduce(MR)与spark的对比: 1.MR在计算中产生的结果存储在磁盘上,spark存储在内存中: 2.磁盘运行spark的速度是MR的10倍,内存运行spark是MR的100多倍: 3.spark并不是为了替代Hadoop,而是为了补充Hadoop: 4.spark没有存储

Spark 概述及其高可用集群部署

Spark入门一. 学习目标目标1:熟悉Spark相关概念目标2:搭建一个Spark集群二. Spark概述 2.1什么是Spark(官网:http://spark.apache.org) Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目.目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Str

Spark 概述

Apache Spark 是一个快速的.多用途的集群计算系统.在 Java,Scala,Python 和 R 语言以及一个支持常见的图计算的经过优化的引擎中提供了高级 API.它还支持一组丰富的高级工具,包括用于 SQL 和结构化数据处理的 Spark SQL,用于机器学习的 MLlib,用于图形处理的 GraphX 以及 Spark Streaming. 下载从该项目官网的下载页面获取 Spark,该文档用于 Spark 2.0.2 版本.Spark 使用了用于 HDFS 和 YRAN

第一课 MongoDB 概述与安装

1.课程大纲本次课主要介绍 MongoDB 背景知识和 MongoDB 的安装与配置,让大家对 MongoDB 有一个初认识. 其基本的知识点包含: NoSQL数据库概述 MongoDB 数据库简单介绍 Linux 下安装 MongoDB 数据库 Mac 和 Windows 下安装 MongoDB 数据库 2.课程简单介绍 MongoDB是由MongoDB.inc研发的一款NoSQL类型的文档型数据库,MonogoDB名字来源于英文单词humongous,这个单词的意思是巨大无比.暗喻Mong

Spark 个人实战系列(1)--Spark 集群安装

前言: CDH4不带yarn和spark, 因此需要自己搭建spark集群. 这边简单描述spark集群的安装过程, 并讲述spark的standalone模式, 以及对相关的脚本进行简单的分析. spark官网: http://spark.apache.org/downloads.html *)安装和部署环境: 172.16.1.109~172.16.1.111三台机器(对应域名为tw-node109~tw-node111), centos6.4, 已部署cdh4 目标是: 搭建一个spar

【转】Struts1.x系列教程（4）：标签库概述与安装

转载地址:http://www.blogjava.net/nokiaguy/archive/2009/01/archive/2009/01/archive/2009/01/archive/2009/01/15/251411.html Struts的整个视图层(就是MVC模式中的View层)是由Struts的定制标签(或者称为定制动作)和客户端代码(Javascript.HTML等)实现的.这些Struts标签被写在JSP页面中,用于生成客户端代码.进行逻辑判断等工作,使用Struts标签可以尽量

Spark介绍，安装

1.简单介绍和安装: (1)Spark使用scala编写,运行在JVM(java虚拟机)上.所以,安装Spark需要先安装JDK.安装好java后,到官网下载安装包(压缩文件):http://spark.apache.org/downloads.html ,当前使用的版本是:spark-1.6.1-bin-hadoop2.4.tgz. (2)解压,查看目录内容: tar -zxvf spark-1.6.1-bin-hadoop2.4.tgz cd spark-1.6.1-bin-hadoop2.

猜你喜欢

Python 基础 - Day 4 Learning Note - Generator 生成器

列表生成器/列表解析 list comprehension 简单灵活地创建列表,通常和lambda(), map(), filter() 一起使用通过列表生成式, 直接创建列表.但是,收到内容限制, ...

HDU 2255 - 奔小康赚大钱

Kuhn - Munkres 算法,第一次拍各种问题,不过还是A掉了.. /* ID:esxgx1 LANG:C++ PROG:hdu2255 */ #include <cstdio> # ...

【转载】MySQL和Keepalived高可用双主复制

服务器主机IP和虚拟浮动IP配置 RealServer A 192.168.75.133 RealServer B 192.168.75.134 VIP A 192.168.75.110 VIP B ...

20145309 《信息安全系统设计基础》第十四周学习总结

20145309 <信息安全系统设计基础>第十四周学习总结教材学习内容总结现代系统提供对主存的抽象概念--虚拟存储器:虚拟存储器是硬件异常.硬件地址翻译.主存.磁盘文件及内核软件的完美 ...

curl工具的使用

curl命令是个功能强大的网络工具,支持通过http.ftp等方式下载文件.上传文件.还可以用来抓取网页.网络监控等方面的开发,解决开发过程中遇到的问题. 常用参数 1.curl安装 yum -y i ...

HTML5使用Canvas来绘制图形

一.Canvas标签: 1.HTML5<canvas>元素用于图形的绘制,通过脚本(通常是javascript)来完成. 2.<canvas>标签只是图形容器,必须使用脚本来绘 ...

【bzoj1604】[Usaco2008 Open]Cow Neighborhoods 奶牛的邻居并查集+Treap/STL-set

题目描述了解奶牛们的人都知道,奶牛喜欢成群结队．观察约翰的N(1≤N≤100000)只奶牛,你会发现她们已经结成了几个“群”．每只奶牛在吃草的时候有一个独一无二的位置坐标Xi,Yi(l≤Xi,Yi≤ ...

python: http://nbviewer.jupyter.org/github/lijin-THU/notes-python/blob/master/index.ipynb https://gi ...

解密Java中的类型转换问题

众所周知Java中的数据类型是强数据类型,基本数据类型之间的转换尤其固定的规则,当数据宽度比较窄的数据类型(如int)转换成数据类型比较宽的数据类型时(如double),则窄的数据类型会加宽,可以完成 ...

几种不同的多路径软件查看多路径状态的方法

转自:http://blog.csdn.net/msdnchina/article/details/50579322 日立多路径软件(HDLM)查看多路径状态:dlnkmgr view -path R ...

Nginx入门

一． Nginx 基础知识 1. 简介 Nginx (“engine x”) 是一个高性能的 HTTP 和反向代理服务器,也是一个 IMAP/POP3/SMTP 代理服务器. Nginx 是由 I ...

影撩妆家久谢琅扑萌垂剂茁虑势附

http://weheartit.com/dldtvjnv3/collections/49764971-2014-12-05/ http://weheartit.com/vdfnrpjl57/coll ...

windows做时间服务器，linux和windows时间同步

找了很多的资料,都没有windows做时间服务,linux同步windows的时间的,最后自己找了一些软件,终于搞定了,写出来给大家共享,以免大家多走弯路首先在http://www.meinberg. ...

WebService-06-CXF与Spring集成

前言自3月份到一家快递公司之后,就极少有时间来写博客了,进去的第一个周末就加班,做公司的开放平台,协助一个小伙伴写WebService接口,用的就是CXF,正好这个东西以前使用过.现在快7月了,以前 ...

POJ3225

题目链接:https://vjudge.net/problem/POJ-3225 解题思路:这道题要是不看题解以本渣新现在的实力确实是做不出来. 以区间为基础建立线段树. 当X='U', 将区间T内的 ...

04clock_06semqphore

1 #include <linux/module.h> //MODULE_LICENSE("GPL"); 2 #include <linux/init.h> ...

http://acm.xidian.edu.cn/problem.php?id=1129 保存累计的下标,直接输出. #include<iostream> #include<cstr ...

解决eclipse中对于中文字符的识别问题

在eclipse中编辑代码必不可少的要用到中文注释,但是中文注释在eclipse中用到的话可能会产生编译错误. 一种比较常见的情况就是在其他IDE中编辑的代码直接拷贝到eclipse 中进行编译会报 ...

学习block的主要目的学会排序(升序，降序）

这个对于名字的比较有局限看看下面的比较 mv 也可以用这种办法

ios7_如何实现UIAlertView以及监听点击事件

1.在viewController的.m文件,遵守<UIAlertViewDelegate>代理协议 @interface moboViewController () <UIAler ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.