Spark部署配置

前提是已经安装了Hadoop

============================ SetUp Spark=============================
Configuration
spark-env.sh
HADOOP_CONF_DIR=/opt/data02/hadoop-2.6.0-cdh5.4.0/etc/hadoop
JAVA_HOME=/opt/modules/jdk1.7.0_67
SCALA_HOME=/opt/modules/scala-2.10.4
#######################################################
SPARK_MASTER_IP=hadoop-spark.dragon.org
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=1000m
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
SPARK_WORKER_INSTANCES=1
slaves
hadoop-spark.dragon.org
spark-defaults.conf
spark.master spark://hadoop-spark.dragon.org:7077
Start Spark
Start Master
sbin/start-master.sh
Start Slaves
sbin/start-slaves.sh
WEB UI
http://hadoop-spark.dragon.org:8080

============================ Test Spark=============================

scala> val rdd=sc.textFile("hdfs://hadoop-spark.dragon.org:8020/user/hadoop/data/wc.input")

scala> rdd.cache()

scala> val wordcount=rdd.flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_)

scala> wordcount.take(10)

scala> val wordsort=wordcount.map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1))

scala> wordsort.take(10)

时间： 2024-08-03 21:31:47

Spark部署配置的相关文章

新手入门：Spark部署实战入门

Spark简介整体认识 Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一. Spark在整个大数据系统中处于中间偏上层的地位,如下图,对hadoop起到了补充作用: 基本概念 Fork/Join框架是Java7提供了的一个用于并行执行任务的框架, 是一个把大任务分割成若干个小任务,最终汇总每个小任务结果后得到大任务结果的框架. 第一步分割任务.首先我们需要有一个fo

Spark部署模式

1.1. Spark部署模式 Spark支持多种集群管理器(Cluster Manager),主要为: Standalone:独立集群模式,Spark原生的简单集群管理器,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统,使用Standalone可以很方便地搭建一个集群: Apache Mesos:一个强大的分布式资源管理框架,它允许多种不同的框架部署在其上,包括yarn: Hadoop YARN:统一的资源管理机制,在上面可以运行多套计算框架,如map reduce.sto

WebLogic中间件基础入门培训教程_WebLogic部署配置视频教程

WebLogic中间件基础入门培训教程_WebLogic部署配置视频教程 WebLogic中间件基础入门培训教程_WebLogic部署配置视频教程5 风哥主讲:介绍Oracle WebLogic中间件的概念,WebLogic概念,域,JDK,JVM,数据源,连接池,控制台,集群相关,Weblogic安装与部署. 视频学习地址: http://edu.51cto.com/course/course_id-3744.html

Linux平台oracle 11g单实例安装部署配置快速参考

1.重建主机的Oracle用户组统一规范 uid gid 以保证共享存储挂接或其他需求的权限规范 userdel -r oracle groupadd -g 500 oinstall groupadd -g 501 dba useradd -g oinstall -G dba -u 500 oracle #id oracle uid=500(oracle) gid=500(oinstall) 组=500(oinstall),501(dba) 2.安装好Oracle 需要的rpm包.安装rpm

linux集群spark环境配置

第一章 linux集群spark环境配置一 Spark下载地址; http://spark.apache.org/downloads.html 图1 下载spark 图2 选择下载地址 Spark本身用scala写的,运行在JVM之上.JAVA版本:java 6 /higher edition.Jdk已经安装(版本) Hadoop提供存储数据的持久化层版本:hadoop-1.2.1Spark和scala需要安装在master和slave上面,配置步骤相同本次搭建的master为cluster,s

Spark部署及应用

在飞速发展的云计算大数据时代,Spark是继Hadoop之后,成为替代Hadoop的下一代云计算大数据核心技术,目前Spark已经构建了自己的整个大数据处理生态系统,如流处理.图技术.机器学习.NoSQL查询等方面都有自己的技术,并且是Apache顶级Project,可以预计的是2014年下半年到2015年Spark在社区和商业应用上会有爆发式的增长. Spark在业界的使用案例 Spark技术在国内外的应用开始越来越广泛,它正在逐渐走向成熟,并在这个领域扮演更加重要的角色.国外一些大型互联网公

Spark 属性配置

1.Spark1.x 属性配置方式 Spark属性提供了大部分应用程序的控制项,并且可以单独为每个应用程序进行配置. 在Spark1.0.0提供了3种方式的属性配置: SparkConf方式 SparkConf方式可以直接将属性值传递到SparkContext: SparkConf可以对某些通用属性直接配置,如master使用setMaster,appname使用setAppName: 也可以使用set()方法对属性进行键-值对配置,如set("spark.executor.memory&quo

Openfire服务器和Spark客户端配置

一.Openfire服务器的配置关于之前一直在进行的聊天app的项目,我们还没有完成,这次我们介绍一下,Openfire服务器的配置. 1.Openfire下载 Openfire下载地址:http://www.igniterealtime.org/ 在屏幕的右侧有个Openfire3.9.3,这个是目前最新的版本. 2.安装一个是exe文件,一个是zip,我下载的是exe,下载好之后执行安装就可以了,安装完成之后,会弹出下面的窗口. 3.配置 3.1 点击Launch Admin进入配置服务

linux后台server开发环境的部署配置和验证(nginx+apache+php-fpm+FASTCGI(C/C++))

linux后台server开发环境部署配置引言背景随着互联网业务的不断增多.开发环境变得越来越复杂,为了便于统一server端的开发部署环境,特制定本配置文档. 使用软件 CentOS 6.3(Linux version 2.6.32-279.el6.x86_64) gcc (GCC) 4.4.6 20120305 (Red Hat 4.4.6-4) 本次配置 Nginx 1.5.8 Apache 2.4.7 php 5.3.26 目的构造WEB前端技术架构.web前端的部署结构技术全然

猜你喜欢

NGINX白名单功能，ngx_http_limit_conn_module和ngx_http_limit_req_module值设置多少才合适呀？

要根据不同的应用慢慢学习测试? 我现在设置的10左右,看看再说吧... #增加限制规则,如果不能正常访问,则需要调节这两个值 --20170217 #增加ip白名单功能 geo $whiteiplis ...

date 命令

在linux环境中,不管是编程还是其他维护,时间是必不可少的,也经常会用到时间的运算,熟练运用date命令来表示自己想要表示的时间,肯定可以给自己的工作带来诸多方便.1．命令格式: date [参数] ...

FragmentPagerAdapter与FragmentStatePagerAdapter区别

在一个 Android 应用中,我使用 FragmentPagerAdapter 来处理多 Fragment 页面的横向滑动.不过我碰到了一个问题,即当 Fragment 对应的数据集发生改变时,我希 ...

linux网络编程基础

Lucene 4.0版本的DocIdSetIterator中没有cost方法,而4.7.0则有这个方法,表示遍历整个DocIdSet的代价,对于DocsEnum就是其长度了,对于Scorer就可以是符 ...

[NOIP2015] 提高组洛谷P2678 跳石头

题目背景一年一度的“跳石头”比赛又要开始了! 题目描述这项比赛将在一条笔直的河道中进行,河道中分布着一些巨大岩石.组委会已经选择好了两块岩石作为比赛起点和终点.在起点和终点之间,有 N 块岩石(不 ...

小青年

‘我们都不是什么小青年了.该想点东西了.’ 坐在我对面的B说. 今天B给我打电话叫我出来喝酒,老地方.我们所谓的老地方基本都是那个街边边上的那个烧烤.我喜欢烧烤,也喜欢在吃烧烤的时候喝点小酒.但是 ...

js获取PC机系统当前时间

new Date().toJSON().substring(0,19).replace(/-/gm,'').replace(/:/gm,'') 结果: "20150801T125030&qu ...

集成PHP应用和SOLR

集成 PHP 应用和 Solr 搜索引擎您的评价: 收藏该经验你为什么需要搜索引擎?单纯数据库不够用?如果你只是创建小网站,数据库就够了.但当你创建中性或大型应用的时候, ...

2.3 确定文件描述符数

lib/openmax.c #include "apue.h" #include <errno.h> #include <limits.h> #ifdef ...

.py文件右键添加Edit with IDLE

1.打开注册表(regedit) 2.找到这个目录:HKEY_CLASSES_ROOT\SystemFileAssociations 3.找到.py的项,逐层新建 4.shell和edit,默认值改为 ...

如何使用Word2016或Office365中的word撰写博客并发布

写好博文后,点击"文件" --- "共享" --- "发布至博客",如下图所示如果没有博客账户,会提示注册,点击注册,填写相关信息,如图所 ...

Python 2.7环境下安装numpy和scipy

numpy :http://sourceforge.net/projects/numpy/files/NumPy/1.8.1/ 下载exe文件 numpy-1.8.2-win32-superpac ...

一步一步学LINQ系列1---什么是LINQ？

一.本系列目标 1.理解LINQ: 2.能写得复杂的LINQ语句(比如:动态查询): 3.理解表达式树及相关概念: 4.熟练运用LINQ写出优美的代码(希望一起努力,最终达到): 二.LINQ为何物? ...

asp.net部署时加密config文件

1:运行cmd,并定位到C:\WINDOWS\Microsoft.NET\Framework\v2.0.50727(可以直接运行vs2005的命令提示工具,但是貌似vs2010默认指向的framewo ...

webstorm 10 更改默认端口

快捷键 ctrl + Alt + s :打开配置如图下可以更改默认端口.快捷键可能跟qq的快捷键冲突,可以关闭qq来设置端口

iOS-代理委托的使用

#import "Rigester_ViewController.h" #import "Rigester_ViewController.h" @interfa ...

wx.ToolBar

wx.ToolBar A toolbar is a bar of buttons and/or other controls usually placed below the menu bar in ...

使用Python显示图形交互窗口

本文主要讲解如何使用Python编程(http://www.maiziedu.com/course/python/)显示一个交互的图形窗口.就以打印公共IP网络作为一个例子.为了执行代码显示公共ip, ...

WPF和WinRT中的导航问题

一.Frame.Page框架的相关介绍 1.Frame类: 继承层次结构 System.Object System.Windows.Threading.DispatcherObject Syst ...

栈，队列，单链表，双向链表

1. 定义头文件实现栈方法的定义,注意这里用到了全局的静态数组,可以通过这种方式保护数据. main.c,实现存储队列,创建头文件queue.h 创建queue.c 实现main函数单链表在定 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.