初见spark-01

今天我们来学习spark，spark是一种快速,通用,可扩展的大数据分析引擎，现已成为Apache顶级项目,Spark是MapReduce的替代方案，而且兼容HDFS,Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足，下面我们来介绍这样的一门语言:

　　一.spark安装

　　　　1.上传spark环境所需要的压缩包，

　　　　这里面请记住我们要的是预编译包(prebuild版本)，而不是源码包，即解压就可以使用的压缩包

　　　　我们这个里面使用的是spark-1.6.1-bin-hadoop2.6.tgz，首先我们把它上传到Linux之中，并解压到系统中

　　　　2.配置Spark

　　　　进入Spark安装目录，进入conf目录并重命名spark-evn.sh.template文件

　　　　cd conf/

　　　　mv spark-env.sh.template spark-env.sh

　　　　vi spark-env.sh

　　　　在配置文件中添加如下配置

　　　　export JAVA_HOME=/usr/java/jdk1.7.0_45(JAVA的安装路径)

　　　　export SPARK_MASTER_IP=node1.itcast.cn(master的那台机器的IP，这个里面我们可以写ip：192.168.109.136)

　　　　export SPARK_MASTER_PORT=7077

　　　　保存退出

　　　　重命名并修改slaves.template文件

　　　　mv　slave.template slaves

　　　　vi slaves

　　　　在该文件中添加子节点所在的位置(Worker节点)

　　　　192.168.109.137

　　　　192.168.109.138

　　　　192.168.109.139

　　　　保存退出

　　　　将配置好的Spark拷贝到其他节点上

　　　　scp -r spark-1.6.1 weekday02:/home/xxx/apps

　　　　scp -r spark-1.6.1 weekday03:/home/xxx/apps

　　　　scp -r spark-1.6.1 weekday04:/home/xxx/apps

　　　　3.Spark集群配置完毕，目前是1个Master，3个Worker,在Master的那台主机上启动Spark集群

　　　　/home/xxx/apps/spark-1.6.1/sbin/start-all.sh

　　　　启动后执行jps命令,主节点上有Master进程,其他节点上有Work进行,登录Spark管理界面查看集群状态(主节点):http://mast1的ip:8080即可

　　　　注意，启动集群的时候，注意要关闭防火墙

　　二,我的第一个spark程序

　　　　这个里面我们只使用spark程序，这个算法是利用蒙特-卡罗算法求PI

/usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://192.168.109.136:7077 --executor-memory 1G --total-executor-cores 2 /usr/local/spark-1.5.2-bin-hadoop2.6/lib/spark-examples-1.5.2-hadoop2.6.0.jar 100

　　　　这个也不需要hadoop的启动,只需要我们有了spark的环境即可

　　　　参数说明

　　　　-master spark://192.168.109.136:7077 指定Master地址

　　　　-executor-memory 2g　指定每一个worker可以使用的内存是2G

　　　　-total-executor-cores 2 指定整个集群使用的cpu核数是2

　　　　注意:我们一般使用spark-shell,这个是spark自带交互式shell程序,方便用户进行交互式编程，用户可以在该命令下面使用scala编写spark程序

　　　　例如:/usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-shell，如果不写后面的，这个spark只能说是单机的，应为它没有与master的机器

　　　　相连，跟别提和别人的连接

　　三.在spark shell中编写WordCount程序

　　　　1.首先启动HDFS

　　　　2.向hdfs上传一个文件到hdfs://192.168.109.136:9000/words.txt

　　　　3.在spark shell 中用scala语言写spark程序

　　　　则此时这个结果在页面直接显示出来

sc.textFile("hdfs://192.168.109.136:9000/words.txt").flatMap(_.split(" "))
　　　　.map(_,1).reduceByKey(_+_).collect

　　　　则此时这个结果在hdfs的文件中显示出来

sc.textFile("hdfs://192.168.109.136:9000/words.txt").flatMap(_.split(" "))
　　　　.map(_,1).reduceByKey(_+_).saveAsTextFile("hdfs://192.168.109.136:9000/wc/out")

　　　　则此时因为我们有三个子节点，所以就想hadoop的mapreduce,中三个reduce,则此时我们将其让

　　　　最终的结果都读取到一个文件中去,此时我们就修改了一个地方，在reduceByKey(_+_)改为了reduceByKey(_+_,1)

sc.textFile("hdfs://192.168.109.136:9000/words.txt").flatMap(_.split(" "))
　　　　.map(_,1).reduceByKey(_+_,1).saveAsTextFile("hdfs://192.168.109.136:9000/wc/out")

　　四.spark算子

　　　spark算子一共分为两类

　　　一类叫做Transformation(转换)，一类叫做Action(动作)

　　　Transformation延迟执行,Transformation会记录元数据信息，当任务触犯到Action才开始真正的执行

时间： 2024-10-12 15:59:02

初见spark-01的相关文章

spark 01

debug environment:scala, abt, git bash, eclipse scala ide plugin spark-shell: 1spark-shell →spark-submit→(SparkSubmit)spark-class 2open jvm→thread dump→main:SparkSubmit.main→repl.Main→SparkILoop.process:(initializeSpark→createSparkContext) 3SparkCont

ubuntu14.04中spark集群安装配置

一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点:但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,性能比Hadoop更快. 所以,相对来说Hadoop更适合做批处理,而Spark更适合做需要反复迭代的机器学习.下面是我在ubuntu14.04中配置Spark

spark集群安装配置

spark集群安装配置一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点:但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,性能比Hadoop更快. 所以,相对来说Hadoop更适合做批处理,而Spark更适合做需要反复迭代的机器学习.下面是我在ubuntu1

我喜欢减肥我们来减肥吧

http://www.ebay.com/cln/honus.jyw4mvptb/cars/158313278016/2015.01.28.html http://www.ebay.com/cln/honus.jyw4mvptb/cars/158313282016/2015.01.28.html http://www.ebay.com/cln/honus.jyw4mvptb/cars/158313289016/2015.01.28.html http://www.ebay.com/cln/usli

百度回家看沙发沙发是减肥了卡斯加积分卡拉是减肥

http://www.ebay.com/cln/hpryu-caw8ke/cars/158056866019/2015.01.31 http://www.ebay.com/cln/xub.50x2l7cj/cars/158445650015/2015.01.31 http://www.ebay.com/cln/xub.50x2l7cj/cars/158445674015/2015.01.31 http://www.ebay.com/cln/xub.50x2l7cj/cars/1584456790

巢哑偕倥乇椭煞谙暗逞帕俸

IEEE Spectrum 杂志发布了一年一度的编程语言排行榜,这也是他们发布的第四届编程语言 Top 榜. 据介绍,IEEE Spectrum 的排序是来自 10 个重要线上数据源的综合,例如 Stack Overflow.Twitter.Reddit.IEEE Xplore.GitHub.CareerBuilder 等,对 48 种语言进行排行. 与其他排行榜不同的是,IEEE Spectrum 可以让读者自己选择参数组合时的权重,得到不同的排序结果.考虑到典型的 Spectrum 读者需求

我国第三代移动通信研究开发进展-尤肖虎200106

众所周知,数据科学是这几年才火起来的概念,而应运而生的数据科学家(data scientist)明显缺乏清晰的录取标准和工作内容.此次课程以<星际争霸II>回放文件分析为例,集中在IBM Cloud相关数据分析服务的应用.面对星际游戏爱好者希望提升技能的要求,我们使用IBM Data Science Experience中的jJupyter Notebooks来实现数据的可视化以及对数据进行深度分析,并最终存储到IBM Cloudant中.这是个介绍+动手实践的教程,参会者不仅将和讲师一起在线

pl/sql学习1——标量变量psahnh6S

为类型.不能用于表列的数据类型.范围为的子类型.自然数.为的子类型.具有约束为单精度浮点数.为变量赋值时.后面要加为双精度浮点数.为变量赋值时.后面要加.为数字总位数.为小数位数是的子类型.最大精度位是的子类型.最大精度位单精度浮点型是的子类型.最大精度位双精度浮点型定义精度为位的实数..定义为位的整数.变长字符串.最长测试变量数据!.定长字符串.最长测试变长二进制字符串物理存储的为类型...固定长度.个字节使用定义数据类型那个最小值:最大值:最小值:最大值:最小值:最大值:最小值:最大值:最小

spark 深入学习 05】RDD编程之旅基础篇-01

---------------- 本节内容 1.RDD的工作流程 2.WordCount解说 · shell版本WordCount · java版本WordCount ---------------- 一.RDD工作流程 1. RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当作一个数组,这样的理解对我们学习RDD的API是非常有帮助的.本文所有示例代码都是使用scala语言编写的.RD

【Spark 深入学习 01】 Spark是什么鬼？

经过一段时间的学习和测试,是时候给spark的学习经历做一个总结了,对于spark的了解相对晚了写.春节期间(预计是无大事),本博准备推出20篇左右spark系列原创文章(先把牛吹出去再说) ,尽量将枯燥无味的技术讲的通俗易懂- r.kelly 2013年的时候第一次听说spark这么个神器,那时候它还幼小,没什么人鸟它,但是它强大基因注定了它不是个凡夫俗子, 故事就是从那一小撮人群中开始的. 一.Spark何许人也姓名:Spark 性别:未知出生地:加州大学伯克利分校AMP实验室出生年月