初见spark-02(RDD及其简单算子)

　　今天，我们来进入spark学习的第二章，发现有很多事都已经开始变化，生活没有简单的朝自己想去的方向，但是还是需要努力呀，不说鸡汤之类的话了，

　　开始我们今天的spark的旅程

　　一.RDD是什么

　　　　rdd的中文解释为弹性分布式数据集,全称Resilient Distributed Datases,即内存中的数据集，

　　　　RDD只读,可分区,这个数据集的全部或部分可以缓存到内存之中，在多次时间间重用，所谓
　　　　弹性,是指内存不够是可以与磁盘进行互换

　　二.spark算子

　　　　spark算子一共分为两类，一类叫做Transformation(转换)，一类叫做Action(动作)

　　　　Transformation延迟执行,Transformation会记录元数据信息,当计算任务触犯Action才开始真正的执行(这个上一个章节也介绍过)

　　　　这个里面起前面无论是map还是filter的方法，都是transform方法，所以这个值并没有真正的别改变，直到collect,这个是Action，则它真正的值才会被调用

　　三.创建RDD的两种方式

　　　　1.通过HDFS支持的文件系统创建RDD,RDD里面没有真正要计算的数据，只记录一下元数据

　　　　2.通过scala集合或数组以并行化的方式创建RDD

　　　　看一下内部实现对于RDD的概括(5个特点)

　　　　Internally, each RDD is characterized by five main properties:
　　　　- A list of partitions
　　　　- A function for computing each split
　　　　- Alist of dependencies on other RDDs
　　　　- Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
　　　　- Optionally, a list of preferred locations to compute each split on (e.g. block · locations an HDFS file)

　　四.spark在IDEA上的第一个程序

　　　　1.首先我们先在idea上写一个spark程序，然后package

object WordCount {
  def main(args: Array[String]): Unit = {
    //非常重要，通向spark集群的入口
    val conf = new SparkConf().setAppName("WC")
    val sc = new SparkContext(conf)
    sc.textFile(args(0)).flatMap(_.split(" ")).map(((_,1))).reduceByKey(_+_).sortBy(_._2).saveAsTextFile(args(1))
    sc.stop()
  }
}

　　　　首先先要澄清一点，这个里面我们的spark是采用maven的形式来创建的，所以我们的pom文件加上上对spark的支持

　　　　我们在package的时候，会在target中生成两个jar包，我们选容量大的，应为可能要包括其他的库

　　　　2.上传到Linux上面，并提交(这个里面和在hadoop上面执行jar包很相似)

./spark-submit
  --master spark://192.168.109.136:7077
  --class cn.wj.spark.WordCount
  --executor-memory 512m
  --total-executor-cores 2 /tmp/hello-spark-1.0.jar            hdfs://192.168.109.136:9000/wc/*  hdfs://192.168.109.136:9000/wc/out

　　　　即可,这个时候我们可以通过192.168.109.136:8080可以查看当前spark的项目执行情况

　　　　五.Master与Worker的关系

　　　　Master管理所有的Worker,进而进行资源的调度，Worker管理当前的节点，Worker会启动Executor来完成真正的计算

时间： 2024-08-25 13:04:54

初见spark-02(RDD及其简单算子)的相关文章

Spark学习之路（三）Spark之RDD[转]

RDD的概述什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合.RDD具有数据流模型的特点:自动容错.位置感知性调度和可伸缩性.RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度. RDD的属性 (1)一组分片(Partition),即数据集的基本组成单位.对于RDD来说,每个分片都会被一个计算任务处

Spark的RDD检查点实现分析

概述在<深入理解Spark:核心思想与源码分析>一书中只是简单介绍了下RDD的checkpoint,对本书是个遗憾.所以此文的目的旨在查漏补缺,完善本书的内容. Spark的RDD执行完成之后会保存检查点,便于当整个作业运行失败重新运行时候,从检查点恢复之前已经运行成功的RDD结果,这样就会大大减少重新计算的成本,提高任务恢复效率和执行效率,节省Spark各个计算节点的资源.本文着重分析检查点的代码实现,更深入理解其原理.在<深入理解Spark:核心思想与源码分析>一书的第5章中

Spark发行笔记8：解读Spark Streaming RDD的全生命周期

本节主要内容: 一.DStream与RDD关系的彻底的研究二.StreamingRDD的生成彻底研究 Spark Streaming RDD思考三个关键的问题: RDD本身是基本对象,根据一定时间定时产生RDD的对象,随着时间的积累,不对其管理的话会导致内存会溢出,所以在BatchDuration时间内执行完RDD操作后,需对RDD进行管理. 1.DStream生成RDD的过程,DStream到底是怎么生成RDD的? 2.DStream和RDD到底什么关系? 3.运行之后怎么对RDD处理? 所

Spark中的各种action算子操作（java版）

在我看来,Spark编程中的action算子的作用就像一个触发器,用来触发之前的transformation算子.transformation操作具有懒加载的特性,你定义完操作之后并不会立即加载,只有当某个action的算子执行之后,前面所有的transformation算子才会全部执行.常用的action算子如下代码所列:(java版) package cn.spark.study.core; import java.util.Arrays; import java.util.List; im

Spark之RDD弹性特性

RDD作为弹性分布式数据集,它的弹性具体体现在以下七个方面. 1．自动进行内存和磁盘数据存储的切换 Spark会优先把数据放到内存中,如果内存实在放不下,会放到磁盘里面,不但能计算内存放下的数据,也能计算内存放不下的数据.如果实际数据大于内存,则要考虑数据放置策略和优化算法.当应用程序内存不足时,Spark应用程序将数据自动从内存存储切换到磁盘存储,以保障其高效运行. 2．基于Lineage(血统)的高效容错机制 Lineage是基于Spark RDD的依赖关系来完成的(依赖分为窄依赖和宽依赖两

Spark之RDD的定义及五大特性

RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,能横跨集群所有节点并行计算,是一种基于工作集的应用抽象. RDD底层存储原理:其数据分布存储于多台机器上,事实上,每个RDD的数据都以Block的形式存储于多台机器上,每个Executor会启动一个BlockManagerSlave,并管理一部分Block:而Block的元数据由Driver节点上的BlockManagerMaster保存,BlockManagerSlave生成Block后向Block

Spark核心—RDD初探

本文目的 ? 最近在使用Spark进行数据清理的相关工作,初次使用Spark时,遇到了一些挑(da)战(ken).感觉需要记录点什么,才对得起自己.下面的内容主要是关于Spark核心-RDD的相关的使用经验和原理介绍,作为个人备忘,也希望对读者有用. ? 为什么选择Spark ? 原因如下代码复用:使用Scala高级语言操作Spark,灵活方便,面向对象,函数编程的语言特性可以全部拿来.Scala基本上可以无缝集成java及其相关库.最重要的是,可以封装组件,沉淀工作,提高工作效率.之前用hi

08、Spark常用RDD变换

08.Spark常用RDD变换 8.1 概述 Spark RDD内部提供了很多变换操作,可以使用对数据的各种处理.同时,针对KV类型的操作,对应的方法封装在PairRDDFunctions trait中,KV类的RDD可以被隐式转换成PairRDDFunctions类型.其中很多的操作,和传统的SQL语句中的操作是对应的,只是底层换成Spark的MR计算. 8.2 常用变换操作解释 map 变换,将输入的每个元素进行响应操作,生成新的元素 flatMap 压扁,取出具有可迭代性质的组件中每个

Spark中将RDD转换成DataFrame的两种方法

总结下Spark中将RDD转换成DataFrame的两种方法, 代码如下: 方法一: 使用createDataFrame方法 ```java //StructType and convert RDD to DataFrame val schema = StructType( Seq( StructField("name",StringType,true) ,StructField("age",IntegerType,true) ) ) val rowRDD = sp