spark基本面试题

目录

  • 一、spark基本常识
  • 二、spark要点

一、spark基本常识

1、spark中的RDD是什么,有哪些特性?

??RDD(Resilient Distributed Dataset)叫做分布式数据集模式spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合。
??Resilient:表示弹性的,弹性表示
??Destributed:分布式,可以并行在集群计算
??Dataset:就是一个集合,用于存放数据的
五大特性:
??1)一个分区列表,RDD中的数据都存储在一个分区列表中
??2)作用在每一个分区列表中的函数。
??3)一个RDD依赖于其他多个RDD,RDD的容错机制就是根据这个特性而来的。
??4)可选的,针对于kv类型的RDD才有这个特性,作用是决定了数据的来源及数据处理后的去向。
??5)可选项,数据本地性,数据位置最优。

2、概述一下spark中常用算子区别(map,mapPartitions, foreach, foreachPartition)

??map:用于遍历RDD,将函数应用的每一个元素,返回新的RDD(transformation算子)
??mapPartitions:用于遍历RDD的每一个分区,返回生成一个新的??RDD(transformation算子)
??foreach:用于遍历RDD,将函数应用于每一个元素,无返回值(action算子)
??foreachPartition:用于遍历操作RDD中的每一个分区,无返回值(action算子)
??追述:一般使用mapPatitions和foreachPatition算子比map和foreach更加高效,推荐使用

二、spark要点

1、Spark shuffle时,是否会在磁盘上存储?

??会

原文地址:https://www.cnblogs.com/nthforsth/p/12248184.html

时间: 2024-10-09 17:16:14

spark基本面试题的相关文章

java基础学习篇02(数据类型转换和基本面试题)

JAVA基本数据类型转换 java中的数据类型,分为,引用数据类型和基本数据类型.基本数据类型有8中 整型:byte 8位 . short 16位 .int 32位 .long 64位. (8位=1个字节) 浮点型:float 32位 .double64位 字符类型:char Boolean型:boolean 自动类型转换 转换图 正方向是自动转换  反方向强制转换(char--->double的转换  和byte到 double的转换) char -->int-->long-->

Spark面试题

RDD怎么理解? RDD 是 Spark 的灵魂,也称为弹性分布式数据集.一个 RDD 代表一个可以被分区的只读数据集.RDD 内部可以有许多分区(partitions),每个分区又拥有大量的记录(records).Rdd的五个特征: 1. dependencies: 建立 RDD 的依赖关系,主要 RDD 之间是宽窄依赖的关系,具有窄依赖关系的 RDD 可以在同一个 stage 中进行计算. 2. partition: 一个 RDD 会有若干个分区,分区的大小决定了对这个 RDD 计算的粒度,

spark面试题-1

原文链接:https://blog.csdn.net/Lwj879525930/article/details/82559596 1.spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合 Dataset:就是一个集合,用于存放数据的 Destributed:分布式,可以并行在集群计算 Resilient:表示弹性的,弹性表示 1.R

数据库基本面试题

版权声明:本文为博主原创文章,转载注明出处http://blog.csdn.net/u013142781 1.超键.候选键.主键.外键 超键:在关系中能唯一标识元组的属性集称为关系模式的超键.一个属性可以为作为一个超键,多个属性组合在一起也可以作为一个超键.超键包含候选键和主键. 候选键:是最小超键,即没有冗余元素的超键. 主键:数据库表中对储存数据对象予以唯一和完整标识的数据列或属性的组合.一个数据列只能有一个主键,且主键的取值不能缺失,即不能为空值(Null). 外键:在一个表中存在的另一个

java基本面试题

目录 一.java基本常识 1.什么是jvm? 2.什么是字节码? 3.采用字节码的好处是什么? 4.JDK和JRE 一.java基本常识 1.什么是jvm? ??Jvm就是Java虚拟机的简称,jvm是运行java字节码的虚拟机.Jvm针对不同系统的特定实现,让它们使用相同的字节码,得到相同的结果. 2.什么是字节码? ??在java中,jvm可以理解的代码就叫做字节码.实际上从写java文件到编译成 .class文件,这个点class文件就是字节码文件.它是由java虚拟机(jvm)编译而来

算法导论第四版学习——习题二Deques and Randomized Queues

题目正文: http://coursera.cs.princeton.edu/algs4/assignments/queues.html 作业难点: 1.选择使用链表还是数组,将会是第一个问题,选择合适会减少很多工作量. 2.并行从RandomizedQueue中取两个枚举,这两个枚举必须是不一样的,所以有很多偷懒的“伪随机”是行不通的. 3.SubSet仅需K存储而不是N存储,即可实现.(这个我也没想到方法实现) 作业技巧: 1.可遍数组和邻接节点两种数据结构都已经给你了,你只要改改,基本上实

面试链接

Scala面试题: https://www.cnblogs.com/Gxiaobai/p/10460336.html spark-Streaming面试题: http://app.myzaker.com/news/article.php?pk=59a6517b1bc8e03276000029 spark面试题: https://www.jianshu.com/p/7a8fca3838a4 原文地址:https://www.cnblogs.com/hdc520/p/11431635.html

最近经历的一些大数据(Spark/Hadoop)面试题

1.简答说一下hadoop的map-reduce编程模型 首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合 使用的是hadoop内置的数据类型,比如longwritable.text等 将键值对集合输入mapper进行业务处理过程,将其转换成需要的key-value在输出 之后会进行一个partition分区操作,默认使用的是hashpartitioner,可以通过重写hashpartitioner的getpartition方法来自定义分区规则 之后会对ke

Android面试题收集

Android是一种基于Linux的自由及开放源代码的操作系统,主要使用于移动设备,如智能手机和平板电脑,由Google公司和开放手机联盟领导及开发.这里会不断收集和更新Android基础相关的面试题,目前已收集100题. 1.Android系统的架构 Android系统架构之应用程序 Android会同一系列核心应用程序包一起发布,该应用程序包包括email客户端,SMS短消息程序,日历,地图,浏览器,联系人管理程序等.所有的应用程序都是使用JAVA语言编写的. Android系统架构之应用程