RDD 到底是什么--（视频笔记）

1、RDD 只读的分区数据集合。
2、RDD的依赖关系，生成RDD的血统。
3、RDD支持基于工作集的运用。可以显性的将数据存储在内存中，可以支持高效数据重用。
4、RDD是分布式数据编程的一种抽象
5、RDD的特征
a list of partitions（hdfs的一个分片就是一个partition，每个分片就是一个task；spark rdd是被分区的，
对于RDD来说，每个分区都会被一个计算任务处理，并决定并行计算的粒度，RDD的每次转换操作都会声称新的RDD，
在生成RDD时候，一般可以只定分区的数量，如果不指定分区的数量，当RDD从集合创建时，则默认为改程序做分配的资源的cpu核数，
如果是从HDFS文件创建，则默认为文件的block数）
RDD并行是从父类传递到子类的

a function for computing each split
每一个computing类似一个MR，只是MR写磁盘，RDD将多步的computing合并成一个。
通过block manager来获取数据，具体的split都会被映射成block manager的block。

a list of dependencies on other RDDs

partitioner for key-value RDDs
hash partitioner和range partitioner。针对的key-value的方式。
partitioner决定后续并行分片数量。

a list of prefered location to each split on
spark 会尽可能将计算任务分配到数据所在机器。

RDD的操作
transformation(......)
action （count,collect,reduce,lookup,save）

时间： 2024-12-20 15:18:02

RDD 到底是什么--（视频笔记）的相关文章

虚幻4视频笔记002：精简StarterContent文件夹体积

#虚幻4#视频笔记:精简StarterContent文件夹体积 . 在很多练习项目和测试项目中,都会使用StarterContent文件夹,但是该文件夹体积巨大,如果项目数量多会占用大量空间,并且分享起来也很麻烦.这里提供了一种精简体积的简单方法.注意明确视频内容后再对项目进行精简,并且也不要在生产环境中使用这个技巧. 油管: http://t.cn/Rtgk4is 度盘:http://t.cn/Rtgk46v

Android老罗视频笔记-http-1

---恢复内容开始--- 以下是看老罗视频的笔记: (所有图片来自老罗视频的截图) 一.老罗视频教程思路:android入门介绍-->百度地图介绍-->常用UI布局的介绍-->常用的UI的控件.(应用开发控件:HTTP协议编程了解服务器与安卓之间的交互.) 二.WWW是以Internet作为传输媒介的一个应用程序,WWW网上基本的传输单位是Web网页.B-S结构.WWW的工作是基于客户机/服务器计算模型(j2ee).由Web浏览器和Web服务器构成,两者之间采用超文本传输协议HTTP进行

Spark RDD到底是个什么东西

前言用Spark有一段时间了,但是感觉还是停留在表面,对于Spark的RDD的理解还是停留在概念上,即只知道它是个弹性分布式数据集,其他的一概不知有点略显惭愧.下面记录下我对RDD的新的理解. 官方介绍弹性分布式数据集. RDD是只读的.分区记录的集合.RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建. 问题只要你敢问度娘RDD是什么,包你看到一大片一模一样的答案,都是说这样的概念性的东西,没有任何的价值. 我只想知道 RDD为什么是弹性而不是不弹性,

ng机器学习视频笔记（三） ——线性回归的多变量、特征缩放、标准方程法

ng机器学习视频笔记(三) --线性回归的多变量.特征缩放.标准方程法 (转载请附上本文链接--linhxx) 一.多变量当有n个特征值,m个变量时,h(x)= θ0+θ1x1+θ2x2-+θnxn,其中可以认为x0=1.因此,h(x)= θTx,其中θ是一维向量,θ=[θ0, θ1-θn] T,x也是一维向量,x=[x0,x1..xn] T,其中x0=1. 二.特征缩放(Feature Scaling) 特征缩放的目的,是为了让每个特征值在数量上更加接近,使得每个特征值的变化的影响相对比较"

ng机器学习视频笔记（十二） ——PCA实现样本特征降维

ng机器学习视频笔记(十二) --PCA实现样本特征降维 (转载请附上本文链接--linhxx) 一.概述所谓降维(dimensionality reduction),即降低样本的特征的数量,例如样本有10个特征值,要降维成5个特征值,即通过一些方法,把样本的10个特征值映射换算成5个特征值. 因此,降维是对输入的样本数据进行处理的,并没有对预测.分类的结果进行处理. 降维的最常用的方法叫做主成分分析(PCA,principal component analysis).最常用的业务场景是数据压

ng机器学习视频笔记（九） ——SVM理论基础

ng机器学习视频笔记(九) --SVM理论基础 (转载请附上本文链接--linhxx) 一.概述支持向量机(support vector machine,SVM),是一种分类算法,也是属于监督学习的一种.其原理和logistics回归很像,也是通过拟合出一个边界函数,来区分各个分类的结果. 二.代价函数与假设函数由于svm和logistic很相似,故与logistic进行比较.logistic的代价函数如下: 与logistic不同之处在于,SVM是用两个线段表示logistic中的h.在l

ng机器学习视频笔记（十一） ——K-均值算法理论

ng机器学习视频笔记(十一) --K-均值算法理论 (转载请附上本文链接--linhxx) 一.概述 K均值(K-Means)算法,是一种无监督学习(Unsupervised learning)算法,其核心是聚类(Clustering),即把一组输入,通过K均值算法进行分类,输出分类结果. 由于K均值算法是无监督学习算法,故这里输入的样本和之前不同了,输入的样本只有样本本身,没有对应的样本分类结果,即这里的输入的仅仅是{x(1),x(2),-x(m)},每个x没有对应的分类结果y(i),需要我们

ng机器学习视频笔记（四） ——logistic回归

ng机器学习视频笔记(四) --logistic回归 (转载请附上本文链接--linhxx) 一.概述 1.基本概念 logistic回归(logistic regression),是一个分类(classification)算法(注意不是回归算法,虽然有"回归"二字),用于处理分类问题,即结果是离散的.另外,由于有固定的结果,其是监督学习算法. 例如,预测天气.预测是否通过考试等,结果是离散的值,而预测房价这种就属于"回归"算法要解决的问题,而不是分类算法解决的问题

ng机器学习视频笔记（十四） ——推荐系统基础理论

ng机器学习视频笔记(十三) --推荐系统基础理论 (转载请附上本文链接--linhxx) 一.概述推荐系统(recommender system),作为机器学习的应用之一,在各大app中都有应用.这里以用户评价电影.电影推荐为例,讲述推荐系统. 最简单的理解方式,即假设有两类电影,一类是爱情片,一类是动作片,爱情片3部,动作片2部,共有四个用户参与打分,分值在0~5分. 但是用户并没有对所有的电影打分,如下图所示,问号表示用户未打分的电影.另外,为了方便讲述,本文用nu代表用户数量,nm代表

ng机器学习视频笔记（十五） ——大数据机器学习(随机梯度下降与map reduce)

ng机器学习视频笔记(十五) --大数据机器学习(随机梯度下降与map reduce) (转载请附上本文链接--linhxx) 一.概述 1.存在问题当样本集非常大的时候,例如m=1亿,此时如果使用原来的梯度下降算法(也成为批量梯度下降算法(batch gradient descent),下同),则速度会非常慢,因为其每次遍历整个数据集,才完成1次的梯度下降的优化.即计算机执行1亿次的计算,仅仅完成1次的优化,因此速度非常慢. 2.数据量考虑在使用全量数据,而不是摘取一部分数据来做机器学习,

猜你喜欢

PKU OJ 1002 487-3279

? 487-3279 Description Businesses like to have memorable telephone numbers. One way to make a teleph ...

java编写Base64密码器

Base64加密算法,应用广泛,尤其是在电子邮件传输上,有很大的用途用JAVA编写的程序代码如下 import java.awt.BorderLayout; import java.awt.Even ...

sqlite3命令行查看中文乱码问题解决

SQLite库包含一个名字叫做sqlite3的命令行,它可以让用户手工输入并执行面向SQLite数据库的SQL命令.我们通过程序创建的数据库一般位于/data/data/程序db设置的content类 ...

计算机图形学的学习资源

计算机图形学(Computer Graphics,简称CG)是一个令人着迷的领域,本文整理了一些图形学相关的学习资源. Wikipedia的介绍,及其后面附的"参考文献"和&quo ...

JAVA_学习第二天（四）[ 逻辑运算符（&&）（||）（^）（~）]

&&与&的区别 1.最终结果一样. 2.&&具有短路效果.左边是false,右边则不执行. class ysf { public static void ma ...

JavaScript组成（三个组成部分）

JavaScript主要包括三部分: 1.ECMAScript: JavaScript的核心,仅仅是一个描述,定义了脚本语言的所有属性,方法和对象. 具体地,ECMAscript描述了以下内容: 语法 ...

【SICP练习】30 练习1.36

练习1.36 这道题要求我们根据书上的newline和display来完成一个新版本的fixed-point.根据题目内容我们分为如下步骤: 1.写出能够打印出计算中产生的近似值序列的函数. 2 ...

网络通信框架之volley

介绍我们平时在开发Android应用的时候不可避免地都需要用到网络技术,而多数情况下应用程序都会使用HTTP协议来发送和接收网络数据.Android系统中主要提供了两种方式来进行HTTP通信,Htt ...

Memcached缓存系统介绍及安装

1.什么是Memcached 1.1.Memcached概述 Memcached是一个免费的开源的.高性能的.具有又分布式内存对象的缓存系统,它通过减轻数据库负载加速动态WEB应用, 1.2.Memc ...

kexue wang 美白需要无添加吗揭秘各种美白误区&nbsp;

从草本植物提取出的精华其实是无色基本无味的.长期使用更可能导致癌性.很多消费者容易将草本类或者天然概念的护肤品理解为无添加护肤品.含有色素的护肤品会造成色素沉着,含有香精的护肤品更会严重危害皮肤,引发 ...

想起那些年读过的诗

当蜘蛛网无情的查封了我的炉台, 当灰烬的余烟叹息着贫困的悲哀, 我依然固执地铺平失望的灰烬, 用美丽的雪花写下:相信未来. 当我的紫葡萄化为深秋的露水, 当我的鲜花依偎在别人的情怀, 我依然固执地用凝 ...

FZU 1650 1752 a^b mod

Problem 1752 A^B mod C Accept: 837 Submit: 3615 Time Limit: 1000 mSec Memory Limit : 32768 KB ...

swfit-学习笔记(数组的使用)

Swift数组的使用,参考:<The Swift Programming Language>中文版 // Copyright (c) 2015年 Zsmile. All rights re ...

MySQL pt-table-checksum及pt-table-sync校验及修复主从一致性

[pt-table-checksum]pt-table-checksum是percona-toolkit系列工具中的一个, 可以用来检测主. 从数据库中数据的一致性.其原理是在主库上运行, 对同步的表 ...

DTD与模式

摘要我们在制作页面时必须要测的就是IE浏览器,毕竟IE浏览器市场占有率还是很高.随着HTML5的流行,可能项目要求兼容IE最低版本为IE8或者更高,但是还是有很多项目兼容IE低版本.所以我们经常会碰 ...

python之range()函数、for-in循环和while循环

range()函数和for-in循环函数原型:range(start, end, scan): 参数含义:start:计数从start开始.默认是从0开始.例如range(5)等价于range(0, ...

思科交换机镜像配置

全局命令模式: monitor session 1 source interface Fa1/0 - 3 < both or rx or tx > rx是端口下行,tx是端口上行. mon ...

SOJ 1176 Two Ends

题目大意:首先输入n(n ≤ 1000),n为偶数,接着输入n个整数,n个整数的和不超过1,000,000.两个人每次只能从两端取数,第一个人A可以用任意策略,第二个人B用贪心策略(左右数相等取左数) ...

色彩及图像基础(一)

色彩及图像基础(一) 学习时间:2014.04.30 学到了-- 1. 色光的基色或原色为红(R).绿(G).蓝(B)三色. 2. 互补色是指两种颜色的光相混合能够形成白光.互补色是彼此之间最不一样的 ...

常见的排序算法--java版

个人总结的常见的排序算法 public class Sort { // 1.冒泡:稳定,最优O(n) 最差O(n^2) 平均O(n^2) private static void sort1(int[] ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.