【系列】Matei Zaharia博士论文-1 摘要

随着处理器提升速度下降和数据量的不断增长,很多公司和组织(既有互联网公司也有传统的企业还有一些研究机构)都要求他们的应用能够Scale out到更大的分布式系统上(比如整个数据中心)。这些应用又分为以下几种类型:

  1. 机器学习类型的应用(machine learning algorithms)
  2. 查询类型应用 (simple queries)
  3. 图处理类型应用 (graph analysis)
  4. 批处理应用 (batch processing)
  5. 实时流分析应用 (real-time streaming analysis)

新的计算平台不仅要能够支持传统的计算负载,还能支撑未来的新兴的各种复杂的应用。

本文为集群计算系统提出一种架构,既能解决传统的批处理应用,还能再保证可扩展性和容错的前提下处理交互式查询流式应用。当前大部分系统仅仅支持简单的单趟计算(one-pass computations),我们的系统可以支持多趟计算(如机器学习算法中的迭代计算)。最后,我们的架构支持多种计算组合,这使得大量的的新应用可以混合。

我们主要是通过对MapReduce增加一个共享数据的原语(primitive),称之为RDD,实现以上的效果。我们将说明RDD足以解决大量不同的工作负载。Spark系统是RDD的具体实现,我们使用大量的Benchmark和真实用户应用对其进行评估。对于大量的应用,Spark的性能都超过了运行它们的专有系统,同时还能支持这些负载之间相互组合,同时还能保证容错。接下来,我们将从理论和实践两个角度来探讨为什么RDD可以有效的支持大量的应用。

【系列】Matei Zaharia博士论文-1 摘要

时间: 2024-08-15 14:17:34

【系列】Matei Zaharia博士论文-1 摘要的相关文章

【系列】Matei Zaharia(马铁)博士论文-2 引言

由于单台机器的计算能力和I/O能力已经无法满足不断增长的数据处理需求,越来越多的组织需要将应用扩展到更大规模的集群上.但在集群环境中,可编程性方面将遇到以下几个挑战: 并行编程问题:为了将应用并行化,需要并行编程模型的支撑. 容错和慢节点问题:当集群规模相当大时,这个问题也是非常严重的. 多用户共享集群要求能具备弹性计算的能力,此外还要考虑干扰问题. 结果就是出现了很多编程模型,首先是MapReduce使数据批处理变得简单通用同时能处理容错.但很难处理其它类型的负载,于是就出现了各种各样专用的编

《中国东部三大都市圈城市体系演化机制研究》:博士论文,结论是北上广深城市化规模还是不够,三星推荐

东部三大都市圈,就是京津冀.长三角.珠三角.作者自己在书中提出了一个东部三大都市圈的城市规模及其影响因素的公式,并引用相关资料做了验证.作者有这么两个重要的结论: 1:东部三大都市圈走出了各具特色.又与众不同的城市演化道路: 2:东部三大都市圈绝大多数城市规模未达到最优集聚经济对应的城市规模,东部城市仍需继续集聚:北京上海则近郊远郊依旧处于快速发展中: 作者建议在城市化过程中,政府减少对市场的过多干预,充分发挥市场的力量. 本书是作者的博士论文修改后成书,学术论文的风格很明显,有许多引用的观点与

你对在职博士论文答辩了解吗

相对于研究生,博士的发展方向就会更加的广泛,所以很多已经成功申请到硕士学位的人们希望再次深造,报考在职博士.博士是我国的最高学历,所以申请起来也会有一定的难度,考生一定不要掉以轻心.在职人员要想成功申请到博士学位,就一定要过论文答辩这一关.而在职博士论文答辩是怎样的呢?下面小编就给大家简单介绍一下吧. (1)论文答辩委员会组成:论文答辩委员会由不少于七名具有高级专业技术职务的专家组成,其中至少有四人是博士生导师.二人是学位授予单位和申请人所在单位以外的专家.申请人的推荐人.导师不能聘为论文答辩委

2星|《基于旅游攻略的城市内部游客流动研究》:经济地理学博士论文,结论貌似是常识

基本是一本经济地理学的博士论文.用看起来比较专业的数学公式分析南京的游客旅游数据,一大部分基础数据是去哪儿网的攻略.专业水平如何我不清楚,得出的结论我感觉基本是常识. 我评2星,主要的理由是这个:全书的介绍(包括在亚马逊网站上的介绍.书的扉页上的介绍)都比较含糊,不提是一本学术书,否则我也不买了. 另外,全书没介绍作者身份,这一点非常不专业.其他方面看起来是比较严谨的学术论文的风格.有公式.图表.数据.分析.结论. 以下是书中依据数据与公式分析出来的结论的摘抄: 1:通过2006年.2015年两

Name Disambiguation in Author Citations using a Kway Spectral Clustering Method 论文之摘要

研究背景 要解决的问题 名字歧义问题会带来文献检索.网络搜索以及数据库整合上带来效率问题还可能对作者带来名誉上的问题.解决的两种名字歧义问题:1.一个作者实体却有多个相似(被简写)的或者被误拼的名字.2.多个不同的作者实体共享同一个名字(被简写或名字一样). 前人研究现状 前人采用的方法 记录连接(record linkage) 重复记录检测和消除(duplicate record detection and elimination) 合并/清除(merge/purge) 数据关联(data a

博士论文致谢 作一下

论文完成时,因一时犹豫就是未写下致谢,现在看来,也许当时的情绪应该更为浓烈.情绪就像酒,打开了就要一口闷掉,放久了,味就淡了.读博就像一场宿醉,一晃就四年过去了,是时候矫情的对着空酒杯,回味一下,感谢身边的每一个人. 虽然家里多年未曾种田,父母是典型老实本分的农民,他们做着小本生意,偶尔打个牌,还把我拉上桌,是他们造就了我,陪伴我长大,包容了我的犯下的错误.记得来武汉的前一晚,姆妈和我说告诫我要记得罗田的每一个人每一座山,在外面遇到老乡要讲家乡话,对人要热情,当时不以为然,但离开家乡多年,才感觉

国外博士论文下载

http://search.ohiolink.edu/etd/index.cgi美国电子图书馆(绝对可下)http://digital.library.okstate.edu/search.htmthe university of Nottinghamhttp://etheses.nottingham.ac.uk/Washington Universityhttp://library.wustl.edu/subjects/life/books.htmlYale University medici

错别字在线检查:深度 | 李飞飞高徒 Andrej Karpathy:计算机科学博士的生存指南(附博士论文)

首先我要感谢“机器之心”账号维护者们的辛勤努力: 孙睿.吴攀.李亚洲.杜夏德. 原文地址在这里: http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650719010&idx=1&sn=aaa7cc47f27129bbced25e6d090e2c1d&scene=0#wechat_redirect 翻译文章,特别是翻译快餐式的文章,是一件很辛苦的事情,出现错误在所难免. 但是其中的一些错误,特别是错别字,是很容易纠正

论文分享 摘要生成 Paper Abstract Writing through Editing Mechanism

论文标题:Paper Abstract Writing through Editing Mechanism 作者:Qingyun Wang, Zhihao Zhou, Lifu Huang, Spencer Whitehead, Boliang Zhang, Heng Ji , Kevin Knight 原文地址:https://www.cnblogs.com/lexinAILab/p/9806386.html