十位一线专家分享Spark现状与未来----峰会摘录

CSDN大数据技术:

十位一线专家分享Spark现状与未来(一)

十位一线专家分享Spark现状与未来(二)

十位一线专家分享Spark现状与未来(三)



部分摘录:

加州大学伯克利分校AMP实验室博士Matei Zaharia:Spark的现状和未来 ----(Matei Zaharia是加州大学伯克利分校AMP实验室博士研究生,Databricks公司的联合创始人兼现任CTO。Zaharia致力于于大规模数据密集型计算的系统和算法。研究项目包括:Spark、Shark、Multi-Resource Fairness、MapReduce Scheduling、SNAP Sequence Aligner)

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。

Project History:

  Spark started as research project in 2009

  Open sourced in 2010

  Growing community since

  Entered Apache lncubator in June 2013

Release Growth:

  Spark 0.6 ---- Java API、Maven、standalone mode ,17 contributors

  Spark 0.7 ---- Python API、Spark Streaming ,31 contributors

  Spark 0.8 ---- YARN、MLlib、monitoring UI ,67 contributors ---- High availability for standalone mode (0.8.1)

  Spark 0.9 ---- Scala 2.10 support、Configuration system、Spark Streaming improvement

Projects Bulit on Spark:

  Shark(SQL)、Spark Streaming(real-time)、GraphX(graph)、MLbase(machine learning)

Databricks公司CEO Ion Stoica:将数据转化为价值 ----(Ion Stoica是UC Berkeley计算机教授,AMPLab共同创始人,弹性P2P协议Chord、集群内存计算框架Spark、集群资源管理平台Mesos都出自他)

Turning Data into Value

What do We Need?

  interactive queries(交互式查询) ---- enable faster decision

  Queries on streaming data(基于数据流的查询) ---- enable decisions on real-time data ---- Eg:fraud detection(欺诈检测)、detect DDoS attacks(检测DDoS攻击)

  Sophisticated data processing(复杂的数据处理) ---- enable "better" decision

Our Goal:

  Support batch、Streaming、and interactive computation(批处理、流处理、交互计算)...... in a unified framework

  Easy to develop sophisticated algorithms(e.g..,graph,ML algos)

Big Data Challenge:Time 、Money 、Answer Quality

处理速度与精确性的权衡:反比

Tim Tully :集成Spark/Shark到雅虎数据分析平台

Sharethrough数据专家Ryan Weald:产品化Spark流媒体

Keys to Fault Tolerance:

  Receive fault tolerance ---- Use Actors with supervisor、Use self healing connection pools

  Monitoring job progress

RDDs:弹性分布式数据集

  Low latency & Scale (低延时&大规模)

  iterative and Interactive computation (迭代式和交互式计算)

Databricks创始人Patrick Wendell:理解Spark应用程序的性能 ---- (专注于大规模数据密集型计算。致力于Spark的性能基准测试,同时是spark-perf的合著者。此次峰会他就Spark 深度挖掘、UI概述和测试设备、普通性能和错误)

Summary of Components:

  Tasks:Fundamental unit of work

  Stage:Set of tasks that run in parallel

  DAG:Logical graph of RDD operations

  RDD:Parallel dataset with partitions

Demo of perf UI ---- Problems:

  Scheduling and launching tasks

  Execution of tasks

  Writing data between stages

  Collecting results

Databricks客户端解决方案主管Pat McDonough:用Spark并行程序设计 ---- (从Spark的性能、组件等方面全面介绍Spark的各种优异性能)

UC Berkeley博士Tathagata Das:用Spark流实时大数据处理 ---- (什么是Spark流,为什么选择Spark流,其性能和容错机制)

DStreams+RDDs=Power

Fault-tolerance:

  Batches of input data are replicated in memory for fault-tolerance

  Data lost due to worker failure,can be recomputed from replicated input data

  All transformations are fault-tolerant,and exactly-once transformations

Higher throughput than Storm:

  Spark Streaming:670K records/sec/node

  Storm:115K records/sec/node

Fast Fault Recovery:

  Recovers from faults/stragglers within 1 sec

Spark 0.9 in Jan 2014 ---- out of alpha

  Automated master fault recovery

  Performance optimizations

  Web UI,and better monitoring capabilities

    Cluster Manager UI ---- Standalone mode:<master>:8080

    Executor Logs ---- Stored by cluster manager on each worker

    Spark Driver Logs ---- Spark initializes a log4j when created ,Include log4j.properties file on the classpath

    Application Web UI ---- http://spark-application-host:4040 ---- For executor / task / stage / memory status,etc

时间: 2024-12-08 10:29:57

十位一线专家分享Spark现状与未来----峰会摘录的相关文章

Dubbo开源现状与未来规划

摘要: Dubbo 在过去一段时间疏于维护,去年阿里高调宣布重启 Dubbo 开源之后,社区里问的最多的问题是,这次开源与上次有什么一样,还有就是 Dubbo 和 Spring Boot.Spring Cloud 是什么关系?希望通过这次Dubbo沙龙的分享能够解答这些问题. 本文章是根据朱勇老师在上海Dubbo沙龙的演讲稿进行整理,意在为大家展示最真实.最一手的沙龙技术干货. 前言 大家好,非常荣幸有机会和大家做这个分享.我先做个自我介绍,我叫朱勇,来自阿里巴巴中间件团队,主要工作在应用容器.

让网络更轻盈——网络功能虚拟化技术的现状和未来(中兴通讯)

让网络更轻盈--网络功能虚拟化技术的现状和未来 2014-08-19     作者:周宇翔(中兴通讯) 随着智能终端和移动互联网的发展,"通信"早已脱离传统的话音和短信,人与人广泛连接,甚至物物相连也成为可期的未来,各种OTT类新业务和商业模式不断在挑战运营商的传统优势地位.传统电信网络基于私有平台部署,采用专用设备,部署周期长.运维复杂,一些运营商意识到想要轻盈转身,必须向这些互联网运营商学习,从根本上改变电信网络的部署和运维方式.2012年10月,AT&T.英国电信.德国电

对SNS网站现状和未来的一些想法——以我对人人网的体验为例

现在对人人网越来越没有兴趣了,上面的照片.状态也越来越少了,反而是朋友圈里大家比较活跃. 我觉得在网上发内容的,至少是希望得到大家关注的,可是为什么人人越来越被大家嫌弃了呢? 人人上的消息越来越被淹没在各种广告和推荐中,想得到别人关注的和想获取信息的都没办法迅速得到关注和获取,久而久之就越来越不像上了,人人网还是太早这样大规模引入广告了,豆瓣这么多年了,现在的广告也很有限,而且不是什么广告都有,至少界面让人看上去很简洁. 和这点也类似的,人人主页的改版,学人家facebook,可是人家至少不会把

人工智能的发展现状与未来展望

作者:张达衢  摘自中国论文网 原文地址:http://www.xzbu.com/4/view-8299582.htm [关键词]人工智能:发展现状:未来展望  [中图分类号]TP18 [文献标志码]A [文章编号]1673-1069(2017)04-0107-02 1 引言  2016年年初,韩国围棋国手李在石与围棋程序Alpha Go对弈中首战失利,再一次将人工智能拉入了公众的视野,使其成为2016年度话题度最高的科技之一.不可否认,近些年来人工智能发展迅速,很多人工智能产品已经开始进入人们

腾讯投资在行&分答,探索分享经济下的未来社交模式

作者:楠沨 [IT战略家] 本轮融资并未公布具体金额,分答表示资金将更多投入到产品及用户体验迭代,知识网红的扶植,品牌推广等方向,由穆棉资本作为独家财务顾问.这意味着,在行&分答可能就此获得中国互联网最重要的两个资源:用户导流和资金:而腾讯握住了在行&分答在知识按需分享这一领域的未来价值. 分享经济兴起,知识变现成突破口 我们吸收信息从书本到电视,从电视到电脑,从电脑到手机,形式越来越个性化和直接,时间碎片化和个人精力受限的双重压力下,知识网红应运而生.用户渴望更简单更方便就能得到想要的知

瑞柏匡丞_移动互联网的发展现状与未来

互联网作为人类文明史上最伟大.最重要的科技发明之一,发展到今天,用翻天覆地来形容并不过分.而作为传统互联网的延伸和演进方向,移动互联网更是在近两年得到了迅猛的发展.如今,越来越多的用户得以通过高速的移动网络和强大的智能终端接入互联网,享受丰富的数据业务和互联网服务内容.移动互联网已成为全世界人们接入互联网的主要方式之一. 一个可喜的现象是:自从3G牌照发放以来,随着越来越多的电信设备商开始设计和生产不同价位.不同定位的智能手机,“山寨”产品市场占有率大幅下滑.与此同时,随着市场的成熟,竞争机制的

瑞柏匡丞_移动互联的发展现状与未来

互联网作为人类文明史上最伟大.最重要的科技发明之一,发展到今天,用翻天覆地来形容并不过分.而作为传统互联网的延伸和演进方向,移动互联网更是在近两年得到了迅猛的发展.如今,越来越多的用户得以通过高速的移动网络和强大的智能终端接入互联网,享受丰富的数据业务和互联网服务内容.移动互联网已成为全世界人们接入互联网的主要方式之一. 一个可喜的现象是:自从3G牌照发放以来,随着越来越多的电信设备商开始设计和生产不同价位.不同定位的智能手机,“山寨”产品市场占有率大幅下滑.与此同时,随着市场的成熟,竞争机制的

AutoML技术现状与未来展望

以下内容是对AutoML技术现状与未来展望讲座的总结. 1.机器学习定义 <西瓜书>中的直观定义是:利用经验来改善系统的性能.(这里的经验一般是指数据) Mitchell在<Machine Learning>一书中的较为形式化的定义是一个程序通过给它一些数据,它能够提升在某个任务上的某种度量.(如下图示) 下图很清楚明了的展示了机器学习所做的事情,不再赘述. 2.AutoML技术回顾 很多时候在某一领域使用机器学习得到了效果很好的模型,但是若要在另一个领域使用该模型则不一定适用,而

第四范式涂威威:AutoML技术现状与未来展望

以下内容是对AutoML技术现状与未来展望讲座的总结. 1.机器学习定义 <西瓜书>中的直观定义是:利用经验来改善系统的性能.(这里的经验一般是指数据) Mitchell在<Machine Learning>一书中的较为形式化的定义是一个程序通过给它一些数据,它能够提升在某个任务上的某种度量.(如下图示) 下图很清楚明了的展示了机器学习所做的事情,不再赘述. 2.AutoML技术回顾 很多时候在某一领域使用机器学习得到了效果很好的模型,但是若要在另一个领域使用该模型则不一定适用,而