说一说BDAS(Berkeley Data Analytics Stack)

Strata+Hadoop World 2016在San Jose刚刚结束。对于大数据从业者来讲,这是一定要关注的一个盛会。其中有一个keynote,是Berkeley大学的Michael Franklin的关于BDAS的未来的发展的,非常值得关注,你要问我为什么? BDAS乃是伯克利大学的AMPLab打造的用于大数据的分析的一套开源软件栈,这其中包括了这两年火的爆棚的Spark,也包括了冉冉升起的分布式内存系统Alluxio(Tachyon),当然还包括著名的资源管理的开源软件Mesos。可以说Amplab最近几年引领了大数据发展的技术创新的浪潮,他们关于BDAS的未来的一些发展和技术的介绍,怎能不去关注呢?

新的BDAS

Keynotes中介绍的东西,都可以在Amplab的网站上找到,下边的图就是BDAS的技术栈:

在这整个技术栈中,最下层是资源管理层,也是广大大数据技术从业者都了解的两个技术:Amplab主导开发的Mesos和Hadoop社区的Yarn,二者各有其优缺点,笔者在去年的微信公众号也做过一些介绍,这里不详细赘述。

在资源管理层上边,则是存储层,包括了HDFS,S3,Ceph等技术,也都广为所知,Amplab在BDAS上也都是用这些广为所知的分布式文件系统来解决存储问题。但是基于分布式文件系统,Amblab则做了分布式内存系统Alluxio(以前叫做Tachyon)。关于Alluxio,国内的大数据技术从业者都已经有了不错的了解,百度用Alluxio取得了非常不错的性能的提升,TalkingData也在进行测试,期望不久的将来能够在我们的技术栈中使用上。

Succinct对于很多人可能比较陌生,它是Amplab对于压缩的数据进行高效检索的一套开源的解决方案,基本的出发点是用压缩的后缀树(compressed suffix array)来存储数据来达到高效的压缩存储和检索效率,具体的技术细节,笔者后边会单独写一篇文章介绍。

处理引擎就是Spark core了,这个不用我做更多的介绍了,国内关于Spark的文章已经多不胜数,关于RDD的技术原理基本上是面试必备了。

访问和接口层中,Spark SQL则是Spark社区这两年的重点,相关的技术资料也很多,包括DataFrame,DataSet的相关概念也逐渐的深入人心了。Spark Streaming一直有人诟病,从近期Spark的一些资料介绍看,Spark 2.0将会在Spark Streaming上有大的改进,让我们拭目以待Spark 2.0的发布吧。

BlinkDB我去年就在关注,它的出发点是用采样方式做大数据的处理,不过似乎并不活跃,在alpha 0.2.0版本都已经两年了都没有变化。

SampleClean配合Ampcrowd是进行数据清洗的开源套件,这和我们TalkingDat正在做的大禹系统有点类似,后边我也会单独进行介绍。

SparkR不用我过多介绍,是支持在Spark上运行R。GraphX则是在Spark上的图算法包,未来我相信会有越来越多的人会关注图的算法。

Splash是在Spark上的一个对随机学习算法进行并行的一个并行计算框架,支持SGD,SDCA等等。

Velox是Amplab正在开发的支持实时个性化预测的一套模型系统,在这个keynote中,Michael Franklin对Velox做了重点的介绍,可见它非常受到Amplab的重视,从源代码的描述看,它支持实时个性化预测,与Spark和KeystoneML做了集成,并且支持离线batch和在线的模型训练。具体的细节,笔者后边会专门进行专题的介绍。

KeystoneML是AmpLab为了简化构造机器学习流水线而开发的一套系统,仍旧在开发过程中。通过KeystoneML,可以方便的定义机器学习算法的pipeline,并且方便的在Spark上进行并行化处理。后边我也会单独进行KeysoneML的介绍。

MLLib不需要过多的赘述,是Spark上的机器学习算法库,很多公司已经在用MLLib在Spark上进行各种机器学习算法的实践了。

微信书 http://www.biyinjishi.com/products/a65-b6580/d100146/
微博书 http://www.biyinjishi.com/products/a65-b6580/d100147/
家谱 http://www.biyinjishi.com/products/a65-b6580/d100149/
LOGO设计 http://www.biyinjishi.com/products/a70-b7010/
名片设计 http://www.biyinjishi.com/products/a70-b7015/
宣传单页设计 http://www.biyinjishi.com/products/a70-b7020/
宣传画册设计 http://www.biyinjishi.com/products/a70-b7025/
修片调色 http://www.biyinjishi.com/products/a70-b7050/
打字录入 http://www.biyinjishi.com/products/a70-b7060/
证件快照 http://www.biyinjishi.com/products/a99-b9910/
收发传真 http://www.biyinjishi.com/products/a99-b9915/
装订装帧 http://www.biyinjishi.com/products/a99-b9920/
刻字刻章 http://www.biyinjishi.com/products/a99-b9925/
光盘刻录 http://www.biyinjishi.com/products/a99-b9960/

时间: 2024-10-16 01:17:39

说一说BDAS(Berkeley Data Analytics Stack)的相关文章

Toward Scalable Systems for Big Data Analytics: A Technology Tutorial (I - III)

ABSTRACT Recent technological advancement have led to a deluge of data from distinctive domains (e.g., health care and scientific sensors, user-generated data, Internet and financial companies, and supply chain systems) over the past two decades. The

Big Data Analytics for Security(Big Data Analytics for Security Intelligence)

http://www.infoq.com/articles/bigdata-analytics-for-security This article first appeared in the IEEE Security & Privacymagazine and is brought to you by InfoQ & IEEE Computer Society. Enterprises routinely collect terabytes of security-relevant da

Big Data Analytics and Data Mining 第一天.

今天是上课的第一天.真心很感激导师能让我出来学习.今天突然觉得自己要好好学习英语.并不是上课的时候我看不懂裴教授的课件.而是觉得如果英语不好就很像乡巴佬那样,很难接触到高级的东西. 通过今天的听讲,我感觉对数据挖掘的理解更深刻些. 以前总觉得自己研究生的目标是要好好学习算法,好好学习相关的技术. 现在觉得除了要好好学习算法外,我也期待自己能做出一些研究. 记录下今天讲课的内容. 今天我觉得主要讲了三部分: 1,数据挖掘相关的概念及相关的学术期刊. 从广义上来定义数据挖掘:The art of d

UVA11995I Can Guess the Data Structure!(stack + queue + priority_queue)

题目:UVA11995I Can Guess the Data Structure!(stack + queue + priority_queue) 题目大意:给你两种指令,1代表让1后面的数字进入这个数据结构,2代表无差错的从数据结构中取出这个数字,问这个数据结构是stack还是queue还是priority_queue,还是不确定,还是以上均不可能. 解题思路:用STL中的这些数据结构来模拟一下,模拟成功就是这种数据结构,注意pop的时候要判断是否empty. 代码: #include <c

12 Top Open Source Data Analytics Apps

1. Hadoop It would be impossible to talk about open source data analytics without mentioning Hadoop. This Apache Foundation project has become nearly synonymous with big data, and it enables large-scale distributed processing of extremely large data

IAB303 Data Analytics Assessment Task

Assessment TaskIAB303 Data Analyticsfor Business InsightSemester I 2019Assessment 2 – Data Analytics NotebookName Assessment 2 – Data Analytics NotebookDue Sun 28 Apr 11:59pmWeight 30% (indicative weighting)Submit Jupyter Notebook via BlackboardRatio

CIS 545 - Big Data Analytics

CIS 545 - Big Data Analytics - Fall 2019 Have you ever wondered about (1) what it takes to be a data scientist or "data person", and (2) how sowork?This homework is focused on (1) working with hierarchical data stored in dataframes, (2) traversi

程序各个段text,data,bss,stack,heap

网上找了一堆资料学习一下,了解这些, 有助于规化程序结构,优化代码; 使用gcc编译出来的程序,用size可以查看程序结构和大小, 如 1: #size hello 2: Text data bss dec hex filename 3: 778 200 4 982 3D6 hello 所以一个可执行的程序文件,结构分三部分: .text 代码段,用来存放代码,一般是只读的区域; .data 数据段,用来存放全局初始化变量,常量,以及全局或局部静态变量,只初始化一次; .bss  BSS段,用来

uva 11995 I Can Guess the Data Structure stack,queue,priority_queue

题意:给你n个操做,判断是那种数据结构. 1 #include<iostream> 2 #include<cstdio> 3 #include<cstdlib> 4 #include<stack> 5 #include<queue> 6 using namespace std; 7 int n; 8 int v[1010],u[1010]; 9 10 int ck_q() 11 { 12 //cout<<"!!"&