Spark 1.0.0版本发布

前言

今天Spark终于跨出了里程碑的一步,1.0.0版本的发布标志着Spark已经进入1.0时代。1.0.0版本不仅加入了很多新特性,并且提供了更好的API支持。Spark SQL作为一个新的组件加入,支持在Spark上存储和操作结构化的数据。已有的标准库比如ML、Streaming和GraphX也得到了很大程度上的增强,对Spark和Python的接口也变得更稳定。以下是几个主要的改进点:

融合YARN的安全机制

Hadoop有着自己的安全机制,包括认证和授权。Spark现在可以和Hadoop/YARN的安全模型并存,也就是说Spark可以对任务提交(job submission)进行认证,能够使用HDFS的认证机制进行数据的安全传输,各组件之间也增加了互相认证。

改善了任务提交的流程

这个版本在很大程度上增强了Spark应用的提交。Spark启用新的任务提交工具spark-submit tool以便能够通过一个普通进程向任一Spark集群提交应用程序。Spark的UI界面中也增加了历史任务的记录,方便了用户查看已经结束了任务运行情况。

Spark SQL的加入

Spark SQL作为一个新组建加入到1.0.0版本中,它能够利用Spark进行结构化数据的存储和操作,结构化数据既可以赖在外部结构化数据源(当前支持Hive和Parquet),也可以通过向已有RDD增加schema的方式得到。

Spark SQL提供了方便的调用接口,用户可以通过SQL语句来与Spark代码交互。当前Spark SQL使用Catalyst优化器来对SQL语句进行优化从而得到更有效的执行方案,并且可以将结果存储到Parquet格式中,在将来Spark SQL还会兼容其他的存储系统。

MLib的改进

这个版本的MLib增加了对Scala、Java、Python中稀疏特征向量的支持,其主要利用了线性方法、k-means和朴素贝叶斯在存储和计算上的稀疏性。1.0.0的MLib还增加了几个新的算法,包括为分类和回归增加了可扩展的决策树、矩阵算法的分布式实现(包括SVD和PCA)、模型评估函数以及L-BFGS算法。

GraphX和Streaming的改进

GraphX在图加载、边反转和邻接计算方面对通信的要求更低,产生的RDD图更简单,从而在性能方面得到了很大提升。

Spark Streaming提供了对Flume的支持,在状态流转换方面进行了许多优化,并且能够对长时间运行任务的状态进行自动清理。

另外,Spark还对调用接口提供了更好的支持,包括对Java 1.8的支持,对Python更多版本的兼容,使用对外内存进行RDD的cache,对小文件的更好支持等。

后记

很荣幸从0.7.3版本就开始熟悉、使用Spark,也很开心自己介入了Spark开源项目的贡献,1.0.0的release note中已经有了自己的身影。虽然做了只是很小的贡献,但是还是感到一点点的满足感,未来会继续关注开源社区。

最近会增强对Spark的使用,并开始从架构上源码级别的分析Spark。

参考:http://spark.apache.org/releases/spark-release-1-0-0.html

声明:

本文为原创,禁止用于任何商业用途,转载请注明出处:http://blog.csdn.net/asongoficeandfire/article/details/27725401

Spark 1.0.0版本发布,布布扣,bubuko.com

时间: 2024-10-06 00:44:21

Spark 1.0.0版本发布的相关文章

jeewx-api 1.0.5 版本发布,微信SDK接口封装

JeeWx-api 1.0.5 版本发布,微信SDK接口封装 1.jeewx-api为何诞生 现在微信越来越火,基于微信的公众号和服务号越来越丰富,虽然微信帮助文档已经提供了相关的接口,但是接口比较多,通过代码自己调用比较麻烦,所以为减轻开发者独自创造轮子,将微信API进行了统一封装! 2.作者 : Jeecg开源社区 3.新版本升级功能    一.基础接口         1.获取api_ticket          2.自定义菜单删除接口          3.多媒体素材永久上传接口   

Syler 1.0.3 版本发布

Syler 开源华为Portal中间件社区版本1.0.3发布 新特性:* 认证成功时,返回用户MAC* 在强制下线通知的基础上,增加普通用户下线通知* 支持华为的信息读取接口,可以获得用户的上下行速率 BUG修复:* 修改部分内部实现* 修正参数获取错误 1.0.3版本中间件已经成功支持企业网络管理.Wifi运营支持.Wifi广告平台等上层应用 请到版本仓库围观: https://github.com/extrame/syler

PyOdps 0.4版本发布,从一个故事说起

有这么个故事(如有雷同,纯属巧合).有一天,某运营同学给某开发同学一个excel文件,里面是个客户清单. "帮我查下这些用户的消耗呢". 开发同学扫了一眼,几百个用户.这个事肯定是可以办的,但是想到麻烦程度,开发同学心里肯定是有不少羊驼经过的啦. "有点麻烦啊",开发同学轻轻抱怨. "我懂的,把这个表和ODPS里的表join下就好了嘛."运营同学努努嘴. "--".于是,开发同学把excel数据导出成文本格式,然后dship上

APICloud SDK_v1.0.71版本发布(2014年11月21日更新)

APICloud SDK_v1.0.71为开发APICloud App提供了一套完整的开发工具包,包括APICloudAppLoader,APICloud IDE,APICloud Framework,APICloudSamples.开发者使用这些工具可以开发APICloudApp,并同步输出iOS(.ipa)和Android(.apk)应用.另外,开发人员可以使用APICloudIDE进行应用开发,使用APICloud Simulator进行调试,使APICloud AppLoader进行真机

Std UI Kit 0.1版本发布

Std UI Kit是一套可以帮助你大幅缩短工作进程的高性能Javascript UI组件合集,它包含了非常全面的常用UI组件,同时提供了一套完整的用户界面解决方案,它能轻松的让你构建出一套桌面级的应用. Std UI Kit 包含的全部组件都是使用StdJS的Std.ui模块创建的,可以自由的继承,扩展. StdJS网站  http://www.stdjs.com Std UI Kit 网站 http://ui.stdjs.com Std UI Kit 文档 http://doc.stdjs.

zeebe 0.22 版本发布

zeebe 的迭代还是比较快的,就是四个小时之后发布了0.22 (0.22.0 与0.22.1 同时发布....) 目前0.22 底层存储的逻辑与以前的版本是破坏性的变动(不兼容),有空了进行下压测,还是比较 期待新版本的,支持了好多新的工作流处理,相关介绍可以参考https://zeebe.io/blog/2020/01/zeebe-operate-jan-2020-releases/ 原文地址:https://www.cnblogs.com/rongfengliang/p/12207539.

jeecg-easypoi-2.0.3版本发布

EasyPOI是在jeecg的poi模块基础上,继续开发独立出来的,可以说是2.0版本,EasyPoi封装的目的和jeecg一致,争取让大家write less do more ,在这个思路上easypoi可以让大家几乎不写代码的情况下完成Excel的导入导出,Excel的模板导出(制作漂亮的Excel),Word模板的导出,让大家从复杂的POI的接口中解脱出来,同时更迅速的完成工作. EasyPoi的特性 ?      注解是基础,让大家见名知意 ?      注解是核心,让大家快速开发 ? 

PHPRAP v1.0.8 版本发布,安装时数据库不存在自动创建

PHPRAP,是一个PHP轻量级开源API接口文档管理系统,致力于减少前后端沟通成本,提高团队协作开发效率,打造PHP版的RAP. PHPRAP已被评选为码云最有价值开源项目 更新记录 [修复]修复在虚拟主机下安装失败的BUG [修复]修复程序异常时页面空白的BUG [修复]修复上传建表sql文件时初始进度百分比错误的BUG [优化]安装步骤二中数据库名不存在自动创建 [新增]管理后台新增是否开启登录和注册验证码开关 [新增]安装步骤一中新增curl扩展是否安装的检测 特性 部署简单 提供傻瓜式

【Magicodes.IE 2.0.0-beta1版本发布】已支持数据表格、列筛选器和Sheet拆分

为了更好的完善Magicodes.IE,春节期间我们会进行一次大的重构.由于精力有限,急缺文档和翻译(将文档翻译为英文文档)支持,诚邀各位加入.同时在功能方便也做了相关规划,有兴趣的朋友可以参与提交PR. https://github.com/dotnetcore/Magicodes.IE 2019.01.18 [Nuget]版本更新到2.0.0-beta1 [导出]完全重构整个导出Excel模块并且重写大部分接口 [导出]支持列头筛选器——IExporterHeaderFilter,具体使用见

Nacos 发布 1.0.0 GA 版本,可大规模投入到生产环境

经过 3 个 RC 版本的社区体验之后,Nacos 正式发布 1.0.0 GA 版本,在架构.功能和 API 设计上进行了全方位的重构和升级. 1.0.0 版本的发布标志着 Nacos 已经可以大规模的在生产环境中使用,新版本不仅针对社区的需求和集群的稳定性相应地增加了一些新特性,而且还发布了服务发现模块的性能测试报告,以及完整的 API 列表和架构设计文档. Nacos演进历程 Nacos 自 2018 年 7 月份开源以来,有赖于社区的大力关注和参与,在不到一年的时间里,已经演进了 10+