Spark2.x 与 Spark1.x 关系

Spark2.x 引入了很多优秀特性，性能上有较大提升，API 更易用。在“编程统一”方面非常惊艳，实现了离线计算和流计算 API 的统一，实现了 Spark sql 和 Hive Sql 操作 API 的统一。Spark 2.x 基本上是基于 Spark 1.x 进行了更多的功能和模块的扩展，及性能的提升。

Spark2.x 新特性

1). Spark Core/SQL

在内存和CPU使用方面进一步优化Spark引擎性能(钨丝计划)。支持SQL 2003标准，支持子查询，对常用的SQL操作和DataFrame，性能有2-10倍的提升。

2). sparksession

Spark2.0 中引入了 SparkSession 的概念，它为用户提供了一个统一的切入点来使用 Spark 的各项功能，统一了旧的SQLContext与HiveContext。用户不但可以使用 DataFrame 和Dataset 的各种 API，学习 Spark2 的难度也会大大降低。

3). 统一 DataFrames 和 Datasets 的 API。

它们都是提供给用户使用，包括各类操作接口的 API，1.3 版本引入 DataFrame，1.6版本引入Dataset，在 spark 2.0 中，把 dataframes 当作是一种特殊的 datasets，dataframes = datasets[row]，把两者统一为datasets。

4). Structured Streaming

Spark Streaming基于Spark SQL(DataFrame / Dataset )构建了high-level API，使得Spark Streaming充分受益Spark SQL的易用性和性能提升。

5). 其它特性

mllib 里的计算用 DataFrame-based API 代替以前的 RDD 计算逻辑，提供更多的 R 语言算法，默认使用 Scala 2.11 编译与运行。

参考资料：

https://www.shiyanlou.com/courses/809/labs/2835/document

时间： 2025-01-16 22:54:16

Spark2.x 与 Spark1.x 关系的相关文章

Spark2.x 新特性

二.Spark2.x 介绍 2.1 Spark2.x 与 Spark1.x 关系 Spark2.x 引入了很多优秀特性,性能上有较大提升,API 更易用.在"编程统一"方面非常惊艳,实现了离线计算和流计算 API 的统一,实现了 Spark sql 和 Hive Sql 操作 API 的统一.Spark 2.x 基本上是基于 Spark 1.x 进行了更多的功能和模块的扩展,及性能的提升. 2.2 Spark2.x 新特性 1). whole-stage code generation

Spark机器学习实战视频

深入浅出Spark机器学习实战(用户行为分析) 课程观看地址:http://www.xuetuwuyou.com/course/144 课程出自学途无忧网:http://www.xuetuwuyou.com 一.课程目标熟练掌握SparkSQL的各种操作,深入了解Spark内部实现原理深入了解SparkML机器学习各种算法模型的构建和运行熟练Spark的API并能灵活运用能掌握Spark在工作当中的运用二.适合人群适合给,有java,scala基础,想往大数据spark机器

spark1.3.x与spark2.x启动executor不同的cpu core分配方式

***这里的executor在worker上分配策略以spreadOut 为例*** 1.3版本关键点: for (app <- waitingApps if app.coresLeft > 0) { //对还未被完全分配资源的apps处理 val usableWorkers = workers.toArray.filter(_.state == WorkerState.ALIVE) .filter(canUse(app, _)).sortBy(_.coresFree).reverse //根

IBM专家亲自解读 Spark2.0 操作指南

Spark 背景介绍 1.什么是Spark 在Apache的网站上,有非常简单的一句话,"Spark is a fast and general engine ",就是Spark是一个统一的计算引擎,而且突出了fast.那么具体是做什么的呢?是做large-scale的processing,即大数据的处理. "Spark is a fast and general engine for large-scale processing"这句话非常简单,但是它突出了Spa

Spark1.0.0 生态圈一览

Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms).机器(Machines).人(People)之间通过大规模集成,来展现大数据应用的一个平台,其核心引擎就是Spark,其计算基础是弹性分布式数据集,也就是RDD. 通过Spark生态圈,AMPLab运用大数据.云计算.通信等各种资源,以及各种灵活的技术方案,对海量不透明的数据进行甄别并转化为实用的信息.以供人们更好的理解世界.Spark生态圈已经涉及到机器学习.数据挖掘

CentOS7+Hadoop2.7.2(HA高可用+Federation联邦)+Hive1.2.1+Spark2.1.0 完全分布式集群安装

1 VM网络配置... 3 2 CentOS配置... 5 2.1 下载地址... 5 2.2 激活网卡... 5 2.3 SecureCRT. 5 2.4 修改主机名... 6 2.5 yum代理上网... 7 2.6 安装ifconfig. 8 2.7 wget安装与代理... 8 2.8

Spark-1.4.0单机部署（Hadoop-2.6.0采用伪分布式）【已测】

??目前手上只有一个机器,就先拿来练下手(事先服务器上没有安装软件)尝试一下Spark的单机部署. ??几个参数: ??JDK-1.7+ ??Hadoop-2.6.0(伪分布式): ??Scala-2.10.5: ??Spark-1.4.0: ??下面是具体的配置过程安装JDK 1.7+ [下载网址]http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 环境变量设置(最好不要采用o

原理系列：Spark1.x 生态圈一览

Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms).机器(Machines).人(People)之间通过大规模集成,来展现大数据应用的一个平台,其核心引擎就是Spark,其计算基础是弹性分布式数据集,也就是RDD.通过Spark生态圈,AMPLab运用大数据.云计算.通信等各种资源,以及各种灵活的技术方案,对海量不透明的数据进行甄别并转化为有用的信息,以供人们更好的理解世界.Spark生态圈已经涉及到机器学习.数据挖掘.

spark1.1.0部署standalone分布式集群

配置三个节点的spark集群,集群模式为standalone模式,其中sp1节点作为主节点,sp2节点和sp3节点为从节点.***注意所有操作均为root用户. 创建3个CentOS虚拟机,如下: sp1 192.168.1.21 //master节点 sp2 192.168.1.22 //slave节点 sp3 192.168.1.23 //slave节点配置/etc/sysconfig/network环境变量,如下: 在sp1节点上执行:vi /etc/sysconfig/network将

猜你喜欢

OI，我的决心

虽然从初一就开始NOIP,但沉溺于游戏编程等各种乱七八糟的技术,一直没对算法有过透彻的研究. ——————————简单的来说就是水过了—————————— 我生于一个弱省,就读于一所弱校(我们全区的都 ...

架构师的讨论

WZ 架构师这东西..我司的架构师是属于啥都做的?但是不参与具体的功能开发STST 不做具体的,意味着空得很 DH 做技术选型啦?性能优化啊?安全专项啊之类的 STST 我不相信,不做具体的,能把设计 ...

如何防止博客，网站被挂马

经营网站不容易,网站被挂马或者被挂暗链说明网站的管理权限已落入他人之手,而且网站被挂马往往来给网站带来不可估量的负面影响,最常见的就是网站用户体验变形.网站被无故植入莫名其妙的js代码,网站被降权甚至 ...

Android上获取设备的信息

http://www.cnblogs.com/chenyingzhong/archive/2011/07/26/2117259.html Android上获取设备的信息,布布扣,bubuko.com

报错提示：mysqli_fetch_array() expects parameter 1 to be mysqli_result, boolean given in..的处理方式

PHP操作数据库的时候如果出现报错: mysqli_fetch_array() expects parameter 1 to be mysqli_result, boolean given in.. ...

Git命令(转) git github 工具转自廖雪峰官方网站初始化设置账号及邮箱名 git config --global user.name "xxxx" git con ...

C#OOP之三控制结构

控制结构的意义通常,程序中的语句按编写的顺序一条一条的执行,称为顺序执行.程序员可以用一些不同的C#语句指定下一个要执行的语句不是紧邻其后的语句,这成为控制转移. 20世纪60年代,人们发现,软件开 ...

脚步语言的评估

混合语言是一种知识密集型的编程.我们必须具备能判断这些语言在什么地方最合适.虽然C语言的工作效率高和接近机器语言.但开发速度成本高,而相对脚步语言,则更容易解决实际问题.以下就我工作中会用到的脚步语言 ...

AD域控制器 dsmod 修改命令

C:\Users\DomainAdmin>dsmod user zhang.san /?描述: 修改目录中现有的用户. 语法: dsmod user <UserDN ...> ...

【九天教您南方cass 9.1】 11 方格网土方计算

同学们大家好,欢迎收看由老王测量上班记出品的cass9.1视频课程我是本节课主讲老师九天. 我们讲课的教程附件也是共享的,请注意索取测量空间中. 九天老师的联系方式点击直接请教九天老师吧! 这节 ...

openssl之BIO系列之12---文件描写叙述符(fd)类型BIO

文件描写叙述符(fd)类型BIO ---依据openssl doc\crypto\bio_s_fd.pod翻译和自己的理解写成 (作者:DragonKing [email protected] 公布于 ...

利用图片序列创建动态图片效果

代码: - (void)viewDidLoad { [super viewDidLoad]; // Do any additional setup after loading the view. // ...

程序设计入门——C语言第2周编程练习信号报告（5分）

2 题目内容: 无线电台的RS制信号报告是由三两个部分组成的: R(Readability) 信号可辨度即清晰度. S(Strength) 信号强度即大小. 其中R位于报告第一位,共分5级,用1 ...

排列和组合

排列和组合在我们高中的时候是最熟悉不过的数学词了,接下来找找这方面的题目供大家思考 (1)爬楼梯一个楼梯有50个台阶,每一步可以走一个台阶,也可以走两个台阶,请问走完这个楼梯共有多少种方法? (2) ...

Hive vs. HBase By Saggi NeumannBig Data May 26, 2014 Comparing Hive with HBase is like comparing Go ...

【高并发、大数据、javaWeb源码】maven_Springmvc_Mybatis_Shiro_REST_WebService_JMS_Lucene_Bootstrap

开发报捷:增加Lucene搜索引擎功能 1. 创建.初始化索引.统一搜索入口.搜索结果展现--内容.标题高亮.关键词搜索 2. 高级搜索:高级搜索增加多入口查询(精确查询.模糊查询.前缀查询等),每页 ...

PHP对XML操作2

<?xml version="1.0" encoding="UTF-8"?> <flow name="myflow"> ...

matlab 初值步长终值：： x=a:b:c 什么意思说明

例1 计算int(sin(x),0,pi) %by dynamic %all rights reserved by www.matlabsky.com >>x=0:pi/100:2*pi; ...

使用No-Conflict模式，其实就是对jQuery进行重命名，再调用。

<script type="text/javascript" src="/jquery/jquery.js"></script>< ...

scrapy基础知识之 scrapy 三种模拟登录策略：

注意:模拟登陆时,必须保证settings.py里的 COOKIES_ENABLED (Cookies中间件) 处于开启状态 COOKIES_ENABLED = True或 # COOKIES_ENA ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.