Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等主要部件。这里做一个简单的介绍。

一、RDD内存数据结构

大数据分析系统一般包括数据获取、数据清洗、数据处理、数据分析、报表输出等子系统。Spark为了方便数据处理、提升性能,专门引入了RDD数据内存结构,这一点与R的机制非常类似。用户程序只需要访问RDD的结构,与存储系统的数据调度、交换都由提供者驱动去实现。RDD可以与Haoop的HBase、HDFS等交互,用作数据存储系统,当然也可以通过扩展支持很多其它的数据存储系统。

因为有了RDD,应用模型就与物理存储分离开来,而且能够更容易地处理大量数据记录遍历搜索的情况,这一点非常重要。因为Hadoop的结构主要适用于顺序处理,要翻回去反复检索数据的话效率就非常低下,而且缺乏一个统一的实现框架,由算法开发者自己去想办法实现。毫无疑问,这具有相当大的难度。RDD的出现,使这一问题得到了一定程度的解决。但正因为RDD是核心部件、实现难度大,这一块的性能、容量、稳定性直接决定着其它算法的实现程度。从目前看,还是经常会出现RDD占用的内存过载出问题的情况。

二、Streaming流计算框架

流是现在推特、微博、微信、图片服务以及物联网、位置服务等等的重要数据形态,因此流计算正显得前所未有的重要。流计算框架是所有互联网服务商的核心基础架构,Amazon、Microsoft都已经推出了Event消息总线云服务平台,而facebook\twitter等更是将自己的流计算框架开源。

Spark Streaming专门设计用于处理流式数据。通过Spark Streaming,可以快速地将数据推入处理环节,犹如流水线一样进行快速的加工,并在最短的时间反馈给使用。

三、GraphX图计算与网状数据挖掘

物理网络的拓扑结构,社交网络的连接关系,传统数据库的E-R关系,都是典型的图(Graph)数据模型。Hadoop主要适用于“数据量”很大的场合,对于关系的处理几乎没有支持,Hbase也是非常弱的关系处理能力。图数据结构往往需要快速多次对数据进行扫描式遍历,RDD的引入使Spark可以更高效地处理基于图的数据结构,从而使存储和处理大规模的图网络成为可能。类似的专用于图的系统还有neo4j等。

GraphX相对于传统数据库的关系连接,可以处理更大规模、更深度的拓扑关系,可以在多个集群节点上进行运算,确实是现代数据关系研究的利器。

四、MLlib机器学习支持框架

通过把机器学习的算法移植到Spark架构上,一方面可以利用底层的大规模存储和RDD的数据快速访问能力,还可以利用图数据结构和集群计算的处理能力,使机器学习的运算可以在大规模的集群系统上展开,即大力拓展了机器学习算法的应用能力。

五、Spark SQL数据检索语言

这个跟基于Hive的实现有些类似,但是基于RDD理论上能提供更好的性能,同时能更方便处理如join和关系检索等操作。这个被设计为与用户交互的一个标准化入口。

六、Tachyon文件系统

Tachyon是一个类似于HDFS的实现,不过感觉上更加接近于使用者,而HDFS主要是面向存储块的。

七、SparkR计算引擎

将R语言的能力应用到Spark基础计算架构上,为其提供算法引擎。

时间: 2024-09-29 05:08:32

Spark大数据分析框架的核心部件的相关文章

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章计算机"公众号查看. 大数据技术一览 我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都

Python3实战Spark大数据分析及调度 (网盘分享)

Python3实战Spark大数据分析及调度 搜索QQ号直接加群获取其它学习资料:517432778 部分课程截图: 链接:https://pan.baidu.com/s/1YMmswv47fOUlt-z2A6691A 提取码:z5xv PS:免费分享,若点击链接无法获取到资料,若如若链接失效请加群 其它资源在群里,私聊管理员即可免费领取:群——517432778,点击加群,或扫描二维码   第1章 课程介绍 课程介绍 1-1 PySpark导学试看 1-2 OOTB环境演示 第2章 实战环境搭

容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析

摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问. 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark + OSS on

python3实战Spark大数据分析及调度

python3实战Spark大数据分析及调度  分享 链接:https://pan.baidu.com/s/1YMmswv47fOUlt-z2A6691A提取码:z5xv 免费分享,如若链接失效请加群,群号517432778,点击加群,或扫描二维码 原文地址:https://www.cnblogs.com/qq865581497/p/11565577.html

Azure HDInsight 和 Spark 大数据分析(一)

What is HDInsight? Microsoft Azure HDInsight 是基于 Hortonoworks Data Platform (HDP) 的 Hadoop 集群,包括Storm, HBase, Pig, Hive, Sqoop, Oozie, Ambari等(具体的组件请参看最后的附录).Azure HDInsight 支持 Windows的集群部署,也支持 Linux 集群部署.Hortonworks 是我目前所知唯一支持在 Windows 上部署的 Hadoop C

Cassandra联手Spark 大数据分析将迎来哪些改变?

2014Spark峰会在美国旧金山举行,与会数据库平台供应商DataStax宣布,与Spark供应商Databricks合作,在它的旗舰产 品 DataStax Enterprise 4.5 (DSE)中,将Cassandra NoSQL数据库与Apache Spark开源引擎相结合,为用户提供基于内存处理的实时分析. Databricks是一家由Apache Spark创始人成立的公司.谈到这次合作,DataStax副总裁John Glendenning表示:“将Spark与Cassandra

Python Spark大数据分析实战教程下载|pyspark教程

分享网盘下载地址--https://pan.baidu.com/s/1c1OjpSW 密码: a5ks Python是数据分析最常用的语言之一,而Apache Spark是一个开源的强大的分布式查询和处理引擎. 本课程以案例驱动的方式讲解如何基于Python语言进行Spark Application编程,完成数据获取.处理.数据分析及可视化方面常用的数据分析方法与技巧,通过这些实际案例让学员轻松掌握使用PySpark分析来自不同领域的数据.

&lt;颠覆大数据分析 基于StormSpark等Hadoop替代技术的实时应用&gt;

为什么要超越Hadoop MapReduce Hadoop的适用范围 Hadoop缺乏对象数据库连接(ODBC) Hadoop不适合所有类型的应用程序 hadoop不适合分片数据 Hadoop不适合迭代式计算 海量数据分析所需的计算范式分类(7大任务) 基础分析 线性代数计算 广义的多体问题 图论问题 优化 积分 比对问题 Hadoop非常适合第一类基础分析,对于其他问题,较简单或者小型的任务都是Hadoop可解的. 于是有了Spark,spark可以看做是大数据领域下一个数据处理的Hadoop

【大数据分析】学习之路详解

以大数据分析师为目标,从数据分析基础.JAVA语言入门和linux操作系统入门知识学起,系统介绍Hadoop.HDFS.MapReduce和Hbase等理论知识和hadoop的生态环境 一.大数据分析的五个基本方面 1,可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了. 2,数据挖掘算法 大数据分析的理论核心就是数据挖掘算法,各种