大数据为什么要选择Spark

大数据为什么要选择Spark

Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。 Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发,其核心部分的代码只有63个Scala文件,非常轻量级。 Spark 提供了与 Hadoop 相似的开源集群计算环境,但基于内存和迭代优化的设计,Spark 在某些工作负载表现更优秀。

在2014上半年,Spark开源生态系统得到了大幅增长,已成为大数据领域最活跃的开源项目之一,当下已活跃在Hortonworks、IBM、 Cloudera、MapR和Pivotal等众多知名大数据公司。那么Spark究竟以什么吸引了如此多的关注,这里我们看向Dzone上的6个总结。

1. 轻量级快速处理。着眼大数据处理,速度往往被置于第一位,我们经常寻找能尽快处理我们数据的工具。Spark允 许Hadoop集群中的应用程序在内存中以100倍的速度运行,即使在磁盘上运行也能快10倍。Spark通过减少磁盘IO来达到性能提升,它们将中间处 理数据全部放到了内存中。Spark使用了RDD(Resilient Distributed Dataset)的理念,这允许它可以透明的内存中存储数据,只在需要时才持久化到磁盘。这种做法大大的减少了数据处理过程中磁盘的读写,大幅度的降低了 所需时间。

2. 易于使用,Spark支持多语言。Spark允许Java、Scala及Python,这允许开发者在自己熟悉的语言环境下进行工作。它自带了80多个高等级操作符,允许在shell中进行交互式查询。

3. 支持复杂查询。在简单的“map”及“reduce”操作之外,Spark还支持SQL查询、流式查询及复杂查询,比如开箱即用的机器学习机图算法。同时,用户可以在同一个工作流中无缝的搭配这些能力。

4. 实时的流处理。对比MapReduce只能处理离线数据,Spark支持实时的流计算。Spark依赖 Spark Streaming对数据进行实时的处理,当然在YARN之后Hadoop也可以借助其他的工具进行流式计算。对于 Spark Streaming,Cloudera的评价是:

简单:轻量级且具备功能强大的API,Sparks Streaming允许你快速开发流应用程序。
    容错:不像其他的流解决方案,比如Storm,无需额外的代码和配置,Spark Streaming就可以做大量的恢复和交付工作。
    集成:为流处理和批处理重用了同样的代码,甚至可以将流数据保存到历史数据中。

5. 可以与Hadoop和已存Hadoop数据整合。Spark可以独立的运行,除了可以运行在当下的YARN集群管理之外,它还可以读取已有的任何Hadoop数据。这是个非常大的优势,它可以运行在任何Hadoop数据源上,比如HBase、HDFS等。这个特性让用户可以轻易迁移已有Hadoop应用,如果合适的话。

6. 活跃和无限壮大的社区。Spark起源于2009年,当下已有超过50个机构250个工程师贡献过代码,和去年六月相比,代码行数几乎扩大三倍,这是个令人艳羡的增长。

经管之家(原人大经济论坛)推出CDA大数据分析师脱产就业班培训(http://cda.pinggu.org/bigdata-jy.html), 以大数据分析师为目标,从数据分析基础、JAVA语言入门和linux操作系统入门 知识学起,系统介绍Hadoop、HDFS、MapReduce和Hbase等理论知识和hadoop的生态环境,详细演示hadoop三种模式的安装配 置,以案例的形式,重点讲解基于mahout项目的大数据分析之聚类、分类以及主题推荐。重点培养基于Hadoop架构的大数据分析思想及架构设计,通过 演示实际的大数据 分析案例,使学员能在较短的时间内理解大数据分析的真实价值,掌握如何使用hadoop架构应用于大数据分析过程,使学员能有一个快速提升成为兼有理论和 实战的大数据分析师,从而更好地适应当前互联网经济背景下对大数据分析师需求的旺盛的就业形势。

北京现场&远程直播


时间


课 程


大纲简 介


第一阶段


系统基础篇 15天


1.开学典礼及大数据概述 1天

2.linux操作系统及 2天

3.unbuntu系统介绍 1天

4.JAVA基础  5天

5.python基础 4天

6.hadoop单机、伪分布、集群搭建 2天


第二阶段


hadoop生态实战篇 15天


1.HDFS深入剖析 1天

2.MapReduce基础理论及高级编程实战 3天

3.Pig原理,部署与Pig Latin语言,应用案例 1天

4.Hive体系架构、安装与HiveQL及Hive应用案例 3天

5.Zookeeper与分布式系统开发 1天

6.HBase体系架构,集群部署,管理 2天

7.HBase数据模型,实战案例建模剖析 3天

8.strom入门及部署 1天


第三阶段


数据分析理论篇 15天


1.SPSS软件入门 1天

2.数据分析之统计基础(使用软件为SPSS) 4天

3.R软件操作入门 1天

4.数据挖掘之聚类(使用软件为R) 3天

5.数据挖掘之分类(使用软件为R) 4天

6.数据挖掘之关联规则(使用软件为R)2天


第四阶段


大数据分析案例篇 15天


1.大数据可视化技术及工具简介 1天

2.大数据背景下隐私保护及技术介绍 1天

3.大数据的分析方法--SMART模型介绍 1天

4.基于hadoop+Mahout的8个大数据分析案例实战 2天

5.Spark基础原理、集群安装并运行Spark 2天

6.Spark SQL 原理及数据整合应用 2天

7.Spark GraphX图计算方法应用 1天

8.Spark 推荐应用(ALS方法,FP-growth方法)2天

9.Spark 数据建模流程(logistics回归,决策树,朴素贝叶斯方法)3天


第五阶段


毕业篇 6天


1.毕业设计 5天

2.毕业典礼 1天

时间: 2024-12-16 19:27:44

大数据为什么要选择Spark的相关文章

中小企业的大数据技术路线选择(二)-Cassandra+Presto方案

中小企业的大数据技术路线选择(二)-Cassandra+Presto方案 我前面曾经写过:中小企业的大数据技术路线选择 和 低调.奢华.有内涵的敏捷式大数据方案:Flume+Cassandra+Presto+SpagoBI . 最近用了两个月的时间终于把Cassandra+Presto+SpagoBI方案验证通过了.验证了Presto的JDBC Driver .Prestogres网关.SHIB三种方式. 一.Presto JDBC驱动方案 Presto JDBC驱动方案,Java动用客户端,如

走在大数据的边缘 基于Spark的机器学习-智能客户系统项目实战(项目实战)

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

【转】大数据存取的选择:行存储还是列存储?

上个月参加了一个云存储的技术讨论会.这一个月里,陆续收到几位同学讨论大数据保存和处理的邮件.今天是周末,索性把这个月的交流内容整理写下来,供各位参考. 目前大数据存储有两种方案可供选择:行存储和列存储.业界对两种存储方案有很多争持,集中焦点是: 谁能够更有效地处理海量数据,且兼顾安全.可靠.完整性.从目前发展情况看,关系数据库已经不适应这种巨大的存储量和计算要求,基本是淘汰出局.在已知的几种大数据处理软件中,Hadoop 的 HBase 采用列存储,MongoDB 是文档型的行存储,Lexst

湖北大数据平台企业有哪些?政企大数据平台如何选择?

2019年两会,各大代表纷纷发表对互联网大数据的建言,足以显示,大数据对于目前互联网的重要性已经国家对大数据的关注度,接下来,我们就具体聊一下湖北地区大数据平台企业有哪些?政企大数据平台软件如何选择? 2019年大家在聊到大数据,可能对它不在是以前浅显的认识,大家对大数据已经有了一定的认识.在大数据的浪潮中,大数据被认为是数据的大容量.数据类型的多样.数据的处理速度快.数据的应用高价值的有趋势预测的.海量的.高增长率的信息资产.但是又因为大数据可给人类社会带来潜在的无可估量的价值. 政企大数据平

2分钟读懂大数据框架Hadoop和Spark的异同

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生.但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同. 解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同.Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件. 同时,Hadoop还会索引和跟踪

中小企业的大数据技术路线选择

目前,大数据主要应用在互联网.电商领域,电信.电力行业也在逐步使用.对广大的中小企业来说,大数据也听得太多了.然而,大数据的技术门槛还是很高的.从技术路线上来说,选择大公司使用的技术方案可能是不能承受之重. 笔者所在的公司,选择的是行业通用的Hadoop方案.历经一年之久,前后三拨人员,一个Demo版还没出来.大数据真的让人望眼欲穿啊. 对中小企业而言,要选择适合自己的大数据技术路线.跟着大公司,人云亦云,还真玩不起.那么,有没有适合中小企业的大数据方案呢?笔者用心收集了几个,供参考. 1.Ca

大数据Storm相比于Spark、Hadoop有哪些优势(摘录)

一.可能很多初学大数据的伙伴不知道strom是什么,先给大家介绍一下strom:分布式实时计算系统,storm对于实时计算的意义类似于hadoop对于批处理的意义.storm的适用场景.流数据处理.Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去.分布式rpc.由于storm的处理组件是分布式的,而且处理延迟极低,所以可以作为一个通用的分布式rpc框架来使用.当然,其实我们的搜索引擎本身也是一个分布式rpc系统有一句话叫做三人行必有我师,其实做为一个开发者,有一个学习

大数据(hadoop,hive,hbase,spark,flume等)各技术间的关系

大数据由一系列技术组成,那他们之间的关系是怎么组成的ne,请看下图: hadoop主要做了文件存储系统和提供了一个相对比较弱的mr处理数据的方案 hive是在mr和文件存储系统上面做的升级. sprak+hbase+hadoop主要解决的是hadoop实时处理数据比较弱的问题 原文地址:https://www.cnblogs.com/jueshixingkong/p/12004671.html

大数据技术学习之Spark技术总结

Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合.需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小(大数据库架构中这是是否考虑使用Spark的重要因素). 1.Spark的核心是什么? RDD是Spark的基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现.RDD也是Spark非常核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD