Cassandra联手Spark 大数据分析将迎来哪些改变?

2014Spark峰会在美国旧金山举行,与会数据库平台供应商DataStax宣布,与Spark供应商Databricks合作,在它的旗舰产 品 DataStax Enterprise 4.5 (DSE)中,将Cassandra NoSQL数据库与Apache Spark开源引擎相结合,为用户提供基于内存处理的实时分析。

Databricks是一家由Apache Spark创始人成立的公司。谈到这次合作,DataStax副总裁John Glendenning表示:“将Spark与Cassandra集成,这还是数据库行业内的第一次合作。”

Cassandra是一个分布式、高可扩展的数据库,用户可以创建线上应用程序,实时处理大量数据。

Apache Spark是应用于Hadoop集群的处理引擎,在内存条件下可以为Hadoop加速100倍,在磁盘上运行时也能实现十倍的加速。Spark还提供SQL、流数据处理、机器学习和图型计算等功能。

Cassandra与Spark的结合,让端到端的分析工作流的实现更为容易。另外,交易型数据库的分析性能也能得到很大的提升,企业可以更快地响应客户需求。

对于需要向客户提供实时推荐和个性化的在线体验的公司,Cassandra与Spark的结合堪称福音。

视频分析公司的Cassandra/Spark应用先例

Cassandra+Spark架构的使用早有先例,Ooyala就是其中之一。Ooyala是一家视频分析供应商。Ooyala每天要处理20亿 个视频事件,在大约220个节点上有约28TB的数据要处理。但是Ooyala的技术团队负责人 Harry Robertson还是能够自信地说:“我们不是仅仅告诉客户,你的视频几天播放了100遍,我们会提供更详细的信息,比如有80次播放来自于北京,20 次来自于Yahoo.com。”而支撑这一切的正是Cassandra集群。

但是,只拥有大数据的处理能力还不够,Ooyala需要将“堆积如山”的原始事件转变成小的、可操作的事件。公司之前考虑过Hadoop,但 Hadoop扩展性有余,实时性不足。也考虑过Storm这样的实时流处理框架,但它只有处理固定的流程时才具有优势,弹性查询能力欠佳。最 终,Ooyala选择了内存分布式计算框架Spark。

现在Ooyala正在运行的就是Spark/Cassandra架构。

时间: 2024-10-04 13:15:56

Cassandra联手Spark 大数据分析将迎来哪些改变?的相关文章

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章计算机"公众号查看. 大数据技术一览 我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都

Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件 Spark大数据分析框架的核心部件包含RDD内存数据结构.Streaming流计算框架.GraphX图计算与网状数据挖掘.MLlib机器学习支持框架.Spark SQL数据检索语言.Tachyon文件系统.SparkR计算引擎等主要部件.这里做一个简单的介绍. 一.RDD内存数据结构 大数据分析系统一般包括数据获取.数据清洗.数据处理.数据分析.报表输出等子系统.Spark为了方便数据处理.提升性能,专门引入了RDD数据内存结构,这一点与R的机制非常类似.用户

容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析

摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问. 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark + OSS on

Python3实战Spark大数据分析及调度 (网盘分享)

Python3实战Spark大数据分析及调度 搜索QQ号直接加群获取其它学习资料:517432778 部分课程截图: 链接:https://pan.baidu.com/s/1YMmswv47fOUlt-z2A6691A 提取码:z5xv PS:免费分享,若点击链接无法获取到资料,若如若链接失效请加群 其它资源在群里,私聊管理员即可免费领取:群——517432778,点击加群,或扫描二维码   第1章 课程介绍 课程介绍 1-1 PySpark导学试看 1-2 OOTB环境演示 第2章 实战环境搭

python3实战Spark大数据分析及调度

python3实战Spark大数据分析及调度  分享 链接:https://pan.baidu.com/s/1YMmswv47fOUlt-z2A6691A提取码:z5xv 免费分享,如若链接失效请加群,群号517432778,点击加群,或扫描二维码 原文地址:https://www.cnblogs.com/qq865581497/p/11565577.html

Azure HDInsight 和 Spark 大数据分析(一)

What is HDInsight? Microsoft Azure HDInsight 是基于 Hortonoworks Data Platform (HDP) 的 Hadoop 集群,包括Storm, HBase, Pig, Hive, Sqoop, Oozie, Ambari等(具体的组件请参看最后的附录).Azure HDInsight 支持 Windows的集群部署,也支持 Linux 集群部署.Hortonworks 是我目前所知唯一支持在 Windows 上部署的 Hadoop C

Python Spark大数据分析实战教程下载|pyspark教程

分享网盘下载地址--https://pan.baidu.com/s/1c1OjpSW 密码: a5ks Python是数据分析最常用的语言之一,而Apache Spark是一个开源的强大的分布式查询和处理引擎. 本课程以案例驱动的方式讲解如何基于Python语言进行Spark Application编程,完成数据获取.处理.数据分析及可视化方面常用的数据分析方法与技巧,通过这些实际案例让学员轻松掌握使用PySpark分析来自不同领域的数据.

大数据学习:Spark是什么,如何用Spark进行数据分析

给大家分享一下Spark是什么?如何用Spark进行数据分析,对大数据感兴趣的小伙伴就随着小编一起来了解一下吧. 大数据在线学习 什么是Apache Spark? Apache Spark是一个为速度和通用目标设计的集群计算平台. 从速度的角度看,Spark从流行的MapReduce模型继承而来,可以更有效地支持多种类型的计算,如交互式查询和流处理.速度在大数据集的处理中非常重要,它可以决定用户可以交互式地处理数据,还是等几分钟甚至几小时.Spark为速度提供的一个重要特性是其可以在内存中运行计

基于Python Spark的大数据分析_pyspark实战项目课程

基于Python Spark的大数据分析(第一期) 课程介绍地址:http://www.xuetuwuyou.com/course/173 课程出自学途无忧网:http://www.xuetuwuyou.com 讲师:轩宇老师 1.开课时间:小班化教学授课,第一期开课时间为5月20号(满30人开班,先报先学!): 2.学习方式:在线直播,共8次课,每次2小时,每周2次(周三.六,晚上20:30 - 22:30),提供在线视频,课后反复学习: 3.报名课程后,请联系客服申请加入班级答疑交流QQ群: