[Big Data - Suro] Netflix开源数据流管理器Suro

Netflix近日开源了一个叫做Suro的工具,公司可以利用它来做数据源主机到目标主机的实时定向。它不只在Netflix的数据管道上扮演重要角色,大规模下的应用场景同样令人印象深刻。

Netflix各种应用程序每天生成数百亿的事件,Suro可以在数据被发送之前收集到它们,然后部分经过Amazon S3给Hadoop批处理,另一部分经过Apache Kafka给Druid 和 ElasticSearch做实时分析。从Netflix博客了解到,公司也在考虑如何让Suro支持Storm或Samza这样的实时处理引擎去执行事件数据的机器学习。

熟悉大数据领域的人们都知道,很多技术都与公司挂钩,例如Netflix 创建了Suro, LinkedIn 创建了Kafka和 Samza, Twitter创建了Storm,Metamarkets 创建了Druid。Suro博客也承认它是基于Apache Chukwa项目,类似 Apache的Flume, Facebook的Scribe。诚然,这些项目中最显著的无疑是Hadoop。

公司为什么要建立自己的技术一直是争议的热点,因为他们的需求,一般都会被创建,就像在生活中的很多东西,不过,这个问题的答案还得具体问题具体分析。例如Storm,正在成为一个非常受欢迎的流处理工具,但LinkedIn觉得它需要不同的东西,因此创建Samza。取代使用一些已有的技术,Netflix创建了Suro,主要因为该公司虽然是一个重度的云服务用户(主要基于AWS),但也有一些非AWS业务,包括Apache Cassandra数据库。

这场技术创新最终赢家必然归结于采用这些主流技术的用户,无需在公司内部招聘专业人士,就可让公司从这些开源技术中获益。例如,我们已经看到Hadoop供应商试图让Storm和Spark框架用于其企业客户。同时,我们也相信Hadoop绝对不是最后一个这样的技术。AWS有非常多的用户,毕竟他们希望Suro这样技术提供的能力,而不是被AWS推出的服务绑定。

时间: 2024-10-11 07:26:01

[Big Data - Suro] Netflix开源数据流管理器Suro的相关文章

元数据管理器中存在错误。 实例化来自文件“\\?\C:\Program Files\Microsoft SQL Server\MSAS11.MSSQLSERVER\OLAP\Data\Tfs_Analysis.0.db\vDimTestCaseOverlay.874.dim.xml”的元数据对象时出错。

一.发现问题 启动SQLSERVER的数据分析服务失败 查看系统日志错误如下: 双击错误后显示详细错误: 元数据管理器中存在错误. 实例化来自文件“\\?\C:\Program Files\Microsoft SQL Server\MSAS11.MSSQLSERVER\OLAP\Data\Tfs_Analysis.0.db\vDimTestCaseOverlay.874.dim.xml”的元数据对象时出错. 二.解决问题-数据库 然后我手动尝试将“C:\Program Files\Microso

brew - 可以简单的获取数千种开源工具和函数库的包管理器

一.简介 brew是一个使用ruby语言.由非营利组织开发的包管理工具. Homebrew程序提供的brew,严格来讲不是一个OS X的原生命令,但任何一个OS X的专业用户都不会错过它. "OS X缺少的包管理器"这个评价是恰如其分的. 如果你曾经在Linux上使用过apt-get,你就会发现Homebrew基本上是一样的. 使用brew可以简单的获取数千种开源工具和函数库. 例如: brew install imagemagick就可以安装ImageMagick, brew ins

Swift 正式开源, 包括 Swift 核心库和包管理器

Swift 正式开源!Swift 团队很高兴宣布 Swift 开始开源新篇章.自从苹果发布 Swfit 编程语言,就成为了历史上发展最快的编程语言之一.Swift 通过设计使得软件编写更加快速更加安全. Swift 的 GitHub 地址:https://github.com/apple/swift Swift 是由多种不同的项目组成的,提供一个构建软件的完整生态系统.Swift 编译器项目解析 Swift 语法,产生语义判断来帮助编写正确代码,利用 LLVM 生成机器指令.LLDB 项目是 f

.NET定时任务执行管理器开源组件–FluentScheduler

在日常项目里通常会遇到定时执行任务的需求,也就是定时器..NET Framework里关于定时器的类有3个,分别是System.Windows.Forms.Timer.System.Timers.Timer.System.Threading.Timer.这三个类用法灵活,也各有特点,应对简单的定时需求,用起来很轻松.如果面对复杂应用,比如任务影响窗体UI时就 要考虑多线程操作,多线程就避免不了考虑线程安全问题,这时候用起来就比较麻烦. 使用FluentScheduler组件,相对来说就轻松多了.

tomcat会话之持久化会话管理器

前面提到的标准会话管理器已经提供了基础的会话管理功能,但在持久化方面做得还是不够,或者说在某些情景下无法满足要求,例如把会话以文件或数据库形式存储到存储介质中,这些都是标准会话管理器无法做到的,于是另外一种会话管理器被设计出来--持久化会话管理器. 在分析持久化会话管理器之前不妨先了解另外一个抽象概念会话存储设备Store,引入这个概念是为了更清晰方便地实现各种会话存储方式.作为存储设备最重要的操作无非就是读写操作,读即是将会话从存储设备加载到内存中,而写则将会话写入存储设备中,所以定义了两个重

linux下包管理器

一.操作linux发型版本的包管理器 此小结摘抄:https://www.cnblogs.com/linuxprobe/p/5883783.html   在 linux 中,包管理器非常重要,了解如何使用多种包管理器可以让你像一个高手一样活得很舒适,从在仓库下载软件.安装软件,到更新软件.处理依赖和删除软件是非常重要的,这也是Linux 系统管理的一个重要部分. debian派系   dpkg 是 Debian Linux 家族的基础包管理系统,它用于安装.删除.存储和提供deb包的信息.这是一

事件管理器

项目开发过程中经常会用到代理事件,为方便管理,避免代码混乱,需要一个总的事件管理器: using UnityEngine; using System.Collections; using System.Collections.Generic; using System; public class EventManager<T> { private static Dictionary<EventType,List<Action<T>>> eventDic =

Linux新手的最佳包管理器

一个 Linux 新用户应该知道他或她的进步源自于对 Linux 发行版的使用,而 Linux 发行版有好几种,并以不同的方式管理软件包. 在 Linux开发 中,包管理器非常重要,知道如何使用多种包管理器可以让你像一个高手一样活得很舒适,从在仓库下载软件.安装软件,到更新软件.处理依赖和删除软件是非常重要的,这也是Linux 系统管理的一个重要部分. 成为一个 Linux 高手的一个标志是了解主要的 Linux 发行版如何处理包,在这篇文章中,我们应该看一些你在 Linux 上能找到的最佳的包

windowsf进程管理器中进程解释

(1)[system Idle Process] 进程文件: [system process] or [system process] 进程名称: Windows内存处理系统进程 描 述: Windows页面内存管理进程,拥有0级优先. 介 绍:该进程作为单线程运行在每个处理器上,并在系统不处理其他线程的时候分派处理器的时间.它的cpu占用率越大表示可供分配的CPU资源越多,数字越小则表示CPU资源紧张. (2)[alg.exe] 进程文件: alg or alg.exe 进程名称: 应用层网关