淘宝平台进行数据的实时传输: TimeTunnel介绍

在班级工作中遇到似业务场景中的实时流传输数据的访问,所以,淘宝实时数据仓库这个人做了一些研究和了解。

本文介绍的业务场景和淘宝的设计TimeTunnel工具,从淘宝数据仓库团队沟通过程中的图像文字sildes。也参考了一些相关文件。

业务背景

TimeTunnel(简称TT)是一个基于thrift通讯框架搭建的实时传输数据平台,具有高性能、实时性、顺序性、高可靠性、高可用性、可扩展性等特点(基于Hbase)。

眼下TimeTunnel在阿里巴巴广泛的应用于日志收集、数据监控、广告反馈、量子统计、数据库同步等领域。

开源在:TaoCode,代码是开源的。

业务保障:

保证为全部的报表按时准备好所需数据,延迟不超过一分钟。

保证为全部的实时应用提供实时数据,延迟不超过一秒钟。

在整个数据仓库中的角色(图中”TT”字样):

在全量/批量数据导入部分使用的是DHW和DataX。当中DataX貌似是开源的,也是一个不落地的异构数据源传输工具。

而在增量,或者说是流式场景下,这部分数据的採集和导入就依赖了TimeTunnel。

TT对接的Storm和Galaxy流计算模块也简单提一下:

galaxy是一套支持SQL定义业务逻辑的流计算服务化平台

galaxy之于storm,就类似hive之于hadoop的关系

下图为Galaxy的一个架构图:

组件

Time Tunnel大概有几部分组成。TTmanager,Client,Router。Zookeeper。Broker。

TTManager: 负责对外提供队列申请、删除、查询和集群的管理接?口;对内故障发现,发起队列迁移

Client是一组訪问timetunnel的api。主要有三部分组成:安全认证api。公布api,订阅api。眼下client支持java。python,php三种语言。

Router:为client提供路由信息,找到为消息队列提供服务的Broker。Router是訪问timetunnel的门户。主要负责路由、安全认证和负载均衡。Client訪问timetunnel的第一步是向Router进行安全认证,假设认证通过,Router依据Client要公布或者订阅的topic对Client进行路由,使Client和正确的Broker建立连接,路由的过程包括负载均衡策略,Router保证让全部的Broker平均地接收Client訪问。

Zookeeper是hadoop的开源项目,其主要功能是状态同步。Broker和Client的状态都存储在这里。

Broker是timetunnel的核心,负责消息的存储转发。承担实际的流量,进行消息队列的读写操作。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcGVsaWNr/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" >

其它

对接数据

  • 数据库的日志(如mysql、oracle等)
  • server产生的日志(如apache)
  • app通过接口产生的数据

队列资源

  • 队列是一种资源,TimeTunnel提供队列。
  • 队列按需申请,订阅队列接口

持续服务

  • 故障发现。发起迁移
  • Broker之间流量均衡
  • 上下线机器平稳扩容

WhyHBase?

  • 顺序scan速度快
  • 非常好的扩展性
  • 强一致性
  • 高并发写
  • 底层数据存储基于HDFS
  • 开源,社区活跃
  • 国内顶级的运维和开发团队

HBase表设计

  • 一个Queue相应一个region
  • 一组Queue(256/512)相应一个表
  • Rowkey:queueID + timestamp + seq +brokerID
  • 数据列族+属性列族
  • 按天分表,方便删除历史数据
  • Pre-Sharding减少compact和split的发生

掌声 :)

版权声明:本文博客原创文章,博客,未经同意,不得转载。

时间: 2024-10-12 12:14:20

淘宝平台进行数据的实时传输: TimeTunnel介绍的相关文章

做大数据时代的“淘宝”平台,IBM数据分析战略浮出水面

(上图为IBM研究人员在展示通过数据分析提高城市交通水平) 下个世纪是大数据的世纪,是从IT走向认知计算的时代.在IT时代成就了一家超级平台,这就是淘宝,而认知时代要做的是数据的生意,那是否有一个类似淘宝的超级数据平台呢?IBM正在做这件事情. IBM在全球布局了40多个基于Softlayer的数据中心,以Bluemix作为其主力云端开发平台, 在之上通过合作和收购网罗了从Twitter到The Weather Company以及这些年投入250亿美金收购的Cognos.SPSS.ILOG.Al

淘宝抓取数据

using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Data;using Stock.BLL;using System.Text.RegularExpressions;using System.Xml;using System.Data.SqlClient;using System.Web; namespace Stock.DAL{ public class

淘宝高可伸缩高性能架构的相关框架介绍

一 应用无状态(淘宝session框架) 俗话说,一个系 统的伸缩性的好坏取决于应用的状态如何管理.为什么这么说呢?咱们试想一下,假如我们在session中保存了大量与客户端的状态信 息的话,那么当保存状态信息的server宕机的时候,我们怎么办?通常来说,我们都是通过集群来解决这个问题,而通常 所说的集群,不仅有负载均衡,更重要的是要有失效恢复failover,比如tomcat采 用的集群节点广播复制,jboss采 用的配对复制等session状 态复制策略,但是集群中的状态恢复也有其缺点,那

跨域获取淘宝搜索框数据

<style> *{ margin: 0; padding: 0; } form{ position: relative; } .text{ width:300px; border: 1px solid #FFCC00; line-height: 40px; outline:none; } .sub{ width: 50px; line-height: 40px; background:#FFCC00 ; /*border: none;*/ position: absolute; top: 0

大数据平台演进之路 | 淘宝 &amp; 滴滴 &amp; 美团

声明:本文参考了淘宝/滴滴/美团发表的关于大数据平台建设的文章基础上予以整理.参考链接和作者在文末给出. 在此对三家公司的技术人员无私奉献精神表示感谢,如果文章造成了侵权行为,请联系本人删除.本人在尊重事实的基础上重新组织了语言和内容,旨在给读者揭开一个完善的大数据平台的组成和发展过程. 本文在未经本人允许情况下不得转载,否则追究版权责任. By 大数据技术与架构 场景描述:希望本文对那些正在建设大数据平台的同学们有所启发. 关键词:大数据平台 大数据平台是为了计算,现今社会所产生的越来越大的数

利用PHP从淘宝采集评论和成交数据

如果不想通过淘宝开放平台API获取数据,那么另外一个很好的办法就是采集了.一般来说,采集一个网页上的内容,只需要用CURL获取源代码,然后用正则表达式取出需要的内容就可以,不过如果这样载入一个淘宝的页面,会 如 果不想通过淘宝开放平台API获取数据,那么另外一个很好的办法就是采集了.一般来说,采集一个网页上的内容,只需要用CURL获取源代码,然后用正则表 达式取出需要的内容就可以,不过如果这样载入一个淘宝的页面,会发现根本没有评论和成交数据,直接查看源代码可以看到评论的是空的.分析页面后发现,淘

淘宝杨志丰:OceanBase--淘宝结构化大数据解决之道

时至今日,“Big data”(大数据)时代的来临已经毋庸置疑,尤其是在电信.金融等行业,几乎已经到了“数据就是业务本身”的地步.这种趋势已经让很多相信数据之力量的企业做出改变.恰逢此时,为了让更多的人了解和使用分析大数据,CSDN独家承办的大数据技术大会于今日在北京中旅大厦召开.本次大会汇集Hadoop.NoSQL.数据分析与挖掘.数据仓库.商业智能以及开源云计算架构等诸多热点话题.包括百度.淘宝.新浪等业界知名专家与参会者齐聚一堂,共同探讨大数据浪潮下的行业应对法则以及大数据时代的抉择. 淘

thinkphp接收阿里淘宝客数据

坑在于淘宝客api返回的数据对象是SimpleXMLElement Object类型,不转为php的json array类型数据直接扔到thinkphp循环输出中会达不到要的效果,奇奇怪怪的数组,一度怀疑是html循环赋值有问题,最后终于怀疑到数据格式. 得到淘宝客的数据口,轻松将SimpleXMLElement Object转为json 对象一切正常了. date_default_timezone_set('Asia/Shanghai'); $c = new TopClient; $c->ap

[TB-Technology] 淘宝在数据处理领域的项目及开源产品介绍

淘宝在数据存储和处理领域在国内互联网公司中一直保持比较靠前的位置,而且由于电子商务领域独特的应用场景,淘宝在数据实时性和大规模计算及挖掘方面一直在国内保持着领先,因此积累了很多的实践的经验和产品. TimeTunnel 基于Hbase打造的消息中间件,具有高可靠.消息顺序.事务等传统特性,还能按时间维度反复订阅最近历史的任意数据 高性能的broker,单节点达2万TPS,实际支持上千长链接并发 承载海量的数据传输,日同步数据达10TB,并且包含淘宝主营收入等关键性数据 在各IDC内,部署了超过2