谈谈ODPS商业化(六):ODPS小伙伴SLS和DPC

在典型的大数据解决方案里,除了以ODPS这样的离线分布式计算引擎为核心,周边还需要日志收集、开发IDE、工作流调度、数据质量监控、BI报表等等一系列配套机制。因此ODPS用户往往还会对SLS和DPC等服务感兴趣。

  先说SLS(简单日志服务),这是阿里云提供的针对日志收集、存储、查询和分析的云服务。用户只需简单地配置日志产生的位置和格式等信息就能实时查询海量日志。用户也可以把SLS日志归档保存到ODPS中做更多数据分析。

  简单来说,SLS提供一个名为Logtail的客户端,把它部署到需要监控的机器上(阿里云云主机默认安装),配置好以后,Logtail会定时把本地的日志文件(例如Web Sever的access_log或DB的bin-log)上传到后端的RESTful API,然后用户就可以在后台利用SLS对日志进行简单的实时过滤和处理。CNZZ就基于SLS进行全网日志数据的收集。更多SLS细节请参考官方主页

  SLS在ODPS里面有一个project名叫sls_log_archive,用户打开推送功能后,SLS会定时把数据推到特定名字的表里(Project+Category),用户可以再执行一个简单的SQL把数据拖到自己的Project里。可以参考这篇用户文档。然后用户就可以写SQL把数据导入自己的Project,下面是个简单的SQL例子,第一句是在自己project创建一个表,第二句是创建相应时间段的partition,第三句是导入数据


  CREATE TABLE mylog LIKE sls_log_archive.XXXXXXX;

  ALTER TABLE mylog ADD PARTITION(__partition_time__=‘2014_06_24_12_00′);

  INSERT OVERWRITE TABLE mylog PARTITION (__partition_time__=‘2014_06_24_12_00′)?
SELECT __source__, __time__, __topic__, _extract_others_ FROM sls_log_archive.XXXXXXX where?
__partition_time__=‘2014_06_24_12_00′;

  日志数据导入ODPS,就可以利用它的强大能力深入分析SLS收集上来的日志。这里有一篇BLOG很值得推荐

  接下来介绍DPC,它是基于ODPS的DW/BI的工具解决方案。DPC提供全链路的易于上手的数据处理工具,主要提供如下四种能力:
  1.把各种数据源的数据(例如RDS)拖拽到ODPS
  2.提供IDE开发界面和SQL代码管理能力
  3.任务调度功能
  4.通过拖拽和可视化的方式进行数据分析,并通过BI报表进行数据可视化展现。
  有了DPC,可以大大降低ODPS用户在数据仓库和商业智能项目上的实施成本,加快实施进度。天弘基金、高德地图的数据团队基于DPC完成他们的大数据处理需求。 更多DPC细节可以参考官方主页

  有了ODPS+SLS+DPC小伙伴,就可以支持典型的大数据工作场景了:日志收集、数据开发和定时生产。还有更多ODPS小伙伴正在开放的路上,例如流计算和实时查询,请大家关注阿里云网站。

时间: 2024-10-11 22:00:01

谈谈ODPS商业化(六):ODPS小伙伴SLS和DPC的相关文章

谈谈ODPS商业化(二):ODPS的计量计费模型

ODPS正式商业化以后,微博上议论比较多的是计量计费模型.刚好这件事我全程参与,仔细写写.ODPS的计量计费规则和价格请以阿里云官方网站上的说明和数字为准.这里的内容只反映当前状态,不能保证实时更新. ODPS收费以项目(Project)为单位,对存储.计算和数据下载三个方面分别计费.存储和数据下载的收费形式与其他云产品很类似.而计算这边,目前ODPS仅开放了SQL任务,计费公式为:一次SQL计算费用 = 计算输入数据量 * SQL复杂度 * SQL价格.具体而言: 1.计算输入数据量:指一个S

谈谈ODPS商业化(四):2014阿里巴巴大数据竞赛

几天前2014阿里巴巴大数据竞赛刚刚落下帷幕,第11名的F1分数.准确率和召回率是6.10%.6.28%和5.93%.前10名的成绩还未公布,他们会被邀请到阿里巴巴公司来,有机会和内部团队一起参与双11.选手们闲下来,开始在群里爆特征.开玩笑.交换联系方式. 这次海内外共有7276支队报名.比赛分为多个阶段:S1是线下海选,从S2开始上ODPS,每月底淘汰末位的100支队,直到7月31日尘埃落定.选手们需要像阿里数据分析师一样工作,完全依赖云端的ODPS平台上的SQL.Mapreduce和Xli

使用 odps-jdbc 接入 ODPS,不再从零开始

还在为传统 DBMS 的性能问题而烦恼?想借助 ODPS 的分布计算能力?但是你又不想学习官方的 SDK ?如果你恰好在老项目中用了 JDBC 访问 Oracle 或 MySQL?那么你可能对这篇文章感兴趣. 本文将结合几种常见的使用场景(数据查询.数据导入.第三方客户端工具)来介绍 odps-jdbc ,并附有代码示例级别的入门教程(比较长,所以放在了最后,并不建议看 :D). 什么是 odps-jdbc?odps-jdbc 是 ODPS 官方提供的 JDBC 驱动,它向 Java 程序提供了

【ODPS】阿里云ODPS中带分区的表操作

1.创建分区表: 分区表有自己的分区列,而分区表则没有. public static void createTableWithPartition(Odps odps, String createTableName) throws Exception { Tables tables = odps.tables();// /获取表示ODPS全部Table的集合对象 boolean a = tables.exists(createTableName);// 推断指定表test_table_jyl是否存

【ODPS】TableTunnel单线程简单下载事例

ODPS Tunnel是ODPS的数据通道,用户可以通过Tunnel向ODPS中上传或者下载数据.目前Tunnel仅支持表(不包括视图View)数据的上传下载. 主要接口 描述 TableTunnel 访问ODPS Tunnel服务的入口类.用户可以通过公网或者阿里云内网环境对ODPS 及其Tunnel进行访问.当用户在阿里云内网环境中,使用Tunnel内网连接下载数据时,ODPS不会将该操作产生的流量计入计费.此外内网地址仅对杭州域的云产品有效. TableTunnel.UploadSessi

MaxCompute(原ODPS) 事件(Event)机制

摘要: 免费开通大数据服务:https://www.aliyun.com/product/odps 转自habai 什么是 MaxCompute事件机制 MaxCompute event 用于监控表和实例等MaxCompute资源(目前只用于监控表). 免费开通大数据服务:https://www.aliyun.com/product/odps 什么是MaxCompute 大数据计算服务(MaxCompute,原名ODPS)是一种快速.完全托管的TB/PB级数据仓库解决方案.MaxCompute向

SLS评测报告

什么是SLS?  简单日志服务(Simple Log Service,简称SLS)是针对日志收集.存储.查询和分析的服务.用户只需简单地配置日志产生的位置和格式等信息,就能实时查询海量日志,并可通过SLS把日志归档保存到ODPS中做数据分析. SLS提供API写入和查询日志的功能,其中支持多种布尔运算的查询表达式.除了API之外,还可以通过简单易用的日志收集客户端Logtail进行日志收集. SLS概念解读  1.1 项目空间(Project) 项目空间Project是SLS管理的基本单元,Pr

【阿里云产品公测】简单日志服务SLS使用评测 + 教程

[阿里云产品公测]简单日志服务SLS使用评测 + 教程 评测介绍 被测产品: 简单日志服务SLS 评测环境: 阿里云基础ECS x2(1核, 512M, 1M) 操作系统: CentOS 6.5 x64 日志环境: Nginx(v1.6.2) HTTP服务器访问日志.服务器系统日志 评测人: mr_wid 评测时间: 2014年9月28日-2014年10月8日 准备工作 一.知彼知己, 百战不殆.对产品的了解程度, 直接决定着评测质量, 在评测前, 笔者首先整理并详细阅读了有关SLS产品以及关联

空格App亿元A轮融资背后:云上多场景技术架构实践与经验

直播视频: (点击图片观看) 幻灯片下载地址:https://oss.aliyuncs.com/yqfiles/382bc642fc0b621a9368138a74d8fd36.pdf 3月16日云栖社区在线实时分享顺利结束,本次由空格APP技术合伙人刘博分享了空格利用阿里云服务在搜索.推荐和数据挖掘业务场景下的探索实践.本次视频直播的整理文章.视频整理完毕,如下内容. 阿里云在空格 图一 空格服务端整体架构 在空格初始创业阶段,人员十分缺乏,但依靠着阿里云,空格两周便实现APP上线.空格服务端