USQL如何帮爱普新媒降低80%成本,提升50%数据分析速度

“使用USQL产品,用户在原有的数据文件基础上进行数据建模,即可使用SQL进行业务数据的快速查询,此种方式对原有数据文件改动较小,用户不用关注大数据分布式处理的过程,业务迁移方便。对比我们现有的大数据处理方案,节省80%的服务器成本,提升50%数据分析速度,同时也缩短了新业务的开发周期,值得推荐。”

——爱普新媒CTO 牛德恒

USQL是什么?

数据湖分析(USQL)是一种可扩展性强、成本低廉的无服务器SQL分析计算引擎,可轻松完成面向海量数据的数据建模工作,SQL即可完成数据查询和分析,极大降低使用大数据的门槛,且无需数据库管理员和运维人员,大幅度减少对大数据工程师的依赖。

USQL在爱普新媒案例中的表现

计算成本降低97.5%

相较于爱普新媒现在每月花费在数据仓库UDW(用于临时存放数据)的数千元,处理同样的数据,USQL可将成本控制在每月几十元,因为USQL按照实际分析数据量计费,每GB数据分析价格极低,且不使用时不计费。

任务周期缩短55.6%

爱普新媒现有架构下,处理不固定的数据需求,数据导入与分析平均处理时长为1.8天,而USQL可省去数据导入的步骤,减少运维工作量,大幅度缩短每次任务完成时间。

分析效率提升5倍

爱普新媒所有真实业务SQL均已落地,其中最耗时的SQL分析时间可从600秒降至118秒,整体明显提高SQL分析效率。

大数据工程师投入降为0

目前每月需投入大数据工程师20个人日,使用USQL产品,业务分析师可直接通过SQL在对象存储UFile中完成数据分析,极大减少对工程师的依赖,有限的人力资源可得到更好的利用。

关于爱普新媒

成立于2010年,是一家专注于移动互联网产品研发和新媒体整合营销的高新技术型公司,旗下拥有100余款精品软件,内容涵盖日常生活、效率工具、文章资讯等多个方面,主营以天气预报、快游等综合自媒体矩阵为载体的推广业务和以云魔方DSP移动互联网广告分发平台为基础的广告投放业务。

面临的数据挑战

爱普新媒广告业务数据规模达到数百TB,日增长量为1TB左右,业务日常不固定的分析需求多,现有的大数据处理方案下,数据部门每月需投入大数据工程师20个人日,额外花费数千元维持一个数据仓库集群,且平均每次需求处理时长为1.8天。基于已有架构,数据部门将广告日志数据压缩后存放于对象存储UFile中,接收到业务分析师不固定的数据需求后,再将用于分析的原始数据,临时加载到数据仓库UDW中,完成SQL分析后实施清除操作。

图:爱普新媒现有架构

业务分析师的抱怨

对于业务分析师而言,数据规模达到数百TB,无法自主完成分析,必须极大程度依赖大数据工程师;并且每次任务处理周期长,若后续有需求变更或分析结果未达预期,还需重新走一遍处理流程;此外当对分析结果存有疑问时,无法查看原始数据进行校验。

数据部门的烦恼

业务每月的不固定数据分析需求多,又无法自主完成,需要占用数据部门有限的技术人力资源;需求变动返工次数多,会导致大量重复性工作;并且随着数据规模日增长量的不断提升,用于临时存放不固定需求数据的GreenPlum成本一直在增加。

产品诉求

基于现状,爱普新媒的产品需求清晰明确:

支持数百TB规模的数据分析
业务分析师能够独立完成不固定需求分析工作
具有较强的Ad-Hoc能力
缩短每次需求处理时长
降低计算成本投入和运维投入

选择USQL产品

带着上述诉求,爱普新媒留意到UCloud推出的USQL产品,对其无运维、低成本、低门槛的产品理念产生浓厚兴趣,当即联系UCloud架构师表达试用的意愿。

在与其数据部门沟通的过程中,UCloud架构师发现对方务实且拥有开放的学习态度,对云计算也一直保持极大的好奇心,接触了解过数据湖以及Serverless的概念,为双方的交流奠定了良好的基础。此外现有架构中计算与存储是分离的状态,其原始数据并未与GreenPlum强耦合,这为更换分析引擎的方案实施提供了便利。

USQL替换GreenPlum

新架构中使用USQL替换原先用于临时加载数据的GreenPlum,省去数据从UFile导入到GreenPlum的过程,并使得业务分析师能够直接通过SQL分析UFile中海量数据,全程无需大数据工程师的参与。

图:爱普新媒新架构

此外,数据对接中发现,爱普新媒的数据格式为JSON并通过GZIP格式压缩,UCloud了解后一周内完成USQL产品升级,得以支持这两种数据格式,减少对接上的障碍,并协助爱普新媒重新布局其现有数据,目前爱普新媒实际业务SQL已全部落地,同时完成产品培训以及现场演示。

图:实际业务SQL示例

结果显示分析效率可提高5倍,CTO观看USQL的实例演示后,当场测算成本,对其在降低成本、提高效率、减少人力方面的表现感到超出预期,已决定将所有离线计算业务都放在USQL上。

如果您也有大数据分析成本的困扰,欢迎加入我们的数据分析群共同探讨!

原文地址:https://blog.51cto.com/13832960/2382866

时间: 2024-10-11 02:12:25

USQL如何帮爱普新媒降低80%成本,提升50%数据分析速度的相关文章

如何才能让数仓构建成本降低80%,维护成本降低70%?

构建数据仓库的核心是建模,在数据仓库的构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线.从数据源中抽取数据,然后对这些数据进行转化,最终加载到目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform,Load). 通常数据抽取工作分抽取.清洗.转换.装载几个步骤: 抽取主要是针对各个业务系统及不同服务器的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取和缓慢渐变的规则. 清洗主要是针对系统的各个环节可能出

ultimusBPM采购内控管理——在线招投标,降低采购成本,规避人为风险

ultimusBPM采购内控管理——在线招投标,降低采购成本,规避人为风险 招标采购是如今市场竞争下,企业择优成交的常态交易行为.Ultimus流程化采购招投标系统以BPM(业务流程管理)平台为基础,根据采购方和供应商角色定位,提供双重门户管理——BPM采购管理内部招标门户可以协助采购方实现立项.招标.开标.评标.定标等在线应用,供应商管理门户极大地便利了有意向的供应商进行在线报名.投标.报价(唱标).查看中标结果等.较之传统的采购招标方式,Ultimus流程化采购招投标系统实现了整个招标过程的

90%、80%成本 集中度

比如某股的持有人只有10个.分别持有价为:1,5,5.1,5.2,5.5,6,6.2,6.9,7,10元.那么去掉头尾的1元和10元,80%的成本集中在5-7元之间.集中度指的是这些筹码的成本是否很接近,集中度数值越小代表筹码成本越接近.计算方法是该成本区域内(高价低价差)除以(高价低价和).改变下上面的持有价:1,5,5,5,5,5,5,5,5,10元.该股80%的成本下,筹码都是一样的,集中度是0.代表这个位置无论在支撑还是压力方面对于股价的影响十分大. 筹码集中度中,五日前成本的百分比,还

如何通过SD-WAN降低MPLS成本

MPLS(多协议标签交换)一直是运营商和互联网服务提供商为企业提供优质点对点连接的主要方法之一.MPLS链路的主要用例是将各个分支机构相互连接,即通过第2层连接专用网络,即根据附加到数据包的第2层标签完成数据包的传送,而不是使用第3层基于IP地址的方案,用于将数据包传送到目的地.由于只有这个专用网络才能理解第2层标签,并且由于公共互联网不了解这些第2层标签,因此MPLS网络不会自然地连接到公共互联网.然而,通常,MPLS网络的一个终端点被设计在数据中心(或总部办公室)中,其中存在到表示第3层的公

向降低源头成本要效益 看东风模具享PLM 之乐

好口碑强于好广告 看得见的最动人 不像很多企业选型过程像上演一部剧情大片,东风模具的PLM选型没有任何波折.因为与福田模具的合作,在交流之际便通过福田模具了解到了华天软件给其实施的Teamcenter,以及WIT-CAPP等软件的集成化方案,因此在考虑软件和合作伙伴时顺理成章选定华天软件.当时的华天软件与西门子的合作范围还仅限于山东省,远在湖北十堰的东风模具选定华天软件及其产品,完全源于福田模具良好的实施效果. 项目签订后,项目组便积极学习PDM/CAPP基础知识,并向福田模具学习项目的组织管理

云上跑容器,如何降低存储成本

PX-Autopilot: 自动化的存储容量管理,节省一半的云存储成本 不少客户都在使用K8S来管理容器,并且通过Portworx来管理容器存储.虽然云原生的方式让我们获得了更大的自动化和灵活度,许多客户在容器下层的基础架构层的扩展性方面,仍然有一定的局限.K8S和Portworx能够自动化部署容器应用,但是这些应用所基于的基础架构还无法通过自动化的方式进行扩展.DevOps团队还经常被要求去做基础架构投资成本收益的财务分析,并增加财务管理手段来降低成本和让成本更具备可预测性.当基础架构被转移到

对于新安装的MySQL如何提升MySQL的安全级别

一 作为最流行的开源数据库引擎,MySQL本身是非常安全的.即便如此,你仍然需要添加额外的安全层来保护你的MySQL数据库不受攻击,毕竟任何经营网上在线业务的人都不想冒数据库受到损坏的风险.接下来,我们将介绍一些实用的办法,你可以利用这些办法来保护MySQL数据库,以便加强网站的安全性. 二 保护操作系统 确保操作系统的安全是保护数据库安全的前提,因为如果整个运行环境不安全,那么网站上所有的东西都脆弱,很容易暴露于攻击者.为了维护操作系统和MySQL服务器,你可以使用以下方法: 2.1 主机数据

http与www服务基础概念详解

dns解析过程: dns cache command:ipconfig /displaydns   -->显示DNS CACHE内容ipconfig /flushdns     -->清除DNS CACHE windows hosts路径:C:\Windows\System32\drivers\etc\hosts http协议简介:HTTP协议,全称HyperText Transfer Protocol,中文名称超文本传输协议,是互联网上应用最为广泛的一种网络协议.所有的www都必须遵守这个标

拼多多商城拼团系统模式开发

随着"移动社交+聚合营销"模式的快速发展,拼团这一模式的出现,便收到了市场的热烈反馈.拼多多商城拼团系统模式开发:151-1222-4001(为/电)我们都知道,拼团作为获取新客的手段是有价值的,这一点已经成为行业共识.那么,拼团哪些未知的价值,你又知道多少呢?今天,小编将要带领大家来细数一下拼团到底有哪些价值! 拼多多微团购怎么玩? 1.团人数.由厂家设定团购人数,凑齐人数就可以在商城上以优惠的价格买到想要的商品.例如:泰国椰青,单独购买34.9元/4个,但是当凑够5个人一起购买就可