阿里怎么“玩”大数据?

大数据开启一个时代时,拥有海量交易数据的阿里巴巴,已经认识到这是一座富矿,并开始摸着石头过河。

  500多年前哥伦布做环球航行时,最想得到的就是航海地图,要不然他不会把美洲大陆当成印度。

  当大数据开启一个时代时,阿里巴巴集团(下称阿里)从海量交易数据中挖掘有价值的数据,犹如在大海中航行,马云的鸿鹄之志也是那张航海地图。只是哥伦布的目的地是印度,马云的目标是大数据。

  马云宣称平台、金融和数据是阿里未来的三大战略方向。其实,“阿里未来本质上是一个数据公司”,电商越来越离不开数据,金融的核心也是数据。阿里设立首席数据官,并把首席数据官陆兆禧升任CEO,传闻将收购移动APP数据公司友盟等,这些都显示马云的大数据战略萌动生芽。

  在几乎全球所有公司都还徘徊在大数据门前时,马云纵然有大数据的宏韬伟略,在具体操作层面也只能摸着石头过河。

  完成25个事业部战略调整后,阿里巴巴成立了数据委员会,由淘宝网商业智能部负责人车品觉出任首任会长。这位曾经在微软、ebay出任产品经理,在支付宝、淘宝主管数据业务的香港人,大半生都痴迷于数据迷宫。

  “我之所以来淘宝就是喜欢它的数据,就希望好好梳理下数据。”车品觉谈到数据时异常兴奋,在接受《中国经济和信息化》记者3个小时采访后,他还要给同事做有关大数据的培训。此时,已经是晚上10点多。

  车品觉是马云大数据战略棋局中已经过了河的卒子,他肩负着为阿里寻找开启大数据之门钥匙的重任。马云给了他异常宽松的工作环境,甚至没有具体的KPI考核。在接受《中国经济和信息化》记者采访时,他对所谓大数据赢利模式之类的问题并不看重:“阿里跟别人不一样的地方就是愿意尝试不同的产品,连领导都不能控制手下人到底玩什么。一帮很爱数据的人玩一堆产品出来,偶尔能出现如阿里金融这样的产品就很好,允许他们玩就是允许差异化,做数据如果急于现在赚钱就会失去机会。”

  “玩数据”其实并没有这么简单,特别是车品觉出任阿里数据委员会的安全责任人之后,他每时每刻都处在忐忑不安中。他认为,今后一段时间,数据质量、数据安全以及数据化运营将是阿里必须翻越的三座“大山”。

  从“淘数据”起步

  2003年的淘宝还是个“小朋友”,一个不起眼的购物平台,远不如当时的易趣(eBay)名气大,甚至还有人预言淘宝会在18个月内夭折。

  18个月后,淘宝让预言夭折了,淘宝交易量几乎呈指数增长,在2006年上半年注册用户数超过了易趣。从某种程度上看,易趣的存在是淘宝数据业务起步的外部动力。为了与易趣的销售额对比,淘宝开始搜集每天的成交额、用户访问数等数据,从起步就增强了对数据的粘性。

  淘宝严格意义上的第一个数据产品是“淘数据”,说白了这就是一个经营数据报表。“每个公司都需要了解经营业务状况,淘宝业务大了也需要看经营状况做未来决策,‘淘数据’就是为内部报表服务的一个工具,大约是淘宝成立两年后的2005年开发的。”淘宝商业智能部一名元老级数据分析师告诉《中国经济和信息化》记者。

  这一年,淘宝迎来第一个数据分析师。半年后,淘宝建立第一批数据分析师队伍,并成立第一个数据部门——商业智能部(BI)。他们每天的工作就是把日成交额、访问用户数等数据统计之后放入报表,让淘宝决策层能够清楚了解业务状况。

  此时的淘宝不再是一个卖家挂货、买家购物的购物平台,开始关注数据产生出来的意想不到的价值。当然,马云当时还不至于把数据提升到公司战略高度,但他敏锐地发现,“数据非常重要,未来的世界是数据的世界”。

  外界广为流传这样一个故事:2008年,中国众多企业受国际金融危机重创,而阿里根据买家询盘数急剧下滑,及时向中小制造商提供预警信息,为应对国际金融危机做好准备。虽然车品觉把这次经济预警归结为偶然事件,但阿里确实在数据分析中尝到了甜头。

  随着数据越来越多,原来的处理方式已不能进一步扩展,淘宝在用传统数据库方法处理数据问题时遇到了麻烦。

  “我们早上9点上班要看数据,但传统数据处理技术很难在9点之前让所有人看到结果,数据处理的时间成本非常高。再这样发展下去,就扛不住了。”前述分析师告诉《中国经济和信息化》记者。

  这一问题触发了淘宝第一次技术层面的架构变迁,把以Oracle为主的传统数据库迁到了大数据技术Hadoop数据库上,正式开启阿里的大数据实践应用。

  两条腿走路

  淘宝的数据视野并没有停留在公司内部决策上,2009年数据应用与开发开始走向外部,让淘宝商户分享数据。

  在这一背景下,淘宝商业智能部的一部分人“被赶了出来”,开发淘宝商户能分享的数据产品。这是淘宝的一次大胆尝试,进行技术架构调整后,为挖掘更多有价值的数据腾挪出了空间,让数据变成产品为公司挣钱。当然,此时淘宝并不是从挣钱的角度开发数据产品,而是想整合数据为商户提供优质服务。

  2010年3月,淘宝“数据魔方”产品正式对外发布。麦包包箱包在线商城是首先接触并尝到“数据魔方”甜头的商家。麦包包运营总监毕志鹏称:“在‘数据魔方’提供的数据支撑下,麦包包能及时准确把握市场动态,销售业绩迅速提升。”随着淘宝数据正式对外开放,越来越多商家、企业能分享淘宝的海量数据,并获得有价值的数据支撑。

  几乎同时,淘宝内部对数据的渴求也日益强烈。商业智能部留下的团队继续为公司内部提供数据支撑。此时“淘数据”开始从单纯的报表系统扩展为内部数据产品的统称。2009年4月和12月,商业智能部团队又开发出可以预警的“KPI系统”和提供给业务部门使用的“数据门户”。一年后,为了配合淘宝的大促销活动,便于及时查看实时数据,这个团队又开发了“活动直播间”。为了让卖家更好地运营,2011年2月,“卖家云图”出世。2个月后,“页面点击”诞生,它可以监控每个页面的每个位置,用不同的数字和颜色标注出页面点击情况。

  此时的车品觉在阿里已经拥有良好口碑,“要数据找品觉”成为惯例,很多管理层都习惯了车品觉提供的数据。

  时任阿里首席人力资源官的彭蕾找到车品觉说:“马云觉得该考虑一下如何从数据运营转到运营数据了,你回去好好想想这个事情。”

  “黄金策”是车品觉较为得意的一个能称得上运营的数据产品。车品觉带领团队处理了1亿多活跃的消费者数据后,拿出500个变量,只要2秒钟就能计算出结果。“黄金策”最早在支付宝成型,现在在与淘宝数据对接。

  “支付宝发展大数据的目的,跟淘宝系有点偏差。支付宝更多是为内部服务,淘宝和天猫更多强调商业化。”车品觉如是说。2012年年中,车品觉来到了淘宝。时任淘宝网CEO的姜鹏邀请车品觉同时兼任淘宝商业智能部负责人,之后车品觉又成了阿里巴巴集团层面数据委员会的首任会长。

  车品觉很看重淘宝的数据,因为淘宝数据更丰富,不仅有业务数据(交易行为数据),还有过程数据(如一个买家在某个页面上停留了多久等)。在他看来,淘宝的这些数据就是SNS关系数据,这种数据脉络看起来很像社会关系,并非一般B2C模式可以比较,这对他特别有吸引力,套用马云的话这叫做生态链。

  来到淘宝后,车品觉相继开发了两款产品——“无量神针”和“类目360”。通过“无量神针”,淘宝的管理者可以辨别萌芽状态的可疑行为,迅速做出决策。而“类目360”则把淘宝的类目做得非常细,如果销售增长了10%,可以知道是哪一个类目,哪一部分用户对营收增长贡献大,能评估集团内部哪些人工作有效率,哪些部门不给力,让管理层2秒钟就知道如何决策。

  之后,淘宝有了自己的“黄金策”,锁定用户群后,可以立即对这些用户进行针对性营销,营销后的效果又会回到“黄金策”上,形成一个闭环。

  比车品觉团队开发“黄金策”稍晚,淘宝对外团队研发了“淘宝指数”,这是一款中国消费者行为数据的研究平台。无论是淘宝卖家还是媒体从业者、市场研究人员,都可以利用“淘宝指数”了解淘宝搜索热点、查询成交走势、定位消费人群、研究细分市场。

  在这段时期,阿里一直在用两条腿走路,对外团队为外部服务,商业智能部服务于内部。

  2012年阿里又推出了“聚石塔”产品,这是阿里首次联合全集团大数据力量打造的一款大数据商用产品,可提供数据存储、数据计算两类服务。

  “聚石塔”平台没有辜负马云的期望。据天猫CEO张勇透露,“双11”狂欢节大促销当天,“聚石塔”处理的订单超过天猫总量的20%,比平时增长20倍。

  “聚石塔”上的客户不仅包括淘宝上的商家,也包括淘宝外的电子商务企业。在淘宝和天猫平台上,有ERP系统(企业资源计划系统)的商家可以直接找天猫对接“聚石塔”,没有ERP系统的商家,可以找提供第三方软件服务的电子商务服务企业,通过他们的ERP服务接入“聚石塔”服务。

  数据平台战略

  大数据部门该放在运营团队还是技术团队?这是车品觉经常被其他公司询问的一句话。听到这个问题时,车品觉就觉得“这些人没戏了”,因为其实他们并不重视大数据战略。

  在车品觉看来,一个企业如果真想做好大数据,大数据必须成为CEO直接领导的一级战略部门。如果数据部门想要在结构庞杂的企业内部提高地位,数据产品一定要刺激决策部门和业务部门,直至促使他们对前端的业务环节做出调整。

  2013年1月,阿里调整为25个事业部,CEO陆兆禧分管的数据平台事业部团队正是“数据魔方”衍生出来的团队。而在数据平台事业部很得力的员工空无(淘宝员工的化名)就是当年做“数据魔方”走出来的人。

  在数据战略架构上,阿里早在3年前就开始布局。2010年阿里推出一淘网,目标是做一家全网购物搜索引擎。2011年淘宝收购CNZZ网络技术服务公司,第二年CNZZ推出“云推荐”内容推荐引擎。淘宝联盟在今年重启“阿里妈妈”品牌名,从以服务淘宝系商家为主转为面向全网所有广告主。阿里与新浪微博仍在进一步谈判,近期传闻阿里将收购移动开发者服务平台友盟等。

  早在阿里酝酿设立首席数据官岗位(CDO)前,马云就意识到数据产品要建在一个平台上才有更大的价值。2012年7月,阿里委任陆兆禧为首席数据官职务,负责全面推进阿里“数据分享平台”战略。

  事实上,马云希望建立囊括所有与消费相关的数据平台,包括实体类商品消费数据、服务类商品消费数据、金融相关数据等,再以自己的数据平台为中心建立数据交易中心。也就是说,谁想获得数据,上这个平台来,要么用货币来换,要么用数据来换。

  阿里金融是大数据衍生产品开发的一个范例,通过分析淘宝、天猫、支付宝、B2B上商家的各种数据,阿里打造了一个信贷工厂,为平台上的卖家提供小额信贷服务。

  马云这步棋下得很准,小微企业的资金困境影响着企业的发展。目前,中国有近4200万家小微企业,在影响企业发展壮大的因素中,资金占96%,银行考虑到风险太大,很少向小微企业贷款。那么,阿里金融如何通过大数据规避风险呢?

  除了容易标准化的交易数据外,非结构性数据也一并被录入到数据库中,类似卖家和买家的聊天记录、评价、店铺信用等。然后,阿里金融通过数学模型,对上述数据分析处理,就能自动确定贷款申请人的贷款限额。发放贷款以后,阿里通过实时监测贷款商家的交易、退货、评分等经营情况,能方便了解客户还款能力,一旦客户交易情况下滑,系统会自动发出预警。

  这就是阿里金融打造的一个纯粹基于互联网信用小额信贷的平台。截至2012年底,阿里金融累计服务小微企业已经超过20万家。同年11月初,阿里金融的坏账率仅为0.9%,低于很多银行。

  让爱数据的人玩起来

  “今年你给我的绩效是什么?”

  “你开心就好。”

  这是阿里数据委员会成立后,车品觉和姜鹏的一次对话。不过,车品觉想开心并不容易。他的担心更多于开心。

  车品觉的担心是有理由的。阿里数据委员会是一个虚拟的组织,虚拟如何管理实体?“有点打太极,四两拨千斤的感觉。”车品觉苦笑称。

  2013年在香港特区过新年的时候,车品觉想方设法让自己尽量休息。他知道今年数据委员会的工作肯定会千头万绪,他要筹建数据挖掘工程师、分析师等协会,为大数据业务培养足够的人才。他告诉记者:“数据人才是最大的竞争力。我今天看大数据的时候,是如何让他们玩出来,而不是把人管理起来。”

  在阿里的大数据团队中,有这样几批人:决策分析师、业务分析师、数据挖掘工程师、数据科学家、数据产品经理、数据开发师、基于数据的前端开发工程师、数据底层平台搭建师。车品觉的想法是让爱数据的人玩起来:“我们相信只要这样走下去,会有一帮懂数据的人玩出来。我们要找到出路,但是不一定现在就能明确看到出路。这也是为什么我们邀请数据科学家来,很多事情不能说今天就要效益,偶尔能产生阿里金融这样的产品就很好。”

  车品觉对数据分析师的考核有自己的标准。每个月的最后一周,数据分析师都有一场考试。如果分析师的观点能在月度经营分析报告里出现,就说明这个分析师的分析有价值。如果在报告提交给管理层讨论的时候,某个分析师的观点能改变业务部门领导的看法,那就得到3.75分。更进一步,如果分析师的观点能让公司领导接受,并最终促进相关业务的调整,那就是4分。4分几乎是一般数据分析师能得到的最高分。

  “数据的数据”

  一次大数据会议讨论中,车品觉向姜鹏提了这样一个问题:做数据的人,为什么没有数据的数据呢?正是这次提问,淘宝开始着手建立“数据的数据”,即数据地图。“每一个数据都由很多个数据产生,数据的数据是让我们看见今天数据做得怎么样,建立数据地图,以追溯到数据的源头,提高数据的质量和价值。”车品觉说。

  保障数据质量要在大数据源头获取方式上下功夫,从源头上保证数据的准确度。“就好比去挖掘一个信用卡持有人的消费记录,必须清楚这些消费行为是不是都来自持卡人,有没有可能部分是持卡人老婆去消费的?”车品觉表示,要尽可能保证数据的精确度,不然会导致数据质量失准。

  大数据跟个人最为密切的关系是对隐私的可能侵入,数据安全是阿里大数据面前的第二座大山,也是第二大核心。“有些人不知道数据的危险性,但我们做数据的人深知其中的利害。数据安全得不到保障,早晚会出事。”车品觉说,为了数据安全,他在支付宝里可能得罪了不少人,“但个人隐私绝对不能泄露,这是底线”。

  目前在阿里内部,淘宝系的淘宝、天猫和一淘,在数据上是共享的,B2B的数据则是独立的。支付宝有金融牌照,法律要求数据必须独立,如果集团某个部门需要一些数据,查看数据必须提出权限申请。

  事实上,车品觉刚开始做安全的时候也失败过。那时候,他第一次建支付宝的安全架构,直接套用了银行的一套物联网安全架构,“我想定义所有数据的层,做完就进行不下去了。”在支付宝第二次做安全的时候,他采用case by case(案例法)这种方法,然后成功了。现在在淘宝,他也使用了案例法,慢慢积累安全经验。在他看来,安全是开放的前提,如果国家未来想到管理数据,现在阿里的经验将很有参考价值。

  为了保证数据安全,车品觉的团队在研究用户行为时,框定的最低数据量是1000人用户群的购物行为,不能再少于这个人数,针对某个具体用户的数据分析是不允许的。车品觉说:“阿里对数据的挖掘处理有一套自律准则,包括后台数据的查看,一些明细是看不到的,这样封闭的目的在于维护用户的隐私,同时也防止数据滥用。”

  阿里内部还专门成立了小组,数据的公开与否主要由他们进行判断。评判小组没有一个具体统一的标准,数据该不该公开、公开到什么程度,都以每个案例本身为依据。

  到今天为止,数据委员会里的安全小组跟数据质量小组已经成立,相比年初时,车品觉的心沉下来一点了。“数据开放现在太早了,度很难把握。”车品觉说,在某种程度上,数据开放考验的是数据人的良心和经验。

  阿里还在路上。车品觉和同事现在所走的路是一条很新的路,可参照的东西不多,从国外公司来看,拥有阿里这个数据量级的公司并不多。在大数据的路上,阿里需要做的还有很多。

时间: 2024-08-28 09:45:09

阿里怎么“玩”大数据?的相关文章

阿里ODPS降低大数据应用门槛

阿里云计算的ODPS从内部使用的工具变成了面向社会开放的大数据平台,开创了国内大数据公共服务的先河,降低了大数据在资金.人才和应用方面的门槛. 小型企业只要花费几百元就能进行海量数据分析,这是真的吗?阿里云计算的大数据平台ODPS可以让你梦想成真. 今年举行的阿里巴巴大数据竞赛,首次将ODPS和阿里的天池平台开放给参赛的大学生,这可以看成是ODPS商用的前奏.2014年1月,阿里云计算的ODPS服务开始公测.7月,ODSP正式开始商用.阿里云计算总裁王文彬认为,此举标志着中国的大数据已经进入公共

Centos7修改yum源为阿里源(大数据预科02_2)

##保证可以上互联网,不知如何联网查看大数据预科02_1 (1).安装wget软件 yum install -y wget 安装完成最后显示Complete,表示安装成功(2). 查看yum源信息: yum repolist 目前yum连接的是国外网站,普通(fq貌似现在管个很严)下载限制多和速度非常!非常!非常慢!(3). 进入安装目录 cd /etc/yum.repos.d (4).备份旧的配置文件 mv CentOS-Base.repo CentOS-Base.repo.bak (5).

玩大数据的你竟然不知道容器?——Docker入门之安装Docker及MySQL

1.简介 Docker是一个开源的应用容器引擎:是一个轻量级容器技术: Docker支持将软件编译成一个镜像:然后在镜像中各种软件做好配置,将镜像发布出去,其他使用者可以直接使用这个镜像: 运行中的这个镜像称为容器,容器启动是非常快速的. 2.核心概念 docker主机(Host):安装了Docker程序的机器(Docker直接安装在操作系统之上): docker客户端(Client):连接docker主机进行操作: docker仓库(Registry):用来保存各种打包好的软件镜像: dock

chinacloud大数据新闻

2015年大数据发展八大趋势   (0 篇回复) “数据很丰满,信息很骨感”:Sight Machine想用大数据的方法,打碎两者间的屏障   (0 篇回复) 百度携大数据"圈地"证券业 "BAT"开启互联网金融新战场   (0 篇回复) 码农的春天到了?   (0 篇回复) 浪潮大数据一体机出招 装备科研“最强大脑”   (0 篇回复) 方物软件承担国家“核高基”重大专项研发   (2 篇回复) 2013互联网大会透露的热点与新趋势   (1 篇回复) 大数据从幕

从阿里走出来的创业公司,将如何颠覆大数据产业?

时至今日,大数据应用的重要性已经毋庸置疑.8月19日国务院常务会议通过<关于促进大数据发展的行动纲要>,会议认为开发应用好大数据这一基础性战略资源,有利于推动大众创业.万众创新,改造升级传统产业,培育经济发展新引擎和国际竞争新优势.之前,在5月贵阳数博会上国家总理***发贺信强调中国是人口大国和信息应用大国,拥有海量数据资源,发展大数据产业空间无限. 根据美国市场调查公司Wikibon的数据,2014 年全球大数据市场规模同比增长53.2%达到285 亿美元,2017年全球大数据市场将达470

阿里的野心:大数据搬家记

进入微软.亚马逊,谷歌等美国IT企业工作人才项目,起薪40万,百度搜索(MUMCS) 这可以看做是阿里实施大数据战略的记事文~希望对关注大数据的朋友有所启发. 作为中国最大的电商集团,阿里巴巴一直善于自省自查.大数据革命的旋风吹到中国,让阿里巴巴得以机会发现自己脚下土地的松动.按照"数据基础决定上层建筑"的逻辑,阿里巴巴祭出一系列数据迁移和优化项目--重塑阿里电商生态系统的生命之树正破土生发.然而,"釜底抽薪"般的大动作可是需要拿出十万分的谨慎和耐心-- 高空任务

技术与架构,解析如何将大数据最快落地到实践

免费开通大数据服务:https://www.aliyun.com/product/odps 直播回顾: https://yq.aliyun.com/webinar/history?spm=5176.8067841.wnold.1.rLvSkQ 3月9日14点,业内首个结合技术与应用的在线大数据技术峰会即将展开,届时6位阿里技术大咖与4位行业资深实践者将从技术与业务两个方面,与大家探讨大数据如何最快落地到实践.较为有看点的是: 最深入的实践:本次在线峰会上,6个阿里规模的大数据实践将被深入分享,包

上篇 | 大数据公司挖掘数据价值的49个典型案例(值得收藏)

导读:本文是近年来不同行业.不同领域的大数据公司的一些经典案例总结.尽管有些已经是几年前的案例,但其中的深层逻辑对于未来仍有启发. 本文力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律:一是以数据驱动的决策,主要通过提高预测概率,来提高决策成功率:二是以数据驱动的流程,主要是形成营销闭环战略,提高销售漏斗的转化率:三是以数据驱动的产品,在产品设计阶段,强调个性化:在产品运营阶段,则强调迭代式创新. 01 上篇:天然大数据公司的各种套餐 从谷歌.亚马逊.Facebook.LinkedIn

大数据公司挖掘数据价值的49个典型案例!信息量很大

大数据公司挖掘数据价值的49个典型案例 对于企业来说,100条理论确实不如一个成功的标杆有实践意义,本文的主旨就是寻找"正在做"大数据的49个样本. 力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律:一是以数据驱动的决策,主要通过提高预测概率,来提高决策成功率;二是以数据驱动的流程,主要是形成营销闭环战略,提高销售漏斗的转化率;三是以数据驱动的产品,在产品设计阶段,强调个性化;在产品运营阶段,则强调迭代式创新. 上篇 天然大数据公司的各种套餐 从谷歌.亚马逊.Facebook