硅谷观察之大数据篇【下】:硅谷巨头们的大数据玩法

在硅谷观察之大数据篇的【上】篇中,我把硅谷地区大数据生长状况基本梳理了一个相对完整的形状出来。有朋友看了【下】的预告后在微博上给我留言说,听说下篇要介绍一些公司的大数据部门情况,问能不能点名加个Google尤其是Google Maps,因为特别想知道这个世界上最大的搜索引擎以及每天必不可少的出行神器是怎么当一个挖掘机的。

于是,上周我又去了Google采访。本篇将一共呈现硅谷四大不同类型的公司如何玩转大数据,其中包括了著名FLAG中的三家(Apple在大数据这块来说表现并不突出)。

本篇内容来自对Evernote AI负责人Zeesha Currimbhoy、LinkedIn大数据部门资深总监Simon Zhang、前Facebook基础架构工程师Ashish Thusoo和Google大数据部门一线工程师及Google Maps相关负责人的专访。Enjoy~~

Evernote:今年新建AI部门剑指深度学习

Evernote的全球大会上,CEO Phil Libin提到,Evernote的一个重要方向就是“让Evernote变成一个强大的大脑”。要实现这个目标,就不得不提他们刚刚整合改组的Augmented Intelligence团队(以下简称AI team)。我在斯坦福约到AI team的manager Zeesha Currimbhoy,在此分析一下从她那里得到的一手资料。

  • 是什么

今年早些时候,这个2岁的数据处理团队改组为由Zeesha带领的Augmented Intelligence team,总共十人不到,很低调,平日几乎听不到声响。他们究竟在做什么?

与我们常说的AI(artificial Intelligence)不同,Evernote的团队名叫做Augmented Intelligence,通常情况下简称为IA。

Zeesha显然是这个团队里元老级的人物:“我是在2012年加入Evernote的,直接加入到了当时刚刚建立的数据处理团队,这也就是现在AI team的雏形。我们最开始的项目都是简单易行的小项目,比如按照你的个人打字方式来优化用户的输入体验。”

传统意义上的AI指的是通过大量数据和算法让机器学会分析并作出决定。而这里讲到IA则是让电脑进行一定量的运算,而终极目的是以之武装人脑,让人来更好的做决定。这两个概念在具体实施中自然有不少相通之处,但是其出发点却是完全不同的。

这个区别也是Evernote AI team的亮点所在。作为一个笔记记录工具,Evernote与Google之类的搜索引擎相比,最大的区别就是它非常的个人化。用户所储存的笔记、网站链接、照片、视频等都是他思维方式和关注点的体现。

  • 从哪来

Zeesha小组的初衷便是,通过分析用户储存的笔记来学习其思维方式,然后以相同的模式从第三方数据库(也就是互联网上的各种开源信息)抽取信息推送给用户,从而达到帮助用户思考的过程。从这个意义上讲,Zeesha版的未来Evernote更像是一个大脑的超级外挂,为人脑提供各种强大的可理解的数据支持。

目前整个团队的切入点是很小而专注的。

“我们不仅仅是帮助用户做搜索,更重要的是在正确的时间给用户推送正确的信息。”

实现这个目标的第一步就是给用户自己的笔记分类,找到关联点。今年早些时候,Evernote已经在Mac的英文版上实行了一项叫做“Descriptive Search”的功能。用户可以直接描述想要搜索的条目,Evernote就会自动返回所有相关信息。

例如,用户可以直接搜索“2012后在布拉格的所有图片”,或者“所有素食菜单”。不管用户的笔记是怎样分类的,Decriptive Search都可以搜索到相关的信息并且避免返回过大范围的数据。而这还仅仅是AI team长期目标的开始,这个团队将在此基础上开发一系列智能化的产品。

  • 到哪去

不用说,这样一个新创团队自然也面临这诸多方面的挑战。当下一个比较重要的技术难点就是Evernote用户的数据量。虽然Evernote的用户量已经达到了一亿,但是由于整个团队的关注点在个人化分析,外加隐私保护等诸多原因,AI team并没有做跨用户的数据分析。

这样做的结果就是团队需要分析一亿组各不相同的小数据组。比如,假设我只在Evernote上面存了10个笔记,那Evernote也应该能够通过这些少量的数据来分析出有效结果。当然,这些技术的直接结果是用户用Evernote越多,得到的个性化用户体验就越好。长期来讲,也是一个可以增加用户黏性的特点。

不过Zeesha也坦言:“的确,我们都知道没有大数据就没有所谓的智能分析。但是我们现在所做的正是在这样的前提下来找到新的合适的算法。”她并没有深入去讲目前团队所用的是什么思路,但是考虑到这个领域一时还没有很成功的先例,我们有理由期待在Zeesha带领下的Evernote AI team在近期做出一些有意思的成果。

Facebook:大数据主要用于外部广告精准投放和内部交流

Facebook有一个超过30人的团队花了近4年的时间才建立了Facebook的数据处理平台。如今,Facebook仍需要超过100名工程师来支持这个平台的日常运行。可想而知,光是大数据分析的基础设施就已经是一个耗时耗力的项目了。

Facebook的一大价值就在于其超过13.5亿活跃用户每天发布的数据。而其大数据部门经过七八年的摸索,才在2013年把部门的key foundation定位成广告的精准投放,开始建了一整套自己的数据处理系统和团队。并进行了一系列配套的收购活动,比如买下世界第二大广告平台Atlas。

据前Facebook Data Infrastructure Manager Ashish Thusoo介绍,Facebook的数据处理平台是一个self-service, self-managing的平台,管理着超过1 Exabyte的数据。公司内部的各个部门可以直接看到处理过的实时数据,并根据需求进一步分析。

目前公司超过30%的团队,包括工程师、Product Managers、Business Analysts等多个职位人群每个月都一定会使用这项服务。这个数据处理平台的建立让各个不同部门之间可以通过数据容易地交流,明显改变了公司的运行方式。

追溯历史,Facebook最早有大数据的雏形是在2005年,当时是小扎克亲自做的。方法很简单:用Memcache和MySQL进行数据存储和管理。

很快bug就显现了,用户量带来数据的急速增大,使用Memcache和MySQL对Facebook的快速开发生命周期(改变-修复-发布)带来了阻碍,系统同步不一致的情况经常发生。基于这个问题的解决方案是每秒100万读操作和几百万写操作的TAO(“The Associations and Objects”)分布式数据库,主要解决特定资源过量访问时服务器挂掉的bug。

小扎克在2013年第一季度战略时提到的最重点就是公司的大数据方向,还特别提出不对盈利做过多需求,而是要求基于大数据来做好以下三个功能:

  • 发布新的广告产品。比如类似好友,管理特定好友和可以提升广告商精确投放的功能。
  • 除与Datalogix, Epsilon,Acxiom和BlueKai合作外,以加强广告商定向投放广告的能力。
  • 通过收购Atlas Advertising Suite,加强广告商判断数字媒体广告投资回报率(ROI)。

LinkedIn:大数据如何直接支持销售和变现赚钱

LinkedIn大数据部门的一个重要功用是分析挖掘网站上巨大的用户和雇主信息,并直接用来支持销售并变现。其最核心团队商业分析团队的总监Simon Zhang说,现在国内大家都在讨论云,讨论云计算,讨论大数据,讨论大数据平台,但很少有人讲:我如何用数据产生更多价值,通俗点讲,直接赚到钱。

但这个问题很重要,因为关系到直接收入。四年半前 LinkedIn内所有用户的简历里抽取出来大概有 300万公司信息,作为销售人员不可能给每个公司都打电话,所以问题来了:哪家公司应该打?打了后会是个有用的call?

销售们去问Simon,他说只有通过数据分析。而这个问题的答案在没有大数据部门之前这些决策都是拍脑袋想象的。

Simon和当时部门仅有的另外三个同事写出了一个模型后发现:真正买LinkedIn服务的人,在决定的那个环节上,其实是一线的产品经理,和用LinkedIn在上面猎聘的那些人。但他们做决策后是上面的老板签字,这是一个迷惑项。数据分析结果出来后,他们销售人员改变投放策略,把目标群体放在这些中层的管理人身上,销售转化率瞬间增加了三倍。

那时LinkedIn才 500 个人,Simon一个人支持 200名销售人员。他当时预测谷歌要花 10 个 Million美金在猎聘这一块上,销售人员说,Simon,这是不可能的事。

“但是数据就是这么显示的,只有可能多不会少。我意识到,一定要流程化这个步骤。”

今天LinkedIn 的“猎头”这块业务占据了总收入的60%。是怎么在四年里发展起来的,他透露当时建造这个模型有以下这么几个步骤:

  • 分析每个公司它有多少员工。
  • 分析这个公司它招了多少人。
  • 分析人的位置功能职位级别一切参数,这些都是我们模型里面的各种功能。然后去分析,他们内部有多少HR 员工,有多少负责猎头的人,他们猎头的流失率,他们每天在Linkedin的活动时间是多少。

这是LinkedIn大数据部门最早做的事情。

Simon告诉36氪,公司内部从大数据分析这一个基本项上,可以不断迭代出新产品线LinkedIn的三大商业模型是人才解决方案、市场营销解决方案和付费订阅,也是我们传统的三大收入支柱。事实上我们还有一个,也就是第四个商业模型,叫“销售解决方案”,已经在今年7
月底上线。

这是卖给企业级用户的。回到刚才销售例子,LinkedIn大数据系统是一个牛逼的模型,只需要改动里面一下关键字,或者一个参数,就可以变成另一个产品。“我们希望能帮到企业级用户,让他们在最快的速度里知道谁会想买你的东西。”

虽然这第四个商业模式目前看来对收入的贡献还不多,只占1%,但anyway有着无限的想象空间,公司内部对这个产品期待很高。“我还不能告诉你它的增长率,但这方向代表的是趋势,Linkedin 的 B2B 是一个不用怀疑的大的趋势。”Simon说。

Google:一个闭环的大数据生态圈

作为世界上最大的搜索引擎,Google和大数据的关系又是怎样的呢?感谢微博上留言的朋友,这可确实是一个很有意思的议题。

Google在大数据方面的基础产品最早是2003年发布的第一个大规模商用分布式文件系统GFS(Google File System),主要由MapReduce和Big Table这两部分组成。前者是用于大数据并行计算的软件架构,后者则被认为是现代NOSQL数据库的鼻祖。

GFS为大数据的计算实现提供了可能,现在涌现出的各种文件系统和NOSQL数据库不可否认的都受到Google这些早期项目的影响。

随后2004和2006年分别发布的Map Reduce和BigTable,奠定了Google三大大数据产品基石。这三个产品的发布都是创始人谢尔盖-布林和拉里-佩奇主导的,这两人都是斯坦福大学的博士,科研的力量渗透到工业界,总是一件很美妙的事。

2011年,Google推出了基于Google基础架构为客户提供大数据的查询服务和存储服务的BigQuery,有点类似于Amazon的AWS,虽然目前从市场占有率上看与AWS还不在一个数量级,但价格体系更有优势。Google通过这个迎上了互联网公司拼服务的风潮,让多家第三方服务中集成了BigQuery可视化查询工具。抢占了大数据存储和分析的市场。

BigQuery和GAE(Google App Engine)等Google自有业务服务器构建了一个大数据生态圈,程序创建,数据收集,数据处理和数据分析等形成了闭环。

再来看Google的产品线,搜索,广告,地图,图像,音乐,视频这些,都是要靠大数据来支撑,根据不同种类数据建立模型进行优化来提升用户体验提升市场占有率的。

单独说一下Google maps,这个全球在移动地图市场拥有超过40%的市场占有率的产品,也是美国这边的出行神器。它几乎标示了全球有互联网覆盖的每个角落,对建筑物的3D视觉处理也早在去年就完成,这个数据处理的工作量可能是目前最大的了,但这也仅限于数据集中的层面。真正的数据分析和挖掘体现在:输入一个地点时,最近被最多用户采用的路径会被最先推荐给用户。

Google还把Google+,Panoramio和其他Google云平台的图片进行了标记和处理,将图片内容和地理位置信息地结合在一起,图像识别和社交系统评分处理后,Google能够把质量比较高的的图片推送给用户,优化了用户看地图时的视觉感受。

大数据为Google带来了丰厚的利润,比如在美国你一旦上网就能感觉到时无处不在的Google广告(AdSense)。当然,它是一把双刃剑,给站长们带来收入的同时,但如何平衡用户隐私的问题,是大数据处理需要克服的又一个技术难关,或许还需要互联网秩序的进一步完善去支持。

像在【上】中所说,除Facebook等几个很领先的公司外,大部分公司要么还没有能力自行处理数据的能力。最后附上两个例子,想说这边的大公司没有独立大数据部门也是正常的,采取外包合作是普遍现象:

Pinterest:

Pinterest曾尝试自行通过Amazon EMR建立数据处理平台,但是因为其稳定性无法控制和数据量增长过快的原因,最终决定改为使用Qubole提供的服务。在Qubole这个第三方平台上,Pinterest有能力处理其0.7亿用户每天所产生的海量数据,并且能够完成包括ETL、搜索、ad

hoc query等不同种类的数据处理方式。尽管Pinterest也是一个技术性公司,也有足够优秀的工程师来建立数据处理团队,他们依然选择了Qubole这样的专业团队来完成数据处理服务。

Nike:

不仅仅硅谷的互联网公司,众多传统企业也逐渐开始使用大数据相关技术。一个典型的例子就是Nike。Nike从2012年起与API服务公司Apigee合作,一方面,他们通过Apigee的API完善公司内部的数据管理系统,让各个部门的数据进行整合,使得公司内部运行更加顺畅、有效率。另一方面,他们也通过API开发Nike Fuel Band相关的移动产品。更是在2014年开启了Nike+

FuelLab项目,开放了相关API,使得众多的开放者可以利用Nike所收集的大量数据开发数据分析产品,成功地连接了Nike传统的零售业务,新的科技开发,和大数据价值。

时间: 2024-10-29 19:08:54

硅谷观察之大数据篇【下】:硅谷巨头们的大数据玩法的相关文章

可视化培训时变数据篇:当时间变化后,数据呈现的是这样的美图

随时间变化.带有时间属性的数据称为时变数据.处理时变型数据的方法有时候又与顺序型数据有相通之处.时变数据的特点是量大.维数多.变量多,类型丰富,分布范围广泛. 以时间轴排列的时间序列数据,如:个人摄像机采集的视频序列.各种传感器设备获取的监控数据和故事股票交易数据.太阳黑子随时间的变化.奥运会比赛日程.在时间序列数据中,每个数据实例都可以看做某事件,事件的时间可当成一个变量. 不以时间为变量,但具有内在的排序顺序的顺序型数据集,如文本.生物DNA测序和化学质谱等.这类数据的变化顺序可以与映射为时

ASP.NET Core中如影随形的”依赖注入”[下]: 历数依赖注入的N种玩法

在对ASP.NET Core管道中关于依赖注入的两个核心对象(ServiceCollection和ServiceProvider)有了足够的认识之后,我们将关注的目光转移到编程层面.在ASP.NET Core应用中基于依赖注入的编程主要涉及到两个方面,它们分别是将服务注册到ServiceCollection中,和采用注入的方式利用ServiceProvider提供我们所需的服务.我们先来讨论ASP.NET Core应用中如何进行服务注册.[本文已经同步到<ASP.NET Core框架揭秘>之中

用数据驱动渠道推广(下:数据篇)

数据篇 渠道之怪相 有的运营人员做渠道投放,每个渠道都投放了,点击量特别高,但激活量只有个位数.也有可能点击激活数量都很高,但是留存率很低.费用都花光了,但是效果没有出来.自己做数据分析,但是却得不到结论. 我们做数据分析的前提是需要拿到靠谱的数据.如果数据不准确,基于这个数据分析出来的结论是没有意义的. 获取准确的数据,首先需要我们选择靠谱的统计分析平台,平台的选择可以参考我的前一篇文章.即便在平台靠谱的情况下,也有可能出现一些不靠谱的情况.俗话说,有榜单的地方就有刷榜,有数据统计的平台就有数

大数据浪潮下的前端工程师

流形 链接来源 马云曾经说过『人类正从IT时代走向DT时代』. 正如他说言,今天几乎所有的互联网公司背后都有一支规模庞大的数据团队和一整套数据解决方案作决策, 这个时代已经不是只有硅谷巨头才玩数据的时代,是人人都在依赖着数据生存,可以说如今社会数据价值已经被推到前所未有的高度. 我作为一名前端工程师在阿里巴巴数据团队工作多年,深入了解数据生产加工链路与产品化.我们这群前端是与界面最近的工程师们, 似乎与数据离得很远,对于我们来说与数据有些怎样连接呢. 完整数据链路 首先,我用直观的一张图绘制出数

5月17日云栖精选夜读:大数据浪潮下,前端工程师眼中的完整数据链图

今天几乎所有的互联网公司背后都有一支规模庞大的数据团队和一整套数据解决方案作决策,这个时代已经不是只有硅谷巨头才玩数据的时代,是人人都在依赖着数据生存,可以说如今社会数据价值已经被推到前所未有的高度. 热点热议 大数据浪潮下,前端工程师眼中的完整数据链图 作者:王二辉   发表在:大数据文摘 如何打造一个小而精的电商网站架构? 作者:稀奇古怪 WannaCry只是个开始?信息时代你急需的安全书单 作者:博文视点 知识整理 MySQL使用初步-mysql数据库的基本命令 作者:小小兔 Java集合

大数据量下高并发同步的讲解(不看,保证你后悔!)

偶然的机会在网上看到了这篇blog,觉得作者写得挺不错的(虽然自己并没有怎么看懂...),所以就转来跟大家分享分享吧~~~ 对于我们开发的网站,如果网站的访问量非常大的话,那么我们就需要考虑相关的并发访问问题了.而并发问题是绝大部分的程序员头疼的问题, 但话又说回来了,既然逃避不掉,那我们就坦然面对吧~今天就让我们一起来研究一下常见的并发和同步吧. 为了更好的理解并发和同步,我们需要先明白两个重要的概念:同步和异步    1.同步和异步的区别和联系          所谓同步,可以理解为在执行完

R You Ready?——大数据时代下优雅、卓越的统计分析及绘图环境

作者按:本文根据去年11月份CSDN举办的“大数据技术大会”演讲材料整理,最初发表于2012年2月期<程序员>杂志. 1. 历史 R(R Development Core Team, 2011)语言由新西兰奥克兰大学的 Ross Ihaka 和 Robert Gentleman 两人共同发明,其词法和语法分别源自 Scheme 和 S 语言,R 语言一般认为是 S 语言(John Chambers, Bell Labs, 1972)的一种方言.R 是“GNU S”, 一个自由的.有效的.用于统

大数据量下高并发同步的讲解(转)

文章转自:http://blog.csdn.net/xcw931924821/article/details/52475742 *************************************************************************************************************************************************************************************** 对于

大数据量下高并发同步的讲解(不看,保证你后悔)

对于我们开发的网站,如果网站的访问量非常大的话,那么我们就需要考虑相关的并发访问问题了.而并发问题是绝大部分的程序员头疼的问题, 但话又说回来了,既然逃避不掉,那我们就坦然面对吧~今天就让我们一起来研究一下常见的并发和同步吧. 为了更好的理解并发和同步,我们需要先明白两个重要的概念:同步和异步    1.同步和异步的区别和联系          所谓同步,可以理解为在执行完一个函数或方法之后,一直等待系统返回值或消息,这时程序是出于阻塞的,只有接收到 返回的值或消息后才往下执行其它的命令. 异步