AdMaster技术副总裁谈Hadoop、营销数据、Python和挖掘平台

http://www.infoq.com/cn/news/2014/09/admaster-hadoop

卢亿雷是现任AdMaster技术副总裁,曾在联想研究院、百度基础架构部、Carbonite China工作,关注高可靠、高可用、高扩展、高性能系统服务,以及Hadoop/HBase/Storm/Spark等离线、流式及实时分布式计算技术。他对分布式存储和分布式计算、超大集群、大数据分析等有深刻理解及实践经验,对Lustre、HDFS、HBase、Map/Reduce、Storm、Spark等有很深的理解。曾在联想研究院、百度基础架构部、Carbonite China工作。2006年硕士毕业,一直从事云存储、云计算开发及架构工作,多年Hadoop实战经验,专注于分布式存储、分布式计算、大数据分析等方向,有两个发明专利,《一种分布式文件系统及其数据访问方法》和《一种数据备份的版本管理方法及装置》。曾多次被51CTO、CSDN、IT168、阿里技术邀请为嘉宾分享Hadoop大数据在互联网的应用。

在今年的QCon上海大会,他将分享Hadoop在营销数据挖掘方面的实践。在本次邮件访谈中,他谈到了营销数据的重要性、Python做数据挖掘的易用性以及他对Hadoop相关平台的看法。

InfoQ:营销数据是跟用户最紧密相关的数据,近年来也获得了高度关注,请您谈谈当时为什么选择这个领域呢?

卢亿雷:由于我对数据有很深的情怀,所以从读大学开始我就有针对的接触海量数据(遥感数据),毕业后做云存储服务,做分布式文件系统,后来接触Hadoop生态系统,后来发现大数据落地除了BAT公司外,营销数据行业是最好的案例,因为这个行业的需求直接驱动大数据技术的发展,特别是AdMaster一直走在大数据技术的前沿,因为数据营销需要有实时计算、流式计算、离线计算等需求,所以我们已经在用HBase,Storm,Spark,OpenStack,Docker等最新的技术了。

InfoQ:您在数据挖掘过程中,是不是通常使用Python?看了您在PyCon China的演讲,想听您给介绍一下这部分工作,为什么用Python?

卢亿雷:分两个层面。Python比较适合快速迭代开发,特别是在数据建模的时候,通过Python可以快速实现一些算法模型,后期如果要大副度提升性能,还是需要用Java/C++来实现;另外可以用Python开发Web服务。AdMaster目前大量使用了Python,如:用Tornado实现的每天超过50亿请求的Web采集服务;用Django和Celery实现了Social Master产品;用Twisted和Gevent实现了爬虫服务;还有研究院用了大量Python框架实现了情感分析等算法模型。

InfoQ:数据量大了以后,异构、海量、错误数据层出不穷,对此您是如何应对的?

卢亿雷:我们将数据进行了严格的分层来处理,包括有数据采集(Data Collection)、数据清洗(ETL)、数据存储(Data Storage)、数据挖掘(Data Mining)、数据可视化(Data Visualization),所以我们会针对不同的分层采取不同的技术选型,把在线数据(HBase),离线数据(MapReduce),实时数据(Spark),流式数据(Storm)等方式进行了整合。特别是数据清洗这块,我们自研了一种分布式扩充清洗系统,可以每天高效、稳定、可靠的处理1PB以上的数据流。

InfoQ:AdMaster是广告数据挖掘的领先团队,请您介绍一下AdMaster的情况?

卢亿雷:AdMaster主要专注数据挖掘、分析和管理,业务主要覆盖第三方数字广告审计和社会化媒体、电商及跨多屏整合领域的大数据分析、管理、应用及综合解决方案。终端涵盖个人电脑及移动设备(手机、平板电脑)。AdMaster坚持以软件为服务(SaaS)的商业模式,为企业提供最有效率的数据管理平台。

我们现在服务超过300家国内外知名企业,如:宝洁、卡夫、雅诗兰黛、杜蕾斯、可口可乐、伊利、麦当劳、联合利华、微软、东风日产、平安银行等,涉及快速消费品、汽车、金融、科技和电信等多个领域。

InfoQ:大数据时代对用户隐私保护实际上是有很大挑战的,您的团队在挖掘过程中是如何应对隐私问题的?

卢亿雷:大数据时代对用户隐私保护确实非常关键,我们实现数据安全的“零丢失”、“零泄漏”、“零篡改”。对服务器访问采用保垒机访问机制,对数据存储采用分布式密钥管理机制,保证数据高安全。另外我们严格贯彻和落实国内外与公司有关的信息(数据)安全法律法规(包括政府法律法规、行业监管规章等),满足公司业务经营的需要。建立公司的数据安全保护流程管理体系和技术保障体系,实现数据安全问题的事前预防、事中控制和事后评估改进。

InfoQ:Hadoop衍生了很多数据挖掘工具,如Spark、Storm等等,您是如何看待这些工具之间的区别和联系的?

卢亿雷:Hadoop是一个生态系统,都是根据应用场景而衍生了很多工具,所以他们各有各的优点。特别是Storm与Spark每个框架都有自己的最佳应用场景。

Storm是最佳的流式计算框架,Storm的优点是全内存计算,数据计算过程中是不会落地的,主要适应用如下两个场景:

A、流数据处理:可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储(数据库、文件系统)中去。

B、分布式RPC:由于处理组件是分布式的,而且处理延迟极低,所以可以作为一个通用的分布式RPC框架来使用。

Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。它不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,减少IO延迟,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的Map Reduce的算法。主要适应场景如下:

A、多次操作特定数据集的应用场合:需要多次操作特定数据集的应用场合,迭代次数越多,相比MapReduce效果会更好。

B、粗粒度更新状态的应用:由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,相比Storm,它可以比较好实现分钟级的计算。Spark Streaming的小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。这也是它可能比Storm发展更快的一个特点。

InfoQ:您觉得海量数据挖掘浪潮里面最关键的技术是什么?

卢亿雷:首先需要对业务需要有一定的理解,包括社交网络、电商、新闻、客户关系数据等行业,另外需要有大数据技术的积累,有过超大集群的实战经验,以及对推荐算法、分类、聚类、NLP等算法有很深的研究。再细化一点就是需要了解开源的工具如Hadoop生态系统里的MapReduce、HBase、Storm、Spark等系统,还有就是需要对Java、Scala、Python语言有深入了解,算法可以去熟悉Mahout(也正在往Spark上集成)的代码实现。

采访者简介

张天雷(@小猴机器人),清华大学计算机系博士,熟悉知识挖掘,机器学习, 社交网络舆情监控,时间序列预测等应用。目前主要从事国产无人车相关的研发工作。

时间: 2024-10-13 09:44:26

AdMaster技术副总裁谈Hadoop、营销数据、Python和挖掘平台的相关文章

引跑科技副总裁张晓东:引跑DBone数据库助力大数据建设

点击上面的链接文字,可以快速关注"东方云洞察"公众号 今天正好接受了一个媒体访谈,也趁这个契机把云计算洞察领域的内容扩充一下,以后会花些精力给大家介绍一下大数据领域的东西. 以下摘自CSDN媒体访谈稿件,过两天大家就会看到上线,今天我就先发了. 大数据经过几年的市场预热,目前应用案例已经逐步丰富起来,热度逐步上升.今天有幸我们请到了引跑信息科技有限公司(以下简称引跑科技)的副总裁,张晓东先生做一个访谈.张总在数据领域从业多年,以前在 IBM.Oracle.华为等公司工作多年,担任了数据

腾讯技术工程 |腾讯公司副总裁姚星:每次浪潮前 腾讯都在革自己的命

<中国人工智能之路(一线人物第三季)>是由财新视频与澜亭资本联合出品的高端纪录访谈节目,是国内第一档聚焦被视为"人类第四次工业革命核心驱动力"的新一轮人工智能浪潮在中国发展历史.现状与未来趋势的主题性专业探讨节目. 从"政策与战略篇"."产业与机遇篇"."风险与挑战篇"."人才与教育篇"四大章节进行全方位探讨.审视与建议,亲临体验图像分析.语音识别.智慧出行.机器人服务.信息与内容平台.智能社交

超人学院Hadoop大数据技术分享

超人学院Hadoop大数据技术分享 Docker从入门到实践 http://yunpan.cn/cQJeEIPQxDzh5 (提取码:a4e9) 更多精彩内容请关注:http://bbs.superwu.cn 关注超人学院微信二维码:

《Hadoop大数据技术开发实战》新书上线

当今互联网已进入大数据时代,大数据技术已广泛应用于金融.医疗.教育.电信.政府等领域.各行各业每天都在产生大量的数据,数据计量单位已从B.KB.MB.GB.TB发展到PB.EB.ZB.YB甚至BB.NB.DB.预计未来几年,全球数据将呈爆炸式增长.谷歌.阿里巴巴.百度.京东等互联网公司都急需掌握大数据技术的人才,而大数据相关人才却出现了供不应求的状况. Hadoop作为大数据生态系统中的核心框架,专为离线和大规模数据处理而设计.Hadoop的核心组成HDFS为海量数据提供了分布式存储:MapRe

《系统运维全面解析》新华网副总裁作序,360、触控等多位总监经理推荐

<系 统 运 维 全 面 解 析>前言 执笔: 韩晓光 (QQ群:117174700) 本书初衷 有朋友问我系统运维是做什么的,是不是类似网管天天修电脑?对此问题,我一言难尽,其实运维工作涉及的东西很多.此时我便有一种冲动,去写一本关于系统运维的书,介绍一些事实真相. 翻 读<史记>让人感到历史的厚重,人类的历史就是不断认识自己,认识社会,认识这个世界的过程,人类在自导自演中创造了社会文明.但是,试想山间花果的荣 枯,若你看不见闻不到,则对你来说它们似乎不存在.当然,也正是历史学家

小米副总裁:小米近期将进军美国智能手机市场

新浪科技讯 北京时间8月20日早间消息,小米副总裁雨果-巴拉(Hugo Barra)近期在接受彭博社采访时表示,小米正准备“近期”进军美国智能手机市场.在美国,小米将采用类似的社交媒体营销策略. 巴拉表示,目前小米已经无法再忽视美国这一全球销售收入最高的智能手机市场.由于中国国内市场的增长放缓,华为等竞争对手的崛起,小米的国际业务扩张已经刻不容缓. 巴拉表示:“美国市场肯定已经在我们的视野中.我们将以社交媒体为先.这些渠道将帮助我们触达年轻一代.对新技术有热情的人群.我们毫无疑问将进军美国.”

安预认知副总裁朱元国做客深圳电台《人才驾到》

安预认知副总裁朱元国做客深圳电台<人才驾到> 安预认知副总裁朱元国应邀做客深圳电台交通频率<人才驾到>栏目,就"消防行业未来发展趋势"这一话题同主持人凌凌进行了沟通交流,为广大听众分享了智慧消防领域心得体会. 朱元国作为技术合伙人,同时就读北京大学汇丰商学院首届双证班.在电力行业和消防行业打拼多年后,对行业未来前景越来越模糊,面对繁杂的世界看不清,所以走进了学堂.经过各专业领域专家教授们的传道受业解惑.以及和同学们交流.企业互访.激烈的思想碰撞,以及自己对未来的

快手商业副总裁严强:AI+DA驱动短视频社交商业高速增长

本账号为第四范式智能推荐产品先荐的官方账号.账号立足于计算机领域,特别是人工智能相关的前沿研究,旨在把更多与人工智能相关的知识分享给公众,从专业的角度促进公众对人工智能的理解:同时也希望为人工智能相关人员提供一个讨论.交流.学习的开放平台,从而早日让每个人都享受到人工智能创造的价值. 日前,第四范式先荐在北京举办2019"人工智能+新内容"论坛,快手商业副总裁严强在现场发表了名为<AI+DA驱动短视频商业高效增长>的主题演讲,详述了AI在快手商业化过程中中的应用. 演讲人简

华为年入千万副总裁徐家骏给任正非的辞职信

徐家骏是华为数据中心的头,技术超级牛人,一级部门总监,华为副总裁,年收入过千万.从一个普通的公司职员,到年薪千万的华为副总裁,再到离开华为转战百度,徐家骏的十年从业经历和经验对于任何渴望成功的人来说绝对可资借鉴,我们从中也可以一窥华为公司的运作过程和徐的职业规划.世界上本没有好工作,下的功夫够了,好工作自会找上门的. 还有最重要的一点:珍爱生命.以下为徐家骏给任正非的辞职信正文: 正非兄: 转眼工作十年了,在华为的十年,正是华为从名不出专业圈子到现在成为路人皆知的大公司,高速发展的十年,见证了公