宝宝树:讲述大数据与母婴背后的故事

宝宝树是中国最具影响力的母婴服务平台,为孕期和孩子在六岁以内的父母提供知识、交流、记录、购物等多元化服务。但宝宝树事实上还是一个名副其实的大数据企业。宝宝树公司COO魏小巍表示:“大数据是宝宝树最宝贵的财富之一,如果没有高效的大数据分析作为支撑,宝宝树的很多业务都难以高速前进。”

业务发展的驱动力

大数据的关键并不是比谁拥有的数据量大,而是如何通过最有效的数据分析手段读懂数据背后隐藏的那些信息,对业务提供指导。宝宝树正是利用大数据将社区流量转化为电商销量,其转化率为业界平均水平的5倍,并且通过大数据对于宝宝树自身的产品(PC网站、Wap站、Apps)做出针对性的指导。“我们通过精准的算法,可以让用户在最恰当的时候看到我们的电商产品广告。这就是基于大数据的精准营销,也只有这样才能真正做成不影响社区用户体验的社会化电商。”魏小巍表示。

对宝宝树公司来说,大数据绝不仅仅是一个业务的支撑,其本身就是一个业务平台,可以带来直接的经济效益。“宝宝树有一支业内闻名的大数据团队BIG

(Babytree Insight Group,宝宝树洞察小组)。这个团队是宝宝树重要的财富,也是宝宝树业务发展的重要的驱动力。”魏小巍告诉记者。

现在一提到大数据,大家都感觉它是一个神奇的、强大的事物。虽然许多企业在评估或实施大数据项目,但是真正能将大数据与业务完美结合的却不多。“如果想在大数据方面有所作为,企业的核心团队中一定要有一个或几个人是大数据的行家,在学术方面对大数据有比较深刻的认知,并且参与所有公司核心团队的会议,从而了解公司发展的方向和战略,然后才能给出企业应用大数据的正确方向。”魏小巍认为,“企业中实际操作和应用大数据工具的大多是掌握算法、数据分析技术的专业人员。他们是权威的实际执行人员,但还需要企业的管理层给出一个明确的大数据应用方向。”

所谓方向,可以理解为如何将大数据与商业需求相结合。大数据分析不是漫无目的的。它必须事先给出一个明确的目标或者假设,比如环境污染是否会对母婴用户在产品和服务的选择上造成需求的变化。在这个前提下,BIG团队才能根据收集到的数据分析出想要的结果。“大数据分析要建立在大胆假设的基础上。大数据分析的过程就是证明这个假设是成立的还是不成立的。如果没有事先的假设,那么大数据分析就是无源之水,无本之木。另外,在建模和分析过程中,要根据实际情况随时调整假设,算法和模型的一些细节也要根据实际情况进行调整和完善。最后成型的那个算法才是最靠谱的,而且很有可能这个算法与最初的算法大相径庭。”魏小巍介绍说,“大数据分析是一项十分琐碎的、需要小步快跑的工作。”

除了利用大数据服务于商业目的以外,宝宝树还会定期将一些数据分析结果与业内分享。比如,现在宝宝树每个月都会出一本小型的白皮书,每个季度会出一本大型的白皮书,对一些行业热词进行梳理,并分享其背后的丰富内容。白皮书中的数据可以为他人的商业或其他活动提供参考。

大数据不是少数人的专利

三年前,宝宝树已经着手进行大数据处理工作,当时的主要工作是对数据进行梳理和分类,把数据结构化,为进一步的数据分析打下基础。从2013年开始,宝宝树真正把大数据作为一个内部运营平台,供所有需要的岗位员工使用,并引入新的算法,对数据应用进行升级等。

当前,数据量对于宝宝树来说并不是太大压力。因为,宝宝树通常会定期对数据进行清洗和整理,删除陈旧的数据。魏小巍称,任何数据都是有“保鲜期”的。宝宝树是专注于母婴人群的综合服务平台,“新鲜”的数据会对其业务产生深远的影响。“过期”的数据非但没有帮助,反而会形成决策的误导。

宝宝树的大数据大致分成三类。第一类数据是注册用户的基本信息(如宝宝年龄),这类数据必须保证精准。第二类数据是UGC(User Generated Content)数据。宝宝树的根基是一家社区网站,用户在这个社区网站上交流、互动,产生了大量内容。通过对这些内容的分析,宝宝树可以更好地了解用户的需求。第三类数据是浏览型数据,这部分数据是以量取胜的。将以上三类数据摸清,分析透彻,当然也需要对母婴领域的深度理解,就可以基本锁定90%用户的需求。

在采用数据可视化分析工具永洪BI平台之前,宝宝树所用的大数据平台都是自己开发的。但在真正将大数据作为业务平台来运营后,宝宝树越来越明显地感觉到原有的大数据底层平台的效率比较低,影响了数据分析。在很多时候,业务部门想进行一次大数据分析时,服务器的负荷比较重,通常要等到半夜12点以后才能进行,而且一个项目计算下来至少需要24个小时。“在采用永洪BI平台之后,最明显的变化是大数据分析的效率大大提高。我们现在可以在任何时候启动一个大数据分析应用,而且可以很快得到分析结果。”魏小巍表示。

从技术角度来看,宝宝树亦有能力开发一个与永洪BI类似的平台。但是市场上已经有了像永洪BI这样成熟的商用工具,直接可以派上用场,节省了企业开发的人力、财力,而且可以显著改善大数据分析工作的效率,企业何乐而不为呢?

永洪BI平台的另一个优势是简单易用。数据分析的结果可以直观展现出来,让人一目了然。宝宝树公司内部的相关部门的一个员工,如果想查询某些数据,比如某一个APP与新增客户数之间的关系曲线,就可以在永洪BI平台上,只要几步简单的鼠标拖拽操作,就可以马上看到结果。“如果大数据只是给少数专业人士使用的,那么其利用率是极低的。我们希望公司的所有员工都能从大数据平台和工具获益。这也是大数据促进业务发展的一个具体表现。”魏小巍表示。

由于宝宝树早就实现了数据的集中化,因此在引入永洪BI平台后,自身数据与永洪BI平台之间的衔接没有障碍。宝宝树出于业务需求自己开发的一些大数据应用也可以无缝地运行在永洪BI平台之上。

不过,魏小巍也指出,现在大数据的应用还是有些“雷声大,雨点小”。追逐大数据的人很多,但真正静下心来,踏踏实实做大数据落地工作的人并不多。或者说,目前大数据的应用面还相对较窄,没能完全发挥其应有的作用和能力。

专业大数据人才稀缺

大数据项目的成功实施需要两方面因素的支撑:一是大数据的平台和工具,二是人。那么,宝宝树在大数据专业人才的培养、使用方面又有哪些成功经验呢?

魏小巍告诉记者,专业的BI平台只是给宝宝树提供了一个大数据的基础架构平台,更多的与业务相关的应用还是要宝宝树自己开发。因此,宝宝树自己培养和拥有一支30余人的专业大数据团队。

数据科学家这个新的称谓就是随着大数据的兴起出现的。宝宝树公司也有承担类似工作的人,他们既要了解客户的需求,又要懂算法,还要会搭建数据分析模型。魏小巍表示,这些大数据的专业人员必须具备对数据的高度敏感性,要炼就一双“火眼金睛”,能够透过表面上看起来杂乱无章的数据分析出数据背后反映的深意。

在日常生活中,很多人都接受过问卷调查。对于“你有健身的需求吗?”这样一个开放式的问题,你的回答是什么?可能大部分的人回答都是需要。但是,如果一个做健身中心的企业仅凭这样的调查结果就决定要在某处新建一个健身中心,那么最终的结果可能是投资失败。大数据分析的一个主要目的就是为企业的经营和决策提供支撑,而若想获得可信的结果,那么从一开始设置调研问卷题目时就应该是专业人员做的事。在做Focus group的时候,主持人的专业度几乎可以决定这次的调研是有效的还是误导的。

大胆假设、收集数据、建立数学模型、得出分析结果,这一系列环节都需要具有相应专业知识的人去完成,而这些专业人才在某种程度上也决定了大数据项目最终能否达到预期目标。目前,中国在大数据方面最缺少的就是专业人才。边学习边实践。这也是大多数中国大数据用户共同的现状。



欢迎来《中国云报》串门,聊聊云计算的那些事儿,门牌号很号好记“GTcloud“

时间: 2024-11-02 20:01:00

宝宝树:讲述大数据与母婴背后的故事的相关文章

一文读懂 Spring Boot、微服务架构和大数据治理三者之间的故事

微服务的诞生并非偶然,它是在互联网高速发展,技术日新月异的变化以及传统架构无法适应快速变化等多重因素的推动下诞生的产物. 微服务的诞生并非偶然,它是在互联网高速发展,技术日新月异的变化以及传统架构无法适应快速变化等多重因素的推动下诞生的产物.互联网时代的产品通常有两类特点:需求变化快和用户群体庞大,在这种情况下,如何从系统架构的角度出发,构建灵活.易扩展的系统,快速应对需求的变化:同时,随着用户的增加,如何保证系统的可伸缩性.高可用性,成为系统架构面临的挑战.如果你想了解大数据的学习路线,想学习

学无止境,如何学好大数据 & Python?

1.<2016大数据面面观> 徐培成,多年开发和教学经验,Hadoop专家讲师,Java高级讲师.现为十八掌科技公司创始人,专攻大数据技术与发展方向. 简介:介绍大数据在2016年发展现状.趋势以及各类企业在大数据方面的布局和战略调整.中小型企业在大数据方面的渐行渐近的行业趋势,BAT公司在引领全国大数据市场方向的同时,直接利用数据就可以进行盈利.数据就是企业财富之源. 时间:4月7日  晚8点30-10点 2.<从面授班学员表现讲述零基础该如何学好大数据?> 徐培成,多年开发和教

读《大数据时代》

周末两天加上今天的时间,算是仔细的读完了<大数据时代>这本书,这本书既是我导师推荐给我们的大数据书籍,也是我第一次尝试一口气读完一本书. 对于这本书,作者的牛逼之处就不用我在这里废口水了.这里主要说说的体会. 现在谈论大数据的人真的很多,但是能全面的讲述大数据的人我个人的感觉是不多的.作者从非技术这个角度,从思维.价值.隐私.管理这些角度来细致的讲述大数据,这点我觉得是值得我们学习的,而且书中例子的结合,也很能看出作者的功力. 结合产品来谈数据的话,我个人觉得产品的设计是可以融入数据元素的,从

实战大数据读书笔记

首先说下对这本书的感觉,虽然这貌似是第一本讲述大数据项目案列(基于微博的股票市场预测系统,技术内容的海量视频检索系统,基于HDFSd的云文件系统)的书籍,但是书上面的代码很少,图书馆和网上都没有源码可供下载,甚至电子书都还要买....可能就是因为刚出来吧 再说下HBase的系统架构 http://img.blog.csdn.net/20160506093443453 支撑层的HDFS对于HBase而言是不可或缺的,HBase本身不会存储数据,表中的数据都需以文件的形式持久化到分布式文件系统中,.

Spark2.x+Python大数据机器学习实战视频教程

提取码:6o68 课程学习:https://pan.baidu.com/s/13kOswCBRsnXBJWsPGBZDqQ 机器学习是近二十来年兴起的多领域学科,机器学习算法可从数据中建立模型,并利用模型对未知数据进行预测.机器学习技术不断进步,应用相当广泛,例如推荐引擎.定向广告.需求预测.垃圾邮件过滤.医学诊断.自然语言处理.搜索引擎.诈骗侦测.证券分析.视觉辨识.语音识别.手写识别等. 为什么近年来机器学习变得如此热门,各大公司都争相投入?因为机器学习需要大量数据进行训练.大数据的兴起带来

大数据之优化

1.摘要 如果要将企业应用系统按照技术或数据按时间进行划分的话,那么可以以2008年Google推出的分布式文件系统DFS为一个划分标准,2008年之前,由于通信信息技术的弊端,还属于PC互联网时代,整个互联网产生的数据和现在相比只是量级分之一,所以基本上是传统的企业应用系统,将数据存储在RDBMS数据库中,再通过诸如J2EE的软件技术架构去操作这些数据.2008年之后,随着通信技术4G的诞生,迎来了在PC互联网时代基础上叠加的移动互联网时代,这个时候产生的数据是巨大的,从最开始的PB级到EB级

大数据的三大力量,你知道吗?

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理.换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的"加工能力",通过"加工"实现数据的"增值". 大数据技术离不开大量的数据采集,在实行数据采集过程中,会遇到各种问题,拿最简单最基础的爬虫采集为例,过程中就会面临,IP被封,爬取受限.违法操作等多种问题,所以在爬取数据之前,一定要了解好预爬网站是否涉及违法操作,找到合适的代理IP访问

基于大数据的银行反欺诈的分析报告

0,大数据知识背景. 在我第一次接触大数据的时候,那个故事便是“啤酒和尿布”. 是美国沃尔玛超市的一则营销案例.每到周末的时候,啤酒和尿片的销量很高,经分析,原来是周末电视转播球赛,男人们要一边喝酒一边看球,受冷落的妻子们只好出门逛街或找闺蜜吐槽,照顾孩子的任务自然就归了男人们.于是,男人们在买啤酒的同时随手买尿片.超市把啤酒和尿片放到一起,自然就提高了销量.还有一些案例,如google对流感病毒散布的预测,如洛杉矶警察局对犯罪的预测,乃至对机票价格波动的预测,对天气的预测,这都是大数据的范畴.

Spring Boot、微服务架构和大数据

一文读懂 Spring Boot.微服务架构和大数据治理三者之间的故事 https://www.cnblogs.com/ityouknow/p/9034377.html 微服务架构 微服务的诞生并非偶然,它是在互联网高速发展,技术日新月异的变化以及传统架构无法适应快速变化等多重因素的推动下诞生的产物.互联网时代的产品通常有两类特点:需求变化快和用户群体庞大,在这种情况下,如何从系统架构的角度出发,构建灵活.易扩展的系统,快速应对需求的变化:同时,随着用户的增加,如何保证系统的可伸缩性.高可用性,