【转载】大数据分析的众包平台—Kaggle (如有侵权,请联系我)

原文地址:   http://www.china-cloud.com/yunhudong/yunzhuanlan/zhuanlanrenwu/chen_/2013/0118/17375.html

大数据分析的众包平台—Kaggle

时间:2013-01-18 09:51 来源:中云网 作者:陈弢 转发:20 评论:0

众包(Jeff Howe,2006)是一种在互联网蓬勃发展的背景下产生的一种创新的生产组织形式。在这样的商业模式下,企业利用网络将工作分配出去,通过让更合适的人 群参与其中来发现创意和解决技术问题。比较成功的众包例子有像wikipedia这样的知识贡献类平台,GitHub这样的IT类平台,也有我们要着重介 绍的大数据分析类的众包平台Kaggle。

Figure 1 Kaggle的工作方式。

Kaggle的工作方式如图中右上角的流程所示。假设一个互联网广告公司收集了大量的关于用户广告点击行为的数据,想从这些数据中发现用户点击的规律、模 式,希冀以此来优化广告投放、提高用户点击转化率。一种做法是,公司雇佣一个数据科学家团队来洞察数据,为决策提供支持。这种做法的成本可能比较高,小公 司难以承受。Kaggle提供了另外一种方式。公司可以将他们的数据、问题的描述、以及期望的指标整理后发布到Kaggle上,通过举办竞赛的方式让网上 的数据科学家参与解决。数据分析师们或独立、或组队参加比赛,利用自己的专业知识和数据分析工具得到优化模型。最后,这些结果经过原定指标的检验,被公布 到排行版上;最好的结果将获得竞赛的奖金(几百美元到几百万美元不等)。而公司也能最终拥有数据分析的结果、模型等知识产权。图中左表列出了Kaggle 上面一个问题的例子,这是关于Twitter对其用户的个性分析的案例。包含了训练集、测试集、示例代码和作为基准的随机森林模型。而右表则是排行版上前 六位的团队以及他们在loss这个指标上的表现。

Kaggle的流行是由两方面的因素决定的。首先,随着数据量的爆炸性增长,尤其是互联网企业掌握的数据越来越多,如何利用这些数据成为了决策者们所关心 的问题。大多数依靠互联网挣钱的企业技术门槛较低,竞争激励。像2010年兴起的团购,一时间中国大地上出现了5000多家类似的公司,大家有着同样的网 站模板,相似的业务,却没有任何差异化的东西。如何提高技术壁垒,脱颖而出,数据驱动(data-driven)成为了大家关注的焦点。商家们需要收集用 户的行为数据,分析不同用户群体的行为规律,从而为商品的定向投放,精准推荐提供有力支持。另一方面,数据科学家成为了21世纪最稀缺的资源。 Kaggle总裁兼首席科学家Jeremy Howard认为一个伟大的数据科学家应具备创新、坚韧、好奇、深厚技术这四项素质。具备数据收集、数据改写、可视化、机器学习、计算机编程等技术的数据 科学家使数据驱动决策并主导产品。根据McKinsey的预测,在未来6年,仅在美国本土就可能面临缺乏14万至19万具备深入分析数据能力人才的情况, 同时具备通过分析大数据并为企业做出有效决策的数据的管理人员和分析师也有150万人的缺口。如何充分利用现有的数据科学家的专业知识来帮助有需要的企业 实现数据驱动的业务支持,Kaggle正是基于这样的想法,建立起了一个联通领域和专业技能的桥梁。

众包方式的大数据分析绝不仅仅只有Kaggle一家,类似的还有CrowdAnalytixTunedIT。而最早的学术界的Kaggle可以认为是从1997年开始的由ACM组织的KDD CUP(知识发现和数据挖掘竞赛)。KDD每年一次,涉及的领域从生物、营销、安全、医学,一直到最近火热的用户行为分析和社交网络分析。比如,今年(KDD2012)的分析任务就是由腾讯微博提供,通过对微博的社交分析,期望预测出最有可能的关注(Follow)关系。

现在已经是“大数据”的时代,所有的人都预测在这个领域内将来会产生一批伟大的公司。目前,在Kaggle上吸引了将近六万的参与者,竞赛的内容也从单纯 的预测性分析拓展到所有关于数据的创意,比如如何实现工作职位网站上的数据可视化。可以说,聚集了如此多智慧和机会的大数据众包平台Kaggle一定会成 为这些伟大公司的一员,让我们拭目以待。

时间: 2024-10-13 01:08:31

【转载】大数据分析的众包平台—Kaggle (如有侵权,请联系我)的相关文章

大数据分析的众包平台—Kaggle

众包(Jeff Howe,2006)是一种在互联网蓬勃发展的背景下产生的一种创新的生产组织形式.在这样的商业模式下,企业利用网络将工作分配出去,通过让更合适的人群参与其中来发现创意和解决技术问题.比较成功的众包例子有像wikipedia这样的知识贡献类平台,GitHub这样的IT类平台,也有我们要着重介绍的大数据分析类的众包平台Kaggle. Figure 1 Kaggle的工作方式. Kaggle的工作方式如图中右上角的流程所示.假设一个互联网广告公司收集了大量的关于用户广告点击行为的数据,想

基于大数据分析的安全管理平台技术研究及应用

[引言]这篇文章原载于内刊,现发布于此.内容有所删减. Research and Application of Big Data Analysis Based Security Management Platform Last Modified By yepeng @ 2014-1-14 [内 容摘要]本文首先通过介绍大数据的起因,给出了大数据的定义和特征描述,并简要说明了当前大数据的研究概况.接下来,本文阐释了大数据分析技术,对大数据 在信息安全领域尤其是安全管理平台领域的应用做了深入分析,并

大数据竞赛平台——Kaggle 入门

大数据竞赛平台--Kaggle 入门篇 这篇文章适合那些刚接触Kaggle.想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文.本文分为两部分介绍Kaggle,第一部分简单介绍Kaggle,第二部分将展示解决一个竞赛项目的全过程.如有错误,请指正! 1.Kaggle简介 Kaggle是一个数据分析的竞赛平台,网址:https://www.kaggle.com/ 企业或者研究者可以将数据.问题描述.期望的指标发布到Kaggle上

基于Hadoop离线大数据分析平台项目实战

基于Hadoop离线大数据分析平台项目实战  课程学习入口:http://www.xuetuwuyou.com/course/184 课程出自学途无忧网:http://www.xuetuwuyou.com 课程简介: 某购物电商网站数据分析平台,分为收集数据.数据分析和数据展示三大层面.其中数据分析主要依据大数据Hadoop生态系统常用组件进行处理,此项目真实的展现了大数据在企业中实际应用. 课程内容 (1)文件收集框架 Flume ①Flume 设计架构.原理(三大组件) ②Flume 初步使

案例解读|江苏银行—智多星大数据分析云平台实践

2014年10月,江苏银行夏平董事长确立了利用大数据实现弯道超车的发展战略,将大数据应用提升到全行发展的战略层面.2015年上半年,江苏银行完成了大数据平台选型和建设,选择发布版Hadoop进行底层数据存储加工.接着,进行内外部数据整合. 三个阶段的完成,意味着大数据基础设施建设工作已完成,如果把大数据建设工作看做一颗大树,前两个阶段完成意味着树干和树枝已长成,接下来的大数据应用像树枝上的树叶一样,热点频出,精彩纷呈.业务的创新带来大量新增的大数据分析需求,传统的数据库工具和报表工具遭遇瓶颈.

使用Apache Kylin搭建企业级开源大数据分析平台

使用Apache Kylin搭建企业级开源大数据分析平台 转:http://www.thebigdata.cn/JieJueFangAn/30143.html 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kyligence的技术合伙人. Kylin是这两年在国内发展非常快的开源大数据项目.今天大会合作厂商中有超过一半的企业已经在使用或者正在试用Kylin,应主办方邀请,今天跟大家做一个关于如何使用Kylin构建开源大数据分析平台的分享. 这是我今天的议程

七牛大数据平台的演进与大数据分析实践--转

原文地址:http://www.infoq.com/cn/articles/qiniu-big-data-platform-evolution-and-analysis?utm_source=infoq&utm_medium=popular_widget&utm_campaign=popular_content_list&utm_content=homepage 七牛大数据平台的演进与大数据分析实践 (点击放大图像) 图 1 大数据生态体系 看着图 1 大家可能会感到熟悉,又或者会

如何打造高性能大数据分析平台

1.大数据是什么? 大数据是最近IT界最常用的术语之一.然而对大数据的定义也不尽相同,所有已知的论点例如结构化的和非结构化.大规模的数据等等都不够完整.大数据系统通常被认为具有数据的五个主要特征,通常称为数据的5 Vs.分别是大规模,多样性,高效性.准确性和价值性. 据Gartner称,大规模可以被定义为"在本(地)机数据采集和处理技术能力不足以为用户带来商业价值.当现有的技术能够针对性的进行改造后来处理这种规模的数据就可以说是一个成功的大数据解决方案. 这种大规模的数据没将不仅仅是来自于现有的

Impala:新一代开源大数据分析引擎--转载

原文地址:http://www.parallellabs.com/2013/08/25/impala-big-data-analytics/ 文 / 耿益锋 陈冠诚 大数据处理是云计算中非常重要的问题,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐.以Hadoop为基础,之后的HBase,Hive,Pig等系统如雨后春笋般的加入了Hadoop的生态系统中.今天我们就来谈谈Hadoop系统中的一个新成员 – Impala. I