KDD-CUP Proposal

From 鞠源

已有 1303 次阅读 2012-11-25 21:09 |系统分类:科研笔记|关键词:会议 领域 justify 知识

KDDCUP - Competition is a strong mover for Science and Engineering

ACM KDD是知识发现和数据挖掘领域的顶级会议,KDD CUP又是基于ACM KDD的世界级赛事。目的在于1. 探求从海量数据中挖掘出高层知识的最佳方法。2. 作为学术界和工业界沟通的桥梁(事实上KDD从97起,首先是由工业界如yahoo,美国国防部发起,参与并获奖的也是SAS,SAP等一些企业,后来学术界渐渐参与进来,比如lib-SVM 的发明者CJ Lin。 3. 促进知识发现和数据挖掘领域的进一步发展。

KDD-CUP 从97年起至今历经15届,每年的二月份在官方网站(http://www.kdd.org/kdd2012/kddcup.shtml)上给出题目,二月份之前都在call for proposal.阶段,下面一些统计指标统计

这是最终提交答案的参赛者的数量,从发起至今就不断有人参与,一般都是以团队的形式。数据集不断增大,而运行速度要求增加。对所运用的机器学习模型的要求也不断提高,下面是2000年之前用到的机器学习的算法。

传统的算法如boosting, Decision Tree  Nearest Neighbour , association rule(关联规则)等占大多数。事实上2003年起一些Social的数据逐渐进来(估计是Face book,Netfix等社交网站相继创立),社会网络,协同推荐等算法逐渐popular。这是后话。KDD-cup的工作量非常大,一般是成几个月得的在搞,一般人均所用时间达204个小时,最大人均所用时间为910小时,但付出的同时收获也很大。

KDD-CUP 97 -98 都和 CRM 客户关系管理有关,97年的题目是邮件准确得send给有需求的客户,数据集均由工业界一些企业或者机构提供。99年是美国国防部出给出的有效检测网络攻击的问题,即如何识别一些操作是属于内部正常使用行为还是来自外部入侵,这一年的Winner 是著名的SAS公司。

KDD-CUP 2000  采纳了Gazelle.com的题目,Gazelle.com是一家女性奢侈用品的网络零售商。数据信息由点击流信息和购买数据组成。Target有以下几点1 识别哪些用户会花很多钱买很多商品,2 识别重要的页面 3 挖掘访问者可能会关注的品牌。 其目的在于使网站更加个性化,并提高该网站的访问量来增加盈利。 Winner使用的好像是关联规则挖掘。 后来再访问这个网站会很让人有些失望,因为它已经堕落去卖一些旧货了。至少他没有很好得去利用这次竞赛的成果。

KDD Cup 2001 是一个生物学机器学习的问题。值得关注的是从这一年起,数据量(half a gigabyte when uncompressed)和参赛人数(A total of 136 groups participated )增加非常多

Task 1的获胜者Jie Cheng用的是贝叶斯网络学习分类器,Task 2 用的是Inductive Logic programming。 Task 3 用的是KNN算法。 可以看出传统的ML算法还是占主导地位,还是足够应付一些问题的。 KDD-CUP 2002年也是生物学领域的两个任务,一个是Document extraction from biological articles ,TASK 2 是基于基因删除实验的蛋白质分类问题。

KDD-CUP 2003  复杂网络的挖掘开始成为主题,1)the first Task是预测KDD2003会议举行前三个月,每篇paper会receive 多少citation; 2) Task 2 是要求参赛者构建一个只来源于LaTex的大规模文档集的citation graph. 3)最后一个Task是根据一些部分的下载日志去预测相关paper的popularity. (是一个开放性问题)。如上,这一年的topic非常有趣,复杂网络挖掘(社会网络,引文网络)被引进机器学习和数据挖掘的领域,开启了之后05-11年用ML算法去解决社会网络和协同推荐问题的热潮。这一年获奖者大多来自学术界。如NYU

KDD-CUP 2004 又是一个生物学预测问题。冠军是HKUST的杨强团队,他也是KDD-CUP 2012(BJ)的General Chair。

下面是2005-2010年的KDD-CUP 相关信息的统计

值得关注的是,随着KDD-CUP的影响力和难度质量的提高,一些获奖者会成为一些大公司的青睐对象,像05年HKUST的沈抖就被微软总部挖走,扬威也被山景城的Google挖过去了,再到后来11年中科院的项亮也加入了美国视频推荐网站hulu。07年是又是一个协同推荐的customer recommendation的TASK,出题者Netfix是美国一个租电影的社交网站。08年是西门子出题,题目是怎样从拍摄的医学图像中检测出乳腺癌,这也和Siemens公司最为盈利的Health Care市场相关(它是很多医疗检测仪器的提供商)。有意思的一点是07-09年,这三年的Winner都是IBM Research团队(其实这是由于当时IBM 研究院调集了一帮精兵强将去搞人工智能的watson问答系统,即是后来在jeopardy中战胜人类的watson机器人)。于是到了2010年,按照机器学习的思维,似乎可以预测获奖者很可能又是IBM, 所以chair board的专家一致决定这一年让IBM Research出题,这回总不可能参加了吧。(joking.....)。

10年是关于Student Performance prediction  in  E-learning,也是一个很有意思的topic,获奖者是著名的CJ Lin林志仁教授。有意思的是,这一年获奖的人数竟然一张纸都写不下,这是因为聪明且搞笑的林志仁教授把这个题目当做了他教授的一门课的课程作业!所以是一个班的同学集体参加的。。。。06年的题目很一般,但是用于training和测试 的data却出现严重的问题,最后发现前面一半的ID 都是正样本,后面一半都是负样本,所以后处理根据ID来会讨巧很多,所以本来的竞赛题变得毫无技术含量。导致委员会最后很不情愿颁奖并给出奖金,但是这连同后续也有几次的纰漏使后处理往往能提高很多performance,却揭示了机器学习中存在的一个不容忽视的问题,即数据集不够严密不够完美。所以后来有一年获得SIGKDD最佳论文奖的paper就是阐述的有关data leakage 的问题。

2011年 KDD-CUP 的题目是有关音乐推荐的主题。是一个非常经典的社会网络和协同过滤的推荐问题。获奖者项亮博士对他的解决方案在ppt中做了介绍,他做了大量工作,大概用了14种模型,包括initial BN,KNN,jaccard index,再到深化的问题,创新的解决了两个问题1)Item-based 协同推荐中点击时间的一个影响temporal influence  2)规避社会化推荐中的哈利波特效应,所谓哈利波特效应,源于amazon做推荐系统研究,发现几乎每一个用户都会和哈利波特这本书建立很大相关度,而他认为推荐的意义在于使人们发现那条长尾,而不是已有的热点,如何消除或者弱化热点的影响,他采用了相关的方法见PDF。

另外两篇文章是Learning Online Discussion Structures by Conditional Random Fields(ChengXiang Zhai, Jiawei Han)是SIGIR 2011年的paper,几乎UIUC巨牛逼的教授都一齐上阵了,含金量也算可以。另外一篇Mining Heterogeneous Information Networks也可以读下.

时间: 2024-10-19 11:58:55

KDD-CUP Proposal的相关文章

KDD Cup 99网络入侵检测数据的分析

看论文 该数据集是从一个模拟的美国空军局域网上采集来的 9 个星期的网络连接数据, 分成具有标识的训练数据和未加标识的测试数据.测试数据和训练数据有着不同的概率分布, 测试数据包含了一些未出现在训练数据中的攻击类型, 这使得入侵检测更具有现实性. 在训练集中包含了1种正常的标识类型 normal 和 22种训练攻击类型. 1.KDDCup99入侵检测实验数据的标识类型 标识类型 含义 具体分类标识 Normal 正常记录 normal DOS 拒绝服务攻击 back, land, neptune

第二次毕业设计任务书(KDD数据研究)

1.周计划表 时间 计划任务 完成情况 3.9-3.16 初步分析了KDD数据,并用程序实现初步处理 50% 3.17-3.24 了解matlab下的神经网络编程,尝试使用工具包完成简单的功能实现 3.24-3.31 对数据进行再次分析处理,根据输出结果筛选出有用的属性值,并对matlab做架构思考   2.本周完成情况 研究KDD数据: 参考网址KDD CUP 99网页,了解41个属性值,并下载源文件决定使用其中的10%样本数据37万条数据作为训练数据(后期可能会思考删除某些属性和对文件条目进

大文件读写

import java.io.BufferedInputStream; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileWriter; import java.io.IOException; import java.io.InputStreamReader; public class FileSplit { public static vo

LinkedIn高级分析师王益:大数据时代的理想主义和现实主义(图灵访谈)

转自:http://www.ituring.com.cn/article/75445 王益,LinkedIn高级分析师.他曾在腾讯担任广告算法和策略的技术总监,在此期间他发明了并行机器学习系统“孔雀”,它可以从数十亿的用户行为或文本数据中学习到上百万的潜在主题,该系统被应用在腾讯可计算广告业务中.在此之前,他在Google担任软件工程师,并开发了一个分布式机器学习工具,这个工具让他获得了2008年的“Google APAC 创新奖”.王益曾在清华大学和香港城市大学学习,并取得了清华大学机器学习和

CIKM Competition数据挖掘竞赛夺冠算法陈运文

CIKM Competition数据挖掘竞赛夺冠算法陈运文 背景 CIKM Cup(或者称为CIKM Competition)是ACM CIKM举办的国际数据挖掘竞赛的名称.CIKM全称是International Conference on Information and Knowledge Management,属于信息检索和数据挖掘领域的国际著名学术会议,由ACM SIGIR分会(ACM Special Interest Group on Information Retrieval)主办.

Datasets for Data Mining and Data Science

From kdnuggets Data repositories AWS (Amazon Web Services) Public Data Sets, provides a centralized repository of public data sets that can be seamlessly integrated into AWS cloud-based applications. BigML big list of public data sources. Bioassay da

【转】11位机器学习大牛最爱算法全解

转自:http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2651987052&idx=3&sn=b6e756afd2186700d01e2dc705d37294&chksm=f121689dc656e18bef9dbd549830d5f652568f00248d9fad6628039e9d7a6030de4f2284373c&scene=25#wechat_redirect 1.Yann LeCun,Faceb

【Matrix Factorization】林轩田机器学习技法

在NNet这个系列中讲了Matrix Factorization感觉上怪怪的,但是听完第一小节课程就明白了. 林首先介绍了机器学习里面比较困难的一种问题:categorical features 这种问题的特征就是一些ID编号这类的,不是numerical的. 如果要处理这种情况,需要encoding from categorical to numerical 最常用的一种encoding方法就是binary vector encoding(也是实习工作中用过的路子),将binary vecto

6 Useful Databases to Dig for Data (and 100 more)

6 Useful Databases to Dig for Data (and 100 more) You already know that data is the bread and butter of reports and presentations. Data makes your presentation solid. It backs up the ideas you are selling. It gives people reasons to listen to you. Ho