数据挖掘启程经历

2014年初经过深思熟虑,确定方向数据挖掘,作为今后工作生涯的追随领域。

3月份开始看机器学习的课程,到了4月底,参加阿里巴巴的大数据竞赛,便把课程学习给落下了—— 一大遗憾。

比赛的成绩可想而知,由于知识储备不够,况且还是单干,只能说还行,从七千个队伍到前五百名内,再从三百名到一百多名,然后遇到瓶颈,挣扎了很长时间,没有进展,便放弃了。归要结底,还是实力不行。于是,沉下心来学习。

幸运的是,在阿里的交流会上认识了一些不同高校的高一级或几级的研究生和博士,于是在同一领域,有了不错的学习对象和伙伴。

比赛时用的算法:

机器学习的算法,最初比赛的大部分队伍包括我自已用的是LR,之后,随之着特征的增多,转向gbrt,随机森林。

有些队伍用的算法,是协同过滤,属于推荐系统的内容,这个算法曾经在亚巴逊获得了非常轰动的成功。

每个算法有各自的特点,同一个研究问题,可以有多种解决方案。

阿里的大数据竞赛:因为在学术界,数据和足够的内存是两大硬伤,所以阿里提供的这次机会是相当可赞的。今年是阿里第一次举办对外大数据竞赛,提供的数据是 天猫上 用户的访问行为, 需要预测下个月 , 哪些用户会购买哪些品牌。 第一赛季是几G数据,第二赛季就是几十G了,5.7条访问行为,其字段包括:用户id,品牌id,访问类型(点击,加入购物车,收藏,购买),日期;当然,为了保护隐私,这些id号都是做过映射的。

看似给出的信息量类型太少,但 内部赛冠军说过,这些信息足够让你分析非常多有用的信息,比如客户分类:性别,年龄,高价值会员等等,他问,有没有人 将映射后品牌id进行还原。   ~ 呵呵

比赛中,有近五千台机器供参赛选手们使用,每淘汰一批选手,系统就会升级一次。天池的内存,足够你用了。对于我个人,一张表往往有几千万条记录,甚至上亿,而且 我有几百张表。

大规模的计算资源是最让鄙人不舍的。还有一个月,比赛才结束,按照成绩,是可以留到比赛结束的前一天的。有点可惜,能力目前有限。

据消息 ,明年 阿里仍会有外部大数据竞赛,数据将会是气象数据,由中国气象局提供。

如此大规模的竞赛,参加选手之多,阿里算是第一位了。

数据挖掘启程经历

时间: 2024-11-06 04:46:24

数据挖掘启程经历的相关文章

数据分析师必备的基础知识

  古人云:"万变不离其宗",说明基本技术是相当重要.这里的术更多是(计算机.统计知识), 多年做数据分析.数据挖掘的经历来看.以及业界朋友的交流来看,这点大家深有感触的. 1.数据库查询-SQL 数据分析师在计算机的层面的技能要求较低,主要是会SQL,因为这里解决一个数据提取的问题.有机会可以去逛逛一些专业的数据论坛,学习一些SQL技巧.新的函数,对你工作效率的提高是很有帮助的. 2.统计知识与数据挖掘 你要掌握基础的.成熟的数据建模方法.数据挖掘方法.例如:多元统计:回归分析.因子

NLPIR语义智能平台支持大数据个性化学习

随着计算机技术的革新,互联网新媒体的快速发展,人们的生活已经进入高速信息时代.我们每天的生活都要产生大量数据,因此我们获取数据的速度和规模不断增长,大量数据不断的被存入存储介质中形成海量数据. 数据挖掘是从存放在数据库.数据仓库或者其他信息库中大量的不完全的有噪声的模糊的随机的数据中提取隐含在其中的人们事先未知.但潜在有用的信息和知识过程.数据挖掘需要经历数据收集.数据分析和数据可视化等三个必要阶段: (一)数据收集 数据收集是挖掘大数据巨大价值的第一步.个性化学习往往因为片段化不全面的数据信息

周末经历之小体会

又到了一周一总结的时候了,说实话,这周与课程有关的事情并没有做多少,可能是上周末出去放松了一下,心还没收回来吧.不过,旅行也算是一种学习吧,因为增加了自己的阅历与体验,接触到的新的环境,新的人,对我来说影响都蛮大的,就拿从武汉回来的经历来说吧1.千万不要在火车站买东西,因为流动性很大,所以不少店家借着这种特点,太高物价,卖假货,哎,被坑的好惨...长教训了!2.这个经历,才是我刻骨铭心的,在候车室等车的时候,我的手机没电了,就找了一个哥们接了一下充电宝.他很热情,就直接借给我了然后就和我聊了起来

阿里、腾讯、京东、微软,各家算法&数据挖掘岗位面经大起底!

阿里.腾讯.京东.微软,各家算法&数据挖掘岗位面经大起底! 2016-02-24 36大数据 36大数据 作者: 江少华 摘要: 从2015年8月到2015年10月,花了3个月时间找工作,先后通过内推参加了美团.阿里蚂蚁金服.京东.腾讯.今日头条.Growing IO.微软这7个公司的面试,同时参加了网易游戏.LinkedI In中国这2个公司的笔试,拿到比较优 … 从2015年8月到2015年10月,花了3个月时间找工作,先后通过内推参加了美团.阿里蚂蚁金服.京东.腾讯.今日头条.Growin

数据挖掘十大经典算法

一. C4.5  C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法.   C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足: 2) 在树构造过程中进行剪枝: 3) 能够完成对连续属性的离散化处理: 4) 能够对不完整数据进行处理. C4.5算法有如下优点:产生的分类规则易于理解,准确率较高.其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导

CIKM Competition数据挖掘竞赛夺冠算法陈运文

CIKM Competition数据挖掘竞赛夺冠算法陈运文 背景 CIKM Cup(或者称为CIKM Competition)是ACM CIKM举办的国际数据挖掘竞赛的名称.CIKM全称是International Conference on Information and Knowledge Management,属于信息检索和数据挖掘领域的国际著名学术会议,由ACM SIGIR分会(ACM Special Interest Group on Information Retrieval)主办.

蓝的成长记——追逐DBA(9):国庆渐去,追逐DBA,新规划,新启程

***********************************************声明***********************************************************************  原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明出处,否则追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/39860137 *******

2014 破旧立新,重新启程

一.祭奠 从2013年秋出来创业,一直比较坎坷.先发几张图片祭奠我们逝去的项目: 这个手游项目是我们第一个U3D项目,大概做了4个月.几经波折,终于在今年4月底找到投资.那为啥还祭奠呢,后面会说到.接下来说说我们的曲折. 二.变数 有个主美却离开去网易了. 那时候我感触很深.大家经历了半年没工资,自己垫钱生活,每天加班,赶项目.到了最后拉到投资,能开始拓展人员,能给自己发点生活费的时候,却有人要走.最后发现还是观念的问题,大家观念没统一,各有想法.因此做事也很难往一个方向使劲.当然并不能直接追究

文本数据挖掘 Matrix67: The Aha Moments

转自:http://www.matrix67.com/blog/archives/5044 互联网时代的社会语言学:基于SNS的文本数据挖掘 今年上半年,我在人人网实习了一段时间,期间得到了很多宝贵的数据,并做了一些还算有意义的事情,在这里和大家一块儿分享.感谢人人网提供的数据与工作环境,感谢赵继承博士.詹卫东老师的支持和建议.在这项工作中,我得到了很多与众人交流的机会,特别感谢 OpenParty . TEDxBeijing 提供的平台.本文已发表在了<程序员>杂志,分上下两部分刊于 201