【知乎转载】机器学习、数据挖掘 如何进阶成为大神?

著作权归作者所有。

商业转载请联系作者获得授权,非商业转载请注明出处。

作者:淩清风

链接:https://www.zhihu.com/question/37256015/answer/85198013

来源:知乎

我不是大神。

背景:某二本院校大四学生;

说一说自己的学习经历吧。不知道能不能对题主有所帮助。

跟大多数人一样,是从Andrew
Ng大神的coursera课程接触到机器学习。在学那门课的时候也就老老实实的看完,看到最后,听到Andrew说看完这些课程的人基本上已经超过硅谷半数的工程师了(具体不记得了,大意是说看完就屌屌的了),前一秒,我是信的,后一秒,我自问我到底会了啥,无非就知道些机器学习的名词,算法的基本思路。

然后我该干嘛?

找本书来看看啊,找另外一个公开课看看啊,给脑子里那个模型增加数据量啊。

《统计学习方法》+台大的公开课《机器学习基石》和《机器学习技法》这个组合简直杠杠,我敢拍着胸脯说我看了4遍,第1遍是照着课程进度配合书籍一起学习,第2遍是课程完结后的复习,第3、4遍在我参加kaggle比赛的时候进行知识的回顾。

这个组合里面的书籍可以换成该课程对应的教材,赞数较多了我再贴个网盘下载地址吧(这过年过节的,要个赞不过分吧哈哈哈)

看完书籍和公开课,我发现,数学很重要!数学很重要!数学很重要!在看Ng的课时倒还没有这个感觉,看台大课程的时候明显感觉到数学知识的比重陡然增加。然后就看了MIT的线性代数公开课和微积分,这才解决了公开课里面的部分疑惑。

理论的知识大概了解了,然后我该干嘛?

python大法好啊!什么C++,java啥的真复杂,直接做个调包侠多么愉快啊。二话不说,直接就学,Python 2.7教程,感谢廖叔叔。接下来就是热门的机器学习算法包scikit-learn:
machine learning in Python
。什么,算法输入要求是pandas data frame ,来一本
利用Python进行数据分析 (豆瓣)。 至此,已经学会基本的数据预处理了,这些无论是书籍还是公开课都直接略过不会教的。

在这里要隆重推荐 周志华老师的 机器学习 (豆瓣) ,目前看过的最好的中文的机器学习教材,涵盖了很多教材所没有的 数据预处理,特征工程。这书,得供起来。

会调用算法了,然后我该干嘛?

机器学习?数据挖掘?这两者到底界限在哪里?要不就都看看吧,有了这个想法后,我找了cousera上UIUC 的data mining 专项课程Specialization来看,里面有两门课是大名鼎鼎的韩家炜教授所教的。至此,我知道了pattern
mining,搜索引擎的基本框架和原理,文本挖掘和自然语言处理的一点知识,聚类分析的大概。这些课程中都会夹杂着之前所学的机器学习算法。

每节课课后推荐的延伸阅读文章和书籍非常值得去看一看!

了解了一些应用,然后我该干嘛?

玩啊!当然是好好玩机器学习/数据挖掘比赛啊,Kaggle: The Home of Data Science,我把101,playground这两个级别的比赛刷了一遍,然后鼓足勇气参加了一个有奖金的比赛!最后排名状况是在1800多个队伍排300多名。

一开始不知道怎么去做一个kaggle比赛的时候,我照着 https://www.dataquest.io/section/kaggle-competitions 的教程过了一遍,大概就知道整个流程。

偶然一次,碰到数据量特别大的比赛,数据量上G,套了一个模型上去后,直接memory error。这让我知道了大数据处理平台 Apache Spark?的好用之处,也再一次证明了,学习python的好处
Welcome to Spark Python API Docs!。我在windows 10的系统上尝试着跑一个单机版的spark来玩玩,配置过程一直出错,巨麻烦。这个时候我感受到了linux的友好!(没有黑windows的意思)也因为这样,顺便学习了linux操作系统。推荐
鳥哥的 Linux 私房菜 -- 鳥哥的 Linux 私房菜 首頁

会玩了,然后我该干嘛?

找工作啊!我在拉勾网、100offer、哪上班和实习僧这些招聘网站找数据挖掘/机器学习的岗位,把招聘要求里面的共同需求点给标记出来。

  • 常见机器学习算法
  • 数据库
  • java、c++、python、R
  • linux操作系统
  • 数据结构与算法

在知道自己的不足之处后,自然就一直在填补这些简历上面的空缺。

当然我觉得自己在机器学习算法方面还有很多疑惑和不了解的地方,正准备去研读下经典的PRML。

其实说了这么多,无非是想说,我是在一次次的需求和兴趣的驱动下去学习的,题主不妨仔细地思考下自己的需求,从机器学习的应用方面去找找灵感,也许会是不错的选择。

然而我说了这么多,我学了这么些东西,我还是找不到实习!找不到实习!找不到实习!投了简历倒是给我个反馈啊喂!我容易吗我!!

____________________________________________________________________________

台大《机器学习基石》+《机器学习技法》 配套书籍

链接: http://pan.baidu.com/s/1dEkDfNz

密码: dnrh

时间: 2024-12-24 03:58:51

【知乎转载】机器学习、数据挖掘 如何进阶成为大神?的相关文章

常见的机器学习&数据挖掘知识点

常见的机器学习&数据挖掘知识点 转载请说明出处 Basis(基础): MSE(Mean Squared Error, 均方误差) RMSE(Root Mean Squared Error, 均方根误差) RRSE(Root Relative Squared Error, 相对平方根误差) MAE(Mean Absolute Error, 平均绝对误差) RAE(Root Absolute Error, 平均绝对误差平方根) LSM(Least Mean Squared, 最小均方) LSM(Le

Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱(转)

原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘 曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python.这些年来,接触和使用了很多Python工具包,特别是在文本处理,科学计算,机器学习和数据挖掘领域,有很多很多

[resource-]Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱

reference: http://www.52nlp.cn/python-%e7%bd%91%e9%a1%b5%e7%88%ac%e8%99%ab-%e6%96%87%e6%9c%ac%e5%a4%84%e7%90%86-%e7%a7%91%e5%ad%a6%e8%ae%a1%e7%ae%97-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0-%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98 一.Python网页爬虫工具集 一个真实的项目,一定是

机器学习与数据挖掘中的十大经典算法

背景: top10算法的前期背景是吴教授在香港做了一个关于数据挖掘top10挑战的一个报告,会后有一名内地的教授提出了一个类似的想法.吴教授觉得非常好,开始着手解决这个事情.找了一系列的大牛(都是数据挖掘的大牛),都觉得想法很好,但是都不愿自己干.原因估计有一下几种:1.确实很忙2.得罪人3.一系列工作很繁琐等等.最后和明尼苏达大学的Vipin Kumar教授一起把这件事情承担下来.先是请数据挖掘领域获过kdd和icdm大奖的十四个牛人提名候选,其中一人因为确实很忙,正从ibm转行到微软,吴教授

【基础】常用的机器学习&数据挖掘知识点

Basis(基础): MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE(MaximumLikelihood Estimation最大似然估计),QP(Quadratic Programming 二次规划), CP(Conditional Probability条件概率),JP(Joint Probability 联合概率),MP(Marginal Probabili

机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)

http://www.cnblogs.com/tornadomeet/p/3395593.html 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大.

【基础】常用的机器学习&数据挖掘知识点

转自http://www.36dsj.com/archives/20135 Basis(基础): MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE(MaximumLikelihood Estimation最大似然估计),QP(Quadratic Programming 二次规划), CP(Conditional Probability条件概率),JP(Joint P

【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱

好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88%AC%E8%99%AB-%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86-%E7%A7%91%E5%AD%A6%E8%AE%A1%E7%AE%97-%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98 曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工

[转载]机器学习&深度学习经典资料汇总,全到让人震惊

自学成才秘籍!机器学习&深度学习经典资料汇总 转自:中国大数据: http://www.thebigdata.cn/JiShuBoKe/13299.html [日期:2015-01-27] 来源:亚马逊  作者: [字体:大 中 小] 小编都深深的震惊了,到底是谁那么好整理了那么多干货性的书籍.小编对此人表示崇高的敬意,小编不是文章的生产者,只是文章的搬运工. <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感