机器学习建议(转)

机器学习说简单就简单,说难就难,但如果一个人不够聪明的话,他大概很难知道机器学习哪里难。基本上要学习机器学习,先修课程是algebra, calculus, probability theory, linear regression。这几门科学好了再学Machine learning是事半功倍的。此外近代数学的东西也要懂, functional analysis啥的。其实不懂也行,只是现在文献总是喜欢引用里面的概念,懂一些读起来方便。(我就很讨厌manifold learning这个名字,把许多人都吓跑了)real analysis最好用心学,对序列或函数的收敛性的理解很能帮助你了解这些模型的精髓。Optimization theory (ref. Convex optimization by Boyd)也是重中之重,在前面几门课学好并有一定python基础的时候可以仔细读一读。

其实机器学习需要看的书不多,必读的是elements of statistical learning。这本书涵盖范围很广,且深入浅出,习题也有一定难度,适合自学。你看过这本之后就知道其他什么书可以看什么书不需要看了。

再下来就是练习,这个是重中之重。我觉得做kaggle的比赛最有效。可以仿照别人写写code,也可以自己想想办法,但最主要的是要能够迅速完成编程并给出结果。我见过许多人光讨论就可以几天,但真正动起手来就萎了。

最后就是读source code并自己实现几个model from scratch。这个比较难,但是确是最锻炼人的。具体语言应该是越基础越好,比如C/C++什么的。等你自己写完了一两个model,再去用别人的package就会觉得得心应手许多了。我真心觉得这个比上coursera那些课强多了。上coursera最大的缺点就是容易变得似懂非懂纸上谈兵。我自己program过ensemble trees(C++)和deep learning solver(Python),受益颇多。至于读source code,我觉得libsvm写得很好啊,不过算法对大一大二新生是难了点。此外,基于python的工具包scikit-learn的sourcecode很好读,建议大家多看看。

我看回答中有提到Matlab,我觉的matlab处理字符很麻烦,现在很多dataset都需要处理字符,所以并不是好的选择。

补充一点就是要学会发散思维,学会如何从data中找feature。关于这个的教程很缺,需要大量练习及一些天赋。

说实话machine learning虽然门槛不高,但真心是聪明人的游戏。

我要翻译一把quora了,再加点我的理解,我相信会是一个好答案,链接我都放到一起了,没插入到正文中,要求其实比较高了,我觉得我自己都差很远很远~~~我尽量持续更新翻译质量以及自己理解

1. Python/C++/R/Java - you will probably want to learn all of these languages at some point if you want a job in machine-learning. Python‘s Numpy and Scipy libraries [2] are awesome because they have similar functionality to MATLAB, but can be easily integrated into a web service and also used in Hadoop (see below). C++ will be needed to speed code up. R [3] is great for statistics and plots, and Hadoop [4] is written in Java, so you may need to implement mappers and reducers in Java (although you could use a scripting language via Hadoop streaming [5])

首先,你要熟悉这四种语言。Python因为开源的库比较多,可以看看Numpy和Scipy这两个库,这两个都可以很好的融入网站开发以及Hadoop。C++可以让你的代码跑的更快,R则是一个很好地统计工具。而你想很好地使用Hadoop你也必须懂得java,以及如何实现map reduce

2. Probability and Statistics: A good portion of learning algorithms are based on this theory. Naive Bayes [6], Gaussian Mixture Models [7], Hidden Markov Models [8], to name a few. You need to have a firm understanding of Probability and Stats to understand these models. Go nuts and study measure theory [9]. Use statistics as an model evaluation metric: confusion matrices, receiver-operator curves, p-values, etc.

我推荐统计学习方法 李航写的,这算的上我mentor的mentor了。理解一些概率的理论,比如贝叶斯,SVM,CRF,HMM,决策树,AdaBoost,逻辑斯蒂回归,然后再稍微看看怎么做evaluation 比如P R F。也可以再看看假设检验的一些东西。

3. Applied Math + Algorithms: For discriminate models like SVMs [10], you need to have a firm understanding of algorithm theory. Even though you will probably never need to implement an SVM from scratch, it helps to understand how the algorithm works. You will need to understand subjects like convex optimization [11], gradient decent [12], quadratic programming [13], lagrange [14], partial differential equations [15], etc. Get used to looking at summations [16].

机器学习毕竟是需要极强极强数学基础的。我希望开始可以深入的了解一些算法的本质,SVM是个很好的下手点。可以从此入手,看看拉格朗日,凸优化都是些什么

4. Distributed Computing: Most machine learning jobs require working with large data sets these days (see Data Science) [17]. You cannot process this data on a single machine, you will have to distribute it across an entire cluster. Projects like Apache Hadoop [4] and cloud services like Amazon‘s EC2 [18] makes this very easy and cost-effective. Although Hadoop abstracts away a lot of the hard-core, distributed computing problems, you still need to have a firm understanding of map-reduce [22], distribute-file systems [19], etc. You will most likely want to check out Apache Mahout [20] and Apache Whirr [21].

熟悉分布计算,机器学习当今必须是多台机器跑大数据,要不然没啥意义。请熟悉Hadoop,这对找工作有很大很大的意义。百度等公司都需要hadoop基础。

5. Expertise in Unix Tools: Unless you are very fortunate, you are going to need to modify the format of your data sets so they can be loaded into R,Hadoop,HBase [23],etc. You can use a scripting language like python (using re) to do this but the best approach is probably just master all of the awesome unix tools that were designed for this: cat [24], grep [25], find [26], awk [27], sed [28], sort [29], cut [30], tr [31], and many more. Since all of the processing will most likely be on linux-based machine (Hadoop doesnt run on Window I believe), you will have access to these tools. You should learn to love them and use them as much as possible. They certainly have made my life a lot easier. A great example can be found here [1].

熟悉Unix的Tool以及命令。百度等公司都是依靠Linux工作的,可能现在依靠Windows的Service公司已经比较少了。所以怎么也要熟悉Unix操作系统的这些指令吧。我记得有个百度的面试题就是问文件复制的事情。

6. Become familiar with the Hadoop sub-projects: HBase, Zookeeper [32], Hive [33], Mahout, etc. These projects can help you store/access your data, and they scale.

机器学习终究和大数据息息相关,所以Hadoop的子项目要关注,比如HBase Zookeeper Hive等等

7. Learn about advanced signal processing techniques: feature extraction is one of the most important parts of machine-learning. If your features suck, no matter which algorithm you choose, your going to see horrible performance. Depending on the type of problem you are trying to solve, you may be able to utilize really cool advance signal processing algorithms like: wavelets [42], shearlets [43], curvelets [44], contourlets [45], bandlets [46]. Learn about time-frequency analysis [47], and try to apply it to your problems. If you have not read about Fourier Analysis[48] and Convolution[49], you will need to learn about this stuff too. The ladder is signal processing 101 stuff though.

这里主要是在讲特征的提取问题。无论是分类(classification)还是回归(regression)问题,都要解决特征选择和抽取(extraction)的问题。他给出了一些基础的特征抽取的工具如小波等,同时说需要掌握傅里叶分析和卷积等等。这部分我不大了解,大概就是说信号处理你要懂,比如傅里叶这些。。。

Finally, practice and read as much as you can. In your free time, read papers like Google Map-Reduce [34], Google File System [35], Google Big Table [36], The Unreasonable Effectiveness of Data [37],etc There are great free machine learning books online and you should read those also. [38][39][40]. Here is an awesome course I found and re-posted on github [41]. Instead of using open source packages, code up your own, and compare the results. If you can code an SVM from scratch, you will understand the concept of support vectors, gamma, cost, hyperplanes, etc. It‘s easy to just load some data up and start training, the hard part is making sense of it all.

总之机器学习如果想要入门分为两方面:
一方面是去看算法,需要极强的数理基础(真的是极强的),从SVM入手,一点点理解。
另一方面是学工具,比如分布式的一些工具以及Unix~

Good luck.
祝好

[1] http://radar.oreilly.com/2011/04...

[2] NumPy — Numpy

[3] The R Project for Statistical Computing

[4] Welcome to Apache™ Hadoop®!

[5] http://hadoop.apache.org/common/...

[6] http://en.wikipedia.org/wiki/Nai...

[7] http://en.wikipedia.org/wiki/Mix...

[8] http://en.wikipedia.org/wiki/Hid...

[9] http://en.wikipedia.org/wiki/Mea...

[10] http://en.wikipedia.org/wiki/Sup...

[11] http://en.wikipedia.org/wiki/Con...

[12] http://en.wikipedia.org/wiki/Gra...

[13] http://en.wikipedia.org/wiki/Qua...

[14] http://en.wikipedia.org/wiki/Lag...

[15] http://en.wikipedia.org/wiki/Par...

[16] http://en.wikipedia.org/wiki/Sum...

[17] http://radar.oreilly.com/2010/06...

[18] AWS | Amazon Elastic Compute Cloud (EC2)

[19] http://en.wikipedia.org/wiki/Goo...

[20] Apache Mahout: Scalable machine learning and data mining

[21] http://incubator.apache.org/whirr/

[22] http://en.wikipedia.org/wiki/Map...

[23] HBase - Apache HBase? Home

[24] http://en.wikipedia.org/wiki/Cat...

[25] grep

[26] http://en.wikipedia.org/wiki/Find

[27] AWK

[28] sed

[29] http://en.wikipedia.org/wiki/Sor...

[30] http://en.wikipedia.org/wiki/Cut...

[31] http://en.wikipedia.org/wiki/Tr_...

[32] Apache ZooKeeper

[33] Apache Hive TM

[34] http://static.googleusercontent....

[35]http://static.googleusercontent....

[36]http://static.googleusercontent....

[37]http://static.googleusercontent....

[38] http://www.ics.uci.edu/~welling/...

[39] http://www.stanford.edu/~hastie/...

[40] http://infolab.stanford.edu/~ull...

[41] https://github.com/josephmisiti/...

[42] http://en.wikipedia.org/wiki/Wav...

[43] http://www.shearlet.uni-osnabrue...

[44] http://math.mit.edu/icg/papers/F...

[45] http://www.ifp.illinois.edu/~min...

[46] http://www.cmap.polytechnique.fr...

[47 ]http://en.wikipedia.org/wiki/Tim...

[48] http://en.wikipedia.org/wiki/Fou...

[49 ]http://en.wikipedia.org/wiki/Con...

最近在学teradata的aster数据挖掘工具,果然商业的框架跟hadoop的易学性易用性可拓展性都有天壤之别啊。建议有兴趣的同学自查资料,软件贵的惊人,但是对于自身维护团队水平一般的企业还是值得买的

-----------

不邀自来,结合我现在的工作以及当年机器学习的经验来讲一下自己的一些感受。
首先从机器学习的全流程说起。
输入:机器学习按输入数据分可以分结构化数据(表),半结构化数据(文本,日志等),非结构化数据(图片,录像),后两者对应的分支中比较出名分别是文本挖掘和图像挖掘,其实就是通过提取特征的方式 把半结构化数据 非结构化数据转化为结构化数据,然后进行机器学习。
按输入数据是否预测状态分,可以分为有监督学习数据及无监督学习数据,直接决定后续模型是使用分类模型还是聚类模型。
同时如果数据量到达了T级,就要考虑时候hadoop框架了,这里要说明的是,hadoop框架只是解决大数据处理效率瓶颈的工具,除非你志向是做架构师,不然不用深究,掌握hadoop家族的sql处理工具hive和机器学习工具mahout就可以了,需要掌握java和sql,这是基础。
下一步,数据清洗和数据降维,在数据清洗方面不是学术界研究的重点,清洗方法有很多,主要通过描述性统计量填补缺失值和极端值,数据降维方面有较多比较出名的算法,如主成分分析,lasso,LDA线性判别分析,变量聚类等,数据降维是重点,因为维度过大容易产生维度灾难和过度拟合问题。
然后是数据分区(有监督学习才需要做),分成训练集,验证集,测试集,分别用于训练模型,模型内修正,多模型效果对比用。不展开讨论。
接着建模,分为分类算法,聚类算法,规则关联算法,分类算法是大头,建议分别拜读支持向量机,概率图模型,神经网络(虽然我不喜欢但是google的深度学习就是用的神经网络),决策树(C4.5),逻辑回归(吐槽:线性回归什么的看不看得看个人水平),混合高斯模型等,聚类算法有KNN,LDA潜在迪力克雷分析(做文本挖掘效果一流),聚类算法研究不多,大多机器学习算法都是基于有监督学习的,即分类算法。规则关联算法有最简单的规则关联,路径关联分析,及协同过滤(推荐系统首选,输入数据量太大数据太稀疏跑数效率很低一般需要hadoop支持),模型是机器学习的核心,还有一些优化模型,如EM模型等,建议阅读增加知识广度,要求学习人员要懂以下课程:概率论,高数,线性优化,线性代数还有英文,也可以边看论文边学。书籍的话推荐数据挖掘十大算法作为入门索引,然后根据每章节的参考文献找原文阅读,记得把公式推导一遍。
结果评估:本来不应该是重点,但是从个人学习和工作经历发现,有很多人不是很会看模型结果,甚至包括一些专业人士。所以如果有志做机器学习的千万要学会看结果,不然就丢人丢大了。
最直接的两个指标准确度percision和召回度recall,分别描述模型的精度和泛化性的,模型结果应在两者取得均衡。最小平方误差也是描述准确度的,算法不一样,大家更喜欢用这个评估模型精度。还有一些K-S值,基尼值,ROC值也是描述准确度和拟合度的,不同的软件会使用不同的指标,注意一下。还有就是提升度,事件捕获率这些就是描述分类预测下前百分之几数据的预测准确性情况的,不展开讨论。最直接的学法就是认真读论文的实验部分,看看它的指标评价量。
最后是工具和语言,按现在数据挖掘与机器学习的趋势,必须掌握java,python,原因是hadoop是处理大数据的框架,已成趋势,hadoop是java写的,挖掘工具mahout是java写的。python的好处在于底层基于C,语法简单,效率高,而且有很多开源的算法可以直接用,支持mapreduce。可以选择掌握R,同python,但是R效率木有python高,如果是针对商业分析建议学习SAS,因为它集成了一套专业的数据可视化及数据分析方案,大大方便了数据展示功能,这是作为商业分析所必须的。
最后补充一点,很多做数据挖掘和机器学习的人最后都走火入魔执着技术忽略了业务的重要性,忽略了模型可解释性的重要性,埋头苦干做出业务人员不能理解的黑箱模型,无法说服业务使用,最终沦为鸡肋的存在,所以在学习过程中要时刻设想技术适应的业务场景,在算法效果接近时选择高可解释性算法,做好结果的图形化展示,让业务理解,这才是王道。
补充,andrew ng的公开课不错,但还是建议先看论文。

这两天看到李航老师的《统计学习方法》,感觉写的非常好,适合入门,机器学习的基本概念都有,但是不太深入,中文书写,所有专业名词给出英文翻译。适合给初学者建立概念,可以系统的了解机器学习。

原答案:
强烈推荐这个UFLDL教程 - Ufldl。这是Andrew Ng写的关于非监督特征学习与深度学习的教程,关键是有一批无私且专业的网友,将其翻译成中文,并有中英文对照,与Andrew Ng商量后贴在了原网址上。非常感谢这些人啊。
对于一个初学者,如果单纯从英文教材(视频)入手的话,会比较吃力,很多概念都没建立起来,很多术语都没有掌握,而这个教程设计机器学习很多的基本概念,并附有matlab习题,通过循序渐进的练习,可以更快掌握基本概念。
另外这个的好处是不像一般教材,面面俱到,很多追究的太深,不利于初学者建立概念!有了这个的基础之后,再去看相关著作或者论文,肯定得心应手。

台大林轩田的《机器学习基石》和《机器学习技法》公开课,很适合入门,算法基本都是从function fitting和最优化的角度来讲,很少涉及统计,作业的理论题有一定难度。

时间: 2024-09-29 10:14:44

机器学习建议(转)的相关文章

机器学习问题汇总

1.什么是分类问题,什么是回归问题?区别在哪里?有没有联系? 分类问题:是对输入数据求一个具体的值,例如简单的二分类,只存在两种情况,要么在参考直线的左边,要么在参考直线的右边,根据外表特征预测一个人是男还是女. 回归问题:是对输入数据求一个逼近真实结果的几率,比如预测高考结果能上清华北大的几率. 2.线性回归,逻辑斯蒂回归,拟合函数,损失函数,梯度下降,学习率,正则化,Sigmoid函数之间的联系? 参考: 梯度下降法解线性回归 梯度下降法解逻辑斯蒂回归 - eric.xing - 博客园 应

Andrew Ng机器学习课程笔记(五)之应用机器学习的建议

Andrew Ng机器学习课程笔记(五)之 应用机器学习的建议 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7368472.html 前言 学习了Andrew Ng课程,开始写了一些笔记,现在写完第5章了,先把这5章的内容放在博客中,后面的内容会陆续更新! 这篇博客主要记录了Andrew Ng课程第五章应用机器学习的建议,主要介绍了在测试新数据出现较大误差该怎么处理,这期间讲到了数据集的分类,偏差,方差,学习曲线等概念,帮

斯坦福机器学习视频笔记 Week6 关于机器学习的建议 Advice for Applying Machine Learning

我们将学习如何系统地提升机器学习算法,告诉你学习算法何时做得不好,并描述如何'调试'你的学习算法和提高其性能的"最佳实践".要优化机器学习算法,需要先了解可以在哪里做最大的改进. 我们将讨论如何理解具有多个部分的机器学习系统的性能,以及如何处理偏斜数据. Evaluating a Hypothesis 设想当你训练的模型对预测数据有很大偏差的时候,接下来你会选择怎么做? 这个需要花时间去实现,但是对你的帮助也会很大,使你不盲目的做一些决定来提升算法,而是直观地看出哪些是对提升算法是有效

机器学习很枯燥,不想继续学了怎么办?或许,这些建议值得一看

本文介绍的是我在机器学习方面的 实际经历,想以此给大家提供些建议与思路,供各位参考. 希望通过一些途径,来提高机器学习的兴趣: (1)参与打卡活动:45天机器学习实战 (2)加入专门的微信群 (3)建立机器学习的Github项目仓库 1 书籍阅读 过去一个月时间里,我主要在看<机器学习实战>(Machine Learning in Action)这本书,作者为 Peter Harrington. 在开始阅读这本书之前,做了一个简单的阅读计划,预计花 35天 左右的时间,自己看一遍这本书,比较有

机器学习、深度学习的理论与实战入门建议整理

引言 拿到这份文档时想必你的脑海中一直萦绕着这么一个问题,"机器学习/深度学习要怎么学呢?(怎么入门,又怎么进一步掌握?)".关于这个问题其实并没有一个标准答案,有的人可能适合自底向上的学,也就是先从理论和数学开始,然后是算法实现,最后再通过一些项目去解决生活中的实际问题:有的人则可能适合自顶向下的学,也就是在弄清楚什么是机器学习及为什么学机器学习后,先确定一个系统性的用机器学习来解决实际问题的程序,然后找到一个合适的工具,接着再在各种数据集上做练习以不断加强自己的实践能力与巩固对算法

应用机器学习的一些建议(1)---Deciding what to try next

在设计机器学习系统时,一些建议与指导,让我们能明白怎么选择一条最合适,最正确的道路. 当我们要开发或者要改进一个机器学习系统时,我们应该接下来做些什么? try smaller sets of features--是为了防止overfitting. 当你发现你的预测方法不能成功预测时,接下来你该尝试些什么方法,如上图所示,你可以尝试这些方法.但是我们选取这些方法的依据是什么呢?很多人是随意的选取一个尝试,然后花费很多时间来做这件事情,但是接下来却发现这个尝试并不管用.我们会有一些方法(机器学习诊

斯坦福第十课:应用机器学习的建议(Advice for Applying Machine Learning)

10.1  决定下一步做什么 10.2  评估一个假设 10.3  模型选择和交叉验证集 10.4  诊断偏差和方差 10.5  归一化和偏差/方差 10.6  学习曲线 10.7  决定下一步做什么 10.1  决定下一步做什么 到目前为止,我们已经介绍了许多不同的学习算法,如果你一直跟着这些视频的进度学习,你会发现自己已经不知不觉地成为一个了解许多先进机器学习技术的专家了. 然而,在懂机器学习的人当中依然存在着很大的差距,一部分人确实掌握了怎样高效有力地运用这些学习算法.而另一些人他们可能对

机器学习公开课笔记(6):应用机器学习的建议

应用机器学习的建议 1. 评估学习算法 在实际中应用学习算法时,如何评估一个学习算法的好坏?进一步地,如果学习的算法的效果不太好,如何改进学习算法?例如,对于一个简单的线性拟合模型,改进算法效果的策略包括: 采用更多的训练实例训练模型 采用更小的特征集合 增加额外的特征 尝试高次项拟合($x_1^2$, $x_2^2$, $x_3^3$, $\ldots$) 增加惩罚项系数$\lambda$ 减小惩罚项系数$\lambda$ 机器学习算法诊断(ML diagnostic)负责发现学习算法中存在的

机器学习之——机器学习应用建议

机器学习的应用建议 好久没有更新机器学习的学习笔记了,上一次还是更新的神经网络的部分.这一次我们来聊一聊,机器学习的应用建议. 决定下一步做什么 假设我们需要用一个线性回归模型(Linear Regression)来预测房价,当我们运用训练好了的模型来预测未知数据的时候,发现有较大的误差,我们下一步可以做什么? 获得更多的训练实例--通常是有效的,但是代价较大,下面的方法也可能有效,可以考虑优先采用下面的几种方法. 尝试减少特征的数量 尝试获得更多的特征 尝试增加二项式特征 尝试减少归一化程度λ