机器学习五步走 |

机器学习五步走 | 我爱机器学习

机器学习五步走

2014年07月24日

经常会有人问“我该如何在机器学习方面更进一步,我不知道我接下来要学什么了。”

一般我都会给出继续钻研教科书的答案。

每当这时候我都会收到一种大惑不解的表情。但是进步确实就是持续的练习,保持较强的求知欲,并尽你可能的完成具有挑战性的工作。其实这些你都懂的,是吧!

但是为什么偏偏是教科书呢?因为他是为数不多的几种可以让你真真让你获取坚实知识的媒介。是的,你可以选择选一门课,注册MOOC,参加一些讨论班。但是只有教材才是会让你持续进步的。教材的每一页都会留下你的印记。你会不知不觉的就记住了章节标题,例子和练习题。你会在边页处写写画画做点笔记,你会把常用的章节折起来,并且还会根据学习内容去寻找一些相关程序来学习。其实你的教科处已经成为了知识的一部分。成功的学习不仅仅只是看看教科书。通过这样的方式来用教科书,你能掌握任何一门学科——当然也包括机器学习。

在下面的内容中,我会循序渐进的列举一些优秀的教科书供你参考。我结合我自己经历并咨询了UC Berkeley的研究生,博士后和教授们后给出了这份参考教科书。当然我是故意少列了的,因为列再多反而是你选择烦恼。

当然,如果你想更换一些学习资料, Metacademy是个不错的选择。

Level 0: Neophyte

我妹妹是贸易方面的写作者。曾经她问我怎样去简单的了解一些数据科学的基础知识。在阅读了基本这方面的介绍性的书籍后,我推荐了这本Data Smart.通过这本书我妹妹可以基本解决其工作问题,甚至又一次我和她关于逻辑回归还进行了一次比较深入的探讨。

Expectations:你能了解一些基本的机器学习算法,你能够通过Excel完成一些基本的算法编写。(在完成整本书后你还能会点R语言)。

Necessary Background:熟悉Excel操作——假如你有点计算机/数学背景的话你应该能够很好的掌握。另外,它不像典型的教科书那么枯燥。

Key Chapters:书很短,而且每章都通熟易懂,而且我认为你可以跳过工作表相关的内容。第8和10章是一些基本的概述。

Capstone Project:用 this dataset来试一下你是否能够在给出一些属性条件的情况下预测汽车的MPG。这将考验你是否能用机器学习的方式来解读数据,并且能用机器学习的技术解决问题。

Level 1: Apprentice

这是一本例子导向的书,但是同时你可以学习到很多有用的机器学习知识和R编程语言。我是Scipy的忠实用户,但是当我看了几章这本书后,我现在大部分的问题都会选择用R去解决了。

Expectations:你能够判断出哪些机器学习的算法适合哪些问题,并且能够用R语言来完成代码的编写。

必要的背景:没有真正的先决条件,但以下将帮助(这些可以学到/审查时):一些编程经验(R)一些代数概率论的基本微积分一点

Necessary Background:没有特别的要求,但是如果你有以下的知识将会很有帮助:

R的基本的编程能力

基本的代数知识

基本的微积分知识

一点概率论知识

Key Chapters:这是一本很短的书,因此我推荐大家阅读全文,尤其是好好思考那些例子,并用R语言去完成。如果你时间有限,你也可以略过第8和12章。

Capstone Project:用this dataset 试试你是否能够在给定相关属性值的情况下预测出食品等级。用三个不同的机器学习方法去解决这个问题,并且选出最合适的一个。建立一个分类器,并能预测评估是“good”还是“bad”,过程中你一定要选好“good”和“bad”之间的阀值。这能测试你的数据滤除能力,处理大数据来那个的能力,机器学习的基本知识还有你编写R代码的能力。

Level 2: Journeyman

这个阶段,再也不是学习一些表面的浅层知识了,我们将逐渐的深入,并且更加的严谨的推导。在一阶段将会有许多数学问题去处理,但是如果你想把机器学习当成你终生的事业来做,那么你必须过掉这关。PRML这本书是一座很好的桥梁,可以让你做的更顺些。你要不断的使用它,阅读他并且爱上他。但是你要时刻保持注意,并不知只有贝叶斯方法是机器学习方法。(译者注,这本书很多都是以贝叶斯方法为基础进行阐述的。)

Expectations:能够识别,完成,调试和解释大部分现有的机器学习方法。当然,对于一些特定问题,你应该有一些自己的想法去研究更高级的机器学习算法。而数据科学家则应该必须至少处于这一步。

Necessary Background:

你应该熟悉大部分的聚类和分类算法;

线性代数:理解矩阵代数和行列式运算;

一些多变量和向量微积分运算能力——比如知道什么是Jacobian

能够用R,Matlab,Scipy或者是Julia完成一些机器学习算法的编写。

Key Chapters:详细阅读1——12.1章。至于12.2 – 14章你可以在需要的时候再去阅读。

Capstone Project:完成 Online Variational Bayes Algorithm for Latent Dirichlet Allocation 并且分析一个你选择的数据。证明你写的LDA是正确的。这能测试你是否能够理解并解释前沿的机器学习算法,并且能否进行在线的推理和近似。当然这也测试了你的编写代码能力,数据预处理能力和实际的解决问题的能力。

注意:PRML花了很多的时间在Bayesian机器学习方面。因此如果你对Bayesian统计不熟,我强烈建议你先看看Doing Bayesian Data Analysis 的前五章。

Level 3: Master

这一阶段你有大量的知识需要去钻研:凸优化理论,测度理论,概率论,离散优化,线性代数,微分几何甚至是计算神经学。但是当你真正在这一阶段的时候,你也许也已经知道该去学哪些了。这里我仅仅推荐一本书: Probabilistic Graphical Models: Principles and Techniques是一本机器学习研究者都应该去钻研的神书。PGMs是一本机器学习进阶的书,如果你熟读了此书,不管你学习哪一个机器学习方向你都能轻松驾驭了。

Expectations:对于新问题你应该能够构造概率模型,确定合理的推理技术并且能评估你的方法。对于模型之间的关系你也有了更深入的理解,比如深度信念网络也可以看成是因素图模型。

Necessary Background:

你应该熟悉大部分的机器学习算法

线性代数——知道怎样解释特征值

多变量和向量的微积分求解

能够用R,Matlab,Scipy或者是Julia完成一些机器学习算法的编写。

Key Chapters:1-8章内容类似于Bishop’s Pattern Recognition and Machine learning的2-8张的内容,但是更深入一些。9-13章是本书的精华部分。第19章对于预处理数据是非常有用的。14和15章当你要用时,你再去读他把。

Capstone Project:这一阶段了,你应该自己去定义和探索自己的机器学习项目了。也许还会知道一点当前最火热的“big data”

Level 4: Grandmaster

如果你获得主人地位,你就会拥有一个足够强大的ML背景小说追求任何ML-related专业化水平:例如:也许你感兴趣深度学习应用程序或刻画小说?也许你应该成为Metacademy贡献者?

当你过了master阶段,你已经有了很强的机器学习背景去探索任何机器学习相关的更专业的领域:比如你想去做深度学习(deep learning)相关的应用或者研究。当然或许你也许会变成一位Metacademy的贡献者。

翻译自:http://metacademy.org

延伸阅读:

上一篇Level-Up Your Machine Learning

更多内容

电脑版回顶部

转码声明用户反馈

时间: 2024-12-11 09:25:48

机器学习五步走 |的相关文章

Log4Net五步走

本文不是教你全面了解log4net,本文只是希望教会你按步就班,照糊芦画瓢般就会用log4net1,引入log4net.dll组件2,建立一个配置文件两种方法,一种是在Web.Config或App.Config里加入以下配置节 <configSections> <section name="log4net" type="log4net.Config.Log4NetConfigurationSectionHandler,log4net" />

以MapReduce编程五步走为基础,说MapReduce工作原理

在之前的Hadoop是什么中已经说过MapReduce采用了分而治之的思想,MapReduce主要分为两部分,一部分是Map--分,一部分是Reduce--合 MapReduce全过程的数据都是以键值对的形式存在的如果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:784789432.欢迎你的加入.每天下午三点开直播分享基础知识,晚上20:00都会开直播给大家分享大数据项目实战. 首先,我们假设我们有一个文件,文件中存了以下内容 hive spark hive hbas

React中引入HightCharts五步走~

1.安装: npm install highcharts --save 1-2.指定版本安装: npm install [email protected] --save 2.引入: 2-1.基础配置: import Highcharts from 'highcharts/highstock'; 2-2.其他图标会用到的配置: import HighchartsMore from 'highcharts/highcharts-more'; 具体会用到哪些可以看官方提供的图标demo的代码页面 2-

mysql数据库优化五步走

MySQL数据库是一种小型关系型数据库管理系统,MySQL数据库的优化是MySQL数据库操作过程中非常重要的工作,MySQL数据库的优化能够实现MySQL数据库操作的简便. 第一步: 1:磁盘寻道能力,以高速硬盘(7200转/秒),理论上每秒寻道7200次.这是没有办法改变的,优化的方法是----用多个硬盘,或者把数据分散存储. 2:硬盘的读写速度,这个速度非常的快,这个更容易解决--可以从多个硬盘上并行读写. 3:cpu.cpu处理内存中的数据,当有相对内存较小的表时,这是最常见的限制因素.

Firefox扩展开发 (插件开发) Extension开发 入门教程 5步走 五步走(转)

首先需要知道什么是“Firefox插件”.这里说的“插件”只是一个通俗的说法,其实Firefox这种扩展功能的“插件”包括:扩展extension和插件plugin. Firefox官方网站的解释是:Extensions are small add-ons that add new functionality to your Mozilla program. Plugins are programs that allow websites to provide content to you an

简单介绍下网络系统测试方案五步走

网络系统方案测试概述 组网方案的可靠性测试,可归纳为以下几大类: 1.网络系统持续长时间.大压力高负荷.高频率震荡条件下的持续运行能力,即Duration测试. 2.网络系统告警管理功能.系统故障定位手段能力评估. 3.单点故障情况下系统自动恢复时间. 4.验证链路聚合.MSTP.RRPP.BFD.GR.VRRP.ECMP.IRF等HA(High Availability)特性的组合部署功能,并通过调整达到最佳的组合应用效果. 5.构造各类攻击,从端到端对网络系统进行攻击.此类测试往往可以融合在

还在使用pdf、word简历?简单五步实现github托管个人逼格简历

写在前面: 什么是git.github? git 版本控制工具 github 通过git工具做的版本控制的项目托管平台 项目开发肯定不止一个程序猿,多个程序猿针对同一个文件进行代码读写操作时,是先保存程序猿a还是程序猿b呢?这就很容易冲突,所以就有了git这种版本控制工具解决项目更新.慢慢的随着开源精神的发展以及在线的需求就有了github项目托管平台,对于git本地服务来说,github就是一个远程的仓库. 逼格在哪里? Github已经取代Sourceforge,成为最活跃的代码交流社区,一

ping排错三步走

ping排错三步走--------- 每次访问目标主机的过程是这样的: 客户端->网关->DNS->客户端(拿着解析出来的IP)->目标服务器 所以当ping不通的时候,就从这三个地方找问题,有以下三种可能: (1)网关不通 (2)DNS域名解析服务器不通 (3)主机服务器不通 一:ping 网关,如果网关不通: 可能原因:(1)网卡没起来 (2)网线断了 排查方式: (1)查看本地ip地址`ifconfig` ,是不是没连上网. (2)查看路由表`route -n` 是否有相同网

从一名打工者蜕变成一名企业家的五步曲

无数打工者每天皆梦想能于某天开创自己的公司.其总觉得自己拥有着进入一个领域并打造出一个成功的事业所需的正确的技能或者正确的创业点子.但,这些人到现在都还是只是在脑袋里意淫着而已,他们并没有真正的付诸行动去开始追求他们的创业点子.这又是为何呢? 如果你有一个可以创业的点子但又没有真正放手去干,那是因为什么原因拖了你后腿呢? 对于很多有抱负的企业家来说,缺乏如何启动一个可以催生出一家公司的项目的蓝图,让他们举步维艰.大部分人甚至不知道如何举出第一步,剩下一部分人却又不确定这种职业生涯是否是他们自己想