《机器学习那些事》摘要

机器学习那些事》介绍了一些机器学习应用中需要了解的“民间知识”。

原文为: A Few Useful Things to Know about Machine Learning

摘录若干要点:

1. 学习 = 表示 + 评价 + 优化

表示(Representation) : 学习器的假设空间(hypothesis space)

评价(Evaluation) : 评价函数用于判断分类器的优劣

优化(Optimization) : 在假设空间中寻找最优的学习器的算法

2. 泛化能力 (Generalization)

机器学习问题,与一般的优化问题不一样的地方在于,机器学习其实无法获得希望优化的那个函数!不能不使用训练误差等作为真实目标的替身。

2.a 坏消息,"没有免费的午餐": 学习器必须包含一些数据之外的知识或者假设,才能将数据泛化。没有学习器能够比在所有可能的布尔函数中随机猜测的结果更优

2.b 好消息,我们要学习的函数并非均匀地来自于所有可能的函数!有些宽泛的假设就能起到很大作用:平滑,相似样例相似类别,有限依赖,有限复杂度等

泛化误差,可以分解为偏置(Bias)和方差(Variance)。偏置度量了学习器倾向于一直学习相同错误的程度。方差则度量了学习器倾向于忽略真实信号、学习随机事物的程度

避免过拟合的一些方式: 交叉验证, 正则项,增加新结构时采取统计显著性检验

3. 维度灾难

3.a 坏消息,维度灾难(Curse of dimensionality): 许多在低维空间表现很好的算法,对于高维输入变得计算不可行

3.b 好消息,非均匀性的祝福(Blessing of nonuniformity):大多数应用中,样例在空间中并非均匀分布,而是集中在一个低维流形上或者附近

4. 数据 + 特征 + 算法

收集更多的数据 - 大量数据的笨算法,要胜过数据量较少的聪明算法

构建最好的特征集合 - 特征工程(Feature Engineering)是关键

设计更好的学习算法 - 采用更聪明算法的回报比期望要低。本质上所有的学习器都是将临近的样例归类到同一个类别中。

5. 集成学习 - 要学习多个模型,而不仅仅是一个

不同应用的最佳学习器并不相同。 将多个学习器结合,结果会更好。

5.a Bagging - 轻度增加偏置的同时, 极大地降低反差

5.b Boosting - 每次训练都倾向于分错的样例

6. 简单并不意味着准确

模型参数的数量和过拟合之间并无直接联系, 如集成学习

一个更成熟的认识是将复杂度等同于假设空间的大小。更小的假设空间允许用更短的代码来表示假设。更短的假设可以泛化得更好。

一个在较大的假设空间搜索较少假设的学习器,比一个在较小空间中搜索较多假设的学习器更不容易过拟合。

7. 可表示并不意味着可学习

8. 相关并不意味着因果

《机器学习那些事》摘要,布布扣,bubuko.com

时间: 2024-08-04 14:07:11

《机器学习那些事》摘要的相关文章

《OOD启思录》摘要

对我这样的初学者来说非常非常非常不错的一本书 代码本身没什么意义,从代码提炼出来的无形的设计才是真正有价值的: 代码的尺寸(或者说粒度)和它的灵活性成反比: (P13) 经验原则 2.1 —— 所有数据都应该隐藏在它所在的类内部: (P15) 经验原则 2.2 —— 类的使用者必须依赖类的公有接口,但类不能依赖它的使用者: (P16) 经验原则 2.3 —— 尽量减少类的协议中的消息: (P16) 经验原则 2.4 —— 实现所有类都理解的最基本公有接口[例如,拷贝操作(深拷贝与浅拷贝).相等性

《OOD启思录》

Object-Oriented Design Heuristics 评级: 阅读数:15860 作者:[美]Arthur J.Riel 译者:鲍志云 出版社:人民邮电出版社 图书分类: 软件工程/软件技术 > 面向对象  销售榜 版别版次:2004年7月第1版第1次印刷 ISBN书号:7-115-12336-5 出版日期:2004年7月 开本:787*1092 1/16 字数:527千字 页数: 374 定价:42.0元  售价:29.4元 节省12.6元(30%) VIP会员价: 29.4元

# 61条面向对象设计的经验原则-《OOD启思录》Arthur J.Riel

61条面向对象设计的经验原则-<OOD启思录>Arthur J.Riel 原文 http://blog.csdn.net/cpluser/article/details/129291 61条面向对象设计的经验原则 摘抄自<OOD 启思录>--Arthur J.Riel 著 鲍志云 译 "你不必严格遵守这些原则,违背它们也不会被处以宗教刑罚.但你应当把这些原则看成警铃,若违背了其中的一条,那么警铃就会响起." ----------Arthur J.Riel (1)

DOOM启世录 PDF下载

网盘下载:DOOM启世录 pdf 下载 – 易分享电子书PDF资源网 作者: [美] 大卫·卡什诺 出版社: 电子工业出版社 原作名: Masters of Doom 译者: 孙振南 出版年: 2004-4 页数: 318 定价: 29.00元 装帧: 平装 ISBN: 9787505396814 内容简介 · · · · · · 由David Kushner 撰写之著作 <Master of DOOM>在 Amazon 和 eBook上的销售喜人.本书的中文版权由我公司拿到,将在2004年4

计算机必读书籍

漫长的三年过去了,我们摸爬滚打,没有指路的明灯.我也在摸索中走了不少的弯路,向我的软件班的同学引荐别人推荐几本好书(我也是在查漏补缺),希望有志者能少走些弯路. 一. 科学哲学和管理哲学[1] “程序开发心理学”(The Psychology of Computer Programming : Silver Anniversary Edition)[2] “系统化思维导论”(An Introduction to Systems Thinking, Silver Anniversary Editi

编程书籍推荐——按角色划分

一.软件工程师 Clean Code<代码整洁之道> Implementation Patterns<实现模式> Code Complete<代码大全> Refactoring: Improving the Design of Existing Code<重构——改善既有代码的设计> Effective Java(第二版) Head First Design Patterns<深入浅出设计模式> Agile Software Developmen

编程书籍推荐——按内容划分

一.编码实践 Clean Code<代码整洁之道> The Art of Readable Code<编写可读代码的艺术> Implementation Patterns<实现模式> Code Complete<代码大全> Working Effectively with Legacy Code<修改代码的艺术> Refactoring: Improving the Design of Existing Code<重构——改善既有代码的设计

软件行业人员书单

书籍推荐(转自豆瓣) 一.软件project师 --Clean Code<代码整洁之道> --Implementation Patterns<实现模式> --Code Complete<代码大全> --Refactoring: Improving the Design of Existing Code<重构--改善既有代码的设计> --Effective Java(第二版) --Head First Design Patterns<深入浅出设计模式&g

软件人员推荐书目(都是国外经典书籍!!!)

软件人员推荐书目(都是国外经典书籍!!!) 软件人员推荐书目(一) 大师篇 一. 科学哲学和管理哲学 [1] "程序开发心理学"(The Psychology of Computer Programming : Silver Anniversary Edition) [2] "系统化思维导论"(An Introduction to Systems Thinking, Silver Anniversary Edition) [3] "系统设计的一般原理&qu

环境企业表单权限分配填报数据系统设计与实现

本科生毕业论文(设计) Undergraduate Graduation Thesis(Design) 题目Title:环境企业表单权限分配填报数据   系统设计与实现                 院 系 School (Department):数据科学与计算机学院  专 业 Major:   软件工程   学生姓名 Student Name:                     学 号 Student No.:                    指导教师(职称) Superviso