《机器学习》(西瓜书)笔记(1)--绪论

第一章    绪论

1.1 引言

机器学习致力于研究如何通过计算的手段,利用经验(计算机系统中通常以数据的形式存在)来改善系统自身的性能。

机器学习研究的主要内容是关于在计算机上从数据中产生模型的算法,即学习算法(learning algorithm)。

1.2 基本术语

数据集(data set)

示例(instance) / 样本(sample):也叫作特征向量(feature vector)

属性(attribute) / 特征(feature)

属性值(attribute value)

属性空间(attribute space) / 样本空间(sample space):属性张成的空间。

training data

训练样本(training sample)

训练集(training set):训练样本组成的集合

hypothesis

ground-truth:指潜在规律自身

prediction

标记(label)

样例(example):拥有了label信息的示例称为example.

一般地,用 (x, yi) 表示第 i 个样例。其中 yi ∈ Y 是 xi 的label,Y是所有标记的集合,亦称为标记空间(label space)或输出空间。

若我们想要预测的是离散值,则此类学习任务称为分类(classification);

若我们想要预测的是连续值,则此类学习任务称为回归(regression)。

对只涉及两个类别的二分类(binary classification)任务,通常称其中一个类为正类(positive class),另一个类为反类 / 负类(negative class);

涉及多个类别时,则称为多分类(multi-class classification)任务。

测试样本(testing sample)

聚类(clustering)

簇(cluster)

学习任务大致可以分为两大类:监督学习(supervised learning)无监督学习(unsupervised learning)分类和回归是前者的代表,聚类是后者的代表。

学得模型适用于新样本的能力,称为泛化(generalization)能力。具有强泛化能力的模型能很好地适用于整个样本空间。

通常假设样本空间中全体样本服从一个未知分布(distribution)D,我们获得的每个样本都是独立的从这个分布上采样获得的,及独立同分布(independent and identically distributed,简称 i.i.d.)。

一般而言,训练样本越多,我们得到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。

1.3  假设空间

归纳(induction)和演绎(deduction)是科学推理的两大基本手段。

前者是从特殊到一般的泛化过程,即从具体的事实归结出一般性规律;后者是从一般到特殊的特化过程,即从基础原理推演出具体状况。

可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设。假设一旦确定,假设空间极其规模大小就确定了。

现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此可能有多个假设与训练集一致,即存在一个与训练集一致的假设集合,称之为版本空间(version space)。

1.4  归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好称为归纳偏好(inductive bias),或简称为偏好。

事实上,归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

对于一个学习算法Ea,若它在某些问题上比学习算法Eb好,则必然存在另一些问题,在哪里Eb比Ea好。这个结论对任何算法均成立。

No Free Lunch Theorem (NFL定理,没有免费午餐定理)

即对于任意两个学习算法Ea和Eb我们都有:

这就是没有免费午餐定理(No Free Lunch Theorem,简称NFL定理)。

NFL定理有一个重要前提:所有“问题”出现的机会相同、或所有问题等同重要。但实际情形并不是这样,很多时候我们只关注自己正在试图

解决的问题。

 

1.5  发展历程

1.6  应用现状

1.7  阅读材料

时间: 2024-10-16 10:24:27

《机器学习》(西瓜书)笔记(1)--绪论的相关文章

《机器学习》西瓜书 第一章 绪论

机器学习绪论 基本术语 基础 模型:泛指从数据中学得的结果 数据集 data set:一组记录的集合 示例 instance/样本 sample:关于一个事件或对象的描述 属性 attribute/特征 feature:反映事件或对象在某方面的表现或性质的事项 属性值 attribute value:属性上的取值 属性空间 attribute space/样本空间 sample space:属性张成的空间即 \(n\) 个特征描述出的 \(n\) 维空间 特征向量 feature vector:

西瓜书第一章--绪论

1.1引言 我印象最深的一句话就是:机器的分类能力比人强. 我们为什么要学习机器视觉?周志华教授开篇以西瓜的几个属性(比如色泽.根蒂.敲声)来判断一个西瓜是否是好瓜,这些都是靠人的经验完成的. 机器学习即是一门这样的学科,致力于研究通过计算机的手段,利用经验来改善系统自身性能.机器学习的主要研究内容:关于“学习算法”的学问.有了学习算法我们把经验数据传输给他,他就能产生出相对应的模型,在面对新的情况时,模型就会给我们提供一个相应的判断. 机器学习与数据挖掘的关系:很多人一开始被数据挖掘啊,大数据

《机器学习》 --周志华版(西瓜书)--课后参考答案

<机器学习> --周志华版(西瓜书)--课后参考答案 对机器学习一直很感兴趣,也曾阅读过李航老师的<统计学习导论>和Springer的<统计学习导论-基于R应用>等相关书籍,但总感觉自己缺乏深入的理解和系统的实践.最近从实验室角落觅得南京大学周志华老师<机器学习>一书,随意翻看之间便被本书内容文笔深深吸引,如获至宝.遂决定要认真学习本书并将学习过程记录下来.感觉若以读书笔记的形式做记录未免枯燥(且网上已有大量相关内容).那就暂且将课后练习的个人思路和答案写成

【转】《西瓜书机器学习详细公式推导版》发布

转自:https://github.com/datawhalechina/pumpkin-book https://mp.weixin.qq.com/s/FcwgjS4FXfGJPZEQEz3cVw 南瓜书PumpkinBook 周志华老师的<机器学习>(西瓜书)是机器学习领域的经典入门教材之一,周老师为了使尽可能多的读者通过西瓜书对机器学习有所了解, 所以在书中对部分公式的推导细节没有详述,但是这对那些想深究公式推导细节的读者来说可能“不太友好”,本书旨在对西瓜书里比较难理解的公式加以解析,

《机器学习》 西瓜书习题 第 2 章

习题 \(2.1\) 数据集包含 \(1000\) 个样本, 其中 \(500\) 个正例.\(500\) 个反例, 将其划分为包含 \(70\%\) 样本的训练集和 \(30\%\) 样本的测试集用于留出法评估, 试估算共有多少种划分方式. 如果划分要保证正例和反例一样多的话, 那么划分方式数量 \(n\) 有 \[\begin{aligned} n &= C^{500\times35\%}_{500}\times C_{500}^{500\times 35\%}\&=(C^{175}_

“跟着西瓜去学习”之--绪论

写在前面的话:人工智能界有一种说法,认为机器学习是人工智能领域中最能够体现智能的一个分支,从历史来看,机器学习似乎也是人工智能中发展最为迅速的分支之一.Andrew Ng曾说机器学习将是未来人工智能的“电力”,可见机器学习的基础性和重要性.笔者本科在南京大学读的EE,出于对CS和人工智能的兴趣,上个学期有幸选到南京大学计算机与科学系机器学习与数据挖掘研究所(LAMDA)的周志华老师的<机器学习>课程,但是由于时间关系,断断续续的上完了该课程,感觉好多老师讲的精髓没有好好领悟,所以这个学期旁听了

机器学习总结之第一章绪论

机器学习总结之第一章绪论 http://www.cnblogs.com/kuotian/p/6141728.html 1.2基本术语 特征向量:即示例,反映事件或对象在某方面的性质.例如,西瓜的色泽,敲声. 属性:例如 青绿 乌黑 清脆. 数据集:例如(色泽=青绿,根蒂=蜷缩,敲声=浊响),(色泽=浅白,根蒂=硬挺,敲声=清脆),(色泽=乌黑,根蒂=稍蜷,敲声=沉闷)-- 例如,D = {X1,X2,--,Xm}表示包含m个示例的数据集. Xi = (xi1:xi2:--:xid)每个示例有d个

西瓜书第二章--模型评估与选择

2.1 经验误差与过拟合 错误率:错分样本的占比 精度:分对样本的占比,与错误率是互补的. 误差:样本真实输出与预测输出之间的差异.学习器在训练集上的误差称为训练误差或经验误差,在新样本上的误差称为泛化误差. 由于事先并不知道新样本的特征,我们只能努力使经验误差最小化: 很多时候虽然能在训练集上做到分类错误率为零,但多数情况下这样的学习器并不好 过拟合:学习器把训练样本学习的“太好”,将训练样本本身的特点 当做所有样本的一般性质,导致泛化性能下降: 解决措施:1.优化目标加正则项 :2.earl

《机器学习》学习笔记(一)

今天看了两集Stanford 的Machine Learning,先说说感受,在看的过程中,脑海里冒出来一个念头:在中国的大学里,教授们都是好像在做研究,而学生们都是好像在上课,到头来不知道学到了什么,我在屏幕的这边都能感受到他们和我们的不一样. 其实对于机器学习,我是真心不懂,也不知道为什么忽然就想学习一下了,然后看了第一集就觉得实在是太牛X了,他们做的那个爬越障碍物的狗和快速避障的小车,都不是我们能搞出来的,说来也奇怪,我们不是也有他们一样的课程体系吗?照理说在大学里能做出来的东西,我们也应

易学设计模式看书笔记(2) - 简单工厂模式

本文摘自易学设计模式一书 一.简单工厂模式 1.动物管理系统的例子 public interface Animal{ public void eat(); } public class Tiger implements Animal { public void eat(){ sysout.out.println("老虎会吃"); }; public void run(){ sysout.out.println("老虎会跑"); }; } public class D