机器学习学习笔记1

机器学习学习笔记1

周志华

机器学习

Flyu6

Time: 2016-6-12

  • 基本概念的学习

    • Learning Style(学习类型)

      • supervised(监督学习)
      • unsupervised(非监督学习)
  • 假设空间
    • 归纳 (induction)
    • 演绎 (deduction)
  • 归纳偏好
    • 没有免费午餐(NFL: No Free Lunch Theorem)

基本概念的学习

Learning Style(学习类型)

supervised(监督学习)

监督学习

所谓的监督学习其实就是在数据集D中有格式为 (X,y)的形式,可以看出我们有明确的目标值或者标签(y)与X的数据集有关关联关系。我们可以通过寻找x与y的关系来确定一个关系化的模型**。在这个模型的学习中,我们是通过真是的y值来不断调整真个模型的参数的。

在监督学习的过程中,我们又可以根据数据的存在方式分为分类与回归两种方式:

  • 分类

    如果我们预测的是离散值,比如:明天是晴天还是阴天,这样的学习任务我们称之为分类

  • 回归

    如果我们预测的是连续值,比如:在房价的走势中,三室一厅,向阳,临江的价格会是多少?这样的学习任务我们称之为回归

当然,在这里面我们涉及到两个过程,其中寻找模型的的过程叫做训练,使用到的的数据集叫做训练集。而在使用训练好的模型来验证准确率(精确率)的过程叫做测试,使用的数据集叫做测试集。

unsupervised(非监督学习)

无监督学习

无监督学习与监督学习最直观的区别在于监督学习的数据集格式为(X,y),而非监督学习的数据集格式为(X)。直白的说就是非监督学习没有目标值。而非监督学习的主要目标是从X的数据集中学习出数据的“内在”结构。

在无监督学习中,最实用也是最具代表性的方法就是聚类(cluster)。

例如我们可以寻找一群人(黄种人里面),每个人都有一些数据来描述(口音,饮食偏好,...)等,那么我们通过这些特征,我们就可以粗略的得出不同的簇(cluster)。而这些簇的概念是通过机器学习的方式自动形成的可能对应一些潜在的概念。在这个例子中我们根据提供的数据就可以简单的推断出到底是北方人还是南方是或者是那个省份的人。

这就是聚类。我们可以通过数据将其具有相似结构的数据放在一个簇里面。

当然,正常的时间中,监督学习和非监督学习之间还存在一种半监督学习(semi-supervised)

在测试过程中,我们希望的是精确率越高越好,但是,在这个过程中,我们还需要学得的模型具有很好的“ 泛化能力 ”。也就是说,我们的模型不应该只是仅仅在训练集、测试集上有很好的预测能力,同时还要求这个模型对新产生的数据或者新来的数据具有较好的预测能力,这就是所谓的泛化。

假设空间

归纳 (induction)

induction and deduction 是科学推理的两大基本手段。

归纳

从特殊到一般的“泛化”(generalization)的过程叫归纳,即从具体的事实归结出一般性规律

例子,从样例中学习出一个模型,这样的过程就是一个归纳的过程。也叫作“归纳学习”。

演绎 (deduction)

演绎

从一般到特殊的“特化”(specialization)的过程,即从基础原理忒远出具体状况。

例如,在数学公里系统中,基于一组公理和推理规则推导出与之相洽的定理,这就是演绎。

归纳偏好

其实也就是过拟合(overfiting)和 underfiting(欠拟合)的问题。这也是对我们训练出来的模型是否能很好的适应新来的数据集得过程。

奥卡姆剃刀(Occam‘s razor)

若有多个假设与观察一致,则选择最简单的哪个。

没有免费午餐(NFL: No Free Lunch Theorem)

证明1

证明2

时间: 2024-10-11 00:55:31

机器学习学习笔记1的相关文章

吴恩达“机器学习”——学习笔记五

朴素贝叶斯算法(Naive Bayes)(续学习笔记四) 两个朴素贝叶斯的变化版本 x_i可以取多个值,即p(x_i|y)是符合多项式分布的,不是符合伯努利分布的.其他的与符合伯努利的情况一样.(同时也提供一种思路将连续型变量变成离散型的,比如说房间的面积可以进行离散分类,然后运用这个朴素贝叶斯算法的变形). 第二个朴素贝叶斯的变化形式专门用来处理文本文档,即对序列进行分类,被称为朴素贝叶斯的事件模型(event model).这将使用一种不同的方式将邮件转化为特征向量. 之前的特征向量是:向量

机器学习学习笔记-绪论

根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:"监督学习"和"无监督学习",分类和回归是前者的代表,聚类是后者的代表. 预测的若是离散值,学习任务则成为"分类",涉及两个类别的是"二分类",涉及多个类别的是"多分类": 预测任务对象若是连续值,此类学习任务成为"回归": 聚类,是根据训练集的数据内在规律进行划分,不依赖标记信息. 归纳与演绎--科学推理的两大基本手段. 演绎:

机器学习-学习笔记

一个Windows操作系统能够使用的pythonIDE winPython下载地址:WinPython_2.7 传统的F-measure或平衡的F-score (F1 score)是精度和召回的调和平均值: F1=2precision?recallprecision+recall 1.Cross Validation (交叉验证) cross validation大概的意思是:对于原始数据我们要将其一部分分为train_data,一部分分为test_data.train_data用于训练,tes

“机器学习” 学习笔记

看了 Andrew Ng 公开课里的第一节课后,感觉机器学习好高大上..系里最高大上的国家级重点实验室CAD实验室用的3D成像技术就跟Andrew Ng大大放的聚类算法做出的3D场景几乎一样.看完后我觉得,我现在也开始走高端路线了→_→ 第一章:回归算法 1.LMS Algorithm (待续...)

吴恩达“机器学习”——学习笔记二

定义一些名词 欠拟合(underfitting):数据中的某些成分未被捕获到,比如拟合结果是二次函数,结果才只拟合出了一次函数. 过拟合(overfitting):使用过量的特征集合,使模型过于复杂. 参数学习算法(parametric learning algorithms):用固定的参数进行数据的拟合.比如线性回归. 非参数学习算法(non-parametric learning algorithms):使用的参数随着训练样本的增多而增多. 局部加权回归(locally weighted r

吴恩达“机器学习”——学习笔记四

生成学习算法 判别算法:进行P(y|x)的计算或者是进行h(x)(其中h只会是0与1)的计算. 生成学习算法:进行P(x|y)的建模,即给定类的条件下,某种特征显示的结果.同时也会对P(y)进行建模. 根据贝叶斯公式,我们可以得到,其中p(x) = p(x|y = 1)p(y = 1) + p(x|y = 0)p(y = 0).实际上,如果我们计算P(y|x)进行预测,我们不必计算分母的值,因为x是独立于y的,所以argmax是当式子取到最大值时,对应参数的取值. 高斯判别分析 多元高斯分布 如

机器学习-学习笔记3.1-局部加权回归

局部加权紧接着上面的线性回归中参数求解来继续讲吧.还是以上面的房屋价格的预测,它的中心思想是在对参数进行求解的过程中,每个样本对当前参数值的影响是有不一样的权重的.比如上节中我们的回归方程为(这个地方用矩阵的方法来表示?表示参数,i表示第i个样本,h为在?参数下的预测值): 我们的目标是让 最小,然后求出来?,再代入h中就可以得到回归方程了. 但是如果类似以下的样本,他们的对应图如下: 如果用之前的方法,图中线为求出的回归方程,那么在x的取值和真实差别很大,这个情况叫做欠拟合.那么我们怎么办呢?

机器学习学习笔记 PRML Chapter 2.0 : Prerequisite 2 -Singular Value Decomposition (SVD)

Chapter 2.0 : Prerequisite 2 -Singular Value Decomposition (SVD) Chapter 2.0 : Prerequisite 2 -Singular Value Decomposition (SVD) Christopher M. Bishop, PRML, Chapter 2 Probability Distributions 1. Vector Terminology Orthogonality Two vectors and are

机器学习-李航-统计学习方法学习笔记之感知机(2)

在机器学习-李航-统计学习方法学习笔记之感知机(1)中我们已经知道感知机的建模和其几何意义.相关推导也做了明确的推导.有了数学建模.我们要对模型进行计算. 感知机学习的目的是求的是一个能将正实例和负实例完全分开的分离超平面.也就是去求感知机模型中的参数w和b.学习策略也就是求解途径就是定义个经验损失函数,并将损失函数极小化.我们这儿采用的学习策略是求所有误分类点到超平面S的总距离.假设超平面s的误分类点集合为M,那么所有误分类点到超平面S的总距离为 显然损失函数L(w,b)是非负的,如果没有误分