【机器学习基础】噪声与误差

目标分布（Target Distribution）

在实际情形中，训练数据的误标签的情况，输入数据某一维不准确的情况，都可能导致数据信息不精准，产生噪声数据。

由于受到噪声的影响，我们现在可以把y也看做是一种概率分布,y也是从某种分布中取样而来的，即y~P(y|x)。

这里的P(y|x)被称为目标分布。

回头来看，我们可以把学习的目标总结为，在常见的输入(符合P(x))中可以预测出理想的目标(P(y|x))。

误差的衡量

之前我们使用真实误差Eout(g)来衡量误差，这里我们考虑的是未知x的抽样数据，针对每一个x的个别衡量和分类（0/1问题）问题。

衡量每个点的误差(Pointwise Error Measure)

我们用每个点的误差衡量来衡量整体误差，用err表示。

我们用0/1错误来衡量分类问题，用平方错误来衡量回归问题。

新的学习流程

错误的类型

不同的错误类型可能导致不同的惩罚策略。

这两种错误分别是错误接受(false accept，即实际是负例，却判为正例)和错误拒绝(false reject，即实际为正例，却判为负例)。

在有些地方这两种错误也称作false positive(假阳性，误报，把合法的判断成非法的)和false negative(假阴性，漏报，把非法的判断成合法)。这里有时会弄混淆，记得在医学上，阳性代表有病或者有病毒，阴性代表正常，那么假阳性就是把正常诊断为有病毒，而假阴性就是把有病毒诊断为正常。

超市指纹识别的例子

如果在超市中通过指纹识别来进行打折活动，如果是vip用户，之前有指纹录入的话，就应该有优惠活动，否则没有。

如果发生false reject的情况，那么顾客可能会不高兴，这样就会损失了一部分未来的生意；而如果发生false accept的话，超市只不过损失了一点小钱。

所以对于超市的成本表，false reject会牺牲成本比较大，而false accept牺牲的成本会较小。所以，我们应该尽量避免false reject的情形。

CIA指纹识别的例子

如果美国中情局，用指纹识别来判断该人是否有权限进入系统查看重要资料。

那么，发生false accept的情况会导致很严重的后果，而false reject的话，就不会有太大的影响。

所以对于CIA的成本表，应该尽量避免false accept的情形。

小结

我们根据不同的错误成本，要考虑不同的算法设计策略。具体的问题，我们将在后面的具体算法介绍中，给出解释。这里只需要有一个概念就可以了。

我们在归纳一下我们的机器学习流程。在之前，我们知道用err来衡量误差，而在实际应用中，应该根据不同的错误类型，采取不同的设计策略，所以在真实情况中，采用err hat来评估错误。

转载请注明作者Jason Ding及其出处

Github主页(http://jasonding1354.github.io/)

CSDN博客(http://blog.csdn.net/jasonding1354)

简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)

时间： 2024-10-04 18:33:20

【机器学习基础】噪声与误差的相关文章

【机器学习基础】线性可分支持向量机

引言接下里的一系列有关机器学习的博文,我将具体的介绍常用的算法,并且希望在这个过程中尽可能地结合实际应用更加深入的理解其精髓,希望所付出的努力能得到应有的回报. 接下来的有关机器学习基础博文主要根据机器学习技法课程的学习,围绕特征转换(feature transforms)这个主要工具,从以下三个方向进行探讨: 如果现在有很多特征转换可以使用的时候,我们该如何运用这些特征转换,如何控制特征转换中的复杂度的问题,从这个角度刺激了支持向量机(Support Vector Machine)算法的发展

【机器学习基础】混合和装袋

融合模型(Aggregation Model) 如果我们已经得到了一些特征或者假设,它们和我们做机器学习的目标有若干的一致性的话,我们可以将这些假设综合起来,让预测效果变得更好,这样的模型被称为融合模型. 融合模型是通过混合(mix)和组合(combine)一些假设的方式,得到更好的预测结果. 下面列举了四种不同的混合组合方式,并给出了数学表示形式: 当有多个假设时,我们选择检验误差最小的假设作为我们最信任的目标函数: 我们现在有多个假设,我们可以给每个假设一个投票的权利,综合所有假设的投票结果

算法工程师<机器学习基础>

<机器学习基础> 逻辑回归,SVM,决策树 1.逻辑回归和SVM的区别是什么?各适用于解决什么问题? https://www.zhihu.com/question/24904422 2.Linear SVM 和线性回归有什么异同? 答案:https://www.zhihu.com/question/26768865 基础知识:https://blog.csdn.net/ChangHengyi/article/details/80577318 3.支持向量机属于神经网络范畴吗? https:

《机器学习实战》-机器学习基础

目录机器学习基础什么是机器学习机器学习应用场景海量数据机器学习的重要性机器学习的基本术语监督学习和非监督学习监督学习:supervised learning 非监督学习:unsupervised learning 机器学习工具介绍 Python 非 Python NumPy 函数库基础测试 Numpy 库测试 NumPy 库代码整合总结机器学习基础什么是机器学习机器学习的基本术语监督学习和非监督学习机器学习工具介绍总结人工智能的核心是机器学习,机器学习的本质

机器学习基础概论

本文将是一篇长文,是关于机器学习相关内容的一个总体叙述,会总结之前三个例子中的一些关键问题,读完此文将对机器学习有一个更加深刻和全面的认识,那么让我们开始吧. 我们前面三篇文章分别介绍了二分类问题.多分类问题和标量回归问题,这三类问题都是要将输入数据与目标结果之间建立联系.同时,这三类问题都属于监督学习的范畴,监督学习是机器学习的一个分支,还包括三个其他的主要分支:无监督学习.自监督学习和强化学习. 监督学习这是目前最常见的机器学习类型,除了上面提到的分类和回归问题,还包括一些其他的

机器学习实战笔记1(机器学习基础)

1:如何选择合适的算法 2:python简介 (1) python的优势:相对于matlab,matlab单个软件授权就要花费数千美元,也没有一个有影响力的大型开源项目.相对于c++/c/java,完成简单的操作就需要编写大量的代码:而如今我们应该花费更多的时间去处理数据内在的含义,而无需花费太多精力解决计算机如何得到数据结果(python简洁) (2) python具有numpy科学函数库,它是一个使运算更容易.执行更迅速的库:另外还有matplotlib绘图工具. 3:python语

第一章：机器学习基础

第一部分:分类本书前两部分主要探讨监督学习(supervisedieaming).在监督学习的过程中,我们只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果.监督学习相对比较简单,机器只需从输入数据中预测合适的模型,并从中计算出目标变量的结果. 监督学习一般使用两种类型的目标变量:标称型和数值型.标称型目标变量的结果只在有限目标集中取值,如真与假.动物分类集合{爬行类.鱼类.哺乳类.两栖类.植物.真菌};数值型目标变量则可以从无限的数值集合中取值,如0.100.42.0

【机器学习实战】第1章机器学习基础

第1章机器学习基础机器学习概述机器学习就是把无序的数据转换成有用的信息. 获取海量的数据从海量数据中获取有用的信息我们会利用计算机来彰显数据背后的真实含义,这才是机器学习的意义. 机器学习场景例如:识别动物猫模式识别(官方标准):人们通过大量的经验,得到结论,从而判断它就是猫. 机器学习(数据学习):人们通过阅读进行学习,观察它会叫.小眼睛.两只耳朵.四条腿.一条尾巴,得到结论,从而判断它就是猫. 深度学习(深入数据):人们通过深入了解它,发现它会'喵喵'的叫.与同类的猫科动物

机器学习实战之第一章机器学习基础

机器学习基础2--评价回归模型

再次回到上一节的13次模型. 这个疯狂的曲线造成了一种现象过拟合. 很明显,你的房子不可能只值这么点价钱,所以看上去,这个13次模型甚至还不如一开始的二次模型. 那么现在有个疑问,我们应该怎样去选择最合适的模型? 我们想要准确预测,但是我们无法观测未来. 下面我们模拟一次预测过程: 1.我们随机将一些房子数据排除在外. 2.然后拟合剩下的数据 3.最后进行预测和推断. 术语: 训练集(training set):用来拟合模型的数据. 测试集(test set):排除出去的数据. 训练损失(tra