2.4 statistical decision theory

在讲完最小二乘(linear regression)和K近邻后,进入本节。

引入符号:

$X\in R^p$ X为维度为p的输入向量

$Y\in R$ Y为输出,实数

$P(X,Y)$ 为两者的联合概率分布

$f(X)$ 为预测函数,给定X,输出Y

a.使用squared error loss(L2)作为损失函数

$L(Y,f(X))={(Y-f(X))}^2$

EPE(excepted prediction error)为

$EPE(f)=E({(Y-f(X))}^2) \\ \ \ =\int \int {[y-f(x)]}^2 P(x,y) dxdy=\int [\int {[y-f(x)]}^2 P(y|x) dy]p(x)dx \\ \ \ =E_XE_{Y|X}({[Y-f(X)]}^2|X)$

最小化EPE,在每个点上f(x)需要满足:

$f(x)={argmin}_c E_{Y|X}({[Y-c]}^2|X=x)\\ \ \ ={argmin}_c \int [y^2-2yc+c^2]P(y|X=x)dy={argmin}_c E_{Y|X}(Y^2)-2cE_{Y|X}(Y)+c^2$

对上式的c求导,置为0:

$c=E(Y|X=x)$

所以,当squared error loss时,给定X,最好的预测为条件均值

K近邻实际给出的是(1)对条件均值的点估计(2)X=x被模拟为在某近似区域

linear regression则假设这些条件均值能用线性函数近似

b.使用L1作为损失函数

$L(Y,f(X))={|Y-f(X)|}$

$f(x)={argmin}_c E_{Y|X}({|Y-c|}|X=x)\\ \ \ ={argmin}_c \int_{-\infty}^c(y-c)P(y|X=x)dy+\int_c^{\infty}(c-y)P(y|X=x)dy\\ \ \ ={argmin}_c \int_{-\infty}^c yP(y|X=x)dy-c\int_{-\infty}^c P(y|X=x)dy+c\int_c^{\infty}P(y|X=x)dy-\int_c^{\infty}yP(y|X=x)dy$

对c求导,置为0:

第一部分:$cP(y=c|X=x)$

第二部分:$-\int_{-\infty}^c P(y|X=x)dy-cP(y=c|X=x)$

第三部分:$\int_{c}^{\infty}P(y|X=x)dy-cP(y=c|X=x)$

第四部分:$cP(y=c|X=x)$

有$\int_{c}^{\infty}P(y|X=x)dy=\int_{-\infty}^c P(y|X=x)dy$

所以,当为L1作为损失函数时,给定X,最好的预测为条件中値

时间: 2024-09-30 19:48:58

2.4 statistical decision theory的相关文章

决策理论(Decision theory)&自动规划和调度(Automated planning and scheduling)(双语)

译的不好,还请见谅... 大部分内容来自wiki decision theory决策理论部分: Normative and descriptive decision theory 规范和描述性决策理论 规范或规范的决策理论关心的是确定最好的决定(在实践中,有些情况下,"最好"的不一定是最大,最优可能还包括值除了最大,但在特定或近似范围),假设一个理想的决策者充分了解,能够准确无误地计算,完全理性的.这说明性的方法的实际应用(人们应该做出决定)决策分析,旨在发现工具,方法和软件帮助人们做

CCJ PRML Study Note - Chapter 1.5 : Decision Theory

Chapter 1.5 : Decision Theory Chapter 1.5 : Decision Theory Christopher M. Bishop, PRML, Chapter 1 Introdcution 1. PRML所需要的三论: Probability theory: provides us with a consistent mathematical framework for quantifying and manipulating uncertainty. Deci

Reading Notes for Statistical Learning Theory

Let's continue the discussion of reading Vapnik's book Statistical Learning Theory. In the very beginning of the book, Vapnik first described two fundamental approaches in pattern recognition: the parametric estimation approach and the non-parametric

Reading “Statistical Learning Theory”

To start this post, it is the best to first let me tell you a story that had happened in the year 2013. It was in the summer of 2013, when I was near finish the study of PhD, preparing the final seminar and the submission of my thesis for external re

【PRML读书笔记-Chapter1-Introduction】1.5 Decision Theory

初体验: 概率论为我们提供了一个衡量和控制不确定性的统一的框架,也就是说计算出了一大堆的概率.那么,如何根据这些计算出的概率得到较好的结果,就是决策论要做的事情. 一个例子: 文中举了一个例子: 给定一个X射线图x,目标是如何判断这个病人是否得癌症(C1或C2).我们把它看作是一个二分类问题,根据bayes的概率理论模型,我们可以得到: 因此,就是的先验概率:(假设Ck表示患病,那么就表示普通人患病的概率) 则作为是后验概率. 假设,我们的目标是:在给定一个x的情况下,我们希望最小化误分类的概率

摘录-Introduction to Statistical Learning Theory(统计机器学习导论)

机器学习目标:(二分类)   经验风险:   过度拟合:   经验风险最小化:   结构风险最小化:   正则:   特点:   误差错误估计错误:   误差上界分析:   R(g)的经验风险上界:     对错误分类的误差F定义(值域[0或1]):   F和R的关系:     关于F的Hoe不等式:   意义:   统一上界:       与Hoe的差异:   增长函数:   VC维:   VC维无限的函数族:   证明:将给定的点进行+-+-划分,如果有连续++或--的点在中间添加一个新点,

[PR & ML 5] [Introduction] Decision Theory

?统计学习精要(The Elements of Statistical Learning)?课堂笔记(二)

继续一周一次的课堂笔记 :D 昨天去晚了站着听讲,感觉好好啊,注意各种集中.想想整个教室里面就是我和老师是站着的,自豪感油然而生. 第二次课讲的东西依旧比较简单,是这本书第二章的前半部分.作为一个好久之前已经预习过的孩子,我表示万分的得意(最小二乘法难道不是三四年前就学过的?话说以后我再面人的时候,就让他推导最小二乘估计量,嘻嘻...考验一下基本功). ------------原谅我的废话,笔记开始------------ 简单预测方法:最小二乘法(以下沿用计量经济学的习惯,简称OLS) OLS

机器学习经典书籍

前面有一篇机器学习经典论文/survey合集331.本文总结了机器学习10的经典书籍,包括数学基础和算法理论的书籍.本文会保持更新,欢迎推荐. 入门书单 <数学之美> PDF683作者吴军大家都很熟悉.以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用. <Programming Collective Intelligence>(<集体智慧编程>)PDF389作者Toby Segaran也是<BeautifulData : The Stories Be