?统计学习精要(The Elements of Statistical Learning)?课堂笔记(四)

照例继续本周笔记。这次我没啥废话了...

--------------笔记开始---------------

投影矩阵与消灭矩阵

首先是上次没证的若干OLS性质。基本都是公式。我就照抄原来econometrics做的笔记了。权当复习了...对计量有兴趣的、线性代数还不错的,建议去看《Microeconometrics- Methods and Applications》(?A.
Colin Cameron / Pravin K. Trivedi )。

先定义两个矩阵,这两个矩阵会在某种程度上save your life while learning econometrics...投影矩阵和消灭矩阵。

复习一下,OLS估计量是 β^=(X′X)?1X′Y,然后对应的Y估计量是Y^=Xβ^=X(X′X)?1X′Y。所以,我们定义投影矩阵P为P=X(X′X)?1X′,这样就有了Y^=PY。也就是说,我们对Y进行了一次投影,然后得到了一个估计值。当然定义投影矩阵并不仅仅是写起来比那堆X简单,而是投影矩阵本身有着一系列良好的性质。

我们先来看把P投在X上会怎么样。显然,PX=X(X′X)?1X′X=X,也就是说P不会改变X的值(本来就是把一个东西投到X上嘛~自己投自己怎么会有变化的嘛)。

然后呢,对P进行转置,则P′=(X(X′X)?1X′)′=P,所以接下来P2=P′P=X(X′X)?1X′X(X′X)?1X′=P。

再定义消灭矩阵M。很简单,我们定义M为M=I?P=I?X(X′X)?1X′,其中I为单位阵(对角线元素为1,其他为0)。这样M又有什么性质呢?显然MY=(I?P)Y=Y?Y^=ε,也就是说M对Y的效果是得到误差项。而与此同时,M对于X的作用就是MX=(I?P)X=X?X=0,所以称为消灭矩阵嘛。继续,进行转置,则M′=(I?P)′=I?P=M,所以我们还有M2=M′M=(I?P)(I?P)=I?P?P+P=I?P=M。

OLS估计值的方差

再次友情提醒,X不是随机变量,所以不要跟我纠结为什么没有条件期望公式之类的东西...

扰动项服从N(0,σ)时,或者大样本下,OLS估计量的方差为:

Var(β^)=E[(β^?β)(β^?β)′]=E[(X′X)?1X′ε][(X′X)?1X′ε]′=(X′X)?1E(εε′)=s21(X′X)?1

这里=s21为样本方差,所以其分布为: β^∼N(β,s21(X′X)?1)。这样一来,就有了一个t检验:

t=β?0s21(X′X)?1∼tN?K?1。

大样本下,就直接用正态检验好了。此外,如果我们进一步的有更多的同时检验的约束条件,那就是联合检验F。这个就不赘述了...

高斯-马尔可夫定理

顺便还证了一下高斯-马尔可夫定理...这个不像OLS,每次我可记不住他的证明,每次都是现翻书...

我就直接抄wiki了。

选择另外一个线性估计量β~=CY,然后C可以写为 (X′X)?1X′+D,则D为k*n的非空矩阵。

那么这个估计量β~的期望是

E(CY)=E(((X′X)?1X′+D)(Xβ+ε))=((X′X)?1X′+D)Xβ+((X′X)?1X′+D)E(ε)0=(X′X)?1X′Xβ+DXβ=(Ik+DX)β.(1)(2)(3)(4)

所以,为了保证β~ 无偏,则必有DX=0 .

继续求方差:

V(β~)=V(CY)=CV(Y)C′=σ2CC′=σ2((X′X)?1X′+D)(X(X′X)?1+D′)=σ2((X′X)?1X′X(X′X)?1+(X′X)?1X′D′+DX(X′X)?1+DD′)=σ2(X′X)?1+σ2(X′X)?1(DX0)′+σ2DX0(X′X)?1+σ2DD′=σ2(X′X)?1V(β^)+σ2DD′.(5)(6)(7)(8)(9)

DD′是一个半正定矩阵,V(β~)肯定要比V(β^)大~得证。

变量选择与收缩方法

为了降低测试误差(减少函数的复杂度),有时候会放弃无偏性而进行变量选择。这里首先就是Ridge OLS(岭回归)。还是算一下这个东西好了。

岭回归就是对估计量另外加一个约束条件,所以很自然的想到拉格朗日乘子法。ridge regression的目标函数为,

β^=argmin∑(y?y^)2s.t.∑β^2≤k

可以重写为

β^=argmin(∑(y?y^)2+λ(β^2?k))

记L=∑(y?y^)2+λ(β^2?k)

这样我们就得到两个一阶条件:

?L?β=X′(Xβ^?Y)+λβ^=0和?L?λ=β^2?k=0,所以有:

β^=(X′X+λI)?1X′Y

这里还可以看出,λ的取值都是对应k的。

Lasso则是把L2改成L1,已经没有解析解了...

至于为什么叫收缩方法,可以将X进行奇异值分解,然后可以得出Y^ridge的方差将变小...我就不写证明了,感觉这一块儿讲的也不是很透彻。

时间: 2024-08-27 18:42:30

?统计学习精要(The Elements of Statistical Learning)?课堂笔记(四)的相关文章

?统计学习精要(The Elements of Statistical Learning)?课堂笔记(一)

前两天微博上转出来的,复旦计算机学院的吴立德吴老师在开?统计学习精要(The Elements of Statistical Learning)?这门课,还在张江...大牛的课怎能错过,果断请假去蹭课...为了减轻心理压力,还拉了一帮同事一起去听,eBay浩浩荡荡的十几人杀过去好不壮观!总感觉我们的人有超过复旦本身学生的阵势,五六十人的教室坐的满满当当,壮观啊. 这本书正好前阵子一直在看,所以才会屁颠屁颠的跑过去听.确实是一本深入浅出讲data mining models的好书.作者网站上提供免

?统计学习精要(The Elements of Statistical Learning)?课堂笔记(三)

照例文章第一段跑题,先附上个段子(转载的哦~): I hate CS people. They don't know linear algebra but want to teach projective geometry. They don't know any probability but want to use graphical models. They don't understand stats at all but still do machine learning like c

?统计学习精要(The Elements of Statistical Learning)?课堂笔记(二)

继续一周一次的课堂笔记 :D 昨天去晚了站着听讲,感觉好好啊,注意各种集中.想想整个教室里面就是我和老师是站着的,自豪感油然而生. 第二次课讲的东西依旧比较简单,是这本书第二章的前半部分.作为一个好久之前已经预习过的孩子,我表示万分的得意(最小二乘法难道不是三四年前就学过的?话说以后我再面人的时候,就让他推导最小二乘估计量,嘻嘻...考验一下基本功). ------------原谅我的废话,笔记开始------------ 简单预测方法:最小二乘法(以下沿用计量经济学的习惯,简称OLS) OLS

统计学习精要

统计学习精要(The Elements of Statistical Learning)课堂笔记系列 Posted at January 2nd, 2014 Filed under 课程教材:The Elements of Statistical Learning http://www-stat.stanford.edu/~tibs/ElemStatLearn/ 授课人:复旦大学计算机学院 吴立德教授 分节课堂笔记: 统计学习精要(The Elements of Statistical Lear

More 3D Graphics (rgl) for Classification with Local Logistic Regression and Kernel Density Estimates (from The Elements of Statistical Learning)(转)

This post builds on a previous post, but can be read and understood independently. As part of my course on statistical learning, we created 3D graphics to foster a more intuitive understanding of the various methods that are used to relax the assumpt

《The Elements of Statistical Learning》 chp3 Linear Models for Regression

3.1    线性回归模型假定 回归函数E(Y|X)与输入X1,...,Xp是线性关系. ## 可以扩展到与 输入的变换 是线性关系,这种扩展叫做 basis-function methods(基函数方法) ,在Chp5 中讨论. 3.2    输入变量可以是 1.输入的Xj  2.输入的变换,如取对数.开方等  3. basis expansions,如X2=X1的平方,X3=X1的三次方,变成了多项式表示  4. dummy coding  5.interaction between var

分布式计算、统计学习与ADMM算法

在整理旧电脑时,才发现13年下半年电脑里有不少残文.老师说,东西搁下了再拿起来花费的时间和之前可能差不多.我一眼看过去这篇关于分布式计算的文章,貌似还真的没有了当时理解的深度和感觉.当时还想利用ADMM算法,把统计中常见的带惩罚的高维问题在此框架下用R重写一下,但是中途多种事情一耽搁,就早已抛之脑后.看来任何事情,真的还是需要坚持,哪怕拨点时间都是好的.先把一篇残文扔出来祭奠下过去的13年吧.公式多文字长,慎入! 业界一直在谈论大数据,对于统计而言,大数据其实意味着要不是样本量增加n→∞,要不就

统计学习的相关定义

1. 什么是统计学习? 统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科.具有以下特点: (1)以计算机和网络为平台:(2)以数据为对象,数据驱动的学科:(3)目的是对数据进行预测和分析:(4)以方法为中心,统计学习方法构建模型并应用模型进行预测和分析:(5)概率论.信息论.计算理论.最优化理论及计算机学习的交叉学科. 统计学习方法的步骤: (1)得到一个有限的训练数据集合:(2)得到包含所有可能的模型的假设空间,即

统计学习概念

统计学习是基于数据构建统计模型从而对数据进行预测与分析,统计学习由监督学习,非监督学习,半监督学习和强化学习等组成 统计学习由模型的假设空间(学习的模型属于某个函数的集合),模型选择的准则,及模型学习的算法 统计学习方法步骤如下: (1)得到一个有限的训练数据集合 (2)确定包含所有可能的模型的假设空间(学习模型的集合) (3)确定模型选择的准则,即学习的策略 (4)实现求解最优模型的算法即学习的算法 (5)通过学习方法选择最优模型 (6)利用学习的最优模型对新数据进行预测或分析 1.监督学习