?统计学习精要(The Elements of Statistical Learning)?课堂笔记（四）

照例继续本周笔记。这次我没啥废话了...

--------------笔记开始---------------

投影矩阵与消灭矩阵

首先是上次没证的若干OLS性质。基本都是公式。我就照抄原来econometrics做的笔记了。权当复习了...对计量有兴趣的、线性代数还不错的，建议去看《Microeconometrics- Methods and Applications》（?A.
Colin Cameron / Pravin K. Trivedi ）。

先定义两个矩阵，这两个矩阵会在某种程度上save your life while learning econometrics...投影矩阵和消灭矩阵。

复习一下，OLS估计量是 β^=(X′X)?1X′Y，然后对应的Y估计量是Y^=Xβ^=X(X′X)?1X′Y。所以，我们定义投影矩阵P为P=X(X′X)?1X′，这样就有了Y^=PY。也就是说，我们对Y进行了一次投影，然后得到了一个估计值。当然定义投影矩阵并不仅仅是写起来比那堆X简单，而是投影矩阵本身有着一系列良好的性质。

我们先来看把P投在X上会怎么样。显然，PX=X(X′X)?1X′X=X，也就是说P不会改变X的值（本来就是把一个东西投到X上嘛~自己投自己怎么会有变化的嘛）。

然后呢，对P进行转置，则P′=(X(X′X)?1X′)′=P，所以接下来P2=P′P=X(X′X)?1X′X(X′X)?1X′=P。

再定义消灭矩阵M。很简单，我们定义M为M=I?P=I?X(X′X)?1X′，其中I为单位阵（对角线元素为1，其他为0）。这样M又有什么性质呢？显然MY=(I?P)Y=Y?Y^=ε，也就是说M对Y的效果是得到误差项。而与此同时，M对于X的作用就是MX=(I?P)X=X?X=0，所以称为消灭矩阵嘛。继续，进行转置，则M′=(I?P)′=I?P=M，所以我们还有M2=M′M=(I?P)(I?P)=I?P?P+P=I?P=M。

OLS估计值的方差

再次友情提醒，X不是随机变量，所以不要跟我纠结为什么没有条件期望公式之类的东西...

扰动项服从N(0,σ)时，或者大样本下，OLS估计量的方差为：

Var(β^)=E[(β^?β)(β^?β)′]=E[(X′X)?1X′ε][(X′X)?1X′ε]′=(X′X)?1E(εε′)=s21(X′X)?1

这里=s21为样本方差，所以其分布为： β^∼N(β,s21(X′X)?1)。这样一来，就有了一个t检验：

t=β?0s21(X′X)?1∼tN?K?1。

大样本下，就直接用正态检验好了。此外，如果我们进一步的有更多的同时检验的约束条件，那就是联合检验F。这个就不赘述了...

高斯-马尔可夫定理

顺便还证了一下高斯-马尔可夫定理...这个不像OLS，每次我可记不住他的证明，每次都是现翻书...

我就直接抄wiki了。

选择另外一个线性估计量β~=CY，然后C可以写为 (X′X)?1X′+D，则D为k*n的非空矩阵。

那么这个估计量β~的期望是
：

E(CY)=E(((X′X)?1X′+D)(Xβ+ε))=((X′X)?1X′+D)Xβ+((X′X)?1X′+D)E(ε)0=(X′X)?1X′Xβ+DXβ=(Ik+DX)β.(1)(2)(3)(4)

所以，为了保证β~ 无偏，则必有DX=0 .

继续求方差：

V(β~)=V(CY)=CV(Y)C′=σ2CC′=σ2((X′X)?1X′+D)(X(X′X)?1+D′)=σ2((X′X)?1X′X(X′X)?1+(X′X)?1X′D′+DX(X′X)?1+DD′)=σ2(X′X)?1+σ2(X′X)?1(DX0)′+σ2DX0(X′X)?1+σ2DD′=σ2(X′X)?1V(β^)+σ2DD′.(5)(6)(7)(8)(9)

DD′是一个半正定矩阵，V(β~)肯定要比V(β^)大~得证。

变量选择与收缩方法

为了降低测试误差（减少函数的复杂度），有时候会放弃无偏性而进行变量选择。这里首先就是Ridge OLS（岭回归）。还是算一下这个东西好了。

岭回归就是对估计量另外加一个约束条件，所以很自然的想到拉格朗日乘子法。ridge regression的目标函数为，

β^=argmin∑(y?y^)2s.t.∑β^2≤k

可以重写为

β^=argmin(∑(y?y^)2+λ(β^2?k))

记L=∑(y?y^)2+λ(β^2?k)

这样我们就得到两个一阶条件：

?L?β=X′(Xβ^?Y)+λβ^=0和?L?λ=β^2?k=0，所以有：

β^=(X′X+λI)?1X′Y

这里还可以看出，λ的取值都是对应k的。

Lasso则是把L2改成L1，已经没有解析解了...

至于为什么叫收缩方法，可以将X进行奇异值分解，然后可以得出Y^ridge的方差将变小...我就不写证明了，感觉这一块儿讲的也不是很透彻。

时间： 2024-08-27 18:42:30

?统计学习精要(The Elements of Statistical Learning)?课堂笔记（四）的相关文章

?统计学习精要(The Elements of Statistical Learning)?课堂笔记（一）

前两天微博上转出来的,复旦计算机学院的吴立德吴老师在开?统计学习精要(The Elements of Statistical Learning)?这门课,还在张江...大牛的课怎能错过,果断请假去蹭课...为了减轻心理压力,还拉了一帮同事一起去听,eBay浩浩荡荡的十几人杀过去好不壮观!总感觉我们的人有超过复旦本身学生的阵势,五六十人的教室坐的满满当当,壮观啊. 这本书正好前阵子一直在看,所以才会屁颠屁颠的跑过去听.确实是一本深入浅出讲data mining models的好书.作者网站上提供免

?统计学习精要(The Elements of Statistical Learning)?课堂笔记（三）

照例文章第一段跑题,先附上个段子(转载的哦~): I hate CS people. They don't know linear algebra but want to teach projective geometry. They don't know any probability but want to use graphical models. They don't understand stats at all but still do machine learning like c

?统计学习精要(The Elements of Statistical Learning)?课堂笔记（二）

继续一周一次的课堂笔记 :D 昨天去晚了站着听讲,感觉好好啊,注意各种集中.想想整个教室里面就是我和老师是站着的,自豪感油然而生. 第二次课讲的东西依旧比较简单,是这本书第二章的前半部分.作为一个好久之前已经预习过的孩子,我表示万分的得意(最小二乘法难道不是三四年前就学过的?话说以后我再面人的时候,就让他推导最小二乘估计量,嘻嘻...考验一下基本功). ------------原谅我的废话,笔记开始------------ 简单预测方法:最小二乘法(以下沿用计量经济学的习惯,简称OLS) OLS

统计学习精要

统计学习精要(The Elements of Statistical Learning)课堂笔记系列 Posted at January 2nd, 2014 Filed under 课程教材:The Elements of Statistical Learning http://www-stat.stanford.edu/~tibs/ElemStatLearn/ 授课人:复旦大学计算机学院吴立德教授分节课堂笔记: 统计学习精要(The Elements of Statistical Lear

More 3D Graphics (rgl) for Classification with Local Logistic Regression and Kernel Density Estimates (from The Elements of Statistical Learning)（转）

This post builds on a previous post, but can be read and understood independently. As part of my course on statistical learning, we created 3D graphics to foster a more intuitive understanding of the various methods that are used to relax the assumpt