- 3.1 线性回归模型假定 回归函数E(Y|X)与输入X1,...,Xp是线性关系。 ## 可以扩展到与 输入的变换 是线性关系,这种扩展叫做 basis-function methods(基函数方法) ,在Chp5 中讨论。
- 3.2 输入变量可以是 1.输入的Xj 2.输入的变换,如取对数、开方等 3. basis expansions,如X2=X1的平方,X3=X1的三次方,变成了多项式表示 4. dummy coding 5.interaction between variables,比如:X3=X1*X2。 ## 总之,模型关于参数是线性的。 ## RSS(the residual sum of squares) ## 最小二乘的预测y-hat 是y在输入X生成的列空间上的正交投影 ##若X的列不是相互独立的,软件可以将某些列删掉 ## Rank deficiencies 输入变量p大于训练样本数 ##参数估计值Beta-hat的方差 ##对单个系数进行假设检验,t检验&对多个系数进行显著性检验,F检验 null hypothesis指零假设、原假设 ## Example: Prostate Cancer,base error rate ##the Gauss-Markov Theorm,最小二乘估计出的Beta在所有线性无偏估计中有最小的方差,而ridge regression 是有偏估计。但是可能存在有偏估计量有更小的方差,bias-variance tradeoff。比如:将最小二乘中一些系数设置为0可能会得到一个有偏估计。
时间: 2024-09-28 16:18:23