在谈线性回归模型的时候被问到,在线性回归中,有三个如果,是哪三个?
当时回答出来自变量x和因变量y之间是线性变化关系。也就是说,假设x进行线性变化的话,y也会有对应的线性变化。
提到数据样本的时候也答道了样本点之间要求是独立同分布的(依据MLE准则,假定对样本加上高斯白噪声e的情况下)。
可是第三个终于还是没有答上来,面试官也没有再给提示,所以回来自己再查一下。
LR的wiki页面(http://en.wikipedia.org/wiki/Linear_regression)中,有提到了LR的如果。各自是:
Weak exogeneity:弱外生性。
看意思是说如果用来预測的自变量x是没有測量误差的。
这一如果当然是不现实的,只是如果没有这个如果的话,模型的复杂度会大大添加。
Linearity:线性。就是因变量y是多个自变量x之间的线性组合。
Constant variance (aka homoscedasticity):同方差性。意思是说不同的因变量x的方差都是同样的。
Independence of errors:误差独立性。
即是变量之间是独立的(有些方法能够处理变量之间不独立的情况,如generalized least squares等)。
Lack of multicollinearity in the predictors:预測变量之中没有多重共线性。
多重共线性意思是说。This can be triggered by having two or more perfectly correlated predictor variables (e.g. if the same predictor variable is mistakenly given twice, either without transforming one of the copies
or by transforming one of the copies linearly). It can also happen if there is too little data available compared to the number of parameters to be estimated (e.g. fewer data points than regression coefficients). 其后果是:In the case of multicollinearity, the
parameter vector β will be non-identifiable—it has no unique solution. 我的理解是说。没有特征之间的交叉或者多次反复某些互相相关的特征。事实上感觉,假设有特征交叉或多次反复相关特征的话,应该就是非线性模型了。当时上课的时候李老师在怎样用线性回归模型来描写叙述非线性特征中提到了,就是使用特征交叉、对同一个feature分区间改变权重(区间之间也能够交叉)一类的方法。
假设这样导致特征过多、计算量大,而想要减少维度的话。能够使用聚类来把相似特征聚到一起。或者使用L1范数来进行特征选择。
感觉这几个如果中,我提到了线性如果(线性如果应该也算是包括了没有多重共线性吧,个人推測),独立同分布如果中应该算是包括了同方差性、误差独立性。
所以,可能没提到的那个指的是弱外生性,也就是如果样本点的取得是没有測量误差的,这一个如果一般现实中都不满足,可是都会如果满足来减少模型复杂度。