stata具有异方差误差的区间回归

原文链接:http://tecdat.cn/?p=6283

在Stata的实现中,可以使用鲁棒选项,当残差方差不恒定时,可以使用常规线性回归。使用稳健选项不会更改参数估计值,但使用三明治方差估计器计算标准误差(SE)。在这篇文章中,我将简要介绍使用稳健的区间回归的基本原理,并强调如果残差方差不是常数,与常规线性回归不同,则区间回归估计是有偏差的。

用于常规线性回归的稳健SE

在常规线性回归中,如果残差方差不是常数,则回归参数估计值仍然是无偏的,但SE则不然。处理SE中偏差的一种途径是使用Huber / White三明治SE。为了说明这一点,我们生成了一些简单的(X,Y)数据,其中Y遵循给定X的线性回归,但是残差方差是X的函数,因此违反了常数方差假设:

clear
set seed 1234
set obs 100000
gen x = 3 * runiform()
gen res_sd = exp(x)
gen y = x + res_sd * rnormal()

如果我们然后运行线性回归,首先没有robust选项,然后使用,我们获得:

. reg y x

      Source |       SS       df       MS              Number of obs =  100000
-------------+------------------------------           F(  1, 99998) = 1188.55
       Model |  78897.8401     1  78897.8401           Prob > F      =  0.0000
    Residual |  6638041.59 99998  66.3817435           R-squared     =  0.0117
-------------+------------------------------           Adj R-squared =  0.0117
       Total |  6716939.43 99999   67.170066           Root MSE      =  8.1475

------------------------------------------------------------------------------
           y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           x |   1.027518   .0298045    34.48   0.000     .9691014    1.085934
       _cons |  -.0177612   .0514732    -0.35   0.730    -.1186481    .0831258
------------------------------------------------------------------------------

. reg y x, robust

Linear regression                                      Number of obs =  100000
                                                       F(  1, 99998) =  713.39
                                                       Prob > F      =  0.0000
                                                       R-squared     =  0.0117
                                                       Root MSE      =  8.1475

------------------------------------------------------------------------------
             |               Robust
           y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           x |   1.027518   .0384705    26.71   0.000     .9521162    1.102919
       _cons |  -.0177612   .0359651    -0.49   0.621    -.0882524    .0527301
------------------------------------------------------------------------------

用于生成数据的Y和X之间的真实回归系数是1,并且我们看到out估计是无偏的(接近1),尽管非恒定的残差方差。基于模型和鲁棒SE之间的差异是由于鲁棒SE松弛恒定方差假设的事实,该假设违反了这个(大)数据集。

区间回归

如上所述,区间回归允许我们处理这样的情况:对于某些记录,结果的值未被精确观察,但受到间隔,左或右删失的影响。区间回归通过计算结果值位于已知范围内的相应概率来包括来自删失记录的似然贡献来适应这一点。例如,如果我们只知道特定记录/个体的结果值大于2,则Stata计算对应的可能性贡献。

Stata的intreg命令还允许使用鲁棒选项,这为我们提供了参数估计的抽样方差的有效估计。有人可能会合理地认为,即使错误具有非恒定方差,这样做也可以让我们获得有效的推论。然而,与常规线性回归的情况不同,事实证明,当误差具有非恒定方差时,参数估计通常是有偏差的。这是因为在似然计算中对删失观察的处理依赖于正态性的分布假设和残差的恒定方差。为了凭经验证明这一点,我们可以采用我们的模拟数据集,审查一些结果值,并使用intreg来拟合回归模型:


. replace  =2 if y>2
(38110 real changes made)

. gen depvar2=y

 (38110 real changes made, 38110 to missing)

. 

Fitting constant-only model:

Iteration 0:   log likelihood = -247972.92
Iteration 1:   log likelihood = -236859.06
Iteration 2:   log likelihood = -236635.97
Iteration 3:   log likelihood = -236635.67
Iteration 4:   log likelihood = -236635.67  

Fitting full model:

Iteration 0:   log likelihood = -248343.77
Iteration 1:   log likelihood = -236509.35
Iteration 2:   log likelihood = -236241.11
Iteration 3:   log likelihood = -236240.65
Iteration 4:   log likelihood = -236240.65  

Interval regression                               Number of obs   =     100000
                                                  LR chi2(1)      =     790.03
Log likelihood = -236240.65                       Prob > chi2     =     0.0000

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           x |  -.7679952   .0268782   -28.57   0.000    -.8206754    -.715315
       _cons |   2.222817   .0452328    49.14   0.000     2.134162    2.311471
-------------+----------------------------------------------------------------
    /lnsigma |   1.929401   .0030675   628.97   0.000     1.923389    1.935414
-------------+----------------------------------------------------------------
       sigma |   6.885387   .0211212                      6.844114    6.926908
------------------------------------------------------------------------------

  Observation summary:         0  left-censored observations
                           61890     uncensored observations
                           38110 right-censored observations
                               0       interval observations

X的截距和系数现在分别从它们的真实值0和1偏差(估计值为2.22和-0.77) - 这是非常数残差方差的结果。因此,对于标准线性回归,非常数残差方差不会偏差估计,对于区间回归则不然。我们现在可以继续使用强大的标准错误:


Fitting constant-only model:

Iteration 0:   log pseudolikelihood = -247972.92
Iteration 1:   log pseudolikelihood = -236859.06
Iteration 2:   log pseudolikelihood = -236635.97
Iteration 3:   log pseudolikelihood = -236635.67
Iteration 4:   log pseudolikelihood = -236635.67  

Fitting full model:

Iteration 0:   log pseudolikelihood = -248343.77
Iteration 1:   log pseudolikelihood = -236509.35
Iteration 2:   log pseudolikelihood = -236241.11
Iteration 3:   log pseudolikelihood = -236240.65
Iteration 4:   log pseudolikelihood = -236240.65  

Interval regression                               Number of obs   =     100000
                                                  Wald chi2(1)    =     751.14
Log pseudolikelihood = -236240.65                 Prob > chi2     =     0.0000

------------------------------------------------------------------------------
             |               Robust
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           x |  -.7679952    .028022   -27.41   0.000    -.8229173   -.7130731
       _cons |   2.222817     .03622    61.37   0.000     2.151827    2.293807
-------------+----------------------------------------------------------------
    /lnsigma |   1.929401   .0062859   306.94   0.000     1.917081    1.941722
-------------+----------------------------------------------------------------
       sigma |   6.885387   .0432812                      6.801078    6.970741
------------------------------------------------------------------------------

  Observation summary:         0  left-censored observations
                           61890     uncensored observations
                           38110 right-censored observations
                               0       interval observations

在这里使用鲁棒确实在某种程度上改变了截距/常数的SE,但问题是使用鲁棒不会影响仍然存在偏差的参数估计。

结论

我们基于区间回归的估计(假设正态分布的常数方差误差)通常会有偏差。这不是区间回归本身的缺陷,而仅仅是处理审查的反映,对错误的分布假设比标准线性回归更重要。

非常感谢您阅读本文,有任何问题请在下面留言!

大数据部落——中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和统计分析咨询服务

统计分析和数据挖掘咨询服务 :y0.cn/teradat(咨询服务请联系官网客服

QQ:3025393450

 

【服务场景】

科研项目;

公司项目外包 ;线上线下一对一培训 ;数据采集;学术研究;报告撰写;市场调查。

【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询服务

分享最新的大数据资讯,每天学习一点数据分析,让我们一起做有态度的数据人

微信客服号:lico_9e

QQ交流群:186388004 

欢迎选修我们的R语言数据分析挖掘必知必会课程!

欢迎关注微信公众号,了解更多数据干货资讯!

原文地址:https://www.cnblogs.com/tecdat/p/11459737.html

时间: 2024-11-05 12:08:17

stata具有异方差误差的区间回归的相关文章

SPSS(一)方差、相关和回归

引言 全局的概览+八个案例+窜一下 抽象的一般具有连续的性质,分类变量的小数位是没有意义的.抽象的变量,它的0往往是没有意义的,比如说幸福感.同样是连续性变量,有的0是有意义的,比如说订单量,如果0是有意义的,可以进行加减乘除运算,0没有意义,加减是可以的.标度可以分:间距(抽象的)和比率(0是有意义的,不抽象的变量).抽象叫潜,不抽象叫显,潜变量和显变量.潜变量是用来表示未来的,显变量是表示现在和过去.显变量不是预测,是用来描述,潜变量是用来预测的.显是用来归一,潜是用来 四种测量,名义.有序

SICP 习题 (2.16)解题总结:避免误差的区间计算系统

SICP 习题 2.16 问我们能不能设计一个没有问题的区间计算系统,可以避免习题2.14中的问题.题目还吓我们说这可能很难. 这一下就把我吓住了,你不是说很难吗,那就很难吧,我不会.呵呵

你应该掌握的七种回归技术

转自:http://www.iteye.com/news/30875 英文原文:https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/ [编者按]回归分析是建模和分析数据的重要工具.本文解释了回归分析的内涵及其优势,重点总结了应该掌握的线性回归.逻辑回归.多项式回归.逐步回归.岭回归.套索回归.ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素. 什么

机器学习中的数学(2)-线性回归,偏差、方差权衡

机器学习中的数学(2)-线性回归,偏差.方差权衡 版权声明: 本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com.如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任.如果有问题,请联系作者 [email protected] 前言: 距离上次发文章,也快有半个月的时间了,这半个月的时间里又在学习机器学习的道路上摸索着前进,积累了一点心得,以后会慢慢的写写这些心得.写文章是促进自己对知识认识的一个好方法,看书的时候往往不是非

7 种回归方法!请务必掌握!

https://mp.weixin.qq.com/s/k_UA4LIEji14fucj_NH7Cg 线性回归和逻辑回归通常是人们学习预测模型的第一个算法.由于这二者的知名度很大,许多分析人员以为它们就是回归的唯一形式了.而了解更多的学者会知道它们是所有回归模型的主要两种形式. 事实是有很多种回归形式,每种回归都有其特定的适用场合.在这篇文章中,我将以简单的形式介绍 7 中最常见的回归模型.通过这篇文章,我希望能够帮助大家对回归有更广泛和全面的认识,而不是仅仅知道使用线性回归和逻辑回归来解决实际问

偏差-方差分解

1. 偏差-方差分解是解释学习算法泛化性能的一种重要工具,试图对学习算法的期望泛化误差率(generalization error)进行分解.可以分解为三部分,偏差(bias).方差(variance)和噪声(noise).其中, 偏差:度量了模型的期望值和真实结果的偏离程度,刻画了模型本身的拟合能力 方差:度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动所产生的影响. 噪声:表达了当前任务上任何学习算法所能达到的期望防滑误差的下界,刻画了学习问题本身的难度. 2. 泛化误差:

概率统计——期望、方差与最小二乘法

本文始发于个人公众号:TechFlow 今天这篇文章和大家聊聊期望和方差. 期望 期望这个概念我们很早就在课本里接触了,维基百科的定义是:它表示的是一个随机变量的值在每次实验当中可能出现的结果乘上结果概率的总和.换句话说,期望值衡量的是多次实验下,所有可能得到的状态的平均结果. 我们举两个简单的例子,第一个例子是掷骰子. 我们都知道一个骰子有6个面,分别是1,2,3,4,5,6.我们每次投掷得到其中每一个面朝上的概率都是一样的,是1/6.对于投骰子这个事件而言,它的期望应该是: \[E(X) =

作业一 统计软件简介与数据操作

spss软件 所属类别 : 软件 SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件.最初软件全称为"社会科学"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正

集成学习(Ensemble Learning)

集成学习是机器学习中一个非常重要且热门的分支,是用多个弱分类器构成一个强分类器,其哲学思想是"三个臭皮匠赛过诸葛亮".一般的弱分类器可以由决策树,神经网络,贝叶斯分类器,K-近邻等构成.已经有学者理论上证明了集成学习的思想是可以提高分类器的性能的,比如说统计上的原因,计算上的原因以及表示上的原因.集成学习中主要的3个算法为:boosting,bagging,stacking.其中boosting的弱分类器形成是同一种机器学习算法,只是其数据抽取时的权值在不断更新,每次都是提高前一次分错