系列文章收集在比特币与互联网金融风控专栏中
虚拟变量定义
??在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。
??由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。
虚拟变量对模型的意义
??通常,我们假设的因变量与自变量之间的关系既是线性的,又是可以叠加,如果这些假设条件被违背,参数估计将发生偏差。
??将连续变量分成不同组表并用一套虚拟变量来表达,这不仅有助于检查这一变量的非线性模式,还提供在非线性关系存在条件下的无偏参数估计,这实际上是在建立回归模型时对方非线性关系的一个常用的方法。
如何设置虚拟变量
??虚拟变量通常是对无序分类资料而言。在线性回归中,如果自变量中有分类变量,那么一定要事先把这些分类变量事先重新编码,生成多个二分类虚拟变量。
在模型中引入多个虚拟变量时,虚拟变量的个数应按下列原则确定:
(1)如果回归模型有截距项
有m种互斥的属性类型,在模型中引入(m-1)个虚拟变量。
(2)如果回归模型无截距项,有m个特征,设置m个虚拟变量
虚拟变量在计算广告和信用评分中很常用。
人大经济论坛这个例子讲的非常好
http://bbs.pinggu.org/thread-3702024-1-1.html
??假如现有4个省份,分别是山西,山西,江苏,江西,要纳入到模型中。
??理解虚拟变量的真正含义:是要体现出不同省份之间的差异,而并不是所谓的控制变量。而其要充分理解多元线性回归当中参数估计量的真正含义:是偏回归系数,即自变量的边际量,表明了在其他条件不变的情况下,自变量每增加一个单位因变量的变化。
??如果按照你的理解假设X为地区变量,X的取值为1代表山西;2代表陕西;3代表江苏;4代表江西,那么回归完了以后如何来解释X前面的参数:X前面的参数表示X每增加一个单位因变量增加多少,而此时按照X的取值,陕西和山西之间相差一个单位,陕西和江苏之间也是差一个单位、江苏和江西之间也差一个单位,那么这个系数究竟是说明陕西和山西之间的差别呢?还是陕西和江苏还是江苏和江西之间的差别呢?这显然无法解释。还有X前面的回归参数是一个常数,那么就是说陕西和山西、陕西和江苏、江苏和江西之间因变量的差异是相同的,这显然是不合理的。
??要把四个省份用数值区分开来,用1,2,3,4呢?那用10,20,30,40也可以,那样的话参数估计量就更没法解释。所以,虚拟变量的定义一定是按照1和0来定义,即是就等于1,不是就等于0,比如,假设模型中有常数项,那么可以定义3个虚拟变量,D1为陕西(是陕西D1=1,不是陕西D1=0);D2为江苏(是江苏D2=1,不是江苏D2=0);D3为江西(是江西D3=1,不是江西D3=0),那么山西呢?如果D1,D2,D3都同时为0,肯定就是山西了,这样回归之后D1前面的参数表明了陕西与山之间的差别;D2前面的参数表明了江苏与山西之间的差异;D3前面的参数表明了江西与山西之间的差异,参数的经济意义非常明确。从深层次上讲虚拟变量模型实际上是解决了方差分析只能说明不同省份之间有无差异,而不能说明不同省份之间的这种差异究竟有多大的问题。
spss中设置虚拟变量
摘要
??如果自变量是多分类的,如果数据类型是(ordinal)整序变量,则不用设置哑变量,如果是多分类名义变量(观测类型是norminal)则必须设置哑变量,SPSS会自动设置,但具体设置也可以自己选择,一般默认的情况下,是以最后一个组为对照组。
??ordinal的时候,和nomial会有比较大的不同的处理方式,可以参考专门讲ordinal变量分析的资料,或者logistic方面的资料,总之要谨慎使用。