逻辑回归中的虚拟变量设置

系列文章收集在比特币与互联网金融风控专栏中

虚拟变量定义

??在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。

??由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。

虚拟变量对模型的意义

??通常,我们假设的因变量与自变量之间的关系既是线性的,又是可以叠加,如果这些假设条件被违背,参数估计将发生偏差。

??将连续变量分成不同组表并用一套虚拟变量来表达,这不仅有助于检查这一变量的非线性模式,还提供在非线性关系存在条件下的无偏参数估计,这实际上是在建立回归模型时对方非线性关系的一个常用的方法。

如何设置虚拟变量

??虚拟变量通常是对无序分类资料而言。在线性回归中,如果自变量中有分类变量,那么一定要事先把这些分类变量事先重新编码,生成多个二分类虚拟变量。

在模型中引入多个虚拟变量时,虚拟变量的个数应按下列原则确定:

(1)如果回归模型有截距项

有m种互斥的属性类型,在模型中引入(m-1)个虚拟变量。

(2)如果回归模型无截距项,有m个特征,设置m个虚拟变量

虚拟变量在计算广告和信用评分中很常用。

人大经济论坛这个例子讲的非常好

http://bbs.pinggu.org/thread-3702024-1-1.html

??假如现有4个省份,分别是山西,山西,江苏,江西,要纳入到模型中。

??理解虚拟变量的真正含义:是要体现出不同省份之间的差异,而并不是所谓的控制变量。而其要充分理解多元线性回归当中参数估计量的真正含义:是偏回归系数,即自变量的边际量,表明了在其他条件不变的情况下,自变量每增加一个单位因变量的变化。

??如果按照你的理解假设X为地区变量,X的取值为1代表山西;2代表陕西;3代表江苏;4代表江西,那么回归完了以后如何来解释X前面的参数:X前面的参数表示X每增加一个单位因变量增加多少,而此时按照X的取值,陕西和山西之间相差一个单位,陕西和江苏之间也是差一个单位、江苏和江西之间也差一个单位,那么这个系数究竟是说明陕西和山西之间的差别呢?还是陕西和江苏还是江苏和江西之间的差别呢?这显然无法解释。还有X前面的回归参数是一个常数,那么就是说陕西和山西、陕西和江苏、江苏和江西之间因变量的差异是相同的,这显然是不合理的。

??要把四个省份用数值区分开来,用1,2,3,4呢?那用10,20,30,40也可以,那样的话参数估计量就更没法解释。所以,虚拟变量的定义一定是按照1和0来定义,即是就等于1,不是就等于0,比如,假设模型中有常数项,那么可以定义3个虚拟变量,D1为陕西(是陕西D1=1,不是陕西D1=0);D2为江苏(是江苏D2=1,不是江苏D2=0);D3为江西(是江西D3=1,不是江西D3=0),那么山西呢?如果D1,D2,D3都同时为0,肯定就是山西了,这样回归之后D1前面的参数表明了陕西与山之间的差别;D2前面的参数表明了江苏与山西之间的差异;D3前面的参数表明了江西与山西之间的差异,参数的经济意义非常明确。从深层次上讲虚拟变量模型实际上是解决了方差分析只能说明不同省份之间有无差异,而不能说明不同省份之间的这种差异究竟有多大的问题。

spss中设置虚拟变量

http://cos.name/cn/topic/306/

摘要

??如果自变量是多分类的,如果数据类型是(ordinal)整序变量,则不用设置哑变量,如果是多分类名义变量(观测类型是norminal)则必须设置哑变量,SPSS会自动设置,但具体设置也可以自己选择,一般默认的情况下,是以最后一个组为对照组。

??ordinal的时候,和nomial会有比较大的不同的处理方式,可以参考专门讲ordinal变量分析的资料,或者logistic方面的资料,总之要谨慎使用。

时间: 2024-12-28 19:49:04

逻辑回归中的虚拟变量设置的相关文章

R语言ROC曲线下的面积 - 评估逻辑回归中的歧视

原文链接:http://tecdat.cn/?p=6310 在讨论ROC曲线之前,首先让我们在逻辑回归的背景下考虑校准和区分之间的区别. 良好的校准是不够的 对于模型协变量的给定值,我们可以获得预测的概率.如果观察到的风险与预测的风险(概率)相匹配,则称该模型已被很好地校准.也就是说,如果我们要分配一组值的大量观察结果,这些观察结果的比例应该接近20%.如果观察到的比例是80%,我们可能会同意该模型表现不佳 - 这低估了这些观察的风险. 我们是否应满足于使用模型,只要它经过良好校准?不幸的是.为

Ubuntu 定时任务中的环境变量设置

背景 1,定时任务命令 crontab -e 2,默认的环境变量 SHELL=/bin/sh PATH=/usr/bin:/bin PWD=/home/owl LANG=zh_CN.UTF-8 SHLVL=1 HOME=/home/owl LANGUAGE=zh_CN:zh LOGNAME=owl _=/usr/bin/env 解决方法 一.使用绝对路径: 二.手动设置环境变量 在shell文件开头 PATH=/... export PATH 三.批量设置环境变量 1,在shell文件中执行2

逻辑回归-5. scikit-learn中的逻辑回归

scikit-learn中的逻辑回归 构造数据集 import numpy import matplotlib.pyplot as plt numpy.random.seed(666) X = numpy.random.normal(0,1,size=(200,2)) # 决策边界为二次函数 y = numpy.array(X[:,0]**2 + X[:,1] < 1.5,dtype='int') # 随机改变20个点,目的是添加噪点 for _ in range(20): y[numpy.ra

虚拟变量学习

虚拟变量 ( Dummy Variables) 又称虚设变量.名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的自变量,通常取值为0或1.引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到俩个方程的作用,而且接近现实. 模型中引入虚拟变量的作用 1.分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素. 2.检验不同属性类型对因变量的作用,例如工资模型中的文化程度.季节对销售额的影响. 3.提高模型

Spark MLlib Logistic Regression逻辑回归算法

1.1 逻辑回归算法 1.1.1 基础理论 logistic回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然后使用函数g(z)将最为假设函数来预测.g(z)可以将连续值映射到0和1上. 它与线性回归的不同点在于:为了将线性回归输出的很大范围的数,例如从负无穷到正无穷,压缩到0和1之间,这样的输出值表达为"可能性"才能说服广大民众.当然了,把大值压缩到这个范围还有个很好的好处,就是可以消除特别冒尖的变量的影响. Logistic函数(或称为Sigm

机器学习系列:(四)从线性回归到逻辑回归

从线性回归到逻辑回归 在第2章,线性回归里面,我们介绍了一元线性回归,多元线性回归和多项式回归.这些模型都是广义线性回归模型的具体形式,广义线性回归是一种灵活的框架,比普通线性回归要求更少的假设.这一章,我们讨论广义线性回归模型的具体形式的另一种形式,逻辑回归(logistic regression). 和前面讨论的模型不同,逻辑回归是用来做分类任务的.分类任务的目标是找一个函数,把观测值匹配到相关的类和标签上.学习算法必须用成对的特征向量和对应的标签来估计匹配函数的参数,从而实现更好的分类效果

逻辑回归基础梳理

1.逻辑回归 逻辑回归就是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏. Logistic回归虽然名字里带"回归",但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别) 回归模型中,y是一个定性变量,比如y=0或1,logistic方法主要应用于研究某些事件发生的概率 2.预测函数 在逻辑回归中,我们一般取用Sigmoid函数,函数形式为:   对于线性边界的情况,边

机器学习之逻辑回归(Logistic Regression)

1. Classification 这篇文章我们来讨论分类问题(classification problems),也就是说你想预测的变量 y 是一个离散的值.我们会使用逻辑回归算法来解决分类问题. 之前的文章中,我们讨论的垃圾邮件分类实际上就是一个分类问题.类似的例子还有很多,例如一个在线交易网站判断一次交易是否带有欺诈性(有些人可以使用偷来的信用卡,你懂的).再如,之前判断一个肿瘤是良性的还是恶性的,也是一个分类问题. 在以上的这些例子中,我们想预测的是一个二值的变量,或者为0,或者为1:或者

线性回归,逻辑回归的学习(包含最小二乘法及极大似然函数等)

博文参考了以下两位博主的文章:http://blog.csdn.net/lu597203933/article/details/45032607,http://blog.csdn.net/viewcode/article/details/8794401 回归问题的前提: 1) 收集的数据 2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数.然后利用这个模型去预测/分类新的数据. 1. 线性回归 假设 特征 和 结果 都满足线性.即不大于一次方.这个是针对 收集的数据