logistic回归模型

一、模型简介

线性回归默认因变量为连续变量,而实际分析中,有时候会遇到因变量为分类变量的情况,例如阴性阳性、性别、血型等。此时如果还使用前面介绍的线性回归模型进行拟合的话,会出现问题,以二分类变量为例,因变量只能取0或1,但是拟合出的结果却无法保证只有这两个值。

那么使用概率的概念来进行拟合是否可以呢?答案也是否定的,因为
1.因变量的概率和自变量之间的关系不是线性的,通常呈S型曲线,并且这种曲线是无法通过曲线直线化进行处理的。
2.概率的取值应该在0-1之间,但是线性拟合的结果范围是整个实数集,并不能保证一定在0-1之间。

基于以上问题,我们需要找出其他解决思路,那就是logit变换(逻辑变换),我们将某种结果出现的概率和不出现的概率之比称为优势比P/(1-P),将优势比作为因变量,并且取其对数,这就是逻辑变换,通过逻辑变换使之与自变量之间呈线性关系,从而解决了上述问题1。同时也使得因变量的取值范围覆盖了整个实数集,也解决了上述问题2,我们将经过逻辑变换的线性模型称为logistic回归模型(逻辑回归模型),可以看出,逻辑回归也是一种线性回归模型,属于广义线性回归模型的范畴。

线性回归是根据回归方程预测某个结果的具体值,而逻辑回归则是根据回归方程预测预测某个结果出现的概率。

对因变量进行变换的方法很多,并不只有逻辑变换一种,只是逻辑变换应用最广,对于一些特殊情况,还需具体问题具体分析,不能一味的使用逻辑变换。

根据因变量的取值不同,逻辑回归可以分为:
1.二分类逻辑回归
2.有序多分类逻辑回归
3.无序多分类逻辑回归
4.配对逻辑回归

二、模型估计方法

逻辑回归不能使用普通最小二乘估计,而使用极大似然估计,也可以使用迭代重加权最小二乘法IRLS(Iteratively Reweighted Least Squares)

使用极大似然估计的好处是,这是一种概率论在参数估计中的应用,正好和我们对因变量的概率预测相符合。

极大似然估计也是一种迭代算法,先确定一个似然函数,然后求出能使这一似然函数最大时的参数估计。它基于这样的思想:如果某些参数能使这个样本出现的概率最大,那就不用再去选择其他参数,干脆就把这个参数作为估计的真实值。

三、优势比odds
前面讲过,某种结果出现的概率和不出现(注意顺序,是出现/不出现)的概率之比称为优势比,简称OR。也称为比值比或发生比,两个OR进行比较时,结果和对应的概率比较结果一致,因此,OR是否大于1可以看出两种情况下发生的概率大小的比较。

四、逻辑回归系数的意义

1.常数项

表示自变量全部取0时,某事件发生和不发生概率之比(Y=1和Y=0)的对数值,在不同的研究中,常数项的具体含义不同,在函数图中,常数项只影响图像的水平位置,为正时,函数左移;为负时,函数右移,在大多数情况下,逻辑回归的常数项没有太大意义。

2.回归系数
回归系数决定函数走向,正回归系数使事件发生的概率随x增大而增大,负回归系数使事件的概率随x增大而减小。

自变量增加一个单位,使某事件发生的优势比增加ebj倍

因此,优势比也可以看做是变量对发生概率的影响程度。

五、模型的检验

1.Wald检验
Wald检验用于判断一个变量是否应该包含在模型中,在变量筛选时使用,通过比较β值来进行。当回归系数很大时,会导致Wald统计量变得很小,增加第二类错误的概率,因此当回归系数很大时,应该用似然比检验来代替Wald检验,并且Wald检验也没有考虑共线性的影响。

2.似然比检验(Likelihood Ratio Test)
似然比检验用来判断模型在总体上是否显著,也可在变量筛选时使用,也可以作为判断拟合优度的标准。

该方法通过比较包含于不包含某些自变量的两个模型的对数似然函数之差进行。先拟合不包含自变量x的逻辑模型并求对数似然值,再拟合包含自变量x的逻辑模型并求对数似然值,计算统计量

该统计量近似服从自由度为自变量个数的卡方分布

在对模型总体进行检验时,假设
H0:所有回归系数都等于0(等价于不包含任何变量)
H1:所有回归系数不全为0(等价于包含相应变量)

在筛选变量时,假设
H0:待检测变量的回归系数都等于0(等价于不包含待检测变量)
H1:待检测变量的回归系数都不等于0(等价于包含待检测变量)

3.比分检验
也称为拉格朗日乘子检验,常用来做变量筛选,也近似服从卡方分布

以上三种方法是渐近等价的,在大样本情况下,都渐近服从卡方分布,并且都是基于极大似然原理。三种检验似然比检验最为可靠,其次为比分检验,最后为Wald检验。

4.伪决定系数
“伪”表示与线性回归模型中的决定系数相区别,但是含义并无不同,逻辑回归中的决定系数并不会像线性模型中的回归系数那么大,通常大于0.5就可认为拟合度良好。
常用的两个伪决定系数为
(1)Cox&Snell R2

L0;零模型的似然,也就是模型只包含常数项时的似然
Lv:当前模型的似然,也就是包含自变量的模型的似然
K:样本容量

(2)Negelkerke R2

5.Akaike信息准则(AIC)

赤池信息准则是衡量拟合优度的常用标准,公式如下

其中K为模型中自变量的数目,S为反应变量类别总数减1,对于逻辑回归有S=2-1=1。-2LogL的值域为0-∞,其值越小说明拟合越好。当模型中的参数数量越大时,似然值也就越大,-2LogL就变小。因此,将2(K+S)加到AIC公式中以抵销参数数量产生的影响。在其它条件不变的情况下,较小的AIC值表示拟合模型较好。

6.Schwarz准则(SC)
公式为

其中ln(n)是观测数量的自然对数。这一指标只能用于比较对同一数据所设的不同模型。在其它条件相同时,一个模型的AIC或SC值越小说明模型拟合越好。

7.Hosmer-Lemeshow检验
与一般的拟合优度检验不同,Hosmer-Lemeshow检验通常把数据分成10组,然后对每一组计算Pearson卡方,自由度则为组数减2,但是要注意该检验主要是检验预测值和观测值是否一致,越一致说明拟合越好,因此零假设为:预测值和观测值是否一致,而零假设不能拒绝的基础是P>α,所以一般来说P越大的话模型的拟合度较好,也可以直接看卡方值,也是越大拟合越好。

时间: 2024-10-14 05:00:11

logistic回归模型的相关文章

SPSS数据分析—配对Logistic回归模型

Lofistic回归模型也可以用于配对资料,但是其分析方法和操作方法均与之前介绍的不同,具体表现 在以下几个方面1.每个配对组共有同一个回归参数,也就是说协变量在不同配对组中的作用相同2.常数项随着配对组变化而变化,反映了非实验因素在配对组中的作用,但是我们并不关心其大小, 因此在拟合时采用条件似然函数代替了一般似然函数,从而在拟合中消去了反映层因素的参数. SPSS中没有直接拟合配对Logistic回归模型的过程,需要对数据进行一些处理,采用其他方法进行拟合,拟合方法有变量差值拟合和COX模型

SPSS数据分析—多分类Logistic回归模型

前面我们说过二分类Logistic回归模型,但分类变量并不只是二分类一种,还有多分类,本次我们介绍当因变量为多分类时的Logistic回归模型. 多分类Logistic回归模型又分为有序多分类Logistic回归模型和无序多分类Logistic回归模型 一.有序多分类Logistic回归模型 有序多分类Logistic回归模型拟合的基本方法是拟合因变量水平数-1个Logistic回归模型,也称为累积多分类Logit模型,实际上就是将因变量依次分割成两个等级,对这两个等级建立二分类Logistic

Logistic 回归模型 第一遍阅读笔记

MLE :最大似然估计,求得的这套参数估计能够通过指定模型以最大概率在线样本观测数据 必须来自随机样本,自变量与因变量之间是线性关系 logistic 回归没有关于自变量分布的假设条件,自变量可以连续,也可以离散,不需要假设他们之间服从多元正太分布,当然如果服从,效果更好 logistic 回归对多元共线性敏感,自变量之间存在多元共线性会导致标准误差的膨胀   ???? 最大似然的性质: 一致性,渐进有效性,渐进正态性 一致性表示当样本规模增大时,模型参数向真值收敛,变得无偏 渐进有效性表示规模

2.2 logistic回归损失函数(非常重要,深入理解)

上一节当中,为了能够训练logistic回归模型的参数w和b,需要定义一个成本函数 使用logistic回归训练的成本函数 为了让模型通过学习来调整参数,要给出一个含有m和训练样本的训练集 很自然的,希望通过训练集找到参数w和b,来得到自己得输出 对训练集当中的值进行预测,将他写成y^(I)我们希望他会接近于训练集当中的y^(i)的数值 现在来看一下损失函数或者叫做误差函数 他们可以用来衡量算法的运行情况 可以定义损失函数为y^和y的差,或者他们差的平方的一半,结果表明你可能这样做,但是实际当中

2.9 logistic回归中的梯度下降法(非常重要,一定要重点理解)

怎么样计算偏导数来实现logistic回归的梯度下降法 它的核心关键点是其中的几个重要公式用来实现logistic回归的梯度下降法 接下来开始学习logistic回归的梯度下降法 logistic回归的公式 现在只考虑单个样本的情况,关于该样本的损失函数定义如上面第三个公式,其中a是logistic回归的输出,y是样本的基本真值标签值, 下面写出该样本的偏导数流程图 假设样本只有两个特征x1和x2 为了计算Z,我们需要输入参数w1和w2和b 因此在logistic回归中,我们要做的就是变换参数w

Logistic回归模型和Python实现

回归分析是研究变量之间定量关系的一种统计学方法,具有广泛的应用. Logistic回归模型 线性回归 先从线性回归模型开始,线性回归是最基本的回归模型,它使用线性函数描述两个变量之间的关系,将连续或离散的自变量映射到连续的实数域. 模型数学形式: 引入损失函数(loss function,也称为错误函数)描述模型拟合程度: 使J(w)最小,求解优化问题得到最佳参数. Logistic回归 logistic回归(Logistic regression 或 logit regression)有时也被

机器学习实战读书笔记(五)Logistic回归

Logistic回归的一般过程 1.收集数据:采用任意方法收集 2.准备数据:由于需要进行距离计算,因此要求数据类型为数值型.另外,结构化数据格式则最佳 3.分析数据:采用任意方法对数据进行分析 4.训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数 5.测试算法:一旦训练步骤完成,分类将会很快. 6.使用算法:首 先,我们需要输入一些数据,并将其转换成对应的结构化数值:接着,基于训练好的回归系数就可以对这些数值进行简单回归计算,判定它们属于哪个类别:在这之后,我们就可以在输

Logistic 回归

Logistic回归是目前最常用的一种分类算法.之前讨论了线性回归 http://www.cnblogs.com/futurehau/p/6105011.html,采用线性回归是不能解决或者说不能很好解决分类问题的,很直观的一个解释如下图所示,这里介绍Logistic回归. 一.Logistic 回归模型 1.1 目标函数: 1.2 ML准则推导代价函数 似然函数: 对数似然函数及其求导: 1.3 代价函数: 在线性回归中,我们得到代价函数,但是在Logistic 回归中,由于h(x)是一个复杂

Logistic回归原理及公式推导[转]

原文见 http://blog.csdn.net/acdreamers/article/details/27365941 Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素之间关系的一种多 变量分析方法.通常的问题是,研究某些因素条件下某个结果是否发生,比如医学中根据病人的一些症状来判断它是 否患有某种病. 在讲解Logistic回归理论之前,我们先从LR分类器说起.LR分类器,即Logistic Regression Classifier. 在分类情形下,经过学习后