逻辑回归之问题建模分析

首先,我们引入分类问题,其实分类问题和回归问题很相似,只是分类问题中我们要预测的y值是有限数量的离散值,而不是回归问题中的连续值。

为了说明,我们现在只讨论二分类问题,也就是说y只能取0和1两种值。

对于这种二分类问题,当然也可以用线性回归去学习,然后根据给的的x预测出y,只是当预测出的y大于1或者小于0的时候是没有意义的,因为y只能取0或者1.

为了解决这种问题,我们可以提出下面的假设

其中

被称之为逻辑函数(logistic function or sigmoid function),g(z)的函数曲线如下图:

当z趋向正无穷时,g(z)趋向1,当z趋向负无穷时,g(z)趋向0.

因为这种特性,上面我们的假设的值也就被限制在0和1之间。

这就等于给出了逻辑回归的模型,该如何选择参数θ呢?

从概率的角度出发,作出如下假设:

当然这个假设也可简写为:

假如每一样本都是互相独立的,就可以得出参数θ的似然函数:

自然得到对数似然函数:

现在就是要最大化这个对数似然函数,和线性回归类似,我们同样可以用梯度下降,关键还是对对数似然函数求导:

注意上面推导用到了逻辑函数g(z)的一个性质:.

因此参数更新可以按照如下规则进行:

 

时间: 2024-12-20 20:31:23

逻辑回归之问题建模分析的相关文章

[深度学习]Python/Theano实现逻辑回归网络的代码分析

首先PO上主要Python代码(2.7), 这个代码在Deep Learning上可以找到. 1 # allocate symbolic variables for the data 2 index = T.lscalar() # index to a [mini]batch 3 x = T.matrix('x') # the data is presented as rasterized images 4 y = T.ivector('y') # the labels are presente

广告推荐系统-逻辑回归问题导出

在广告推荐系统中,利用用户和广告之间的信息作为预测的特征 预测的过程其实就是一个二分类的问题,主要就是判定一个用户对这个广告点击或者是不点击的概率是多少 而这个过程是一个伯努利函数,整个过程是一个伯努利分布 而在逻辑回归中主要是在线性回归的基础上利用了一个逻辑函数sigmod,而为什么要用这个函数,逻辑回归与线性回归之间的关系: 1 广义线性模型: 指数家族分布: 是广义线性模型的基础,所以先简单了解一下指数分布族. 当固定T时,这个分布属于指数家族中的哪种分布就由a和b两个函数决定. 自然参数

「数据挖掘入门系列」挖掘建模之分类与预测–逻辑回归

拿电商行业举例,经常会遇到以下问题: 如果基于商品的历史销售情况,以及节假日.气候.竞争对手等影响因素,对商品的销量进行趋势预测? 如何预测未来一段时间哪些客户会流失,哪些客户可能会成为VIP用户? 如果预测一种新商品的销售量,以及哪种类型的客户会比较喜欢? 除此之外,运营部门需要通过数据分析来了解具有某些特征的客户的消费习惯,管理人员希望了解下一个月的销售收入等,这些都是分类与预测的日志. 分类和预测是预测问题的两种主要类型. 分类主要是预测分类标号(离散值) 预测主要是建立连续值函数模型 挖

逻辑回归模型分析

本文主要分两个部分进行讨论,首先介绍最简单的线性回归模型:接着对逻辑回归进行分析 1.线性回归-->最小二乘法 对于线性回归问题,我们根据自变量的个数将其分为一元线性回归和多元线性回归,本部分先详细介绍一元线性模型,然后将其推广到多元线性模型 1)一元线性模型 当输入只有一个自变量时,我们称之为一元线性模型.(最简单) 设样本集合为:(xi,yi),i=1,2,…,m. 目标为:在平面上找出一条线,使得样本点尽可能多的在这条直线上. 设一元线性模型为:h(x)=ax+b,输出误差为:Si=yi-

R语言-逻辑回归建模

案例1:使用逻辑回归模型,预测客户的信用评级 数据集中采用defect为因变量,其余变量为自变量 1.加载包和数据集 library(pROC) library(DMwR)model.df <- read.csv('E:\\Udacity\\Data Analysis High\\R\\R_Study\\高级课程代码\\数据集\\第一天\\4信用评级\\customer defection data.csv',sep=',',header=T 2.查看数据集, dim(model.df) hea

Logistic回归 逻辑回归 练习——以2018建模校赛为数据源

把上次建模校赛一个根据三围将女性分为四类(苹果型.梨形.报纸型.沙漏)的问题用逻辑回归实现了,包括从excel读取数据等一系列操作. Excel的格式如下:假设有r列,则前r-1列为数据,最后一列为类别,类别需要从1开始,1~k类, 如上表所示,前10列是身高.胸围.臀围等数据(以及胸围和腰围.胸围和臀围的比值),最后一列1表示属于苹果型. import tensorflow as tf import os import numpy import xlrd XDATA = 0 YDATA = 0

建模分析之机器学习算法(附python&amp;R代码)

0序 随着移动互联和大数据的拓展越发觉得算法以及模型在设计和开发中的重要性.不管是现在接触比较多的安全产品还是大互联网公司经常提到的人工智能产品(甚至人类2045的的智能拐点时代).都基于算法及建模来处理.     常见的词汇:机器学习.数据建模.关联分析.算法优化等等,而这些种种又都是基于规律的深度开发(也难怪道德经的首篇就提出道可道非常道,名可名非常名的说法),不管是线性还是非线性,总之存在关联关系,而我们最好理解的就是线性关系,简单的用个函数就能解决.比如我们生活中应用的比较的归纳总结,其

机器学习系列:(四)从线性回归到逻辑回归

从线性回归到逻辑回归 在第2章,线性回归里面,我们介绍了一元线性回归,多元线性回归和多项式回归.这些模型都是广义线性回归模型的具体形式,广义线性回归是一种灵活的框架,比普通线性回归要求更少的假设.这一章,我们讨论广义线性回归模型的具体形式的另一种形式,逻辑回归(logistic regression). 和前面讨论的模型不同,逻辑回归是用来做分类任务的.分类任务的目标是找一个函数,把观测值匹配到相关的类和标签上.学习算法必须用成对的特征向量和对应的标签来估计匹配函数的参数,从而实现更好的分类效果

【机器学习】逻辑回归

逻辑回归 原理 逻辑回归模型 逻辑回归模型(LR)是判别模型,可以用于二分类或多分类,模型如下: 二分类: $$P(Y=1 | x)=\frac{\exp\left(w \cdot x\right)}{1+ \exp \left(w \cdot x\right)}$$ $$P(Y=0 | x)=\frac{1}{1+ \exp \left(w \cdot x\right)}$$ 多分类: $$P(Y=k | x)=\frac{\exp \left(w_{k} \cdot x\right)}{1+