统计学习笔记之逻辑回归

  在分类的问题中,要预测的变量y经常是离散的,如需要预测是正确还是错误,这是一种最基本的二分类。当然,逻辑回归也可以进行多分类,有一种简单的方法是,将其中一类标记为正类,剩余类标记为负类,可以得到正类,再讲另外一个类标记为正类,重复进行既可得到多分类的结果。

  LR的常规步骤:

    1.寻找假设函数

    2.构造损失函数

    3.使损失函数最小,并求得回归参数

  对于二分类,输出标记为,而线性回归模型产生的预测值是实值,于是我们要将转换为0/1值。最理想的是单位阶跃函数,但是单位阶跃函数不连续不可微,于是,利用的是Sigmoid函数来代替单位阶跃函数:

    

对于线性边界而言,边界形式如下:

  

构造预测函数为:

  

其中有自己的含义,代表的是结果取1时的概率,并且:

  

接下来,需要构造损失函数:

  

  

介绍一下推理过程:

(1)式子可以表示为:

  

取似然函数:

  

再取对数:

  

可以使用梯度下降法进行求解,取:

  

θ的更新过程为:

  

  

θ更新过程可以写成:

  

为了避免过拟合问题,可以引入正则化。

关于随机梯度下降算法:

https://wenku.baidu.com/view/71203201bed5b9f3f90f1c3e.html

http://www.cnblogs.com/ooon/p/4947688.html

时间: 2024-10-24 03:01:42

统计学习笔记之逻辑回归的相关文章

Python学习笔记之逻辑回归

1 # -*- coding: utf-8 -*- 2 """ 3 Created on Wed Apr 22 17:39:19 2015 4 5 @author: 90Zeng 6 """ 7 8 import numpy 9 import theano 10 import theano.tensor as T 11 import matplotlib.pyplot as plt 12 rng = numpy.random 13 N = 400

《机器学习实战》学习笔记:Logistic回归&预测疝气病证的死亡率

前言: 生活中,人们经常会遇到各种最优化问题,比如如何在最短时间从一个地点到另外一个地点?如何在投入最少的资金而却能得到最高的受益?如何设计一款芯片使其功耗最低而性能最好?这一节就要学习一种最优化算法--Logistic回归,设计最优化算法的目的依然是用于分类.在这里,Logistic回归的主要思想是根据现有的数据对分类边界线建立回归公式,达到分类的目的.假设我们有一堆数据,需要划一条线(最佳直线)对其分类,这就是Logistic回归的目的. 而"Logistic回归"中的"

统计学习笔记之支持向量机

支持向量机(SVM)是一种二分类模型,跟之前介绍的感知机有联系但也有区别.简单来讲,感知机仅仅是找到了一个平面分离正负类的点,意味着它是没有任何约束性质的,可以有无穷多个解,但是(线性可分)支持向量机和感知机的区别在于,支持向量机有一个约束条件,即利用间隔最大化求最优分离超平面,这时,支持向量机的解就是唯一存在的. 首先来看线性可分的支持向量机,对于给定的数据集,需要学习得到的分离超平面为: 以及对应的分类决策函数: 一般而言,一个点距离分离超平面的远近可以表示分类预测的确信程度.如果超平面确定

统计学习笔记之决策树(二)

1.CART分类树的特征选择 分类问题中,假设有K个类,样本点属于第k类的概率为,则概率分布的基尼指数定义为: 如果,集合D根据特征A是否取某一可能值a被分割成和,在特征A的条件下,集合D的基尼指数定义为: 基尼指数代表了模型的不纯度,基尼指数越小,不纯度越小,特征越好. 2.CART分类树的生成算法 输入:训练数据集D,停止计算条件; 输出:CART决策树. 根据训练数据集,从根结点开始,递归的对每个结点进行以下操作,构建二叉树: (1)计算现有特征对该数据集的基尼指数; (2)在所有可能的特

斯坦福大学机器学习课程笔记: 逻辑回归以及梯度下降

统计学习笔记(3) 监督学习概论(3)

Some further statements on KNN: It appears that k-nearest-neighbor fits have a single parameter, the number of neighbors k, compared to the p parameters in least-squares fits. Although this is the case, we will see that the effective number of parame

统计学习笔记(4) 线性回归(1)

Quantitative algorithm Error evaluation In this chapter, we review some of the key ideas underlying the linear regression model, as well as the least squares approach that is most commonly used to fit this model. Basic form: "≈" means "is a

机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)

机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法.恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了. 这节学习的是逻辑回归(Logistic Regression),也算进入了比较正统的机器学习算法.啥叫正统呢?我概念里面机器学习算法一般是这样一个步骤: 1)对于一个问题,我们用数学语言来描述它,然后建立一个模型,例如回归模型或者分类模型等

ufldl学习笔记与编程作业:Logistic Regression(逻辑回归)

ufldl出了新教程,感觉比之前的好,从基础讲起,系统清晰,又有编程实践. 在deep learning高质量群里面听一些前辈说,不必深究其他机器学习的算法,可以直接来学dl. 于是最近就开始搞这个了,教程加上matlab编程,就是完美啊. 新教程的地址是:http://ufldl.stanford.edu/tutorial/ 本节学习链接:http://ufldl.stanford.edu/tutorial/supervised/LogisticRegression/ 有了线性回归的基础再来学