logistic函数和softmax函数

 

  简单总结一下机器学习最常见的两个函数,一个是logistic函数,另一个是softmax函数,若有不足之处,希望大家可以帮忙指正。本文首先分别介绍logistic函数和softmax函数的定义和应用,然后针对两者的联系和区别进行了总结。

1. logistic函数

1.1 logistic函数定义

  引用wiki百科的定义:

  A logistic function or logistic curve is a common "S" shape (sigmoid curve).

  其实逻辑斯谛函数也就是经常说的sigmoid函数,它的几何形状也就是一条sigmoid曲线。

  logistic函数的公式形式如下:

f(x)=L1+e−k(x−x0)f(x)=L1+e−k(x−x0)

  其中,x0x0表示了函数曲线的中心(sigmoid midpoint),kk是曲线的坡度。

  logistic的几何形状如下所示:

1.2 logistic函数的应用

  logistic函数本身在众多领域中都有很多应用,我们只谈统计学和机器学习领域。

  logistic函数在统计学和机器学习领域应用最为广泛或者最为人熟知的肯定是逻辑斯谛回归模型了。逻辑斯谛回归(Logistic Regression,简称LR)作为一种对数线性模型(log-linear model)被广泛地应用于分类和回归场景中。此外,logistic函数也是神经网络最为常用的激活函数,即sigmoid函数。

2. softmax函数

2.1 softmax函数的定义

  同样,我们贴一下wiki百科对softmax函数的定义:

  softmax is a generalization of logistic function that "squashes"(maps) a KK-dimensional vector zz of arbitrary real values to a KK-dimensional vector σ(z)σ(z) of real values in the range (0, 1) that add up to 1.

  这句话既表明了softmax函数与logistic函数的关系,也同时阐述了softmax函数的本质就是将一个KK维的任意实数向量压缩(映射)成另一个KK维的实数向量,其中向量中的每个元素取值都介于(0,1)之间。

  softmax函数形式如下:

σ(z)j=ezj∑Kk=1ezkσ(z)j=ezj∑k=1Kezk

  其中j=1,2,...,Kj=1,2,...,K。

2.2 sotfmax函数的应用

  softmax函数经常用在神经网络的最后一层,作为输出层,进行多分类。此外,softmax在增强学习领域内,softmax经常被用作将某个值转化为激活概率,这类情况下,softmax的公式如下:

Pt(a)=eqt(a)T∑ni=1eqt(i)TPt(a)=eqt(a)T∑i=1neqt(i)T

  其中,TT被称为是温度参数(temperature parameter)。当T很大时,即趋于正无穷时,所有的激活值对应的激活概率趋近于相同(激活概率差异性较小);而当T很低时,即趋于0时,不同的激活值对应的激活概率差异也就越大。这个结论很重要,Hinton在2015年的一篇paper中重点阐释了如何根据温度参数来soften神经网络的输出,从而提出了distillation的思想和方法。

3. logistic和softmax的关系

  1)logistic具体针对的是二分类问题,而softmax解决的是多分类问题,因此从这个角度也可以理解logistic函数是softmax函数的一个特例。

  这里借鉴UFLDL教程中的推导,具体的推导过程如下:

  当分类数为2时,softmax回归的假设函数表示如下:

  利用softmax回归参数冗余的特点,从两个参数向量中都减去向量θ1θ1,得到:

  最后,用θ′θ′来表示θ2−θ1θ2−θ1,上述公式可以表示为softmax回归器预测其中一个类别的概率为

11+eθ′Txi11+eθ′Txi

  另一个类别的概率为

1−11+eθ′Txi1−11+eθ′Txi

  这与logistic回归是完全一致的。

  2)从概率角度来看logistic和softmax函数的区别。

  softmax建模使用的分布是多项式分布,而logistic则基于伯努利分布,这方面具体的解释可以参考Andrew Ng的讲义去理解。

  3)softmax回归和多个logistic回归的关系。

  有了解的同学可能知道多个logistic回归通过叠加也同样可以实现多分类的效果,那么多个logistic回归和softmax一样不一样呢?

  softmax回归进行的多分类,类与类之间是互斥的,即一个输入只能被归为一类;

  多个logistic回归进行多分类,输出的类别并不是互斥的,即"苹果"这个词语既属于"水果"类也属于"3C"类别。

4. 参考内容

  [1] wiki百科:logistic函数

  [2] wiki百科:softmax函数

  [3] UFLDL教程之softmax回归

作者:Poll的笔记
博客出处:http://www.cnblogs.com/maybe2030/
本文版权归作者和博客园所有,欢迎转载,转载请标明出处。
<如果你觉得本文还不错,对你的学习带来了些许帮助,请帮忙点击右下角的推荐>

原文地址:https://www.cnblogs.com/tsy-0209/p/12630160.html

时间: 2024-10-10 23:57:34

logistic函数和softmax函数的相关文章

Sigmoid函数与Softmax函数的理解

1. Sigmod 函数 1.1 函数性质以及优点 其实logistic函数也就是经常说的sigmoid函数,它的几何形状也就是一条sigmoid曲线(S型曲线). 其中z是一个线性组合,比如z可以等于:b + w1*x1 + w2*x2.通过代入很大的正数或很小的负数到g(z)函数中可知,其结果趋近于0或1 A logistic function or logistic curve is a common “S” shape (sigmoid curve). 也就是说,sigmoid函数的功能

Softmax函数与交叉熵

在Logistic regression二分类问题中,我们可以使用sigmoid函数将输入Wx+b映射到(0,1)区间中,从而得到属于某个类别的概率.将这个问题进行泛化,推广到多分类问题中,我们可以使用softmax函数,对输出的值归一化为概率值 这里假设在进入softmax函数之前,已经有模型输出C值,其中C是要预测的类别数,模型可以是全连接网络的输出aa,其输出个数为C,即输出为: 所以对每个样本,它属于类别i的概率为: 通过上式可以保证 ,即属于各个类别的概率和为1 对softmax函数进

softmax函数python实现

import numpy as np def softmax(x): """ 对输入x的每一行计算softmax. 该函数对于输入是向量(将向量视为单独的行)或者矩阵(M x N)均适用. 代码利用softmax函数的性质: softmax(x) = softmax(x + c) 参数: x -- 一个N维向量,或者M x N维numpy矩阵. 返回值: x -- 在函数内部处理后的x """ orig_shape = x.shape # 根据输

机器学习 —— 基础整理(五):线性回归;二项Logistic回归;Softmax回归;广义线性模型

本文简单整理了以下内容: (一)线性回归 (二)二分类:二项Logistic回归 (三)多分类:Softmax回归 (四)广义线性模型 二项Logistic回归是我去年入门机器学习时学的第一个模型,我觉得这个模型很适合用来入门(但是必须注意这个模型有很多很多很多很多可以展开的地方).比较有意思的是那时候还不会矩阵微积分,推导梯度时还是把矩阵全都展开求的(牛顿法要用的二阶梯度也是)... 下面的文字中,"Logistic回归"都表示用于二分类的二项Logistic回归. 首先约定一下记号

Logistic 分类器与 softmax分类器

首先说明啊:logistic分类器是以Bernoulli(伯努利) 分布为模型建模的,它可以用来分两种类别:而softmax分类器以多项式分布(Multinomial Distribution)为模型建模的,它可以分多种互斥的类别. 补充: 什么是伯努利分布?伯努利分布[2]是一种离散分布,有两种可能的结果.1表示成功,出现的概率为p(其中0<p<1).0表示失败,出现的概率为q=1-p. 什么是二项分布?二项分布即重复多次的伯努利分布哦: 什么是多项式分布?即它把两种状态推广到了多种状态,是

1.线性回归、Logistic回归、Softmax回归

本次回归章节的思维导图版总结已经总结完毕,但自我感觉不甚理想.不知道是模型太简单还是由于自己本身的原因,总结出来的东西感觉很少,好像知识点都覆盖上了,但乍一看,好像又什么都没有.不管怎样,算是一次尝试吧,慢慢地再来改进.在这里再梳理一下吧! 线性回归(Linear Regression) 什么是回归? 给定一些数据,{(x1,y1),(x2,y2)-(xn,yn) },x的值来预测y的值,通常地,y的值是连续的就是回归问题,y的值是离散的就叫分类问题. 高尔顿的发现,身高的例子就是回归的典型模型

async(await)函数和 Generator 函数 区别

async 函数是 Generator 函数的语法糖. async 函数对 Generator 函数的改进体现在: 1. async 内置执行器. Generator 函数的执行必须靠执行器,需要调用 next() 方法,或者用co 模块:而 async 函数自带执行器.也就是说,async 函数的执行与普通函数一模一样,只要一行. 2. 更好的语义. async 和 await 比起星号和 yield,语义更清楚. 3.更广的适用性. co 模块约定,yield 命令后面只能是 Thunk 函

Python-lambda函数,map函数,filter函数

lambda函数主要理解: lambda 参数:操作(参数). lambda语句中,冒号前是参数,可以有多个,用逗号隔开,冒号右边的返回值.lambda语句构建的其实是一个函数对象 map函数: map(function_to_apply, list_of_inputs).map函数可以把list_of_inputs内的对象依次输入到function_to_apply中进行操作. filter函数: filter(function_to_apply, list_of_inputs).Filter

C#委托与C语言函数指针及函数指针数组

C#委托与C语言函数指针及函数指针数组 在使用C#时总会为委托而感到疑惑,但现在总新温习了一遍C语言后,才真正理解的委托. 其实委托就类似于C/C++里的函数指针,在函数传参时传递的是函数指针,在调用的时候通过指针访问这个函数. 在C语言中函数指针的申明如下: //可以理解为申明一个指着变量 Func ,它的类型是 返回Type(可以为 void )类型的参数,接收 (Type one,Type two,...)类型的//参数(可以不接受参数). Type *Func(Type one,Type