归一化指数函数：softmax loss function

1. softmax 损失函数：归一化指数函数，可以将一个K维向量z“压缩”到另一个K维实向量σ(z)中，使每一个元素的范围在(0,1)之间，并且所有元素的和为1。

softmax loss包含三个部分：指数化、归一化、取-log(x)

①指数化：是指将一个样本中各个分类的得分指数化，使得各分类的得分都大于等于0，也就是将每个分数x变为e^x，而e^x函数大于0，即保证了非负性

②归一化：计算指数化后的各个分类的得分在所有分类的得分总和中所占的比例，所以最后得到的是一个分类的分数在总的得分中的比例 / 概率，所以每个元素都在（0,1）之间，各个元素之和为1 （就是把所有分类的得分相加得到S，然后计算各个分类的分数比上S）

③取-log(x)：将归一化得到的概率x，通过对数函数取负得到损失值Li

(为什么用对数函数+取负的方式？因为logx单调递增且x>0，然后我们又希望损失值减小，然后取负，单调递减)

指数化得到e^x；归一化得到概率；取-log(x)得到损失值Li

指数归一化：

-log(x)：

样本损失值 Li：

总体损失值 L：

2. 例子

注意：这里处理的是样本中的每一个数据，而不只是真实分类的数据或其他分类的

原文地址：https://www.cnblogs.com/shiliuxinya/p/12229815.html

时间： 2024-12-21 01:05:57

归一化指数函数：softmax loss function的相关文章

[machine learning] Loss Function view

[machine learning] Loss Function view 有关Loss Function(LF),只想说,终于写了一.Loss Function 什么是Loss Function?wiki上有一句解释我觉得很到位,引用一下:The loss function quantifies the amount by which the prediction deviates from the actual values.Loss Function中文损失函数,适用于用于统计,经济,机

损失函数 hinge loss vs softmax loss

1. 损失函数损失函数(Loss function)是用来估量你模型的预测值 f(x) 与真实值 Y 的不一致程度,它是一个非负实值函数,通常用 L(Y,f(x)) 来表示. 损失函数越小,模型的鲁棒性就越好. 损失函数是经验风险函数的核心部分,也是结构风险函数的重要组成部分.模型的风险结构包括了风险项和正则项,通常如下所示: 其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面的 Φ 是正则化项(regularizer)或者叫惩罚项(penalty term), 它可以是L1,

Large-Margin Softmax Loss for Convolutional Neural Networks

paper url: https://arxiv.org/pdf/1612.02295 year:2017 Introduction 交叉熵损失与softmax一起使用可以说是CNN中最常用的监督组件之一. 尽管该组件简单而且性能出色, 但是它只要求特征的可分性, 没有明确鼓励网络学习到的特征具有类内方差小, 类间方差大的特性. 该文中,作者提出了一个广义的 large margin softmax loss(L-Softmax),是large margin系列的开篇之作. 它明确地鼓励了学习特

loss function与cost function

实际上,代价函数(cost function)和损失函数(loss function 亦称为 error function)是同义的.它们都是事先定义一个假设函数(hypothesis),通过训练集由算法找出一个最优拟合,即通过使的cost function值最小,从而估计出假设函数的未知变量. 例如: 可以看做一个假设函数,而与之对应的loss function如下: 通过使E(w)值最小,来估计出相应的w值,从而确定出假设函数(目标函数),实现最优拟合. 硬要说区别的话,loss funct

loss function

并不搞机器学习,只是凭兴趣随便谈谈. loss function翻译为损失函数总觉得不妥,但也没有更好的翻译(或许就叫失函数更好),其实很多英文术语最好就是不翻译. 又称为cost function,用来度量预测错误的程度.对任意模型的输入输出X和Y,在其联合分布P(X,Y)下,总的loss为各分布点按概率密度进行积分(代表平均loss),称为risk function(expected loss). 机器学习的目标就是让risk function值最小.但实际上在学习前后,X与Y的联合分布并不

基于Caffe的Large Margin Softmax Loss的实现（中）

小喵的唠叨话:前一篇博客,我们做完了L-Softmax的准备工作.而这一章,我们开始进行前馈的研究. 小喵博客: http://miaoerduo.com 博客原文: http://www.miaoerduo.com/deep-learning/基于caffe的large-margin-softmax-loss的实现(中).html 四.前馈还记得上一篇博客,小喵给出的三个公式吗?不记得也没关系. 这次,我们要一点一点的通过代码来实现这些公式.小喵主要是GPU上实现前后馈的代码,因为这个层只

基于Caffe的Large Margin Softmax Loss的实现（上）

小喵的唠叨话:在写完上一次的博客之后,已经过去了2个月的时间,小喵在此期间,做了大量的实验工作,最终在使用的DeepID2的方法之后,取得了很不错的结果.这次呢,主要讲述一个比较新的论文中的方法,L-Softmax,据说单model在LFW上能达到98.71%的等错误率.更重要的是,小喵觉得这个方法和DeepID2并不冲突,如果二者可以互补,或许单model达到99%+将不是梦想. 再次推销一下~ 小喵的博客网址是: http://www.miaoerduo.com 博客原文: http://

损失函数(Loss Function) -1

http://www.ics.uci.edu/~dramanan/teaching/ics273a_winter08/lectures/lecture14.pdf Loss Function 损失函数可以看做误差部分(loss term) + 正则化部分(regularization term) 1.1 Loss Term Gold Standard (ideal case) Hinge (SVM, soft margin) Log (logistic regression, cross en

卷积神经网络系列之softmax，softmax loss和cross entropy的讲解

我们知道卷积神经网络(CNN)在图像领域的应用已经非常广泛了,一般一个CNN网络主要包含卷积层,池化层(pooling),全连接层,损失层等.虽然现在已经开源了很多深度学习框架(比如MxNet,Caffe等),训练一个模型变得非常简单,但是你对这些层具体是怎么实现的了解吗?你对softmax,softmax loss,cross entropy了解吗?相信很多人不一定清楚.虽然网上的资料很多,但是质量参差不齐,常常看得眼花缭乱.为了让大家少走弯路,特地整理了下这些知识点的来龙去脉,希望不仅帮助自