损失函数——均方误差和交叉熵

1.MSE（均方误差）

MSE是指真实值与预测值（估计值）差平方的期望，计算公式如下：

MSE = 1/m (Σ(y_m-y‘_m)²)，所得结果越大，表明预测效果越差，即y和y‘相差越大

y = tf.constant([1,2,3,0,2])
y = tf.one_hot(y,depth=4)
y = tf.cast(y,dtype=tf.float32)

out = tf.random.normal([5,4])
# MSE标准定义方式
loss1 = tf.reduce_mean(tf.square(y-out))
# L2-norm的标准定义方式
loss2 = tf.square(tf.norm(y-out))/(5*4)
# 直接调用losses中的MSE函数
loss3 = tf.reduce_mean(tf.losses.MSE(y,out))

print(loss1)
print(loss2)
print(loss3)

2.Cross Entropy Loss（交叉熵）

在理解交叉熵之前，首先来认识一下熵，计算公式如下：

Entropy = -ΣP(i)logP(i)，越小的交叉熵对应越大的信息量，即模型越不稳定

a = tf.fill([4],0.25)
a = a*tf.math.log(a)/tf.math.log(2.)
print(a)
CEL = -tf.reduce_sum(a*tf.math.log(a)/tf.math.log(2.))
print(CEL)

a = tf.constant([0.1,0.1,0.1,0.7])
CEL = -tf.reduce_sum(a*tf.math.log(a)/tf.math.log(2.))
print(CEL)

a = tf.constant([0.01,0.01,0.01,0.97])
CEL = -tf.reduce_sum(a*tf.math.log(a)/tf.math.log(2.))
print(CEL)

交叉熵主要用于度量两个概率分布间的差异性信息，计算公式如下：

H(p,q) = -Σp(x)logq(x)

也可以写成如下式子：

H(p,q) = H(p) + D_KL(p|q) ，其中D_KL(p|q)代表p和q之间的距离

当p=q时，H(p,q) = H(p)

当p编码为one-hot时，h(p:[0,1,0]) = -1log1 = 0，H([0,1,0],[p0,p1,p2])=0+D_KL(p|q)=-1logq1

loss1 = tf.losses.categorical_crossentropy([0,1,0,0],[0.25,0.25,0.25,0.25])
loss2 = tf.losses.categorical_crossentropy([0,1,0,0],[0.1,0.1,0.7,0.1])
loss3 = tf.losses.categorical_crossentropy([0,1,0,0],[0.01,0.97,0.01,0.01])
print(loss1)
print(loss2)
print(loss3)

原文地址：https://www.cnblogs.com/zdm-code/p/12236067.html

时间： 2024-10-10 16:43:55

损失函数——均方误差和交叉熵的相关文章

均方误差和交叉熵损失函数比较

一.前言在做神经网络的训练学习过程中,一开始,经常是喜欢用二次代价函数来做损失函数,因为比较通俗易懂,后面在大部分的项目实践中却很少用到二次代价函数作为损失函数,而是用交叉熵作为损失函数.为什么?一直在思考这个问题,这两者有什么区别,那个更好?下面通过数学的角度来解释下. 思考:我们希望我们损失函数能够做到,当我们预测的值跟目标值越远时,在修改参数时候,减去一个更大的值,做到更加快速的下降. 二.两种代价函数的表达式二次代价损失函数: 交叉熵损失函数: 针对二分类来说,其中: ai第Xi个样

交叉熵相关链接

TensorFlow四种Cross Entropy算法实现和应用对比两个函数tf.nn.softmax_cross_entropy_with_logits和tf.nn.sparse_softmax_cross_entropy_with_logits 从神经网络视角看均方误差与交叉熵作为损失函数时的共同点交叉熵代价函数交叉熵代价函数(损失函数)及其求导推导简单易懂的softmax交叉熵损失函数求导如何通俗的解释交叉熵与相对熵? https://www.cnblogs.com/virede

直观理解为什么分类问题用交叉熵损失而不用均方误差损失?

目录交叉熵损失与均方误差损失损失函数角度 softmax反向传播角度参考博客:blog.shinelee.me | 博客园 | CSDN 交叉熵损失与均方误差损失常规分类网络最后的softmax层如下图所示,传统机器学习方法以此类比, 一共有\(K\)类,令网络的输出为\([\hat{y}_1,\dots, \hat{y}_K]\),对应每个类别的概率,令label为 \([y_1, \dots, y_K]\).对某个属于\(p\)类的样本,其label中\(y_p=1\),\(y_1

谈谈交叉熵损失函数

一.交叉熵损失函数形式现在给出三种交叉熵损失函数的形式,来思考下分别表示的的什么含义. --式子1 --式子2 --式子3 解释下符号,m为样本的个数,C为类别个数.上面三个式子都可以作为神经网络的损失函数作为训练,那么区别是什么? ■1>式子1,用于那些类别之间互斥(如:一张图片中只能保护猫或者狗的其中一个)的单任务分类中.连接的 softmax层之后的概率分布. tensorflow中的函数为: tf.nn.softmax_cross_entropy_with_logits ■2>式子

交叉熵损失函数

交叉熵损失是分类任务中的常用损失函数,但是是否注意到二分类与多分类情况下的交叉熵形式上的不同呢? 两种形式这两个都是交叉熵损失函数,但是看起来长的却有天壤之别.为什么同是交叉熵损失函数,长的却不一样? 因为这两个交叉熵损失函数对应不同的最后一层的输出:第一个对应的最后一层是softmax,第二个对应的最后一层是sigmoid 先来看下信息论中交叉熵的形式交叉熵是用来描述两个分布的距离的,神经网络训练的目的就是使 g(x) 逼近 p(x). softmax层的交叉熵 (x)是什么呢?就是最后一

大白话5分钟带你走进人工智能-第十八节逻辑回归之交叉熵损失函数梯度求解过程(3)

第十八节逻辑回归之交叉熵损失函数梯度求解过程(3) 上一节中,我们讲解了交叉熵损失函数的概念,目标是要找到使得损失函数最小的那组θ,也就是l(θ)最大,即预测出来的结果在训练集上全部正确的概率最大.那我们怎么样找到我们的最优解呢?上节中提出用梯度下降法求解,本节的话我们对其具体细节展开. 先来看下我们用梯度下降求解最优解,想要通过梯度下降优化L(θ)到最小值需要几步? 第一步,随机产生w,随机到0附近会

softmax交叉熵损失函数求导

来源:https://www.jianshu.com/p/c02a1fbffad6 简单易懂的softmax交叉熵损失函数求导来写一个softmax求导的推导过程,不仅可以给自己理清思路,还可以造福大众,岂不美哉~ softmax经常被添加在分类任务的神经网络中的输出层,神经网络的反向传播中关键的步骤就是求导,从这个过程也可以更深刻地理解反向传播的过程,还可以对梯度传播的问题有更多的思考. softmax 函数 softmax(柔性最大值)函数,一般在神经网络中, softmax可以作为分类任

[转] 理解交叉熵在损失函数中的意义

转自:https://blog.csdn.net/tsyccnh/article/details/79163834 关于交叉熵在loss函数中使用的理解交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距.以前做一些分类问题的时候,没有过多的注意,直接调用现成的库,用起来也比较方便.最近开始研究起对抗生成网络(GANs),用到了交叉熵,发现自己对交叉熵的理解有些模糊,不够深入.遂花了几天的时间从头梳理了一下相关知识点,才算透彻的理解了,特地记录下来,以

吴裕雄--天生自然 pythonTensorFlow自然语言处理：交叉熵损失函数

import tensorflow as tf # 1. sparse_softmax_cross_entropy_with_logits样例. # 假设词汇表的大小为3, 语料包含两个单词"2 0" word_labels = tf.constant([2, 0]) # 假设模型对两个单词预测时,产生的logit分别是[2.0, -1.0, 3.0]和[1.0, 0.0, -0.5] predict_logits = tf.constant([[2.0, -1.0, 3.0], [1