tensorflow--交叉熵

学而不思则罔，思而不学则怠。

最近在看《TensorFlow 实战Google深度学习框架第二版》这本书。从头开始学习深度学习，对于细节方面进行探究。相当于重新拾起来这门”手艺“。

这篇随笔重点是交叉熵。在本书中出现的位置是62页，章节是3.4.5完整神经网络样例程序的20行附近（可能空行不一致），这里示例代码中出现了损失函数，代码如下：

 1 import tensorflow as tf
 2 from numpy.random import RandomState
 3
 4 batch_size = 8
 5
 6 w1 = tf.Variable(tf.random_normal((2,3), stddev=1, seed=1))
 7 w2 = tf.Variable(tf.random_normal((3,1), stddev=1, seed=1))
 8
 9 #定义输入的张量,第一维设为None,方便变化
10 x = tf.placeholder(tf.float32, shape=(None, 2), name=‘x-input‘)
11 y_ = tf.placeholder(tf.float32, shape=(None, 1), name=‘y-input‘)
12
13 a = tf.matmul(x, w1)
14 y = tf.matmul(a, w2)
15
16 #cross_entropy就是损失函数
17 y = tf.sigmoid(y)
18 cross_entropy = -tf.reduce_mean(
19     y_ * tf.log(tf.clip_by_value(y, 1e-10, 1.0))
20     + (1-y_)*tf.log(tf.clip_by_value(1-y, 1e-10, 1.0)))

我们可以看到18行这里是我修改过的代码，根据交叉熵的理论，在这个例子中交叉熵的公式应该为

<math xmlns="http://www.w3.org/1998/Math/MathML" display="block">
  <mi>l</mi>
  <mi>o</mi>
  <mi>s</mi>
  <mi>s</mi>
  <mo>=</mo>
  <mo>−<!-- − --></mo>
  <mi>y</mi>
  <mi>l</mi>
  <mi>o</mi>
  <mi>g</mi>
  <mo stretchy="false">(</mo>
  <mrow class="MJX-TeXAtom-ORD">
    <mover>
      <mi>y</mi>
      <mo stretchy="false">^<!-- ^ --></mo>
    </mover>
  </mrow>
  <mo stretchy="false">)</mo>
  <mo>−<!-- − --></mo>
  <mo stretchy="false">(</mo>
  <mn>1</mn>
  <mo>−<!-- − --></mo>
  <mi>y</mi>
  <mo stretchy="false">)</mo>
  <mi>l</mi>
  <mi>o</mi>
  <mi>g</mi>
  <mo stretchy="false">(</mo>
  <mn>1</mn>
  <mo>−<!-- − --></mo>
  <mrow class="MJX-TeXAtom-ORD">
    <mover>
      <mi>y</mi>
      <mo stretchy="false">^<!-- ^ --></mo>
    </mover>
  </mrow>
  <mo stretchy="false">)</mo>
</math>

应该是二值分布。不过书中给的代码有谬误，20行中1-y_写成了1-y。

参考博客https://www.cnblogs.com/qggg/p/6850120.html

如果本文有理解错误的地方还请评论指正，你的帮助是我进步的动力。

原文地址：https://www.cnblogs.com/IGNB/p/10789648.html

时间： 2024-08-13 17:00:09

tensorflow--交叉熵的相关文章

最大似然估计 (Maximum Likelihood Estimation), 交叉熵 (Cross Entropy) 与深度神经网络

最近在看深度学习的"花书" (也就是Ian Goodfellow那本了),第五章机器学习基础部分的解释很精华,对比PRML少了很多复杂的推理,比较适合闲暇的时候翻开看看.今天准备写一写很多童鞋们w未必完全理解的最大似然估计的部分. 单纯从原理上来说,最大似然估计并不是一个非常难以理解的东西.最大似然估计不过就是评估模型好坏的方式,它是很多种不同评估方式中的一种.未来准备写一写最大似然估计与它的好朋友们,比如说贝叶斯估计 (Beyasian Estimation), 最大后验估计(Max

交叉熵相关链接

TensorFlow四种Cross Entropy算法实现和应用对比两个函数tf.nn.softmax_cross_entropy_with_logits和tf.nn.sparse_softmax_cross_entropy_with_logits 从神经网络视角看均方误差与交叉熵作为损失函数时的共同点交叉熵代价函数交叉熵代价函数(损失函数)及其求导推导简单易懂的softmax交叉熵损失函数求导如何通俗的解释交叉熵与相对熵? https://www.cnblogs.com/virede

谈谈交叉熵损失函数

一.交叉熵损失函数形式现在给出三种交叉熵损失函数的形式,来思考下分别表示的的什么含义. --式子1 --式子2 --式子3 解释下符号,m为样本的个数,C为类别个数.上面三个式子都可以作为神经网络的损失函数作为训练,那么区别是什么? ■1>式子1,用于那些类别之间互斥(如:一张图片中只能保护猫或者狗的其中一个)的单任务分类中.连接的 softmax层之后的概率分布. tensorflow中的函数为: tf.nn.softmax_cross_entropy_with_logits ■2>式子

神经网络代价函数与交叉熵

在此我们以MSE作为代价函数: 其中, C表示代价函数 ,x表示样本, y表示实际值, 表示实际值, 表示实际值, a表示输出值, 表示输出值, n表示样本的总数.为简单起见表示样本的总数.为简单起见表示样本的总数. a=σ(z), z=∑W j*X j+bσ() 是激活函数使用梯度下降法(Gradient descent)来调整权值参数的大小,权值w和偏置b的梯度推导如下: 其中,z表示神经元的输入,σ表示激活函数.w和b的梯度跟激活函数的梯度成正比,激活函数的梯度越大,w和b的大小调

吴裕雄--天生自然 pythonTensorFlow自然语言处理：交叉熵损失函数

import tensorflow as tf # 1. sparse_softmax_cross_entropy_with_logits样例. # 假设词汇表的大小为3, 语料包含两个单词"2 0" word_labels = tf.constant([2, 0]) # 假设模型对两个单词预测时,产生的logit分别是[2.0, -1.0, 3.0]和[1.0, 0.0, -0.5] predict_logits = tf.constant([[2.0, -1.0, 3.0], [1

Kaldi的交叉熵正则化

xent_regularize, Cross Entropy Regularize nnet3/nnet-discriminative-trainning.cc:109 void NnetDiscriminativeTrainer::ProcessOutputs() 交叉熵正则化,即帧平滑 <解读深度学习:语音识别实践>8.2.3 帧平滑当正确地进行词图补偿后,进行几次序列鉴别性训练的迭代后,就会很快出现过拟合.即,几次鉴别性训练迭代后,模型计算出的帧准确率(帧的后验概率)显著变差(比原模型

信息量，熵，交叉熵，相对熵与代价函数

本文将介绍信息量,熵,交叉熵,相对熵的定义,以及它们与机器学习算法中代价函数的定义的联系.转载请保留原文链接:http://www.cnblogs.com/llhthinker/p/7287029.html 1. 信息量信息的量化计算: 解释如下: 信息量的大小应该可以衡量事件发生的“惊讶程度”或不确定性: 如果有?告诉我们?个相当不可能的事件发?了,我们收到的信息要多于我们被告知某个很可能发?的事件发?时收到的信息.如果我们知道某件事情?定会发?,那么我们就不会接收到信息. 也就是说,信息量

交叉熵

http://www.cnblogs.com/ljy2013/p/6432269.html 作者:Noriko Oshima链接:https://www.zhihu.com/question/41252833/answer/108777563来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 熵的本质是香农信息量()的期望. 现有关于样本集的2个概率分布p和q,其中p为真实分布,q非真实分布.按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为

BP神经网络——交叉熵作代价函数

Sigmoid函数当神经元的输出接近 1时,曲线变得相当平,即σ′(z)的值会很小,进而也就使?C/?w和?C/?b会非常小.造成学习缓慢,下面有一个二次代价函数的cost变化图,epoch从15到50变化很小. 引入交叉熵代价函数针对上述问题,希望对输出层选择一个不包含sigmoid的权值更新,使得由链式法则,得到由σ′(z) = σ(z)(1? σ(z))以及σ(z)=a,可以将上式转换成对方程进行关于a的积分,可得对样本进行平均之后就是下面的交叉熵代价函数对比之前的输出层de

交叉熵代价函数（作用及公式推导）

转自:http://blog.csdn.net/u014313009/article/details/51043064,感谢分享! 交叉熵代价函数(Cross-entropy cost function)是用来衡量人工神经网络(ANN)的预测值与实际值的一种方式.与二次代价函数相比,它能更有效地促进ANN的训练.在介绍交叉熵代价函数之前,本文先简要介绍二次代价函数,以及其存在的不足. 1. 二次代价函数的不足 ANN的设计目的之一是为了使机器可以像人一样学习知识.人在学习分析新事物时,当发现自己