谈谈交叉熵损失函数

一.交叉熵损失函数形式

现在给出三种交叉熵损失函数的形式，来思考下分别表示的的什么含义。

--式子1

--式子2

--式子3

解释下符号，m为样本的个数，C为类别个数。上面三个式子都可以作为神经网络的损失函数作为训练，那么区别是什么？

■1》式子1，用于那些类别之间互斥(如：一张图片中只能保护猫或者狗的其中一个)的单任务分类中。连接的 softmax层之后的概率分布。

tensorflow中的函数为： tf.nn.softmax_cross_entropy_with_logits

■2》式子2，用于那些类别之间不存在互斥关系(如:一张图片中可有猫和狗两种以上的类别同时存在)的多任务学习分类中。最后一层的每个节点不在是softmax函数的输出了，而是sigmoid。把每个节点当成一个完整的分布，而式子1是所有节点组合程一个完整分布。

tensorflow中的函数为：tf.nn.sigmoid_cross_entropy_with_logits

■3》式子3，用于最后一层只有一个节点的二分类任务

二.交叉熵损失意义

要解释交叉熵损失函数的意义，我认为应该从熵的根源说起。这里我不介绍熵作者呀，来源呀什么的不再介绍了(主要是懒)，哈哈！）这里讲的顺序是：信息量--》信息熵--》交叉熵

1.信息量

意义：

如果一个事件发生的概率为p,那么获知该信息发生能给到我们的信息量(可以理解为意外程度)

例子：巴西跟中国乒乓球比赛，历史上交手64次，其中中国获胜63次，那么63/64是赛前普遍认为中国队获胜的概率，那么这次中国获胜的信息量有多大？

如果这次是巴西获胜，那么带给我们的信息量为：

单位：bit

如果一件事件的发生概率为：100%，带给我们的信息量为：0

通俗点讲就是，如果一件事情，本身发生的概率很大，如果再次发生，我们并没有觉得有什么好奇的。但是一件发生概率很小的事情发生了，我们就会非常惊讶，它能给到我们的信息就越有价值。例如：太阳每天都是从东边出来，这个概率几乎是1，所以我们都其以为常，没什么好惊讶的，但是某天太阳从西边出来了，这个时候，打破了我们的常识，这个概率非常小的事件居然发生了，我们就会非常惊讶，它给我们信息量是非常大的，也许我们可以根据这个现象发现一种新的东西。

2.信息熵

意义：

用来做信息的杂乱程度的量化描述。

定义：