决策论
我们已经在1.2节看到概率论如何为我们提供了对量化和操作不确定性的一个一致数学框架。这里,我们转向决策论的讨论,当它与概率论结合时,使得我们在涉及模式识别中遇到的不确定性情况下可以做出最优决策。
假设我们有一个输入向量x以及相应的目标向量t,我们的目标是给出x的新值来预测t。对于回归问题,t由连续变量组成,而对于分类问题,t代表类标签。联合概率分布p(x,t)提供了与这些变量相关的不确定性的完整总结。从一组训练数据确定p(x,t)是推理的例子,是典型地非常棘手的问题,其解决方法是这本书的大部分主题。然而,在实际应用中我们必须经常给t值做出一个具体的预测,或者更一般地根据我们对t有可能取得值的理解采取具体行动,这方面是决定论的主题。
考虑一个医学诊断问题的例子,该问题中我们得到了病人的X射线图像,我们希望确定患者是否患有癌症。在这种情况下,输入矢量x是图像中像素强度的集合,输出变量t代表存在癌症,用C1类表示,或不存在癌症,用C2类表示。我们可以选择一个二元变量例如使t = 0对应于C1类和t = 1对应于C2类。我们将在后面看到,这个标签值的选择对概率模型是特别方便的。一般的推理问题涉及到确定联合分布p(x,Ck)或等效地p(x,t),其给出了这种情况最完整的概率描述。虽然这是一个非常有用的并且信息多的量,但最终我们必须决定是对患者治疗还是不治疗,我们希望这样的选择在某些意义上(Duda和Hart,1973年)是最佳。这是决策步骤,决策论的主题告诉我们如何在给定适当概率的情况下做出最优决策。我们将看到一旦我们解决了推断问题,决策阶段通常是非常简单的,甚至微不足道。
这里,我们介绍了该书其余部分需要的决策论核心思想。进一步的背景,以及更详细的描述,可以在Berger(1985)和Bather(2000年)中发现。
在给出更详细的分析之前,我们首先非正式地考虑如何期望概率在决策中发挥作用。当我们得到新患者的X射线图像时,我们的目标是确定哪个类分配给该图像。我们感兴趣的是给定图像后两个类概率,即p(Ck| x)。使用贝叶斯定理,这些概率可以表达为下面的形式:
请注意,出现在贝叶斯定理中的任何量可以从联合分布p(x,Ck)得到,要么边缘化要么以合适的变量为条件。我们现在可以将ρ(Ck)解释为Ck的先验概率,p(Ck| x)是对应的后验概率。从而p(C1)表示X射线测量之前有癌症的概率。同样地,p(C1| x)是对应的概率,用含有X射线信息的贝叶斯定理来修正。如果我们的目标是最小化x分配到错误类的机会,那么直观上我们会选择具有较高后验概率的类。现在我们表明这种直觉是正确的,并且我们还讨论了制定决策更普遍的标准。