最小化误分类率
假设我们的目标是尽可能降低错误分类。那么我们就需要一个给每个x值分配可用类的规则。这样的规则输入空间划分成区域Rk,称为决策区域,Rk中的所有点都被分配到类Ck。决定区域之间称为决策边界或决策表面。注意,每个决策区域不必是连续的,但由一些互斥的地区组成。我们将在后面的章节中遇到决策边界和决策区域的实例。为了找到最佳的决策规则,首先考虑两个类的所有情况,如癌症问题。当属于C1类的输入变量被分配给C2类是就产生错误,反之亦然。发生这种情况的概率由下式给出:
我们可以自由地选择决策规则来为每个点x非配类别。显然为了减少p(错误),我们分配每个x的类别应该使得(1.78)中的积分值较小。因此,如果对于给定的x值,p(x,C1)>p(x,C2),那么我们就应该分配x到类C1。根据概率的乘积规则,我们有p(x,Ck)= p(Ck| x)p(x)。因为因子p(x)是在两项都一样,所以我们可以重述这个结果,如果每个x值被分配到使得后验概率p(Ck|x)最大的类,那么就可以获得犯错误的最小概率,。该结果图示图示于1.24。
对于更一般的K类情况,最大化正确的概率稍微容易一些,它由下式给出
当选择区域Rk的时候最大化上式,这样每个x被分配到p(x,Ck)最大的类。此外,使用乘积规则p(x,Ck)=p(Ck| x)p(x),并注意到p(x)因子对所有项都是一样的,我们看到每个x应该分配给具有最大后验概率p(Ck| x)。
最小化预期损失
对于许多应用,我们的目标比简单地最小化误分类数量更复杂。让我们再来考虑医疗诊断问题。我们注意到,如果不患癌症的病人被误诊为癌症,后果可能是患者的悲痛以及进一步的检查。相反,如果患有癌症的患者被误诊为健康的,其结果可能是由于缺乏治疗而过早死亡。这两种错误的后果明显不同。即使以第一类产生更多的错误为代价,我们也能显然的看到使第二类错误少犯是比较好的。
我们可以通过引进一个损失函数,也叫做代价函数,来形式化这类问题。该函数是采取任何可用的决定或行动所产生的损失的单个整体度量。然后我们的目标是最小化总损失。注意,有些作者考虑效用函数,他们的目标是最大化。如果我们采取的效用是
损失的负数,那么这些概念都是等价的。全书中我们将使用损失函数。假设,对于x的一个新值,其实际类别是Ck,并且我们分配给x的类是Cj(其中j可能等于k,也可能不等于k)。在这样做的时候,我们产生了一些损失用Lkj表示,我们可以将其看作一个损失矩阵的k,j元素。例如,在我们癌症的例子里,我们可能有图1.25所示的损失矩阵。这种特殊的损失矩阵表明如果正确作出决定,那么没有损失产生,如果一个健康的病人被诊断为患有癌症,那么损失为1。而如果一个具有癌症患者被诊断作为健康,损失为1000。
最优解是最小化损失函数中的一个。然而,损失函数依赖于实际类,它是未知的。对于给定的输入向量x,我们对实际类的不确定性用联合概率分布p(x,Ck)表示,所以我们最小化平均损失,计算相对于该分布的平均值,这由下式给出:
每个x单独地分配到决策区域Rj中的一个。我们的目标是选择区域Rj以便最小化预期损失(1.80),其意味着对于每个x,我们应尽量减少。与之前一样,我们可以使用乘积规则p(x,Ck)=p(Ck| x)p(x)来消除公共因子p(x)。因此,最小化预期损失的决策规则是给每个新的x分批额一个类别j,使
最小。一旦我们知道后验类的概率p(Ck| x),这明显是非常容易做的。
拒绝选项
我们已经看到,分类错误出现在输入空间的区域,后验概率p(Ck | x)的最大值显然小于整体,或等价地联合分布p(x,Ck)有可比较的值。这些就是我们对类成员相对不确定的地区。在一些应用中,避免对困难的情况做预期是比较合适的,也就是对实例所做的分类决策错误率期望很低。这就是所谓的拒绝选项。例如,在我们假设的医疗图中,使用自动系统对那些很容易区分X光片类别的图像进行分类而专家来区分更加模糊不清的情况可能是比较合适的。我们通过引入阈值θ和拒绝输入x(对于这些输入来说,后验概率p(Ck | x)的最大值小于或等于θ)来实现。这可以理解为两个类和一个单一连续输入变量x的问题,如图1.26的。注意,设定θ= 1将确保所有的实例都被拒绝,而如果有K类那么设定θ<1 / K将确保没有实例被拒绝。因此,被拒绝的那部分实例由θ的值来控制。