参考《机器学习导论》
假设我们有一个数据集,包含N个点。这N个点可以用2N种方法标记为正例和负例。因此,N个数据点可以定义2N种不同的学习问题。如果对于这些问题中的任何一个,我们都能够找到一个假设h属于H,将正例和负例分开,那么我们就称H散列N个点。也就是说,可以用N个点定义的任何学习问题都能够用一个从H中抽取的假设无误差地学习。可以被H散列的点的最大数量称为H的VC维,记为VC(H),它度量假设类H的学习能力。
通常我更喜欢用自由度来近似表达假设类的学习能力。
通常,在实际生活中,世界是平滑变化的,在大多数时间内具有相同的标记,我们并不需要担心所有可能的标记。有很多不止4个点的数据集都可以通过VC(H)=4的假设类来学习。因此,具有较小的VC维的假设类也是有应用价值的,并且比那些较大的VC维更可取。
时间: 2024-10-14 12:43:47