异常点的定义参考hawkings离群点定义。需要注意的问题有属性个数、全局/局部、异常程度、一次识别异常个数、评估等。检测方法有:基于模型的方法、基于邻近度的方法、基于密度的方法。在基于模型的方法下,对一元正态分布使用标准差区分;对多元正态分布使用mahalanobis距离区分,它会考虑分布的形状;对屏蔽(masking)问题,使用混合模型进行最大似然度估计。在基于邻近度的方法下,近邻数k越大,越有可能检测为异常点。在基于密度的方法下,密度可以通过逆距离和点计数计算;当簇的密度不均时,使用相对密度。
时间: 2024-11-01 10:11:55