1 离群点和离群点分析
1.2 离群点的类型
a.全局离群点
显著偏离数据集中的其余对象,最简单的一类离群点。
检测方法:找到一个合适的偏离度量
b.情境离群点
离群点的值依赖于情境。分为情境属性(定义对象的情境)和行为属性(定义对象的特征)
c.集体离群点
数据对象的子集形成集体离群点,如果这些对象作为整体显著偏离整个数据集。
1.3 离群点检测的挑战
正常数据与异常数据的界限不明显;
离群点≠噪声
2 离群点检测方法
两大类:
a.根据用于分析的数据样本是否具有领域专家提供的,可以用来构建离群点检测模型的标号,对离群点检测方法进行分类:
2.1 监督、半监督、无监督
a.监督方法:
专家标记出正常对象,对其建模构造分类器,不与正常对象模型匹配的其他对象都视为离群点
挑战:类不平衡问题;捕获尽可能多的离群点比把正常对象武当离群点更重要
b.无监督方法:
没有标记,假定“正常对象在某种程度上是聚类的”。
中心思想:先找出簇,然后,不属于任何簇的对象都被检测为离群点。
两个问题:不属于任何簇的对象可能是噪声,而不是离群点;先找出簇,在找出离群点的开销可能太大。
c.半监督方法
b.根据各方法关于正常对象和离群点的假定,对各方法分组:
3 统计学方法
统计学:假定正常的数据对象由一个统计模型产生,正常对象出现在该随机模型的高概率区域中,而低概率区域中的对象是离群点。
参数方法:
基于正态分布的一元离群点检测:
a.最大似然检测一元离群点;
b.grubb检验(最大标准残差检验);
多元离群点:(核心思想:把多元离群点检测任务转换成一元离群点检测问题)
a.马哈拉诺比斯距离检测多元离群点;
b.X²统计量的多元离群点检测;
使用混合参数分布
a.假定正常的数据对象被多个正态分布产生;
b.使用多个簇检测多元离群点;
非参数方法:
直方图检测离群点
缺点:很难选择一个合适的箱尺寸,箱太小,容易被误识别为离群点;箱太大,离群点容易被误认为正常。
为了解决这个问题,可以采用核密度估计来估计数据的概率密度分布。把每个观测对象看作一个周围区域中的高概率密度指示子。一个点上的概率密度依赖于该点到观测对象的距离。使用核函数对样本点对其邻域内的影响建模。核函数是一个非负实数值可积函数。
4 基于邻近性的方法
假定一个对象是离群点,如果它在特征空间中的最近邻也远离它,即该对象与它的最近邻性显著地偏离数据集中的其他对象与他们的近邻之间的近邻性
基于距离的离群点检测和嵌套循环方法——考察对象给定半径的邻域
基于网格的方法——CELL
基于密度的离群点检测——考察对象和它邻近的密度
5 基于聚类的方法
假定正常数据对象属于大的稠密的簇,而离群点属于小的或稀疏的簇,或者不属于簇。
- 使用到最近簇的距离的基于聚类的离群点检测;
- 通过基于聚类的离群点检测进行入侵检测;——CBLOF
- 检测小簇中的离群点;
优点:
无监督
缺点:
有效性依赖于所使用的聚类方法,开销大
6 基于分类的方法
点是有标号的,可用于构建分类器:如用svm来构建决策边界
7 挖掘情境离群点和集体离群点
7.1 情境离群点--->传统的离群点检测
7.2 关于情境对正常行为建模
7.3 挖掘集体离群点
- 识别结构单元
- 直接对结构单元的期望行为进行建模
8 高维数据中的离群点检测
挑战:
- 离群点的解释
- 数据的稀疏性
- 数据子空间
- 于维度的可伸缩性
8.1 扩充的传统离群点检测
eg.HilOut算法
思想:高维规约到低维,使用传统的离群点检测方法
降维可采用PCA主成份分析
8.2 发现子空间中的离群点
8.3 高维离群点建模
eg.可以算角度