异常点检测算法

基于统计学的方法

一、基于正态分布的一元离群点检测方法

假设有 n 个点$(x_1, ...,x_n)$, 那么可以计算出这n个点的均值$\mu$和方差$\sigma$.均值和方差分别被定义为:

在正态分布的假设下,区域$\mu +- 3 \sigma$包含了99.7% 的数据,如果某个值距离分布的均值$\mu$超过了$3 \sigma$,那么这个值就可以被简单的标记为一个异常点(outlier)。

二、多元离群点的检测方法

涉及两个或者两个以上变量的数据称为多元数据,很多一元离群点的检测方法都可以扩展到高维空间中,从而处理多元数据。

1)基于一元正态分布的离群点检测方法

假设n维的数据集合形如,那么可以计算每个维度的均值和方差,具体来说,对于 ,可以计算

在正态分布的假设下,如果有一个新的数据,可以计算概率如下:

根据概率值的大小就可以判断 x 是否属于异常值。

2)多元高斯分布的异常点检测

假设 n 维的数据集合 ,可以计算 n 维的均值向量

和  的协方差矩阵:

如果有一个新的数据 ,可以计算

根据概率值的大小就可以判断  是否属于异常值。

3)使用Mahalanobis距离检测多元离群点

对于一个多维的数据集合 D,假设  是均值向量,那么对于数据集 D 中的其他对象 ,从  到  的 Mahalanobis 距离是

其中  是协方差矩阵。

在这里, 是数值,可以对这个数值进行排序,如果数值过大,那么就可以认为点  是离群点。或者对一元实数集合  进行离群点检测,如果  被检测为异常点,那么就认为  在多维的数据集合 D 中就是离群点。

4)使用统计量检测多元离群点

在正态分布的假设下, 统计量可以用来检测多元离群点。对于某个对象  统计量是

其中, 是  在第 i 维上的取值, 是所有对象在第 i 维的均值,n 是维度。如果对象  的  统计量很大,那么该对象就可以认为是离群点。

基于矩阵分解的异常点检测方法

https://zr9558.com/2016/06/23/outlierdetectiontwo/

https://zr9558.com/2016/06/13/outlierdetectionone/

时间: 2024-10-17 14:00:26

异常点检测算法的相关文章

异常点检测算法小结

异常点检测,有时也叫离群点检测,英文一般叫做Novelty Detection或者Outlier Detection,是比较常见的一类非监督学习算法,这里就对异常点检测算法做一个总结. 一.1.?异常点检测算法使用场景 什么时候我们需要异常点检测算法呢?常见的有三种情况.一是在做特征工程的时候需要对异常的数据做过滤,防止对归一化等处理的结果产生影响.二是对没有标记输出的特征数据做筛选,找出异常的数据.三是对有标记输出的特征数据做二分类时,由于某些类别的训练样本非常少,类别严重不平衡,此时也可以考

异常点/离群点检测算法——LOF

http://blog.csdn.net/wangyibo0201/article/details/51705966 在数据挖掘方面,经常需要在做特征工程和模型训练之前对数据进行清洗,剔除无效数据和异常数据.异常检测也是数据挖掘的一个方向,用于反作弊.伪基站.金融诈骗等领域.  异常检测方法,针对不同的数据形式,有不同的实现方法.常用的有基于分布的方法,在上.下α分位点之外的值认为是异常值(例如图1),对于属性值常用此类方法.基于距离的方法,适用于二维或高维坐标体系内异常点的判别,例如二维平面坐

机器学习 鲁棒的基于高斯概率密度的异常点检测(novelty detection) ellipticalenvelope算法

异常点检测分为novelty detection 与 outlier detection 鲁棒性的高斯概率密度是novelty detection, 就是在给出的数据中, 找出一些与大部分数据偏离较远的异常数据, 我们的训练集不是纯净的, 包含异常点 outlier detection 的训练集是纯净的 算法理解 这个算法的思想很好理解, 就是求出训练集在空间中的重心, 和方差, 然后根据高斯概率密度估算每个点被分配到重心的概率. 程序 调包侠决定使用 scikit-learn: print(_

异常检测算法--Isolation Forest

南大周志华老师在2010年提出一个异常检测算法Isolation Forest,在工业界很实用,算法效果好,时间效率高,能有效处理高维数据和海量数据,这里对这个算法进行简要总结. iTree 提到森林,自然少不了树,毕竟森林都是由树构成的,看Isolation Forest(简称iForest)前,我们先来看看Isolation Tree(简称iTree)是怎么构成的,iTree是一种随机二叉树,每个节点要么有两个女儿,要么就是叶子节点,一个孩子都没有.给定一堆数据集D,这里D的所有属性都是连续

机器学习之异常点检测

1.iForest(独立森林)算法 样本数据过大时推荐采用这种异常值检测方法 原理分析:iForest森林也由大量的树组成.iForest中的树叫isolation tree,简称iTree.iTree树和决策树不太一样,其构建过程也比决策树简单,因为其中就是一个完全随机的过程.具体实施过程如下:第一.假设共有N条数据,构建一颗iTree时,从N条数据中均匀抽样(一般是无放回抽样)出ψ个样本出来,作为这颗树的训练样本.在样本中,随机选一个特征,并在这个特征的所有值范围内(最小值与最大值之间)随机

φ累积失败检测算法(转)

在分布式系统中经常使用心跳(Heartbeat)来检测Server的健康状况,但从理论上来说,心跳无法真正检测对方是否crash,主要困难在于无法真正区别对方是宕机还是“慢”.传统的检测方法是设定一个超时时间T,只要在T之内没有接收到对方的心跳包便认为对方宕机,方法简单粗暴,但使用广泛. 1. 传统错误检测存在的缺陷 如上所述,在传统方式下,目标主机会每间隔t秒发起心跳,而接收方采用超时时间T(t<T)来判断目标是否宕机,接收方首先要非常清楚目标的心跳规律(周期为t的间隔)才能正确设定一个超时时

车道线检测文献解读系列(一) 基于机器视觉的高速车道标志线检测算法的研究_李晗

作者背景 基于机器视觉的高速车道标志线检测算法的研究_李晗 东北大学车辆工程硕士学位论文 2006年 [GB/T 7714]李晗. 基于机器视觉的高速车道标志线检测算法的研究[D]. 东北大学, 2006. DOI:10.7666/d.y852642.` 论文结构一览 预处理 灰度化 [亮点]模式判别 选择日间模式还是夜间模式: 在每个检测周期开始时,首先判断采用日间模式还是夜间模式工作.摄像机视野中的上半部分为天空背景,天空亮度可以显著区分日间和夜间环境.由于天空的颜色为蓝离,日间天空的蓝色分

序贯相似性检测算法(SSDA)

传统的模板匹配算法的基本搜索策略是遍历性的,为了找到最优匹配点,传统方法均必须在搜索区域内的每一个像素点上进行区域相关匹配计算,图像相关匹配的数据量和计算量很大,匹配速度较慢,序贯相似性检测算法(SSDA)是针对传统模板匹配算法提出的一种高效的图像匹配算法.具体算法是先初步搜索,再精搜索,搜索的范围一步一步减小. SSDA通过人为设定一个固定阈值,及早地终止在不匹配位置上的计算,以此减小计算量,达到提高运算速度的目的.其步骤如下: (1)选取一个误差准则,作为终止不匹配点计算的标准,通常可选取绝

深度学习 目标检测算法 SSD 论文简介

深度学习 目标检测算法 SSD 论文简介 一.论文简介: ECCV-2016 Paper:https://arxiv.org/pdf/1512.02325v5.pdf  Slides:http://www.cs.unc.edu/~wliu/papers/ssd_eccv2016_slide.pdf 二.代码训练测试: https://github.com/weiliu89/caffe/tree/ssd  一.论文算法大致流程: 1.类似"anchor"机制: 如上所示:在 featur