如何开发一个异常检测系统:如何评价一个异常检测算法

利用数值来评价一个异常检测算法的重要性

使用实数评价法很重要,当你用某个算法来开发一个具体的机器学习应用时,你常常需要做出很多决定,如选择什么样的特征等等,如果你能找到如何来评价算法,直接返回一个实数来告诉你算法的好坏,那样你做决定就会更容易一些。如现在有一个特征,要不要将这个特征考虑进来?如果你带上这个特征运行你的算法,再去掉这个特征运行你的算法,得到返回的实数,这个实数直接告诉你加上这个特征算法是变好了还是变坏了,这样你就有一种更简单的算法来确定是否要加上这个特征。

为了更快地开发出一个异常检测系统,那么最好能找到某种评价异常检测系统的方法。

为了能评价一个异常检测系统,假定已有一些带标签的数据,其中有正常的样本也有异常的样本(正常的样本y=0,异常的样本y=1)

对于训练集,我们还是看成无标签的样本,将它们都看成无异常的样本(其中可能有一些有异常的样本被分到训练集中)

定义交叉验证集与测试集,通过这两个集合得到异常检测算法。我们假设交叉验证集与测试集中的样本都是异常的,即测试集里面的样本y=1(表示异常样本)。

具体的例子

有10000个正常的飞机引擎,有20个有问题的飞机引擎,从以往经验来看,无论是制造了多少年的飞机引擎工厂,都会得到大概20个有问题的引擎。对于异常检测典型的应用来说,异常样本的个数通常都是20-50个这样的个数,并且通常我们的正常样本数量要大得多。

我们将数据分成训练集,交叉验证集和测试集,典型的分法是:将10000个好的引擎样本中的6000个放入trainning set中做为无标签的数据(实际都为正常的样本),将剩下的正常的样本中的2000个样本放入交叉验证集中,另2000个样本放入测试集中(正常样本的分配比例是6:2:2);将有异常的20个样本,其中10个放入CV中,另外10个放入Test中。

另一种常见的分配方法(不推荐这样做)是将CV与Test的样本混合起来使用,将剩下的4000个好的样本即做为CV也做Test使用(不推荐这样做)

异常检测算法的推导与评估算法如下:首先我们使用训练样本(虽然都是是无标签的样本但其实都是正常的样本)来拟合模拟p(x)(即参数估计出u,σ的值)

对于CV与Test里面的数据,我们利用算法对y进行预测,然后来评价预测的准确率。如何来度量呢?

因为数据是非常偏斜的(正常的数据多,异常的数据少),因此分类准确率不是一个好的度量方法,算出查准率、召回率以及F1值,通过这些方法来评价我的异常检测算法在CV以及Test中的表现。

怎么决定ε的值呢?在交叉验证集上来决定取什么ε的值,在交叉验证集上尝试多个不同的ε的取值,然后选出一个使得F1值最大的那个ε的值,即在交叉验证集上表现最好的那个ε的值。当我们需要做出决定时(如选哪个特征,选哪个ε的值),我们可以不断地使用交叉验证来评价这个算法的好坏,然后决定我们要选取哪个特征,选哪个ε的值。

当找到ε的值后,我们的异常检测算法就确定了,然后使用Test集来评价算法的表现

总结

时间: 2024-10-13 15:45:17

如何开发一个异常检测系统:如何评价一个异常检测算法的相关文章

就因为用写了一个自助提卡系统!居然一个月挣的比一年多!勿商用

相关环境 源码信息:你猜啊 漏洞类型:Forwarded-For注入 搭建成功之后如下 : 看到如下页面是不是有似曾相识的感受: 进群:125240963   即可获取数十套PDF哦! 上图是安装过后的首页,就是一个提卡网,继续吧! 这里很明显我们看到了SQL注入,首先判断是否设置$_POST["dh"]不为空则将该参数拼接到SQL语句中,看到这里就可以判断出该程序存在联合查询注入,可是$config哪来的,这个文件也没包含其它的文件啊!!!怎么办呢?那么我们就来找找index文件中是

浅析论文检测系统的发展历程

近日教育部针对目前的学术不端行为出台了<关于对学位论文作假行为的暂行处理办法(征求意见稿)>.办法中规定指导教师未尽到学术道德和学术规范教育.论文指导和审查把关等职责,其负责指导的学生学位论文存在购买.他人代写或者抄袭.剽窃等作假情形的,学位授予单位视情节轻重,可暂停其招生.取消指导教师资格,并可给予处分直至解除聘任合同等处理.于是各高校采取引用论文抄袭检测系统的方法检测学生的抄袭,高校学生必须通过了论文抄袭检测系统的检测才能获得正式答辩资格,目前本科院校也引用了这一系统. 现如今,本科院校的

百科知识 学位论文学术不端行为检测系统简介

学位论文学术不端行为检测系统 研制介绍与使用方法 第一章 系统简介 1.1 系统概述 学位论文学术不端行为检测系统(简称"TMLC")以<中国学术文献网络出版总库>为全文比对数据库,实现了对抄袭与剽窃.伪造.篡改等学术不端行为的快速检测,可供用户检测学位论文,并支持用户自建比对库.其系统示意图如图1所示. 图1 检测系统示意图 1.2 系统技术路线介绍 TMLC 采用CNKI 自主研发的自适应多阶指纹(AMLFP)特征检测技术,具有检测速度快,准确率,召回率较高,抗干扰性强

限制在同一台电脑上只允许有一个用户登录系统

在web应用系统中,出于安全性考虑,经常需要对同一客户端登录的用户数量和一个客户同时在多个客户端登陆进行限制.具体一点就是: 1.在同一台电脑上一次只允许有一个用户登录系统,2.一个用户在同一时间只允许在一个客户端登录. 我最近做的一个系统就遇到了这样的问题,本来系统已经开发完成了,但是安全测评没有通过,就是因为没有做这两个限制.怎么来做这样的限制呢?我在网上找了很久,发现问这个问题的人很多,但是没有找到特别清楚的答案.后来自己摸索着,看了一些书,终于找到解决办法了. 要解决这个问题实际上不难,

基于网络(NIDS)的入侵检测系统

入侵(Instruction)是个 广义的概念,不仅包括被发起攻击的人取得超出合法权限的系统的控制权,也包括搜集漏洞信息,造成拒绝访问(Denial of service)等对计算机系统造成危害的行为. 通过被动地监测网络上传输的原始流量,对获取的网络数据进行处理,从中提取有用的信息,再通过与已知攻击特征相匹配或与正常网络行为原型相比较来识别攻击事件.此类检测系统不依赖操作系统作为检测资源,可应用于不同的操作系统平台:配置简单,不需要任何特殊的审计和登录机制:可检测协议攻击.特定环境的攻击等多种

硕士论文初审前查重用什么检测系统

硕士论文初审前查重用什么检测系统毕业季即将来临,而对于大部分硕士毕业生而言,在答辩之前应该最为担心的就是硕士论文是否能够通过学校的机检吧,目前国内大部分院校均规定,硕士毕业论文要参与答辩,必须要能够通过学校知网查重,重复率不得高于20%,甚至部分院校规定,知网重复率不得高于10%.那么,硕士论文初审前查重用什么检测系统,才能对论文进行初步的重复率判断呢?首先,对于硕士生而言,如果条件允许的话,笔者建议可以直接找papereasy论文检测网站这样靠谱正规的论文查重网站,找到知网VIP5.1论文检测

Kafka+Flink 实现准实时异常检测系统

1.背景介绍异常检测可以定义为"基于行动者(人或机器)的行为是否正常作出决策",这项技术可以应用于非常多的行业中,比如金融场景中做交易检测.贷款检测:工业场景中做生产线预警:安防场景做***检测等等. 根据业务要求的不同,流计算在其中扮演着不同的角色:既可以做在线的欺诈检测,也可以做决策后近实时的结果分析.全局预警与规则调整等. 本文先介绍一种准实时的异常检测系统. 所谓准实时,即要求延迟在100ms以内.比如一家银行要做一个实时的交易检测,判断每笔交易是否是正常交易:如果用户的用户名

为方便旅客,某航空公司拟开发一个机票预定系统。

航空订票系统技术在目前是一个技术上成熟的系统,并且在航空公司内部准备采取有力措施保证资金和人员配置等. 因此,分阶段开发“航空订票系统”的构想是可行的.为了使航空公司适应现代化市场竞争的需求,促进机票预订管理信息 化,不断满足旅客预订机票的要求,争取更好的经济效益,可立即着手系统的开发与完善. 1> 目标:在一个月内建立一个高效率,无差错的航空公司机票预定系统 2> 存在的主要问题:人工不易管理,手续繁琐 3> 建立新系统 ① 经济可行性                成本效益分析 成本

2.3为方便旅客,某航空公司拟开发一个机票预定系统。 写出问题定义并分析系统的可行性。

为方便旅客,某航空公司拟开发一个机票预定系统.旅行社把预定机票的旅客信息(姓名.性别.工作单位.身份证号码.旅行时间.旅行目的地等)输入进 入该系统,系统为旅客安排航班,印出取票通知和账单,旅客在飞机起飞的前一天凭取票通知和账单交款取票,系统校对无误即印出机票给旅客. 写出问题定义并分析系统的可行性. 1>     目标:在一个月内建立一个高效率,无差错的航空公司机票预定系统 2>     存在的主要问题:人工不易管理,手续繁琐 3>     建立新系统 ①  经济可行性