大数据DDos检测——DDos攻击本质上是时间序列数据,t+1时刻的数据特点和t时刻强相关,因此用HMM或者CRF来做检测是必然! 和一个句子的分词算法CRF没有区别!

DDos攻击本质上是时间序列数据,t+1时刻的数据特点和t时刻强相关,因此用HMM或者CRF来做检测是必然!——和一个句子的分词算法CRF没有区别!
注:传统DDos检测直接基于IP数据发送流量来识别,通过硬件防火墙搞定。大数据方案是针对慢速DDos攻击来搞定。
难点:在进行攻击的时候,攻击数据包都是经过伪装的,在源IP 地址上也是进行伪造的,这样就很难对攻击进行地址的确定,在查找方面也是很难的。这样就导致了分布式拒绝服务攻击在检验方法上是很难做到的。领域知识见:http://blog.csdn.net/eric_sunah/article/details/72782224
还有汇总的:http://cleanbugs.com/item/ddos-attack-learning-414049.html

论文:http://www.jos.org.cn/ch/reader/create_pdf.aspx?file_no=3960 可以下载,提到了TCP flood,UDP flood,ICMP flood实验

摘自:http://wap.cnki.net/lunwen-1013353778.html
基于谱分析与统计机器学习的DDoS攻击检测技术研究
陈世文

  结合国家863项目“高可信网络业务管控系统”和“面向三网融合的统一安全管控网络”的研究需求,按照“分布式检测、层级化拦阻和集中态势感知”的总体思路,本文对DDoS攻击检测技术展开专门研究,从宏观攻击流感知与微观检测方法两个角度,提出了基于IP流序列谱分析的泛洪攻击与低速率拒绝服务(Low-rate Denial of Service, LDoS)攻击感知方法,在感知到攻击的基础上,将DDoS攻击检测转化为机器学习的二分类问题,利用隐马尔科夫模型、孪生支持向量机和条件随机场三种机器学习模型,实现概率点检测、分类超平面检测以及融合多特征处理优势的条件随机场检测方法。 针对宏观感知问题,提出了基于快速分数阶Fourier变换估计Hurst旨数的泛洪DDoS攻击感知方法,利用DDoS攻击对网络流量自相似性的影响,通过监测Hurst指数变化阈值判断是否存在DDoS攻击,相比于小波分析等方法,该方法计算复杂度低,Hurst旨数估计精度高;对于隐蔽性较强的低速率拒绝服务LDoS攻击,提出了基于巴特利特功率谱估计的感知方法,相比于矩形窗和三角窗方法,巴特利特功率谱估计一致性好,对低速率拒绝服务LDoS攻击检测率高。 针对微观的具体攻击特征检测问题,提出了基于隐马尔科夫模型、基于孪生支持向量机和基于条件随机场等三种统计机器学习方法的攻击检测策略。 首先,从概率点判别角度,提出了一种基于多特征并行隐马尔科夫模型(Multi-Feature Parallel Hidden Markov Model, MFP-HMM)的DDoS攻击检测方法。该方法利用HMM隐状态序列与特征观测序列的对应关系,将攻击引起的多维特征异常变化转化为离散型随机变量,通过概率计算来刻画当前滑动窗口序列与正常行为轮廓的偏离程度。MFP-HMM模型架构采用多维特征并行处理模式,有利于扩展新的特征模块。特征序列通过滑动窗口后形成观测序列送入HMM,可通过硬件实现多级流水加速,为可重构设计与分布式部署提供条件。实验结果表明,基于MFP-HMM的方法优于标准HMM等机器学习方法,检测准确率高,虚警率低。 其次,从分类超平面判别角度,提出了基于最小二乘孪生支持向量机(Least Square Twin Support Vector Machine, LSTSVM)的DDoS攻击分类超平面检测方法,该方法借助最优化方法来解决机器学习问题,利用支持向量机模型较好的非线性处理能力与泛化能力,采用IP包五元组熵、IP标识、TCP头标志和包速率等作为LSTSVM模型的多维检测特征向量,以体现DDoS攻击存在的流分布特性。基于DARPA2000数据集和TFN2K攻击采集数据集下的实验表明,该方法优于标准支持向量机(Support Vector Machine, SVM)等机器学习方法,对于正常突发流量与DDoS攻击流量检测准确率较高、虚警率较低。 最后,提出了一种融合多种判别规则的条件随机场DDoS攻击检测方法。该方法不要求各个特征量必须满足独立同分布的假设条件,在充分利用条件随机场综合处理多特征优势的基础上,将基于特征匹配与异常检测的方法有效地统一起来,实现高检测率与低误报率。DARPA2000数据集实验表明,基于条件随机场的方法优于传统SVM等方法,准确率高于99.5%,虚警率FPR低于0.6%,并且抗背景噪声能力强,鲁棒性好。……
[关键词]:DDoS攻击;自相似性;分数阶傅氏变换;Bartlett谱估计;隐马尔科夫模型;孪生支持向量机;条件随机场

摘自:http://cdmd.cnki.com.cn/Article/CDMD-90002-2007140546.htm
基于机器学习的分布式拒绝服务攻击检测方法研究
孙永强
【摘要】: 近年来,分布式拒绝服务(Distributed Denial of Service: DDoS)攻击的检测与防御技术成为信息安全领域的研究热点之一。DDoS攻击具有的分布式特性,使得该类攻击比传统的拒绝服务攻击(Denial of Service: DoS)拥有更多的攻击资源,具有更强大的破坏力,而且更难以防范。目前,由于现有入侵检测技术的局限性,DDoS攻击已经对Internet安全运行构成了极大的威胁,使得对新一代DDoS检测与防御技术研究的需求更为迫切。 本文在详细分析了DDoS的原理及其检测防御技术的国内外研究现状的基础上,针对现有检测方法存在的问题,结合机器学习的相关理论进展,研究了基于机器学习的DDoS攻击检测方法,重点开展了基于隐马尔可夫模型(Hidden Markov Model: HMM)的新的DDoS检测模型与基于自适应学习的分布式协同检测机制的研究。主要研究工作和创新点包括: 1、结合HMM的相关理论,提出了基于HMM与源IP地址监控的DDoS攻击检测方法。该方法采用网络数据流中的源IP地址信息进行网络流量状态的特征表示。首先根据正常数据流进行常用源IP地址库的学习;然后利用隐马尔可夫模型进行网络数据流动态IP地址序列的统计建模。通过正常流量的IP地址序列进行HMM模型学习,来对未知的网络流量进行基于动态源IP地址序列的实时异常检测,同时常用源IP地址库也保持在线学习更新。 2、针对DDoS分布式检测中存在的问题,提出了一种基于自适应学习的分布式协同检测方法。在分布式协同检测框架下,采用数据融合的方法进行检测,同时结合一种基于回报的自适应学习算法,在保证检测精度的条件下,降低系统中各检测结点之间的通讯量,提高系统运行效率。 3、设计并实现了基于机器学习的DDoS检测实验原型系统,包括基于HMM的单点检测模块和基于自适应学习的分布式协同检测机制。在局域网环境下,结合上述实验原型系统对DDoS攻击进行了模拟和检测,验证了本文提出方法的可行性和有效性。 本文的研究内容是国家自然科学基金“基于增强学习的自适应入侵检测方法研究”的重要组成部分。与其它的检测方法相比,本文提出方法具有检测准确性高、实时性强、便于响应、易于部署等特点,具有比较好的应用前景。
【关键词】:分布式拒绝服务攻击 机器学习 隐马尔可夫模型 入侵检测

时间: 2024-10-09 23:52:16

大数据DDos检测——DDos攻击本质上是时间序列数据,t+1时刻的数据特点和t时刻强相关,因此用HMM或者CRF来做检测是必然! 和一个句子的分词算法CRF没有区别!的相关文章

PCA算法详解——本质上就是投影后使得数据尽可能分散(方差最大),PCA可以被定义为数据在低维线性空间上的正交投影,这个线性空间被称为主?空间(principal subspace),使得投影数据的?差被最?化(Hotelling, 1933),即最大方差理论。

PCA PCA(Principal Component Analysis,主成分分析)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的

伪基站,卒于5G——本质上是基于网络和UE辅助的伪基站检测,就是将相邻基站的CI、信号强度等信息通过测量报告上报给网络,网络结合网络拓扑、配置信息等相关数据,对所有数据进行综合分析,确认在某个区域中是否存在伪基站

伪基站,卒于5G from:https://www.huxiu.com/article/251252.html?h_s=h8 2018-07-05 21:58收藏27评论6社交通讯 本文来自微信公众号:网优雇佣军(hr_opt),虎嗅获授权发表,题图来自:pixabay.com. 伪基站是2G时代的产物,通过伪装运营商的基站,向用户手机发送广告推销.诈骗.钓鱼网站等信息,侵犯公民隐私,危害人身财产安全,扰乱社会秩序. 2G时代,由于GSM只有单向鉴权加密,手机无法确认网络的合法性,导致伪基站有机

Nginx配置抵御DDOS或CC攻击

防攻击的思路我们都明白,比如限制IP啊,过滤攻击字符串啊,识别攻击指纹啦.可是要如何去实现它呢?用守护脚本吗?用PHP在外面包一层过滤?还是直接加防火墙吗?这些都是防御手段.不过本文将要介绍的是直接通过nginx的普通模块和配置文件的组合来达到一定的防御效果. 验证浏览器行为 简易版 下面就是nginx的配置文件写法. if ($cookie_say != "hbnl"){ add_header Set-Cookie "say=hbnl"; rewrite .* &

在Hadoop上运行基于RMM中文分词算法的MapReduce程序

原文:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/ 在Hadoop上运行基于RMM中文分词算法的MapReduce程序 23条回复 我知道这个文章标题很“学术”化,很俗,让人看起来是一篇很牛B或者很装逼的论文!其实不然,只是一份普通的实验报告,同时本文也不对RMM中文分词算法进行研究.这个实验报告是我做高性能计算课程的实验里提交的.所以,下面的内容是从我的实验报告里摘录出来的,当作是我学

刘德:小米已投89家生态链企业 有品要做百亿电商平台(本质上是是利用了小米的大火炉的余热,但也有反向的正面作用)

小米科技联合创始人.副总裁,小米生态链负责人刘德(微博)文/腾讯科技 王潘 小米对生态链企业的投资正在接近雷军(微博)当初预期的100家目标,截至6月30日,小米已经投资了89家. 通过三年左右的布局,小米投资的多家生态链企业都在市场上有不错的表现,如小米手环和移动电源都已经成为全球销量第一的产品. 小米科技联合创始人.副总裁,小米生态链负责人刘德今日在接受腾讯科技专访时说,小米生态链之所以能做起来,本质是享受了小米的红利,小米相当于一个火炉,是有余热的,不用也许就浪费了,所以就利用到这些生态链

HBase底层存储原理——我靠,和cassandra本质上没有区别啊!都是kv 列存储,只是一个是p2p另一个是集中式而已!

理解HBase(一个开源的Google的BigTable实际应用)最大的困难是HBase的数据结构概念究竟是什么?首先HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式. Google's BigTable论文 清楚地解释了什么是BigTable: Bigtable是一个疏松的分布式的持久的多维排序的map,这个map被行键,列键,和时间戳索引.每一个值都是连续的byte数组.(A Bigtable is a sparse

parquet文件格式——本质上是将多个rows作为一个chunk,同一个chunk里每一个单独的column使用列存储格式,这样获取某一row数据时候不需要跨机器获取

Parquet是Twitter贡献给开源社区的一个列数据存储格式,采用和Dremel相同的文件存储算法,支持树形结构存储和基于列的访问.Cloudera Impala也将使用Parquet作为底层的存储格式.在很多大数据的应用场景下面,比如电信行业,具有一定规则的数据,字段很多,但是每次查询仅仅针对其中少数的几个字段,这个时候列式存储是极佳的选择.优势: 使用列式存储,一列的值都是同质的,从而带来了更高的压缩比:对于在hadoop集群上的大数据量来说,使用parquet可以节省大量空间:可以提高

防DDOS 脚本 CC攻击

#!/bin/sh #auther RuM #date 20140716 cc ( ) { [ -f ignore.ip.list ] ||  echo "127.0.0.1" > ignore.ip.list netstat -ntu | awk '{print $5}' | cut -d: -f4 | sort | uniq -c | sort -nr > BAD_IP_LIST while read line; do CURR_LINE_CONN=$(echo $li

NLP: 中文分词算法---交集歧义检测 (cross ambiguity detect)

在 文章 http://blog.csdn.net/watkinsong/article/details/37697451 里面提到的FM中文分词算法中, 最大的问题就是将用户的query切分的太碎, 切分太碎也会对检索结果造成一定的影响. 这里, 可以采用FMM算法进行切分, 首先切分出最大的正向匹配, 然后进行交集歧义检测, 如果检测到存在交集歧义, 那么对可能存在歧义的一段文字进行FM切分, 获取所有的可能切分结果: 然后对剩下的query子句重复进行FMM切分, 直到query == n