第四次毕业任务设计书(3.25-4.1)

一.周计划

二.本周内容

1.KDD99数据集再分析

KDD99数据集包含了4种攻击类型:DOS,U2R,R2L,PROBE,具体如下:

其中DOS攻击中的Neptune将在之后数据分块中发挥很大作用。

对于每一条记录来说,都包括了四种属性集:基本属性集、内容属性集、流量属性集和主机属性集,囊括了全部41个特征(包括7个离散型变量与34个连续性数字变量)。具体每个属性集包括的具体内容此处不再具体列出,第二周时已经了解过。在消除属性时(包括上周主成分分析)会用到这一分类。

2.数据分块预处理

对于属性中非数值类型的属性(如攻击类型和flag等)上周已经做了处理说明。原始数据如图:

处理之后的原始数据如图:

这周做的数据预处理是数据分块。在分块之前,先将属性取值完全相同和属性取值情况极少的数据去掉(这一步我参考了资料的结果),例如land属性的land攻击,urgent属性,su_attempted属性和num_shells属性。这些属性数据量很少,在四十多万条数据中起不到明显的影响效果,可以删除补不计。

第一步删除的数据量极少,此时来做第二步,数据库分块。我选择的是根据属性service作为分块标准,先从数据记录入手——即二维矩阵的行——来进行分类。

现在共有66种service类型,即初始时我分成了66块数据块。接下来考虑另一属性:攻击类型。在刚刚的第一步里已经对攻击类型做了分类,其中,有42种网络服务(service)类型都对应着DOS攻击中的neptune攻击类型。此处不再把42中service属性一一列出,包括sudup,whois等等。另外还有7中服务类型对应着normal一种决策类型。

对于上述42+7共49种服务类型来说,特殊情况不多,所占比例极少,它们的数据子集几乎只对应一种攻击类型(Neptune),对整体的决策不会产生太大影响,因此,可以将这49种服务类型(即我分成的49块数据)作为一类,建立一个共同的决策规则。这样一来,数据块就从66块降至17块。

由此一步,所要考虑的数据大大降低,相当于将数据分成了17类。

第三步,对每一种剩余的服务类型列表作分析,分析每一类有多少条数据、多少决策变量和多少特征数,表格如下:

注意到其中ecr_i一个服务类型就占据了大部分的数据量,但是只有6个决策类型,此时再进行二次删除,它的 特征属性也只有13个而已。对于pm_dump这个极端数据,数据记录少但特征属性很多,通过查阅资料发现,其中的count属性对于pm_dump这个服务类型影响很大,因此可以选择这一属性作为此块数据的主属性。

这样分块处理数据之后,既在横向上减少了数据量,又在纵向上减少或合并了特征值,这样一来二维数组将大大减少。

3.标准化处理

对数据进行标准化处理,目的是将原始数据集中每个不具备直接可比性的元素按照特定的运算法则把它变成一个直接可比的新值。标准化处理算法伪代码截图如下:

标准化处理对于后续的聚类算法分析会有很大帮助。我在进行标准差计算时没有仅仅用了绝对值而不是平方,这样异常数据的作用也会被降低,对于离散化数据有很大的帮助。

4.处理之后的数据

处理之后的数据留下了类别及对应的属性,具体的分类就是上述第三步的表格(每一个具体的决策和特征没有具体列出)

三.本周心得

本周用了分块的方法去进行了数据预处理。这种算法没有具体的公式运行,和传统的直接进行数据挖掘的策略不同,它主要是人为进行分析和归类,既减少了数据量,也找到了代表特征,将二维数组从行列两方面进行了简化。

之后的思路是用Kmeans聚类算法处理,按照k=4和k=5来聚类(初步设想),根绝攻击类别来分析数据,找到每个攻击类型的数据量。

另外,这次任务书的表格全部是在Excel中写好之后复制过来的,结果不能在随笔中修改。

四.参考文献

1吴建胜 张文鹏 KDDCUP99数据集的数据分析研究 辽宁科技大学软件学院 2014.11

2.冯超 K-means聚类算法的研究 大连理工大学 2007.11

时间: 2024-10-07 09:12:44

第四次毕业任务设计书(3.25-4.1)的相关文章

写给大家看的设计书(第3版)PDF下载高清完整扫描原版

这本书出自一位世界级设计师之手.复杂的设计原理在书中凝炼为亲密性.对齐.重复和对比4 个基本原则.作者以其简洁明快的风格,将优秀设计所必须遵循的这4 个基本原则及其背后的原理通俗易懂地展现在读者面前.本书包含大量的示例,让你了解怎样才能按照自己的方式设计出美观且内容丰富的产品. 此书适用于各行各业需要从事设计工作的读者,也适用于有经验的设计人员.需要学习的朋友可以通过网盘下载pdf版 http://putpan.com/fs/8y1i5bce5n5s1h8u0/ 作者简介 Robin Willi

读书笔记:《写给大家看的设计书》

读书笔记:<写给大家看的设计书> <写给大家看的设计书>这本书本来是买给孩子看的,孩子对板报.杂志.名片等设计很感 兴趣,想看点基础的设计类的书籍,就给她找了一本.书到手后,我随手翻了翻发现对于我制作PPT还是很有帮助的,对于非专业设计人员来说,掌握4条设计原 则确实可以让设计感觉到非常专业,这几条原则应用于网站的设计也是同样有效. 全书三大部分,共14章,第一部分(第1-8章)最有用,讲述四大设计原则,第二部分(第9-11章)讲字体设计,第三部分有点像附录. 第一章 约书亚树 有

写给大家看的设计书——读后笔记

<写给大家看的设计书>介绍了设计的四个基本原则:亲密性.对齐.重复.对比.作为一个软件"设计师",我也来聊聊读过这本书之后,我对这四个原则的一点理解. 亲密性 亲密性原则是指:内涵相关联的内容,在结构.关系上也应保持关联.        以软件设计的角度来说,一项业务所包含的功能.一个功能所包含的代码,应该在结构.关系上保持关联.例如把这些代码放到同一个包下.用同一套规则来命名.这样,当我们需要查阅.修改这个功能,需要处理哪些代码就"一望而知"了.   

基于STM32的四旋翼飞行器的设计与实现

针对四旋翼飞行控制器姿态数据测量易受干扰.算法实现及设计较为困难等问题,设计并实现了以高性价比的STM32F103VET6微处理器作为主控板的四 旋翼飞行器.选用六轴运动组件MPU6050.电子罗盘HMC5883L及气压计MS5611等传感器对飞行器姿态数据进行了实时采集,并结合卡尔曼滤波 方法对姿态数据进行了数据融合.在控制算法上采用了非线性双闭环PID来实现两组四个电机的转速控制,并通过遥控器对四旋翼飞行器的飞行姿态进行实时调 节.飞行试验表明:基于STM32F103VET6微处理器的四旋翼

asp.net,java,jsp,安卓Android,苹果ios,php,vb.net,c#免费毕业课程设计源码共享网盘下载

百度网盘下载地址1:  http://pan.baidu.com/s/1o67fybC 百度网盘下载地址2: http://pan.baidu.com/s/1kTxckmF163网盘下载地址:http://home.163disk.com/shuangyulin file://E:\计算机设计参考!!!!!!!!!!!\资料 (4 folders, 0 files, 0 bytes, 641.25 MB in total.) ├─QQ254540457 (0 folders, 49 files,

计算机毕业课程设计源码打包下载

下载地址1: http://dl.vmall.com/c06pluqz6r 10个数据结构课程设计实例二...冒泡排序快速排序等.rar  下载  9.99K asp+sqlserver2000网络书店系统.rar  下载  1.4M asp+sqlserver2000在线考试系统.rar  下载  1.21M ASP+sql精品在线试题库设计+论文.rar  下载  2.7M asp.net+sql2008在线论坛系统.rar  下载  3.09M asp.net_sql2008公司人事管理系

分数化小数(decimal) 白书习题 2-5

1 /* 2 分数化小数(decimal) 白书习题 2-5 3 输入正整数 a , b , c , 输出 a/b 的小数形式,精确到小数点后 c 位 .a,b<=10^6 , c <= 100. 4 输入包含多组数据,结束标志为 a = b = c = 0 ; 5 */ 6 #include<stdio.h> 7 int main() 8 { 9 int a,b,c,y; //y用来存储 a/b 的余数 10 while(scanf("%d%d%d",&

计算机专业如何高质量的走完大学四年?毕业成为Offer收割机

前言:迷茫本就是青春该有的模样,但不要让未来的你讨厌现在的自己. "就要毕业了. 回头看自己所谓的大学生活, 我想哭,不是因为离别,而是因为什么都没学到. 我不知,简历该怎么写,若是以往我会让它空白. 最大的收获也许是--对什么都没有的忍耐和适应--" 这是一个大四同学给李开复的信,这封来信道出了不少大三.大四学生的心声.大学期间,有许多学生放任自己.虚度光阴,还有许多学生始终也找不到正确的学习方向.当他们被第一次补考通知唤醒时,当他们收到第一封来自应聘企业的婉拒信时,这些学生才惊讶地

设计四原则之如何设计漂亮的简历

在这个看脸的世界,设计漂亮的简历就是给简历一个好的脸蛋.那么如何设计美观的简历呢?我的答案是 设计四原则  +  LaTeX排版 下面先放出我设计的一份简历模板,然后依次讲解. 如果你的第一印象被上面的简历吸引了(只看外观,内容都是瞎掰的O(∩_∩)O哈哈~),并且有拿起电话播(+86)8888-888-888的冲动,那么,继续往下看吧. 首先,记住设计四原则: 1.  对比(Contrast) 2.  重复(Repetition) 3.  对齐(Alignment) 4.  亲密性(Prixi