第二周毕业设计任务书(3.8--3.15)

1、周计划表

时间 计划进度 是否完成
3.8--3.15 了解KDDUP99数据集,以及所包含的属性,数据预处理思想  
3.16--3.23  代码实现数据预处理  
3.24--3.30  与算法的融合  
等等    

1、本周内容:

1)KDDCUP99数据集

一个网络连接定义为在某个时间内从开始到结束的TCP数据包序列,并且在这段时间内,数据在预定义的协议下(如TCP、UDP)从源IP地址到目的IP地址的传递。每个网络连接被标记为正常(normal)或异常(attack),异常类型被细分为4大类共39种攻击类型,其中22种攻击类型出现在训练集中,另有17种未知攻击类型出现在测试集中。

  KDDCUP99数据集中每个连接(*)用41个特征来描述:

     1. TCP连接基本特征(共9种)

2. TCP连接的内容特征(共13种)

3. 基于时间的网络流量统计特征 (共9种,23~31)

4. 基于主机的网络流量统计特征 (共10种,32~41)

(具体的特征暂略)

2)数据的预处理

(1) protocol type: 1-icmp; 2-tcp; 3-udp; 4-others.

(2) service: domain-u 1;  ecr_i 2;  eco-i 3;  finger 4;  ftp-data 5;  ftp 6;  http 7;  hostnames 8; imap4  9;   login 10;  mtp 11;  netstat 12;  other 13;  private 14;  smtp 15;  systat 16;  telnet 17; time 18; uucp 19;   其他服务 20;

(3) flag: 1-REJ; 2-RSTO; 3-RSTR; 4-S0; 5-S3; 6-SF; 7-SH; 8-OTHERS;

(4)其他数据归一化处理:x∈[xmin,xmax], t=(x-xmin)/(xmax-xmin) ∈[0,1].

3)相应的算法。

为一个待分类项,而每个a为x的一个特征属性。有类别集合。(摘自来自第一次任务书)

  1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。

2、统计得到在各类别下各个特征属性的条件概率估计。即

3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:

因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:

(计算,如果,则。 关键就是如何计算第中各个条件概率——摘自第一次计划书)

4.你本周参考资料。

http://blog.sina.com.cn/s/blog_4ae073680101g1fh.html

http://blog.csdn.net/com_stu_zhang/article/details/6987632

5.你本周实现的代码及截图。

暂无

6.你本周的体会。

KDDCUP99数据具有诸多属性,数据预处理可以简化许多冗余数据,并且通过设定关键值来处理。30万的数据量可能对之后的实验运行会带来一些挑战,不过数据预处理后的样本训练就是机器工作,数据预处理对之后的精确度有很大影响,所以要重视。

时间: 2024-08-02 11:01:41

第二周毕业设计任务书(3.8--3.15)的相关文章

第二周毕业设计任务

1. 计划安排时间 计划完成内容 是否完成 2017.3.1---2017.3.7 了解系统需求 是 2017.3.8---2017.3.15 梳理系统流程 是 2017.3.16-2017.3.23 对系统部分的模块进行简单的构思并且查找一些有用的函数代码,做一些记录,这个会分几周完成(尽量给出具体模块) 2017.3.24---2017.3.30 对系统部分的模块进行简单的构思并且查找一些有用的函数代码,做一些记录,这个会分几周完成 2017.3.31---2017.4.7 对系统部分的模块

第二次毕业设计任务书(KDD数据研究)

1.周计划表 时间 计划任务 完成情况 3.9-3.16 初步分析了KDD数据,并用程序实现初步处理 50% 3.17-3.24 了解matlab下的神经网络编程,尝试使用工具包完成简单的功能实现 3.24-3.31 对数据进行再次分析处理,根据输出结果筛选出有用的属性值,并对matlab做架构思考   2.本周完成情况 研究KDD数据: 参考网址KDD CUP 99网页,了解41个属性值,并下载源文件决定使用其中的10%样本数据37万条数据作为训练数据(后期可能会思考删除某些属性和对文件条目进

2019-2020-2 20165325 李东骏 毕业设计 第二周总结

2019-2020-2 20165325 李东骏 毕业设计 第二周总结 目录 本周任务&每日完成情况 任务进展&已经解决的问题 待解决的问题&下周计划 代码托管情况 本周任务&每日完成情况 返回目录 table th { width: 14%; } 周一 周二 周三 周四 周五 周六 周天 查阅论文准备开题报告 继续查阅论文准备开题报告 拟写开题报告交老师审阅 翻译部分论文根据老师建议修改开题报告 重新搭建应用环境 编写代码托管代码 总结撰写博客 任务进展&已经解决

20145229吴姗珊《Java程序设计》第二周学习总结

教材学习内容总结 一.类型.变量与运算符 1.类型 整数:可细分为short整数.int整数和long整数.不同长度的整数可储存的整数范围也不同. 字节:byte类型顾名思义.长度就是一字节,需要逐字节处理数据时则需要使用.用于整数时,可表示-128~127的整数. 浮点数:主要用来储存小数数值,主要分为float和double. 字符:char类型用来储存‘A','B','林'等字符符号. 布尔:boolean类型可表示true和false,分别表示真和假. 2.变量 基本规则:用关键词来声明

20145301第二周学习总结

20145301第二周学习总结 教材学习内容总结 3.1 类型.变量与运算符 整数 short 2字节,int 4字节,long 8字节 字节 byte 1字节 浮点数 float 4字节,double 8字节 字符 char 2字节(包括字母.汉字) 布尔 boolean 不用在意它的存储空间(只有true/false) 注释 // 单行注释,/ / 多行注释 下图为各类型范围: 常量定义 final加在定义类型之前,表示定义的该变量将不能改变其值,如 final int a=10; 局部变量

软件项目管理第二周作业

软件项目管理作业: 1.代码规范 代码就像美食一样,不仅好不好吃,卖相也很重要. 代码风格:简明.易读. 4个空格缩进,行宽100字符,复杂的表达式多用括号清楚的表示逻辑关系,不要好几条语句放在一行等等. 注释主要是知道程序做什么,为什么这样做,还有注意的地方提醒. 2.燃尽图.鱼刺图.甘特图 燃尽图:顾名思义,一堆木头烧完了,一开始挺多的,大事化小,越来越少,直到化为灰烬. 鱼刺图:貌似是鱼刺有很多,一个结果有很多原因且又相互有联系,有果必有因,找出问题的原因,解决问题. 甘特图:工作进度图,

HarvardX: PH525.4x Introduction to Bioconductor第二周笔记

PH525.4x第二周内容围绕GRange类的操作和使用Annotation进行数据关联两个主题展开,并展示了几个比较“炫”的功能.由于内容繁多,信息量大,故笔记之以便日后参考.该课程的演示数据为ChIP-seq的实验数据,背景为人类肝细胞(cell line:HepG2和GM12878)中被ESRRA (estrogen related receptor alpha)绑定的基因片段.在展示数据操作之前,首先检查bioconductor的版本号,不同版本的输出可能存在差异. library(Bi

hiho 第二周

Trie树,第一次写,简单的建树+搜索 它的思路hiho上讲得很清楚,good~ 1 #include<iostream> 2 #include<string> 3 using namespace std; 4 char word[11]; 5 int n,m; 6 struct trie 7 { 8 int num; 9 trie *next[26]; 10 trie() 11 { 12 num = 0; 13 for(int i = 0; i < 26; i++) 14

OneZero第二周第三次站立会议(2016.3.30)

会议时间:2016年3月30日  13:00~13:20 会议成员:冉华,张敏,王巍,夏一鸣. 会议目的:汇报前一天工作,全体成员评论,确定会后修改内容或分配下一步任务. 会议内容: 1.前端,完成功能点为“将获取信息转化为中端所需格式”,“发送获取的信息给中端”.以下是代码部分 1 package com.onezero.account; 2 3 import java.text.ParseException; 4 import java.text.SimpleDateFormat; 5 im