第四次任务计划书

一、计划进度

计划安排时间 计划完成内容 是否完成
 2017.3.25---2017.4.1 完成数据预处理,以及尝试使用伪代码描述算法  
 2017.4.2---2017.4.8 尝试进行代码实现,并进行小规模数据集作为输入,进行测试  
 2017.4.9---2017.4.15 完善具体代码,并着手进行毕业论文撰写  
 2017.4.16---2017.4.22 进行Python更加深入学习,利用一些扩展包,尝试对数据结果进行展示  
 2017.4.23---2017.4.29 撰写毕业论文,并且与老师共同修改   
 2017.4.30---2017.5.6 继续完善毕业设计,与老师沟通  
 2017.5.7---2017.5.12 毕业论文定稿,准备毕业答辩  

二、本周研究内容。

1、 数据预处理:

  步骤一:将离散值转化为连续值:对于非连续的属性,如:protocol_type(3种类型),service(70种类型),flag (11种类型),以及最后的label属性(23种类型)分为进行编号,将离散型转换化成连续型。

  步骤二:属性取值情况较少的属性删除 
  (1)land属性及land攻击的删除:所有的land属性取值为1的22条连接记录中有21条均属于land攻击,且land攻击和normal 之间,除land 属性之外的其他属性之间并无明显区别,因此可以忽略。(2)urgent 属性的删除:该属性值几乎全部为 0,只有 4 条记录取值不为 0。只要将这四条记录加以标记,便可以删除该属性。(3)su_attempted和 num_shells
属性的删除:属性值几乎全部为0,只有个别连接记录的值为1或2,将特殊值记录加以标识便可以删除该属性。

  步骤三:数据分块

  根据service(网络服务类型)数据分块可以看出,有42种服务类型基本上攻击类型为neptune,其他的攻击类型较样本来说影响较小。还有7种服务类型基本上也对应着是normal则同理其他的攻击类型可以忽略。这样一来,数据集就从66减少到17个。在剩下的服务类型中,cr_i网络服务类型占了一大半的数据量,但是通过数据集分块,该数据集中只有6 个决策类型,同时通过属性的二次删除,其特征属性的个数也只剩下13 个。而对于决策类型较多的三个数据集块 ftp、ftp_data 和 telnet 来说,其特征属性个数也相对较多,但是其连接记录条目一般并不多,最多也只有四千多条而已。

2、参考的部分朴素贝叶斯的代码:

from numpy import *

class NaiveBayesClassifier(object):
   
    def __init__(self):
        self.dataMat = list()
        self.labelMat = list()
        self.pLabel1 = 0
        self.p0Vec = list()
        self.p1Vec = list()

def loadDataSet(self,filename):
        fr = open(filename)
        for line in fr.readlines():
            lineArr = line.strip().split()
            dataLine = list()
            for i in lineArr:
                dataLine.append(float(i))
            label = dataLine.pop() # pop the last column referring to  label
            self.dataMat.append(dataLine)
            self.labelMat.append(int(label))

def train(self):
        dataNum = len(self.dataMat)
        featureNum = len(self.dataMat[0])
        self.pLabel1 = sum(self.labelMat)/float(dataNum)
        p0Num = zeros(featureNum)
        p1Num = zeros(featureNum)
        p0Denom = 1.0
        p1Denom = 1.0
        for i in range(dataNum):
            if self.labelMat[i] == 1:
                p1Num += self.dataMat[i]
                p1Denom += sum(self.dataMat[i])
            else:
                p0Num += self.dataMat[i]
                p0Denom += sum(self.dataMat[i])
        self.p0Vec = p0Num/p0Denom
        self.p1Vec = p1Num/p1Denom

def classify(self, data):
        p1 = reduce(lambda x, y: x * y, data * self.p1Vec) * self.pLabel1
        p0 = reduce(lambda x, y: x * y, data * self.p0Vec) * (1.0 - self.pLabel1)
        if p1 > p0:
            return 1
        else:
            return 0

def test(self):
        self.loadDataSet(‘testNB.txt‘)
        self.train()
        print(self.classify([1, 2]))

if __name__ == ‘__main__‘:
    NB =  NaiveBayesClassifier()
    NB.test()

三、你本周的体会及需要改进地方。

数据预处理方面还是存在着一些问题。算法暂时还没有和数据入口对接,算法的一些细节部分仍然需要完善,整体设计思路还是要重新整理,多参考一些硕士论文,Python部分也要多去学习,还有很多东西需要补充。

五、你本周参考的文献。

1、KDDCUP99数据集的数据分析研究_吴建胜

2、http://www.cnblogs.com/Finley/p/5334987.html

时间: 2024-08-06 11:54:11

第四次任务计划书的相关文章

项目开发计划书

基于andriod校园网上订餐系统   项目开发计划         报告名称  校园网上订餐系统项目开发计划书 专    业  计算机科学与技术 班    级   信1201-1班 组长姓名   王雪青 组员名单   陆宇 赵建松 张文东 徐擎天 日    期   2015.6.13 指导教师  王建民 项目开发计划 V1.0 拟 制 人____王雪青________ 审 核 人____王雪青_________ 批 准 人____王雪青________ 二零一五年六月十三日 项 目 开 发 计

谋哥:我的商业计划书

[谋哥每天一干货,第六十六篇] 秦大前几天写了一篇文章<秦刚:如何写出一份有份量的商业计划书 >,文章里他建议,不管你是否融资,都应该写一份这样的商业计划书,因为这样可以让自己对现在做的项目有个整体的认识. 于是我就写一份,锻炼锻炼!当做作业. 第一,几句话描述你的自媒体? 谋哥:目前市场上没有研究App产品推广盈利为一体的自媒体,特别是App自推广这个细分领域的自媒体.App自推广就是利用App产品本身的设计达到自我推广的目的. 第二,你有什么样的解决方案,或者什么样的产品,能够解决这个问题

软件开发计划书 模板

软件开发计划书 项目名称: 参与人员: 目  录 1引言-------------------------------------------------------------------------------- - 3 - 1.1编写目的-------------------------------------------------------------------- - 3 - 1.2背景------------------------------------------------

斗兽棋项目开发计划书

项目开发计划书 一:市场分析 我国网络棋牌游戏市场现状 我国的网民数量在2011年12月底以高达5.13亿以上,拥有这么一个庞大的市场环境,无疑给中国的网络游戏带来了更多的发展机会.如今,网络游戏已经完全融入了人们的娱乐生活中,特别是棋牌类网络游戏,因为棋牌在中国本来就拥有很悠长的历史累积,网络棋牌的玩法和实际的棋牌玩法也基本一样,所以,在众多的网络游戏类型当中,棋牌类游戏倍受广大网民的喜爱.正式由于棋牌游戏广大的市场前景的吸引,国内众多知名游戏厂商也加入到了游戏的开发以及运用当中. 腾讯公司大

铁大课表 测试计划书

铁大课表 测试计划书                   第七小组:闫立新.曹锦锋.李夏蕾. 苏海岩.王伟光.杨世超   2014年5月6日 目录 1引言... 4 1.1编写目的... 4 1.2背景... 4 1.3定义... 4 1.4参考资料... 4 2计划... 5 2.1软件说明... 5 2.2测试内容... 5 2.3测试1:课表模块... 5 2.3.1进度安排... 5 2.3.2条件... 5 2.3.3测试资料... 5 2.4测试2:作业模块... 6 2.4.1进度

预见未来—— 互联网大数据应用 商业计划书

内容说明: 本商业计划书是我去年时写的,比较粗浅. 但一文一图都是自己花了时间整理出来的,也是份劳动成果,现分享给大家. 粗陋简文,不当之处,请多指教! 互联网大数据应用商业计划书_v1.3.pdf   pdf版下载地址: http://ebigdata.net/bigdata.pdf 注:未经本人同意,禁止转载:联系作者:程序猿小伍 [email protected] 第1章 背景介绍 1.1. 大数据标签 一分钟内,微博推特上新发的数据量超过10万. 截至2015年6月,我国网民规模达6.6

周鸿袆教你打造十页完美商业计划书的十条法则

http://www.gogogogo.me/digest/jihuashu.html 第一,用几句话清楚说明你发现目前市场中存在一个什么空白点,或者存在一个什么问题,以及这个问题有多严重,几句话就够了.很多人写了三百张纸,抄 上一些报告.投资人天天看这个,还需要你教育他吗?比如,现在网游市场里盗号严重,你有一个产品能解决这个问题,只需要一句话说清楚就可以.        第二,你有什么样的解决方案,或者什么样的产品,能够解决这个问题.你的方案或者产品是什么,提供了怎样的功能?        第

360内训:周鸿袆对商业计划书的10点建议

无论是传统企业转型移动互联网还是互联网企业的攻城略地,一份简洁有力的商业计划书极具穿透力.下面分享给大家360周鸿祎的玩法. 第一,用几句话清楚说明你发现目前市场中存在一个什么空白点,或者存在一个什么问题,以及这个问题有多严重,几句话就够了.很多人写了三百张纸,抄上一些报告.投资人天天看这个,还需要你教育他吗?比如,现在网游市场里盗号严重,你有一个产品能解决这个问题,只需要一句话说清楚就可以.(济南石材养护www.tengdashicai.com) 第二,你有什么样的解决方案,或者什么样的产品,

十分钟帮你拿到500万天使轮!手把手教你写商业计划书【干货】

由于我们带着常识和逻辑去解构商业的本质,因此我本人拒绝一切商业模式神秘主义,说不清楚的商业模式一定不是好的商业模式,当然,有些项目当前不需要商业模式,但至少眼下的产品有足够的“替代性拐点”,必须是个“金钩子”.很多创业者都是在某种机缘巧合.“形势所迫”或者“初心不改”的情况下开始自己的创业的,手上有现成的资源,有一个“靠谱的”点子(idea),为什么不来一场说干就干的创业呢?对于很多连续创业者来说,即便不写一份书面的商业计划书,那么心里面也应该有一个完整的逻辑了,这时候,商业计划书的作用无非是把