数据挖掘算法学习（三）NaiveBayes算法

算法简单介绍

NBC是应用最广的分类算法之中的一个。朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同一时候，NBC模型所需预计的參数非常少，对缺失数据不太敏感，算法也比較简单。

算法如果

给定目标值时属性之间互相条件独立。

算法输入

训练数据 T={(x1,y1),(x2,y2),……,(xn,yn)}

待分类数据x0=(x0(1),x0(2),……,x0(n))T

算法输出

待分类数据x0的分类结果y0∈{c1,c2,……,ck}

算法思想

weka执行

以weather.nominal.arff为例执行结果部分截图例如以下：

从结果中能够看出，有两个分类，因此生成一个2*2的混淆矩阵。

函数调用代码

//读入样本

Filefile= new File("F:\\Program Files (x86)\\Weka-3-7\\data\\weather.nominal.arff");

ArffLoaderloader = newArffLoader();

loader.setFile(file);

ins= loader.getDataSet();

ins.setClassIndex(ins.numAttributes()-1);

//初始化分类器并训练

cfs= (Classifier)Class.forName("weka.classifiers.bayes.NaiveBayes").newInstance();

cfs.buildClassifier(ins);

//获取分类器结果

testingEvaluation.evaluateModelOnceAndRecordPrediction(cfs,testInst);

//打印分类结果

System.out.println("分类器的正确率："+ (1-testingEvaluation.errorRate()));

执行结果例如以下：

分类器的正确率：0.9583333333333334

算法应用

?垃圾邮件过滤系统

?分类web网页

?分类文本

垃圾邮件过滤系统能够參考论文：周威成马素霞齐林海，一种基于机器学习的垃圾邮件智能过滤方法。

原创文章，转载请注明出处，谢谢。

数据挖掘算法学习（三）NaiveBayes算法,布布扣,bubuko.com

时间： 2024-10-10 09:40:30

数据挖掘算法学习（三）NaiveBayes算法的相关文章

算法学习三阶段

?? 第一阶段:练经典经常使用算法,以下的每一个算法给我打上十到二十遍,同一时候自己精简代码, 由于太经常使用,所以要练到写时不用想,10-15分钟内打完,甚至关掉显示器都能够把程序打出来. 1.最短路(Floyd.Dijstra,BellmanFord) 2.最小生成树(先写个prim,kruscal 要用并查集,不好写) 3.大数(高精度)加减乘除 4.二分查找. (代码可在五行以内) 5.叉乘.判线段相交.然后写个凸包. 6.BFS.DFS,同一时候熟练hash 表(要熟,要灵活,代码要

算法学习笔记 KMP算法之 next 数组详解

最近回顾了下字符串匹配 KMP 算法,相对于朴素匹配算法,KMP算法核心改进就在于:待匹配串指针 i 不发生回溯,模式串指针 j 跳转到 next[j],即变为了 j = next[j]. 由此时间复杂度由朴素匹配的 O(m*n) 降到了 O(m+n), 其中模式串长度 m, 待匹配文本串长 n. 其中,比较难理解的地方就是 next 数组的求法.next 数组的含义:代表当前字符之前的字符串中,有多大长度的相同前缀后缀,也可看作有限状态自动机的状态,而且从自动机的角度反而更容易推导一些. "前

算法学习之排序算法（三）（选择排序法）

1.引言选择排序工作原理是每一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,直到全部待排序的数据元素排完. 选择排序是不稳定的排序方法.选择排序是和冒泡排序差不多的一种排序.和冒泡排序交换相连数据不一样的是,选择排序只有在确定了最小的数据之后,才会发生交换.怎么交换呢?我们可以以下面一组数据作为测试: 2, 1, 5, 4, 9 第一次排序:1, 2, 5, 4, 9 第二次排序: 1, 2, 5, 4, 9 第三次排序: 1, 2, 4, 5, 9 第四次排序:

数据结构和算法学习三，之递归和堆栈

引自:http://blog.csdn.net/feixiaoxing/article/details/6838773 函数调用主要依靠ebp和esp的堆栈互动来实现的.那么递归呢,最主要的特色就是函数自己调用自己.如果一个函数调用的是自己本身,那么这个函数就是递归函数. 我们可以看一下普通函数的调用怎么样的.试想如果函数A调用了函数B,函数B又调用了函数C,那么在堆栈中的数据是怎么保存的呢? 函数A ^函数B | (地址递减)函数C | 如果是递归函数呢,举一个简单的递

经典算法学习之贪心算法

贪心算法也是用来求解最优化问题的,相比较动态规划很多问题使用贪心算法更为简单和高效,但是并不是所有的最优化问题都可以使用贪心算法来解决. 贪心算法就是在每个决策点都做出在当时看来最佳的选择. 贪心算法的设计步骤: 1.将最优化问题转换为:对其做出一次选择之后,只剩下一个问题需要求解的形式(动态规划会留下多个问题需要求解) 2.证明做出贪心选择之后,原问题总是存在最优解,即贪心算法总是安全的 3.证明做出贪心选择后,剩余的子问题满足性质:其最优解与贪心选择组合即可得到原问题的最优解,这样就得到了最

[算法学习笔记]排序算法——堆排序

堆排序堆排序(heapsort)也是一种相对高效的排序方法,堆排序的时间复杂度为O(n lgn),同时堆排序使用了一种名为堆的数据结构进行管理. 二叉堆二叉堆是一种特殊的堆,二叉堆是完全二叉树或者是近似完全二叉树.二叉堆满足堆特性:父节点的键值总是保持固定的序关系于任何一个子节点的键值,且每个节点的左子树和右子树都是一个二叉堆. 如上图显示,(a)是一个二叉堆(最大堆), (b)是这个二叉堆在数组中的存储形式. 通过给个一个节点的下标i, 很容易计算出其父节点,左右子节点的的下标,为了方便,

算法学习之排序算法：插入排序（直接插入排序、折半插入排序、2-路插入排序）

引言: 插入排序作为最简单易于理解的排序算法,基本实现比较简单.本文详细介绍直接插入排序,并给出实现,简单的介绍折半插入排序,并给出2-路插入排序和表插入排序两种插入排序,但并未给出具体实现. 一.直接插入排序直接插入排序的基本操作是将一个记录插入到已排好序的有序表中,从而得到一个新的.记录数增1的有序表. 算法描述: 步骤1.将待排序的一组记录中的第1个记录拿出来作为一组有序的记录(当然此时该组记录仅有1个记录). 步骤2.依次将待排序的一组记录中的记录拿出来插入到前面已排好序的记录中. 步

算法学习之排序算法：归并排序

"归并"的含义是将两个或两个以上的有序表组合成一个新的有序表.无论是顺序存储还是链表存储结构,都可在O(m+n)的时间量级上实现. 归并排序又是一类不同的排序方法.假设初始序列含有n个记录,则可看成是n个有序的子序列,每个子序列的长度为1,然后两两归并,得到n/2个为2或1的有序子序列:再两两归并,....... ,如此重复,直至得到一个长度为n的有序序列为止. 初始关键字:[49] [38] [65] [97] [76] [13] [27] A A

算法学习之排序算法：快速排序

快速排序:快速排序是对冒泡排序的一种改进.它的基本思想是,通过一趟排序将待排记录分割成独立的两部分,其中一部分记录的关键字均比另一部分记录的关键字小,则可分别对这两部分记录继续进行排序,以达到整个序列有序. 一趟快速排序的具体做法: 1.附设两个指针low和high,它们的初值分别为low和high,设枢轴记录的关键字为pivotkey. 2.首先从high所指位置起向前搜索找到第一个关键字小于pivotkey的记录和枢轴记录互相交换. 3.从low所指位置起向后搜索,找到第一个关键字大于piv

算法学习之排序算法（四）（希尔排序）

1.算法思想先将整个待排元素序列分割成若干个子序列(由相隔某个"增量"的元素组成的)分别进行直接插入排序,然后依次缩减增量再进行排序,待整个序列中的元素基本有序(增量足够小)时,再对全体元素进行一次直接插入排序.因为直接插入排序在元素基本有序的情况下(接近最好情况),效率是很高的,因此希尔排序在时间效率上比前两种方法有较大提高. 希尔(Shell)排序又称为缩小增量排序,它是一种插入排序.它是直接插入排序算法的一种威力加强版. 希尔排序的基本思想是把记录按步长 gap 分组,对每组