机器学习--朴素贝叶斯算法案例

电子邮件垃圾过滤

1、如何从文本文档中构建自己的词列表。使用正则表达式切分句子，并将字符串全部转换为小写。

####################################

# 功能：切分文本

# 输入变量：大字符串 big_string

# 输出变量：字符串列表

####################################

def text_parse(big_string):

list_of_tokens = re.split(r‘\W*‘, big_string)

return [tok.lower() for tok in list_of_tokens if len(tok) > 2]

2、对贝叶斯垃圾邮件分类器自动化处理。本例中共有50封电子邮件，其中的10封电子邮件被随机选择为测试集，剩余部分作为训练集。通过多次迭代求出平均错误率来衡量分类器的性能。

####################################

# 功能：垃圾邮件测试

# 输入变量：空

# 输出变量：错误率

####################################

def spam_test():

doc_list = []

class_list = []

for i in xrange(1, 26):

word_list = text_parse(open(‘email/spam/%d.txt‘ % i).read())

doc_list.append(word_list)

class_list.append(1)

word_list = text_parse(open(‘email/ham/%d.txt‘ % i).read())

doc_list.append(word_list)

class_list.append(0)

vocab_list = create_vocab_list(doc_list)

training_set = range(50)

test_set = []

# 从50封邮件中随机选择10封做为测试集，相应的在训练集中剔除这10封邮件

for i in xrange(10):

rand_index = int(random.uniform(0, len(training_set)))

test_set.append(training_set[rand_index])

del(training_set[rand_index])

train_mat = []

train_classes = []

for doc_index in training_set:

train_mat.append(set_of_words2vec(vocab_list, doc_list[doc_index]))

train_classes.append(class_list[doc_index])

p0v, p1v, p_spam = train_nb0(array(train_mat), array(train_classes))

error_count = 0

# 遍历测试集，对其中的每封邮件进行分类

for doc_index in test_set:

word_vector = set_of_words2vec(vocab_list, doc_list[doc_index])

if classify_nb(array(word_vector), p0v, p1v, p_spam) != class_list[doc_index]:

error_count += 1

print ‘classification error ‘, doc_list[doc_index]

print ‘the error rate is: ‘, float(error_count)/len(test_set)

3、代码测试

def main():

spam_test()

if __name__ == ‘__main__‘:

main()

时间： 2024-12-09 02:47:48

机器学习--朴素贝叶斯算法案例的相关文章

通俗易懂机器学习——朴素贝叶斯算法

本文将叙述朴素贝叶斯算法的来龙去脉,从数学推导到计算演练到编程实战文章内容有借鉴网络资料.李航<统计学习方法>.吴军<数学之美>加以整理及补充基础知识补充: 1.贝叶斯理论–吴军数学之美 http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/ 2.条件概率 3.联合分布朴素贝叶斯算法朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法.给定训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布

机器学习--朴素贝叶斯算法原理、方法及代码实现

一.朴素的贝叶斯算法原理贝叶斯分类算法以样本可能属于某类的概率来作为分类依据,朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种,朴素的意思是条件概率独立性. 条件概率的三个重要公式: (1)概率乘法公式: P(AB)= P(B) P(A|B) = P(A) P(B|A) =P(BA) (2)全概率公式: (3)贝叶斯公式: 如果一个事物在一些属性条件发生的情况下,事物属于A的概率>属于B的概率,则判定事物属于A,这就是朴素贝叶斯的基本思想. 二.算法步骤 (

Stanford机器学习[第六讲]-朴素贝叶斯算法

引文:由于之前讲过了朴素贝叶斯的理论Stanford机器学习[第五讲]-生成学习算法第四部分,同时朴素贝叶斯的算法实现也讲过了,见机器学习算法-朴素贝叶斯Python实现.那么这节课打算讲解一下朴素贝叶斯算法的具体计算流程,通过一个具体的实例来讲解. PS:为了专注于某一个细节,本章节只抽取了视频的一部分来讲解,只讲解一个贝叶斯算法的计算流程,关于视频里面的具体内容请参考下面的视频链接. 讲解的实例是一个文本分类的例子,区分一句话是粗鲁的还是文明的,类别标签只有Yes或No,表示是粗鲁的和不是粗

机器学习之朴素贝叶斯算法

1 贝叶斯定理的引入概率论中的经典条件概率公式: 公式的理解为,P(X ,Y)= P(Y,X)<=> P(X | Y)P(Y)= P(Y | X)P (X),即 X 和 Y 同时发生的概率与 Y 和 X 同时发生的概率一样. 2 朴素贝叶斯定理朴素贝叶斯的经典应用是对垃圾邮件的过滤,是对文本格式的数据进行处理,因此这里以此为背景讲解朴素贝叶斯定理.设D 是训练样本和相关联的类标号的集合,其中训练样本的属性集为 X { X1,X2, ... , Xn }, 共有n 个属性:

机器学习回顾篇（5）：朴素贝叶斯算法

1 引言说到朴素贝叶斯算法,很自然地就会想到贝叶斯概率公式,这是我们在高中的时候就学过的只是,没错,这也真是朴素贝叶斯算法的核心,今天我们也从贝叶斯概率公式开始,全面撸一撸朴素贝叶斯算法. 2 贝叶斯概率公式 2.1 联合概率与全概率公式定义1:完备事件组 ${A_1} \cup {A_2} \cup \cdots \cup {A_n} = \Omega $,且${A_i} \cap {A_j} = \emptyset ,1 \le i \ne j \le n$,则称${A_1},{A_2}

斯坦福《机器学习》Lesson5感想———2、朴素贝叶斯算法

朴素贝叶斯算法与上篇中写到到生成学习算法的思想是一致的.它不需要像线性回归等算法一样去拟合各种假设的可能,只需要计算各种假设的概率,然后选择概率最高的那种假设分类类别.其中还添入了一个贝叶斯假定:在给定目标值y时属性值x之间相互独立.这样的分类算法被称为朴素贝叶斯分类器(Naive Bayes classifier) . 1.朴素贝叶斯算法在朴素贝叶斯算法的模型里,给定的训练集为, 可计算,.因为贝叶斯假定,可以计算出联合似然概率函数: 最大化联合似然概率函数可得到: 然后我们就可以对新的数

机器学习之实战朴素贝叶斯算法

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类,而朴素贝叶斯分类可谓是里面最简单.入门的一种. 首先关于贝叶斯定理,感觉简单而伟大,前些天一直在看吴军的数学之美(没看过的极力推荐)系列文章,看到自然语言处理从规则模型到统计模型转变的时候,语言的识别准确率上升好几个等级,以至于今天的语言识别到达很强大的地步,同时对于搜索引擎,网页搜索的准确率,也上升好多.这其中的最最重要的就是使用了贝叶斯准则,运用一种统计学的概念,将识别搜索的结果可能性最大化.由此我联想到当今的

基于概率论的分类方法:朴素贝叶斯算法实践学习

关于本文说明,本人原博客地址位于http://blog.csdn.net/qq_37608890,本文来自笔者于2017年12月12日 13:03:46所撰写内容(http://blog.csdn.net/qq_37608890/article/details/78738552). 本文根据最近学习机器学习书籍网络文章的情况,特将一些学习思路做了归纳整理,详情如下.如有不当之处,请各位大拿多多指点,在此谢过. 通过前两篇文章,我们对于k-近

C#编程实现朴素贝叶斯算法下的情感分析

C#编程实现这篇文章做了什么朴素贝叶斯算法是机器学习中非常重要的分类算法,用途十分广泛,如垃圾邮件处理等.而情感分析(Sentiment Analysis)是自然语言处理(Natural Language Progressing)中的重要问题,用以对文本进行正负面的判断,以及情感度评分和意见挖掘.本文借助朴素贝叶斯算法,针对文本正负面进行判别,并且利用C#进行编程实现. 不先介绍点基础? 朴素贝叶斯,真的很朴素朴素贝叶斯分类算法,是一种有监督学习算法,通过对训练集的学习,基于先验概率与贝叶