机器学习实战-边学边读python代码(5)

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
p1 = sum(vec2Classify * p1Vec) + log(pClass1)
p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
if p1 > p0:
return 1
else:
return 0

注意：

p1Vect = log(p1Num/p1Denom)
p0Vect = log(p0Num/p0Denom)

>>> p0V
array([ 0.04166667, 0.04166667, 0.04166667, 0. , 0. ,
.
.
0.04166667, 0. , 0.04166667, 0. , 0.04166667,
0.04166667, 0.125 ])
>>> p1V
array([ 0. , 0. , 0. , 0.05263158, 0.05263158,
.
.
0. , 0.15789474, 0. , 0.05263158, 0. ,
0. , 0. ])

p(w0,w1,w2..wN|ci) = p(w0|ci)p(w1|ci)p(w2|ci)...p(wN|ci)，

在本例中，ci分为侮辱性和非侮辱性两个类别，而w0,w1,w2..wN为单词向量（文档中所有单词的汇总），p0V和p1V是由训练文档计算出来的，如果文档为侮辱性文档，统计文档中各个词语在单词向量中出现情况，计算出概率向量p0V,同样计算出p1V.

贝叶斯定理如下：

p(ci|w)

= p(w|ci)p(ci)/p(w)

=p(w0,w1,w2..wN|ci)p(ci)/p(w)

=p(w0|ci)p(w1|ci)p(w2|ci)..p(wN|ci)p(ci)/p(w)

计算一个特定的文档w属于c0(侮辱性文档)或者c1(非侮辱性文档),统计这篇文档中各个单词在两个不同类别中的出现概率，由贝叶斯公式进行量化，也就是把特定文档中的每个单词在p0V或者p1V中找到对应的单词概率，把这些概率相乘，即p(w0|ci)p(w1|ci)p(w2|ci)..p(wN|ci)，再乘以p(ci),最后的结果得出两个概率值，概率大的即为特定文档最后的类别。

时间： 2024-12-17 05:46:10

机器学习实战-边学边读python代码(5)的相关文章

【机器学习实战】Machine Learning in Action 代码视频项目案例

MachineLearning 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远 Machine Learning in Action (机器学习实战) | ApacheCN(apache中文网) 视频每周更新:如果你觉得有价值,请帮忙点 Star[后续组织学习活动:sklearn + tensorflow] ApacheCN - 学习机器学习群[629470233] 第一部分分类 1.) 机器学习基础 2.) k-近邻算法 3.) 决策树 4.) 基于概率论的分类方法:朴素

机器学习实战之kNN算法

机器学习实战这本书是基于python的,如果我们想要完成python开发,那么python的开发环境必不可少: (1)python3.52,64位,这是我用的python版本 (2)numpy 1.11.3,64位,这是python的科学计算包,是python的一个矩阵类型,包含数组和矩阵,提供了大量的矩阵处理函数,使运算更加容易,执行更加迅速. (3)matplotlib 1.5.3,64位,在下载该工具时,一定要对应好python的版本,处理器版本,matplotlib可以认为是python

机器学习完整过程案例分布解析，python代码解析

所谓学习问题,是指观察由n个样本组成的集合,并依据这些数据来预測未知数据的性质. 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图.如果如今有一个O2O领域的垂直搜索引擎,专门为用户提供团购.优惠券的检索:同一时候存在一个通用的搜索引擎,比方百度,通用搜索引擎希望可以识别出一个Query是否具有O2O检索意图,如果有则调用O2O垂直搜索引擎,获取结果作为通用搜索引擎的结果补充. 我们的目的是学习出一个分类器(classifier),分类器能够理解为一个函

python机器学习实战（一）

python机器学习实战(一) 版权声明:本文为博主原创文章,转载请指明转载地址 www.cnblogs.com/fydeblog/p/7140974.html 前言这篇notebook是关于机器学习中监督学习的k近邻算法,将介绍2个实例,分别是使用k-近邻算法改进约会网站的效果和手写识别系统.操作系统:ubuntu14.04 运行环境:anaconda-python2.7-notebook 参考书籍:机器学习实战 notebook writer ----方阳 k-

《机器学习实战》之K-均值聚类算法的python实现

<机器学习实战>之K-均值聚类算法的python实现最近的项目是关于"基于数据挖掘的电路故障分析",项目基本上都是师兄们在做,我只是在研究关于项目中用到的如下几种算法:二分均值聚类.最近邻分类.基于规则的分类器以及支持向量机.基于项目的保密性(其实也没有什么保密的,但是怕以后老板看到我写的这篇博文,所以,你懂的),这里就不介绍"基于数据挖掘的电路故障分析"的思路了. 废话不多说了,开始正题哈. 基本K-均值聚类算法基本K均值算法的基本思路为:首先选择

机器学习实战笔记(Python实现)-03-朴素贝叶斯

--------------------------------------------------------------------------------------- 本系列文章为<机器学习实战>学习笔记,内容整理自书本,网络以及自己的理解,如有错误欢迎指正. 源码在Python3.5上测试均通过,代码及数据 --> https://github.com/Wellat/MLaction -----------------------------------------------

《机器学习实战》之二分K-均值聚类算法的python实现

<机器学习实战>之二分K-均值聚类算法的python实现上面博文介绍了K-均值聚类算法及其用python实现,上篇博文中的两张截图,我们可以看到,由于K-均值聚类算法中由于初始质心的选取,会造成聚类的局部最优,并不是全局最优,因此,会造成聚类的效果并不理想,为克服K-均值算法收敛于局部最小值的问题,就有了二分K-均值算法. 二分K-均值聚类算法二分K均值算法是基本K均值算法的直接扩充,其基本思想是:为了得到K个簇,首先将所有点的集合分裂成两个簇,然后从这些簇中选取一个继续分裂,迭代直到产生

python机器学习实战（三）

python机器学习实战(三) 版权声明:本文为博主原创文章,转载请指明转载地址 www.cnblogs.com/fydeblog/p/7277205.html 前言这篇博客是关于机器学习中基于概率论的分类方法--朴素贝叶斯,内容包括朴素贝叶斯分类器,垃圾邮件的分类,解析RSS源数据以及用朴素贝叶斯来分析不同地区的态度. 操作系统:ubuntu14.04 运行环境:anaconda-python2.7-jupyter notebook 参考书籍:机器学习实战和源码,机器学习(周志华) not

python机器学习实战（四）

python机器学习实战(四) 版权声明:本文为博主原创文章,转载请指明转载地址 www.cnblogs.com/fydeblog/p/7364317.html 前言这篇notebook是关于机器学习中logistic回归,内容包括基于logistic回归和sigmoid分类,基于最优化方法的最佳系数确定,从疝气病症预测病马的死亡率.操作系统:ubuntu14.04 运行环境:anaconda-python2.7-jupyter notebook 参考书籍:机器学习实战和源码 noteb

猜你喜欢

静态方法中调用非静态方法

静态static方法中不能调用非静态non-static方法,准确地说是不能直接调用non-static方法.但是可以通过将一个对象的引用传入static方法中,再去调用该对象的non-static方 ...

If you only do what you can do you'll never be more than you are now.

If you only do what you can do you'll never be more than you are now. 如果你只是做你力所能及的事,你将不会有所进步: If you ...

2016/1/14 java生成指定范围的随机数

java生成指定范围的随机数 1 package edu.sjtu.erplab.io; 2 3 import java.util.Random; 4 5 public class RandomTes ...

knockoutjs + easyui.treegrid 可编辑的自定义绑定插件

http://blog.csdn.net/maddemon/article/details/16846183 目前仅支持URL的CRUD.不需要的话可以却掉相关代码,把treegrid的data直接赋 ...

Roman to Integer leetcode

Given a roman numeral, convert it to an integer. Input is guaranteed to be within the range from 1 t ...

Windows窗口程序运行过程

现在,简单介绍下windows应用程序的大概运行过程,让刚开始接触Windows开发或者MFC开发的同学有一个大致的了解. 1.创建一个窗口首先要注册一个窗口类,初始化wndclass中的各个域,设置 ...

CCJ PRML Study Note - Chapter 1.3-1.4 : Model Selection & the Curse of Dimensionality

Chapter 1.3-1.4 : Model Selection & the Curse of Dimensionality Chapter 1.3-1.4 : Model Selectio ...

Visual Studio 2010/2013 UTF8编码调试时显示中文

VisualStudio 2010 SP1环境 1.设置string默认编码为utf8,只需要在文件头部加入以下代码 1 #pragma execution_character_set("u ...

可以不做，但是不能不懂！

底子太薄,看东西太过于马虎,到现在感觉自己不会的东西太多,也没有相对来说精通的东西. 老话说的很对,以往那些觉得以后用不上可以跳过的东西在关键时候都会跳出来给你当头一棒!固然,即使社会如此之动荡,人心 ...

Java千百问_07JVM架构（002）_jvm实例的结构是什么样的

点击进入_更多_Java千百问 1.jvm实例的结构是什么样的在Java虚拟机规范中,一个虚拟机实例的行为主要组成部分为:子系统.内存区域.数据类型和指令. 这些组件描述了JVM内部的一个抽象结构. ...

我们一起学习WCF 第十篇Wcf中实现事物

数据一致性在工作中显得非常重要,有时候我们库中出现脏数据导致程序报错,但是又很难发现这样的错误,所以为了数据的完整性建议在程序中加入事物. 什么是事物:我们都有团队合作吧,比喻团队有3个人,a负责设计 ...

【Hadoop】3、Hadoop安装之cloudera manager（1）

1.网络配置 1.1 为每台机器配置固定IP 安装完cm后尽量不要修改IP, cm在安装时会绑定IP, 修改IP会造成cm不能正确识别主机. 1.2 设置开机自动连接图形界面或修改配置文件 v ...

thoughtworks笔试整理

笔试了,时间1个半小时.没想到居然有7/10是开放性问题.大意例如以下:1.为什么选择增加ThoughtWorks.200字以内,不能用"interesting"."ch ...

JS实现悬浮导航的制作（附源码）--web前端

思想:导航在这里只有两种状态,一种是初始状态.一种是固定布局状态.实现悬浮导航其实就是通过Javascript脚本语言控制导航的两种状态,主要是对两种状态成立条件的判断,明确了这些,实现起来就不会太难 ...

Python Number类型转换

int(x [,base ]) 将x转换为一个整数 long(x [,base ]) 将x转换为一个长整数 float(x ) 将x转 ...

回溯法与分支限界

回溯法 1.有许多问题,当需要找出它的解集或者要求回答什么解是满足某些约束条件的最佳解时,往往要使用回溯法. 2.回溯法的基本做法是搜索,或是一种组织得井井有条的,能避免不必要搜索的穷举式搜索法.这种 ...

蚂蚁啃大象之zookeeper学习过程

蚂蚁01啃大象: # 本文作者-刘晓涛 # 创建时间:2016-1-26:22:30 # 完成时间:2016-1-27-23:11 # 我不比别人聪明,学习东西也慢,记忆力也好像降低了(奔三了),但我 ...

Tortoise SVN 右键 show log 不显示 Author，Date，Message 的解决方法

今天加入新项目,看了看 Tortoise SVN show log,结果发现: 解决方案: 因为是新加入的项目,问了原来负责这个项目的同事,他说他那也是这个问题,汗,说明问题不是出现在客户端. 在服务 ...

深搜+DP剪枝 codevs 1047 邮票面值设计

codevs 1047 邮票面值设计 1999年NOIP全国联赛提高组时间限制: 1 s 空间限制: 128000 KB 题目等级 : 钻石 Diamond 题目描述 Description 给定一 ...

数据结构学习——树的基本概念

参考书籍<数据结构与算法分析--C语言描述> 连接俩个节点的称为边一棵树是N个节点和N-1条边的集合没有儿子的节点称为树叶(叶). 具有相同父亲的称为兄弟. 对任意节点ni,ni的深度 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.025 s.