数据挖掘-贝叶斯定理

贝叶斯定理是统计学的一种分类的方法

最简单的贝叶斯分类方法称为朴素贝叶斯分类的方法

朴素贝叶斯法的一个重要条件是即一个属性值对分类的影响独立于其他属性值  也称为类条件独立性

p(H|X)=p(X|H)P(H)/P(X)    其中已经知道后者求前者,。即是后验=似然X先验/证据因子

朴素贝叶斯方法易于实现 ,而且在大多数的情况下能够获得较好的分类准确率。它的劣势在于它的条件独立性假设,如果数据之间各个属性之间有比较强的依赖关系,则不会取得好的结果。

如何处理属性之间的依赖关系呢?引入了贝叶斯信念网络

贝叶斯网络是一个有向无环图,图中的节点代表随机变量,可以对应于实际数据中的某一个属性。节点间的边代表变量之间的直接依赖的关系。

贝叶斯网络学习 -----------

贝叶斯网络中的变量可以是观测的,或隐藏在所有或某些训练的元组之中。隐藏数据的情况也称为缺失值或不完全数据。

时间: 2024-10-29 19:12:19

数据挖掘-贝叶斯定理的相关文章

数据挖掘中所需的概率论与数理统计知识

http://blog.csdn.net/v_july_v/article/details/8308762 数据挖掘中所需的概率论与数理统计知识 (关键词:微积分.概率分布.期望.方差.协方差.数理统计简史.大数定律.中心极限定理.正态分布) 导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史,因为,

(原创)大数据时代:数据分析之基于微软案例数据库数据挖掘案例知识点总结

随着大数据时代的到来,数据挖掘的重要性就变得显而易见,几种作为最低层的简单的数据挖掘算法,现在利用微软数据案例库做一个简要总结. 应用场景介绍 其实数据挖掘应用的场景无处不在,很多的环境都会应用到数据挖掘,之前我们没有应用是因为还没有学会利用数据,或者说还没有体会到数据的重要性,现在随着IT行业中大数据时代的到来,让我一起去拥抱大数据,闲言少叙,此处我们就列举一个最简单的场景,一个销售厂商根据以往的销售记录单,通过数据挖掘技术预测出一份可能会购买该厂商产品的客户名单,我相信这也是很多销售机构想要

数据挖掘算法之贝叶斯网络

贝叶斯网络 序 上上周末写完上篇朴素贝叶斯分类后,连着上了七天班,而且有四天都是晚上九点下班,一直没有多少时间学习贝叶斯网络,所以更新慢了点,利用清明节两天假期,花了大概七八个小时,写了这篇博客,下面讲的例子有一个是上一篇朴素贝叶斯讲过的,还有其他的都是出自贝叶斯网络引论中.我会以通俗易懂的方式写出来,不会讲得很复杂,会介绍贝叶斯网络的绝大部分知识点,看完会让你对于贝叶斯网络有个大概的了解.但是对于比较深层次的东西,我先不打算写.比如训练贝叶斯网络,因为涉及到比较加深入的数学知识,我自己暂时也不

这份研究花了我一年:数据挖掘与运维分析

这份研究报告,作者从去年开始到现在花了整整一年时间,今天和大家分享下,关于<数据采矿和运维分析>,共同探讨~ 数据挖掘(Data Mining)是从大量数据中提取或"挖掘"知识. 广义数据挖掘:数据挖掘是从存放在数据库.数据仓库或其它信息库中的大量数据挖掘有趣知识的过程. 数据挖掘技术侧重:1)概率与数理统计 2)数据库技术 3)人工智能技术 4)机器学习. 1. 数据清理:消除噪音或不一致数据 2. 数据集成:多种数据源可以组合在一起 3. 数据选择:从数据库中提取与分析

数据挖掘入门

正式学习之前,所需要的预备知识(主要是数学)应该包括:微积分(偏导数.梯度等等).概率论与数理统计(例如极大似然估计.中央极限定理.大数法则等等).最优化方法(比如梯度下降.牛顿-拉普什方法.变分法(欧拉-拉格朗日方程).凸优化等等)--如果你对其中的某些名词感到陌生,那么就说明你尚不具备深入开展数据挖掘算法学习的能力.你会发现到处都是门槛,很难继续进行下去. 第一条线路: (基于普通最小二乘法的)简单线性回归 -> 线性回归中的新进展(岭回归和LASSO回归)->(此处可以插入Bagging

优云软件数据专家最佳实践:数据挖掘与运维分析

这份研究报告,作者是优云软件数据专家陈是维,在耗时1年时间制作的一份最佳实践,今天和大家分享下,关于<数据采矿和运维分析>,共同探讨~ 数据挖掘(Data Mining)是从大量数据中提取或"挖掘"知识. 广义数据挖掘:数据挖掘是从存放在数据库.数据仓库或其它信息库中的大量数据挖掘有趣知识的过程. 数据挖掘技术侧重:1)概率与数理统计 2)数据库技术 3)人工智能技术 4)机器学习. 1. 数据清理:消除噪音或不一致数据 2. 数据集成:多种数据源可以组合在一起 3. 数据

数据挖掘10大算法详细介绍

想初步了解下怎样数据挖掘,看到一篇不错的文章转载过来啦~ 转自:http://blog.jobbole.com/89037/ 在一份调查问卷中,三个独立专家小组投票选出的十大最有影响力的数据挖掘算法,今天我打算用简单的语言来解释一下. 一旦你知道了这些算法是什么.怎么工作.能做什么.在哪里能找到,我希望你能把这篇博文当做一个跳板,学习更多的数据挖掘知识. 还等什么?这就开始吧! 1.C4.5算法 C4.5是做什么的?C4.5 以决策树的形式构建了一个分类器.为了做到这一点,需要给定 C4.5 表

跟我一起数据挖掘(20)&amp;mdash;&amp;mdash;网站日志挖掘

收集web日志的目的 Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访问情况,辅助站点管理和决策支持等. 1.以改进web站点设计为目标,通过挖掘用户聚类和用户的频繁访问路径,修改站点的页面之间的链接关系,以适应用户的访问习惯,并且同时为用户提供有针对性的电子商务活动和个性化的信息服务,应用信息推拉技术构建智能化Web站点. 2.以分析W

《数据挖掘概念与技术》学习笔记

1.Chapter1 引论: (1) OLTP 和 OLAP 概念: OLTP(on-line transaction processing) 联机事物处理,就是我们常常说的关系数据库的主要应用,主要是主要的.日常的事务处理,比如银行交易.比如:mysql OLAP(on-line analytical processing) 联机分析处理,是数据仓库系统的主要应用,支持复杂的分析操作,側重决策支持,而且提供直观易懂的查询结果.比如:hive+hdfs. (2) 数据仓库概念: 数据仓库是一个面