决策树原理图表详解

决策树的原理,一个图表就很清楚了,首先,还是要牢记,条件熵是一种最优路径,是概率图模型中,两个随机变量之间的最优条件路径。也就是所有路径熵的期望。 
H(Y|X) = -sigmaP(X,Y)logP(Y|X) = -sigmaP(X=xi)P(Y|X=xi)logP(Y|X=xi)=-sigmaP(X=xi)H(Y|X=xi)

好了,废话少说,下图是决策树原理

特征A D1 D2 D3 Di
A1 D11 D21 D23  
A2 D12 D22 D32  
A3 D13 D23 D33  
Ak       Dik

任何一个特征A, 有k个分类,那么就是 Ak,与决策树的分类结果D,构成一个二维数组,就是上面这个了,每个交叉为Dik.代表Di个结果,有多少落在Ak中

则有P(Di|Ak) = Dik/Ak.Ak是A特征第k类的个数。

然后,算H(D|A) 
全概率公式展开 
 
?1?6?1?6?1?6?1?6?1?6?1?6?1?6?1?6?1?6?1?6?1?6?1?6?1?6?1?6?1?6 
图中Di就是Ak

时间: 2024-07-30 06:50:39

决策树原理图表详解的相关文章

LVS-DR工作原理图文详解

为了阐述方便,我根据官方原理图另外制作了一幅图,如下图所示:VS/DR的体系结构: 我将结合这幅原理图及具体的实例来讲解一下LVS-DR的原理,包括数据包.数据帧的走向和转换过程. 官方的原理说明:Director接收用户的请求,然后根据负载均衡算法选取一台realserver,将包转发过去,最后由realserver直接回复给用户. 实例场景设备清单: 说明:我这里为了方便,client是与vip同一网段的机器.如果是外部的用户访问,将client替换成gateway即可,因为IP包头是不变的

MapReduce工作原理图文详解 (炼数成金)

MapReduce工作原理图文详解 1.Map-Reduce 工作机制剖析图: 1.首先,第一步,我们先编写好我们的map-reduce程序,然后在一个client 节点里面进行提交.(一般来说可以在Hadoop集群里里面的任意一个节点进行,只要该节点装了Hadoop并且连入了Hadoop集群) 2.job client 在收到这个请求以后呢,会找到JobTracker并且请求一个作业ID(Job ID).(根据我们的核心配置文件,可以很轻易的找到JobTracker) 3.通过HDFS 系统把

ln命令总结,软链接&硬链接&文件删除原理画图详解

ln命令总结,软链接&硬链接&文件删除原理画图详解

从浏览器打开网址到请求到网页内容超细原理过程详解(免费)

从浏览器打开网址到请求到网页内容超细原理过程详解 史上最牛逼相关知识学员讲解! 看完了不服来战! http://edu.51cto.com/course/course_id-6075.html 长江后浪来了...100米高大浪! 最牛逼老男孩教育28期学员开班2个月左右的分享讲解,不看不知道,一看吓尿你! 运维Q群385168604 架构师Q群390642196 PythonQ群29215534大数据Q群421358633

iOS---NSAutoreleasePool自动释放原理及详解

当您向一个对象发送一个autorelease消息时,Cocoa就会将该对象的一个引用放入到最新的自动释放池.它仍然是个正当的对象,因此自动释放池 定义的作用域内的其它对象可以向它发送消息.当程序执行到作用域结束的位置时,自动释放池就会被释放,池中的所有对象也就被释放. 1. ojc-c 是通过一种"referring counting"(引用计数)的方式来管理内存的, 对象在开始分配内存(alloc)的时候引用计数为一,以后每当碰到有copy,retain的时候引用计数都会加一, 每当

RDD原理与详解

RDD详解 RDD(Resilient Distributed Datasets弹性分布式数据集),是spark中最重要的概念,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一批机器中(内存或磁盘中).当然,RDD肯定不会这么简单,它的功能还包括容错.集合内的数据可以并行处理等.图1是RDD类的视图. 图1 一个简单的例子 下面是一个实用scala语言编写的spark应用(摘自Apache Spark 社区https://spark.apac

GO的并发之道-Goroutine调度原理&Channel详解

并发(并行),一直以来都是一个编程语言里的核心主题之一,也是被开发者关注最多的话题:Go语言作为一个出道以来就自带 『高并发』光环的富二代编程语言,它的并发(并行)编程肯定是值得开发者去探究的,而Go语言中的并发(并行)编程是经由goroutine实现的,goroutine是golang最重要的特性之一,具有使用成本低.消耗资源低.能效高等特点,官方宣称原生goroutine并发成千上万不成问题,于是它也成为Gopher们经常使用的特性. 一.goroutine简介 Golang被极度赞扬的是它

MapReduce工作原理图文详解

这篇文章主要分析以下两点内容:目录:1.MapReduce作业运行流程2.Map.Reduce任务中Shuffle和排序的过程 正文: 1.MapReduce作业运行流程 下面贴出我用visio2010画出的流程示意图: 流程分析: 1.在客户端启动一个作业. 2.向JobTracker请求一个Job ID. 3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件.配置文件和客户端计算所得的输入划分信息.这些文件都存放在JobTracker专门为该作业创建的文

鸽巢原理(抽屉原理)的详解

抽屉原理 百科名片 桌上有十个苹果,要把这十个苹果放到九个抽屉里,无论怎样放,我们会发现至少会有一个抽屉里面放两个苹果.这一现象就是我们所说的“抽屉原理”. 抽屉原理的一般含义为:“如果每个抽屉代表一个集合,每一个苹果就可以代表一个元素,假如有n+1或多于n+1个元素放到n个集合中去,其中必定至少有一个集合里有两个元素.” 抽屉原理有时也被称为鸽巢原理(“如果有五个鸽子笼,养鸽人养了6只鸽子,那么当鸽子飞回笼中后,至少有一个笼子中装有2只鸽子”).它是组合数学中一个重要的原理. 第一抽屉原理 原