用Excel建模进行决策树分析

决策树(Decision Tree)在机器学习中也是比较常见的一种算法,最早的决策树算法是ID3,改善后得到了C4.5算法,进一步改进后形成了我们现在使用的C5.0算法,综合性能大幅提高。

算法核心:为每一次分裂确定一个分裂属性。ID3采用的是“信息增益”为度量来选择分裂属性的。

本文在Excel中建模进行决策树分析,属于基础的决策树学习,有兴趣的可以在SPSS Modeler和Python中进行操作。

树模型(又称决策树或者树结构模型):基本思想和方差分析中的变异分解极为相似。
目的(基本原则):将总研究样本通过某些牲(自变量取值)分成数个相对同质的子样本。每一子样本因变量的取值高度一致,相应的变异/杂质尽量落在不同子样本间。所有树模型的算法都遵循这一基本原则。
不同树模型差异:差异在于对变异/杂质的定义不同。比如P值、方差、熵、Gini指数(基尼指数)、Deviance等作为测量指标。

决策树图例

现在我们来分析天气、温度、湿度、风这些属性对打球的影响

首先确定样本集信息熵,然后计算各个属性的信息增益进行对比分析。

熵:数据集中的不确定性、突发性或随机性的程度的度量。当一个数据集中的记录全部都属于同一类的时候,则没有不确定性,此时熵为0。

信息增益:按照某个属性A把数据集S分裂,所得到的信息增益等于数据集S的熵减去各个子集的熵的加权和。

计算是否打球的概率:

计算天气对打球的影响:

I(晴天)=-0.25*log(0.25,2)-0.75*log(0.75,2)=0.811278

E(天气)=0.285714*0.811278+0.357143*0+0.357143*0.70951=0.578562

Gain(天气)=E(all)-E(天气)=0.940286-0.578562=0.361724

经计算得出天气的信息增益为0.361724,温度、湿度和风计算步骤类似

对各属性的信息增益进行降序排序,选择最大的作为分裂属性

原文地址:https://www.cnblogs.com/Estate-47/p/9602043.html

时间: 2024-11-09 03:19:40

用Excel建模进行决策树分析的相关文章

微软数据挖掘算法:Microsoft 决策树分析算法(1)

介绍: Microsoft 决策树算法是分类和回归算法,用于对离散和连续属性进行预测性建模. 对于离散属性,该算法根据数据集中输入列之间的关系进行预测. 它使用这些列的值(也称之为状态)预测指定为可预测的列的状态. 具体地说,该算法标识与可预测列相关的输入列. 例如,在预测哪些客户可能购买自行车的方案中,假如在十名年轻客户中有九名购买了自行车,但在十名年龄较大的客户中只有两名购买了自行车,则该算法从中推断出年龄是自行车购买情况的最佳预测因子. 决策树根据朝向特定结果发展的趋势进行预测. 对于连续

AMETank v7.6 Windows 1CD 储油罐3D建模设计和分析

AMETank v7.6 Windows 1CD 储油罐3D建模设计和分析Intergraph TANK 2014 SP1 v6.00.01-ISO 1CD 储油罐的设计和分析AMETank是一款整合了AMTank和Etank2000的一体化软件,将AMTank的3D建模功能和出图能力整合到ETank2000中,使新的AMETank软件具有储罐3D建模,分析与评估,以及输出储罐构造图的能力.AMETank具有ETank的操作界面,支持ETank的所有计算功能.设计过程和在Etank2000一样,

excel绘图-杜邦分析法

excel绘图-杜邦分析法 和数据结构化的分析思维类似. 杜邦分析法(英语:DuPont analysis)是一种分析企业财务状况的方法. 源数据只要填入表格,就会利用函数/图加工成需要的可视化结构. 利用3张工作表,分布储存原始数据->中间加工数据/表->汇总数据/表. 原始数据变更,会自动更新“中间加工数据/表”->“汇总数据/表” 原文地址:https://www.cnblogs.com/chentianwei/p/12529994.html

《需求工程 软件建模需求与分析》读书笔记

软件需求的获取和分析是软件系统开发中的一项重要任务,正确获取软件需求是软件技术人员必须掌握的基本技能.本书从软件需求工程的角度出发,以需求开发过程为主线,完整描述了需求获取.需求分析.需求验证.需求规格说明和需求管理等需求工程活动.通过阅读本书在开发者的立场,侧重于实践者的技术与方法,系统全面地介绍了软件需求工程的各项进展,努力促进需求工程领域理论.方法和技术的全面融合应用,以指导需求工程各阶段的系统化实践 第一部分绪论讲述了软件生产中需求问题,需求的来源的,第二章介绍了需求基础,第三章介绍了需

分析建模-如何识别分析类?

分析建模过程,可分为5个子过程: 1.识别分析类: 2.行为分析: 3.建立分析类图: 4.面向对象编码: 5.模型检查: 这五个子过程相互独立,有各自的输入和输出,由输入的变化触发. 分析建模是属于问题域的活动,考虑的是要解决的实际问题. 因此,分析类就是要来承载问题域中各种职责的事物.这也是分析类建立的原因. 基于以上描述,如何识别分析类就可以简单归纳为两个子活动: 1.寻找职责: 2.分配职责: 如何寻找职责?从用例模型中的活动图承载的事件流中寻找: 基于找到的职责,建立相应的分析类,再把

使用Excel PowerQuery和PowerPivot分析Dynamics CRM数据

可能大家也发现,博主撰写的文章大部分都和Developer相关,涉及到的都是一些需要专业编程知识才能理解的编程知识.今天呢,我给大家介绍一些不一样的东西,告诉大家怎么使用Excel去分析Dynamics CRM系统中的数据. Excel软件大家都知道吧,不了解的同学可以去面壁了,微软对Excel软件的重视度是那是不需要提的,它在Office产品套件里面的地位也是数一数二,随着最近几个版本的Release,用Excel做出一些酷炫的BI展示效果也是很轻松的事情呀! 这篇文章中,博主将使用的Exce

巧用EXCEL数据透视表分析IIS日志

下面说个比较简单且非常实用的方法,通过EXCEL的一些简单的公式做出想得到的一系列数据,例如时间间隔,爬行页面,返回状态码,网址参数,蜘蛛类型,蜘蛛 IP 等,通过以上数据可 以进行对网站的问题的排查,更正. 首先必须有自己的 服务器 或者能够查看IIS日志的权限,通过 FTP 将iis日志文件从空间中 下载 到本地服务器获取IIS日志的方式:打开IIS,点击要查询网站>右键>属性>网站选项卡>属性>即可看到如图 如果是空间的话有些空间服务上会将日志文件放在网站根目录的.如果

Python读取Excel文件并生成分析结果

笔者需要对存放在Excel里的很多媒资文件进行分析,这些节目的分辨率有高清.标清之分,高清的节目名称前面加上"HD-",比如下面的"HD-护宝联盟第一季",标清的则直接是节目名称,如"HD-护宝联盟第一季",这些节目可能分别属于电视剧.电影.娱乐的栏目,每个节目有对应的时长(分钟数),然后按栏目放在不同的sheet里 需要实现的目标有: 1.统计高清节目的时长,这个在Excel里可以直接统计: 2.统计标清节目的时长,这个在Excel里可以直接统

ID3决策树分析

1 简述 1.1    id3是一种基于决策树的分类算法,由J.Ross Quinlan在1986年开发.id3根据信息增益,运用自顶向下的贪心策略建立决策树.信息增益用于度量某个属性对样本集合分类的好坏程度.由于采用了信息增益,id3算法建立的决策树规模比较小,查询速度快.id3算法的改进是C4.5算法,C4.5算法可以处理连续数据,采用信息增益率,而不是信息增益.理解信息增益,需要先看一下信息熵. 1.2 信息熵    信息熵是随机变量的期望.度量信息的不确定程度.信息的熵越大,信息就越不容