机器学习实战—决策树(二)

#-*-coding:utf-8-*-
import ch
ch.set_ch()
import matplotlib.pyplot as plt

decisionNode = dict(boxstyle = "sawtooth",fc="0.8")
leafNode = dict(boxstyle="round4",fc = "0.8")
arrow_args = dict(arrowstyle = "<-")

#建立标注annotate
def plotNode(nodeTxt,centerPt,parentPt,nodeType):
                            # 标注内容   标注位置                                    标签位置
    createPlot.ax1.annotate(nodeTxt,xy=parentPt,xycoords = 'axes fraction',xytext = centerPt,textcoords='axes fraction',va="center",                                         #标签的格式         箭头的格式
                            ha = "center",bbox = nodeType,arrowprops=dict(arrowstyle="<-"))

def createPlotTemp():
                    #图名,可以是数字  背景颜色
    fig = plt.figure("xihuan",facecolor = 'white')
    fig.clf()#clear the figure
    createPlotTemp.ax1 = plt.subplot(111,frameon = False)#产生一个子图,不显示坐标轴,但有坐标
    plotNode(U'决策节点',(0.5,0.1),(0.1,0.5),decisionNode)
    plotNode(U'叶节点',  (0.8,0.1),(0.3,0.8),leafNode)
    plt.show()

#计算决策树的叶子节点的数目
def getNumLeafs(myTree):
    numLeafs = 0
    firstStr = myTree.keys()[0]
    secondDict = myTree[firstStr]
    for key in secondDict.keys():
        if type(secondDict[key])==dict:
            numLeafs += getNumLeafs(secondDict[key])
        else: numLeafs += 1
    return numLeafs
#计算树的深度
def getTreeDepth(myTree):
    maxDepth = 0
    firstStr = myTree.keys()[0]
    secondDict = myTree[firstStr]
    for key in secondDict.keys():
        if type(secondDict[key])==dict:
            thisDepth = 1 + getTreeDepth(secondDict[key])
        else: thisDepth = 1;
        if thisDepth > maxDepth:maxDepth = thisDepth
    return maxDepth
#生成一棵决策树
def retrieveTree(i):
    listOfTrees = [{'no surfacing': {0:'no',1:{'flippers':                   {0: 'no', 1: 'yes'}}}},
                   {'no surfacing': {0:'no',1:{'flippers':                   {0:{'head':{0: 'no', 1: 'yes'}}, 1: 'no'}}}}
                   ]
    return listOfTrees[i]

def plotMidText(centrPt,parentPt,txtString):
    xMid = (parentPt[0]-centrPt[0])/2.0+centrPt[0]
    yMid = (parentPt[1]-centrPt[1])/2.0+centrPt[1]
    createPlot.ax1.text(xMid,yMid,txtString)

def createPlot(inTree):
    fig = plt.figure("xihuan",facecolor = 'white')
    fig.clf()
    axprops = dict(xticks=[],yticks=[])
    createPlot.ax1 = plt.subplot(111,frameon = False,**axprops)
    plotTree.totalW = float(getNumLeafs(inTree))
    plotTree.totalD = float(getTreeDepth(inTree))
    plotTree.xoff = -0.5/plotTree.totalW;plotTree.yoff = 1.0;#为了保证根结点标注于标签位置一致
    plotTree(inTree,(0.5,1.0),'')
    plt.show()

def plotTree(myTree,parentPt,nodeText):
    numleafs = getNumLeafs(myTree)
    depth = getTreeDepth(myTree)
    firstStr = myTree.keys()[0] #第一个分类特征
    centrPt = (plotTree.xoff + (1.0+float(numleafs))/2.0/plotTree.totalW,               plotTree.yoff)
    plotMidText(centrPt,parentPt,nodeText)#显示文本标签信息,根节点为空
    plotNode(firstStr,centrPt,parentPt,decisionNode)#打印标注特征信息
    secondDict = myTree[firstStr]
    plotTree.yoff = plotTree.yoff-1.0/plotTree.totalD#调整下一个子数的Y方向位置
    for key in secondDict.keys():
        if type(secondDict[key])==dict:
            plotTree(secondDict[key],centrPt,str(key))
        else:#画出结点即可
            plotTree.xoff = plotTree.xoff + 1.0/plotTree.totalW
            plotNode(secondDict[key],(plotTree.xoff,plotTree.yoff),centrPt,leafNode)
            plotMidText((plotTree.xoff,plotTree.yoff),centrPt,str(key))
    plotTree.yoff = plotTree.yoff+1.0/plotTree.totalD#由于递归返回上一层,所以这里返回上层的y分量高度

mytree = retrieveTree(1)

#print getTreeDepth(mytree)
createPlot(mytree)

时间: 2024-08-04 11:03:51

机器学习实战—决策树(二)的相关文章

python机器学习实战(二)

python机器学习实战(二) 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7159775.html 前言 这篇notebook是关于机器学习监督学习中的决策树算法,内容包括决策树算法的构造过程,使用matplotlib库绘制树形图以及使用决策树预测隐形眼睛类型. 操作系统:ubuntu14.04(win也ok)   运行环境:anaconda-python2.7-jupyter notebook    参考书籍:机器学习

[机器学习&amp;数据挖掘]机器学习实战决策树plotTree函数完全解析

在看机器学习实战时候,到第三章的对决策树画图的时候,有一段递归函数怎么都看不懂,因为以后想选这个方向为自己的职业导向,抱着精看的态度,对这本树进行地毯式扫描,所以就没跳过,一直卡了一天多,才差不多搞懂,才对那个函数中的plotTree.xOff的取值,以及计算cntrPt的方法搞懂,相信也有人和我一样,希望能够相互交流. 先把代码贴在这里: import matplotlib.pyplot as plt #这里是对绘制是图形属性的一些定义,可以不用管,主要是后面的算法 decisionNode

Spark机器学习实战 (十二) - 推荐系统实战

0 相关源码 将结合前述知识进行综合实战,以达到所学即所用.在推荐系统项目中,讲解了推荐系统基本原理以及实现推荐系统的架构思路,有其他相关研发经验基础的同学可以结合以往的经验,实现自己的推荐系统. 1 推荐系统简介 1.1 什么是推荐系统 1.2 推荐系统的作用 1.2.1 帮助顾客快速定位需求,节省时间 1.2.2 大幅度提高销售量 1.3 推荐系统的技术思想 1.3.1 推荐系统是一种机器学习的工程应用 1.3.2 推荐系统基于知识发现原理 1.4 推荐系统的工业化实现 Apache Spa

机器学习实战——决策树

from math import log #以决策为标准计算信息熵 def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCounts = {} for featVec in dataSet: currentLabel = featVec[-1] if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0 labelCounts[currentL

机器学习实战-决策树(ID3)

//==================================================== 决策树的构造: 构造决策树时,需要解决的第一个问题是,当前数据集上那个特征在划分数据是起决定性作用.为了找到决定性特征,我们必须使用某种度量来评估每个特征.完成评估之后,找到决定性特征,使用该特征划分数据,原始的数据集就被划分为几个数据子集.这个子集会发布在第一个决策点的所有分支.如果某个分支下的数据属于同一类型,则当前已经准确划分数据分类.如果数据子集内的数据不属于同一类型,则需要重复

机器学习实战--决策树

决策树概述 决策树利用分层的概念将一个复杂的决策问题分解为多个简单的判断问题,最后逐级得到最大支持度的决策结果. 决策树 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据 缺点:可能产生过度匹配问题 适用数据类型:数值型和标称型 决策树算法原理 决策树概念比较简单,用一个男女相亲的例子来描述决策树原理如下: 示例:使用决策树实现分类器 1. 决策树的构造 在构造决策树时,我们需要解决的第一个问题就是,当前数据集上哪个特征在划分数据分类时起决定性作用. (1)信

【读书笔记】机器学习实战-决策树(1)

简述算法 上一章的kNN更像是应用统计知识来进行科学的预测,它可以完成许多分类任务.但是最大的缺点就是无法给出数据的内在含义,而决策树算法数据形式非常便于理解.决策树的结果经常会应用到专家系统当中. 构建一棵决策树的流程: 检测数据集中每一个子祥的属性是否属于同一类 if so return 类标签: else 寻找划分数据集的最好特征 划分数据集 创建分支结点 for 每个划分的子集 调用createBranch并增加返回结果到分支结点中 return 分支结点 决策树的一般流程 收集数据 准

机器学习实战(二)个人笔记

程序主体: 以kNN算法为基础 增加了文件数据导入函数 增加了可视化操作 增加了算法错误率判定 1 # -*- coding:utf-8 -*- 2 from numpy import * 3 import operator 4 import math 5 import matplotlib 6 import matplotlib.pyplot as plt 7 import numpy as np 8 import random 9 import collections 10 11 def c

机器学习实战之一---简单讲解决策树

机器学习实战之一---简单讲解决策树 https://blog.csdn.net/class_brick/article/details/78855510 前言:本文基于<机器学习实战>一书,采用python语言,对于机器学习当中的常用算法进行说明. 一. 综述 定义:首先来对决策树进行一个定义,决策树是一棵通过事物的特征来进行判断分支后得到该事物所需要的预测的属性的树. 流程:提取特征à计算信息增益à构建决策树à使用决策树进行预测 关键:树的构造,通过信息增益(熵)得到分支点和分支的方式.