(数据科学学习手札23)决策树分类原理详解&Python与R实现

  决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。

一、初识决策树

  决策树是一种树形结构,一般的,一棵决策树包含一个根结点,若干个内部结点和若干个叶结点:

叶结点:树的一个方向的最末端,表示结果的输出;

根结点:初始样本全体;

内部结点:每个内部结点对应一个属性测试(即一次决策)

从根结点——每个叶结点,形成各条判定序列;我们的进行决策树分类器训练的学习目的是产生一棵泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循“分而治之”的策略:

算法过程:

  Step1:输入样本集D{(x1,y1),(x2,y2),...,(xn,yn)},属性集A{a1,a2,...,ad},全体样本集储存在根结点中;

  Step2:从属性集A中经过一定的规则(具体规则由算法决定)挑选出一个最佳属性a1,所有样本从根结点流向该决策结点,根据样本在a1这个属性上的取值,流向对应的方向(如下图):

在样本集通过某个属性判断,确定不同的流向后,会有以下几种情况:

    1.流向某个方向的所有样本只存在一个类别y0,这时把这个方向标记为叶结点,即最终从这个方向流出的样本都可直接判定为类别y0

    2.通过当前属性判断后,某个方向没有样本流出,这通常是样本量不够多导致的样本多样性不足,这时可以将这方向标记为叶结点,将训练集中各类别的比例作为先验概率,将所有从这个方向流出的新样本都标记为先验概率最大的那个类别;

    3.在某个属性判断上,所有训练样本都取同一个值,和情况2相似,也是在其他可能方向上无训练样本流出,在对新样本处理时方法同2;

  Step3:通过Step2的过程将所有属性利用完之后,形成了一棵完整的树,其每个判断路径上都经过了所有属性,这时对所有的叶结点规定输出类别为训练过程中到达该叶结点中的样本中比例最大(即利用了先验分布)的那一类,至此,一棵决策树训练完成。

二、训练过程属性的选择

现在我们知道了决策树的训练过程,但对于哪一个属性放在第一位,哪个放在第二位以此类推,还依然不知晓,这就是决策树中非常重要也非常巧妙的一点——划分选择;

划分选择:决策树学习的关键是如何选择最优划分属性,我们希望随着划分过程不断进行,决策树的分支结点所包含的样本尽可能属于同一类别,即结点的纯度(purity)越来越高,下面我们介绍几种不同的衡量样本纯度的规则,他们也分别产生了不同的决策树算法:

1.信息增益

在定义信息增益之前,我们先介绍以下概念:

信息熵(information entropy):

度量样本集合纯度最常用的一种指标,假定当前样本集合D中第k类样本所占的比例为pk(k=1,2,...,|y|),则D的信息熵定义为:

Ent(D)越小,D的纯度越高,其中|y|表示属性的可能取值数,假定对离散属性a有V个可能的取值{a1,a2,...,aV},使用a来对样本集D进行划分,产生V个分支结点,其中第v个分枝结点流入D中所有在属性a取值为aV的样本,记作DV,则属性aD进行划分所获得的信息增益为:

其中|DV|D中在a属性取aV的样本数量,则|DV| / |D|可看作在aV方向上的权重;

*原则:信息增益越大,意味着使用a属性进行划分所划得的“纯度提升”最大,即当前最优划分为:

2.增益率

有些时候,若样本集中含有“编号”这种使得分支结点纯度远大于其他有效属性的非有效属性(因为编号会将每一个样本独立分开),导致各个编号的分支能变成叶结点(对应特殊情况中的1),这样的决策树显然不具有泛化能力,无法对新样本进行预测,即,这种情况下信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,下面引入:

C4.5算法:

不直接使用信息增益,而是使用“增益率”来选择当前最优划分属性;

增益率定义为:

其中,

叫做属性a固有值,属性a的可能取值数目越大(即V越大),则IV(a)的值通常会越大;与信息增益相比,增益率对属性取值数目较少的属性有偏好,因此C4.5算法并不直接以所有属性的增益率作为比较依据,而是有一个启发式的过程:先选择候选划分属性中信息增益高于平均水平的属性,再从中选择增益率最高的。

3.基尼系数

CART决策树(Classfication and Regression Tree)使用基尼指数来选择划分属性,则数据D的纯度可用基尼值来度量:

Gini(D)反映了从数据集D中抽取两个样本,其类别标记不一致的概率,即Gini(D)越小,数据集D的纯度越高,则对一个属性a,其基尼指数为:

所以在候选属性集合A中,选择当前剩余属性中使得划分后基尼指数最小的作为当前最优划分属性,即:

三、剪枝处理

  在决策树学习中,为了尽可能正确分类训练样本,结点划分过程不断重复,有时会造成决策树分支过多,这时就可能因训练集过度学习,以致于把训练集本身的一些特点当作所有数据都具有的一般性质,从而导致过拟合。

  通过主动去掉一些分支来降低过拟合的风险的过程就叫做剪枝。

决策树剪枝的基本策略:

  1.预剪枝(prepruning)

在决策树生成过程中,对每个结点在划分前先进行性能估计,若当前结点的划分不能带来决策树泛化性能的提升,则停止划分并将当前结点标记为叶结点;

  2.后剪枝(post-pruning)

先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换成叶结点能带来决策树泛化能力提升,则将该子树替换成叶结点。

预剪枝:

  步骤:

  Step1:为衡量泛化能力,利用留出法,划分样本集为训练集和验证集;

  Step2:根据信息增益准则,选出a*作为根结点下第一个非叶结点,分别训练通过这一属性进行分类的模型,和将该结点作为叶结点的模型,比较这两个模型在验证集上的正确率,选择更优的方案;

  Step3:重复Step2对所有属性进行考察,直到最终决策树完成;

*仅有一层划分的决策树称为“决策树桩”(decision stump)

  原则:剪去(淘汰)正确率小于或等于当前正确率(即当前最高正确率)的分支操作;

  优点:预剪枝使得决策树的很多分支没有展开,降低了模型过拟合的风险,还显著减少了决策树的训练时间开销和测试时间开销;

  缺点:有些分支的当前划分虽不能提升泛化能力,甚至可能导致泛化能力暂时下降,但在其基础上进行的后续划分却有可能导致性能显著提升;

     预剪枝基于“贪心”本质禁止这些分支展开,只关心当前性能表现,给预剪枝决策树模型带来了欠拟合的风险。

后剪枝:

  步骤:

  Step1:对于不经任何剪枝处理,仅依据某个信息纯度评价方法最终形成的一棵完整的使用了所有属性的决策树,从其最靠后的非叶结点开始,分别训练不剪去该结点和剪去该结点时的模型,比较泛化能力;

  Step2:若泛化能力得到了提高,则采取相应的模型变更/维持原状操作;

  Step3:重复上述过程直到所有非叶结点完成剪枝效果评估。

  原则:若剪枝后正确率得到提高,则采取剪枝操作,否则不变;

  优点:欠拟合风险很小,泛化能力往往优于预剪枝决策树;

  缺点:后剪枝过程是在生成完全决策树之后进行的,并且需自底向上对树中所有非叶结点进行逐一考察后,因此训练时间开销巨大。

以上就是决策树算法的一些基本常识,下面我们分别在Python和R中实现决策树算法:

四、Python

  我们利用sklearn模块中的tree下属的DecisionTreeClassifier()进行决策树分类,关于其细节在sklearn的官网中有详细介绍:http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier,下面我们对其主要参数进行介绍:

criterion : 字符型,用来确定划分选择依据的算法,有对应CART树算法的“gini”和对应ID3算法的“entropy”,默认为“gini”

splitter : 字符型,用来确定选择每个属性判断结点的方式,依据的是criterion中确定的指标数值,有对应最佳结点的“best”和对应随机选择的“random”,默认是“best”

max_depth :整型,用来确定决策树的最大深度(即最多的非叶结点数目规模),默认为None,即不限制深度

min_samples_split :有两种情况,

  1.整型,这时该参数确定用于分割非叶结点的最小样本数,即如果小于该预设值,则该结点因为信息不足可以直接根据先验分布生成为叶结点输出结果,默认值2;

  2.浮点型,这时该参数功能不变,只是确定的min_samples_split变为min_samples_split*n_samples,这里代表百分比。

min_samples_leaf :有两种情况,

  1.整型,这时该参数确定用于生成叶结点的最小样本数,即小于该数值时不可生成叶结点,默认值为1;

  2.浮点型,同min_samples_split

min_weight_fraction_leaf :浮点型,该参数用于确定每个样品的权重,在最终在叶结点产生结果时起作用,主要用于类别不平衡时的再缩放操作,默认每个样品权重相等;

max_features : 该参数用于确定每一次非叶结点属性划分时使用到的属性数目(在信息增益和基尼指数的计算中起作用),默认使用全部属性,有以下几种情况:

  1.整型,这时传入的整数即为每次分割时考虑的最大属性数;

  2.浮点型,这时最大属性数是该浮点参数*属性总数;

  3.字符型,“auto”时,最大属性数为属性总数开根号;“sqrt”时,同“auto”;“log2”时,最大属性数为属性总数取对数;

  4.None,这时最大属性数即为属性总数;

max_leaf_nodes : 该参数用于确定最终的决策树模型的最大叶结点数量,默认为无限制,即None

class_weight :用于处理类别不平衡问题的权重,建议使用“balanced”,即自动根据先验分布赋权,默认为None,即忽略权重,每一类同等看待

以上就是sklearn.tree.DecisionTreeClassifier的主要参数介绍,下面我们以kaggle playground中的泰坦尼克号遇难者数据作为演示数据对生还与否进行二分类:

数据说明:

代码:

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np

‘‘‘读入数据‘‘‘
raw_train_data = pd.read_csv(‘train.csv‘)

train = raw_train_data.dropna()

target_train = train[‘Survived‘].tolist()

#Ticket class
pclass = train[‘Pclass‘].tolist()
sex = train[‘Sex‘].tolist()

Sex = []
for i in range(len(sex)):
    if sex[i] == ‘male‘:
        Sex.append(1)
    else:
        Sex.append(0)
age = train[‘Age‘].tolist()

#在船上兄弟姐妹的数量
SibSp = train[‘SibSp‘].tolist()

#在船上父母或孩子的数量
Parch = train[‘Parch‘].tolist()

Fare = train[‘Fare‘].tolist()

#登船的港口
Embarked = train[‘Embarked‘].tolist()
sabor_C = []
sabor_Q = []

#为登船港口设置哑变量
for i in range(len(Embarked)):
    if Embarked[i] == ‘C‘:
        sabor_C.append(1)
        sabor_Q.append(0)
    elif Embarked[i] == ‘Q‘:
        sabor_Q.append(1)
        sabor_C.append(0)
    else:
        sabor_Q.append(0)
        sabor_C.append(0)

‘‘‘定义自变量与目标‘‘‘
train_ = np.array([Sex,age,sabor_C,sabor_Q]).T
target_ = np.array(target_train)

‘‘‘重复多次随机分割样本集的训练取正确率平均值‘‘‘
S = []
for i in range(1000):
    X_train, X_test, y_train, y_test = train_test_split(train_, target_, test_size=0.3)
    clf = DecisionTreeClassifier(class_weight=‘balanced‘,max_depth=2)
    clf = clf.fit(X_train,y_train)
    S.append(clf.score(X_test,y_test))

‘‘‘打印结果‘‘‘
print(‘平均正确率:‘+str(np.mean(S)))

训练效果:

R

在R中使用决策树相关算法有一个很大的方便之处,就是在对决策树可视化的时候,我们都知道决策树是一种解释性很强的机器学习算法,这是它被广泛使用的一个原因之一,在R中绘制决策树非常方便;在R中,一棵决策树的初步生成与剪枝是使用两个不同的函数进行操作的,我们这里使用rpart包来创建分类树,其中rpart()函数创建决策树,prune()函数用来进行树的剪枝,具体参数如下:

对rpart():

formula:这是R中很多算法的输入格式,用~连接左端的target列名称和右端的自变量列名称;

data:输入数据框的名称;

weights:可选的自定义类别权重,主要在类别不平衡时使用,类似逻辑分类中的再缩放;

na.action:对缺失值进行处理,默认删去target列缺失的样本,但保留自变量存在缺失的样本(决策树中对缺失值较为宽容,有对应的处理方法)

parms:默认为“gini”指数,即CART决策树分割结点的方法;

> rm(list=ls())
> library(rpart.plot)
> library(rpart)
> data(iris)
> data <- iris
> sam <- sample(1:150,120)
> train_data <- data[sam,]
> test_data <- data[-sam,]
> dtree <- rpart(Species~.,data=train_data)
> plotcp(dtree)
> dtree.pruned <- prune(dtree, cp=0.01)
> prp(dtree.pruned)
> dtree.pred <- predict(dtree.pruned,test_data[,1:4],type=‘class‘)
> dtree.perf <- table(test_data[,5],dtree.pred)
> dtree.perf
            dtree.pred
             setosa versicolor virginica
  setosa         10          0         0
  versicolor      0         10         0
  virginica       0          3         7

原文地址:https://www.cnblogs.com/feffery/p/8696737.html

时间: 2024-10-03 14:14:41

(数据科学学习手札23)决策树分类原理详解&Python与R实现的相关文章

(数据科学学习手札32)Python中re模块的详细介绍

一.简介 关于正则表达式,我在前一篇(数据科学学习手札31)中已经做了详细介绍,本篇将对Python中自带模块re的常用功能进行总结: re作为Python中专为正则表达式相关功能做出支持的模块,提供了一系列方法来完成几乎全部类型的文本信息的处理工作,下面一一介绍: 二.re.compile() 在前一篇文章中我们使用过这个方法,它通过编译正则表达式参数,来返回一个目标对象的匹配模式,进而提高了正则表达式的效率,主要参数如下: pattern:输入的欲编译正则表达式,需将正则表达式包裹在''内传

(数据科学学习手札47)基于Python的网络数据采集实战(2)

一.简介 马上大四了,最近在暑期实习,在数据挖掘的主业之外,也帮助同事做了很多网络数据采集的内容,接下来的数篇文章就将一一罗列出来,来续写几个月前开的这个网络数据采集实战的坑. 二.马蜂窝评论数据采集实战 2.1 数据要求 这次我们需要采集的数据是知名旅游网站马蜂窝下重庆区域内所有景点的用户评论数据,如下图所示: 思路是,先获取所有景点的poi ID,即每一个景点主页url地址中的唯一数字: 这一步和(数据科学学习手札33)基于Python的网络数据采集实战(1)中做法类似,即在下述界面: 翻页

(数据科学学习手札55)利用ggthemr来美化ggplot2图像

一.简介 R中的ggplot2是一个非常强大灵活的数据可视化包,熟悉其绘图规则后便可以自由地生成各种可视化图像,但其默认的色彩和样式在很多时候难免有些过于朴素,本文将要介绍的ggthemr包专门针对原生ggplot2图像进行美化,掌握它之后你就可以创作出更具特色和美感的数据可视化作品. 二.基础内容 2.1 安装 不同于常规的R包,ggthemr并没有在CRAN上发布,因此我们需要使用devtools中的install_github()直接从github上安装它,参照github上ggthemr

(数据科学学习手札81)conda+jupyter玩转数据科学环境搭建

本文示例yaml文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 我们在使用Python进行数据分析时,很多时候都在解决环境搭建的问题,不同版本.依赖包等问题经常给数据科学工作流的搭建和运转带来各种各样令人头疼的问题,本文就将基于笔者自己摸索出的经验,以geopandas环境的搭建为例,教你使用conda+jupyter轻松搞定环境的搭建.管理与拓展. 图1 2 虚拟环境的搭建与使用 2.1 使用con

(数据科学学习手札70)面向数据科学的Python多进程简介及应用

本文对应脚本已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 一.简介 进程是计算机系统中资源分配的最小单位,也是操作系统可以控制的最小单位,在数据科学中很多涉及大量计算.CPU密集型的任务都可以通过多进程并行运算的方式大幅度提升运算效率从而节省时间开销,而在Python中实现多进程有多种方式,本文就将针对其中较为易用的几种方式进行介绍. 二.利用multiprocessing实现多进程 multiprocessin

(数据科学学习手札39)RNN与LSTM基础内容详解

一.简介 循环神经网络(recurrent neural network,RNN),是一类专门用于处理序列数据(时间序列.文本语句.语音等)的神经网络,尤其是可以处理可变长度的序列:在与传统的时间序列分析进行比较的过程之中,RNN因为其梯度弥散等问题对长序列表现得不是很好,而据此提出的一系列变种则展现出很明显的优势,最具有代表性的就是LSTM(long short-term  memory),而本文就从标准的循环神经网络结构和原理出发,再到LSTM的网络结构和原理,对其有一个基本的认识和阐述:

(数据科学学习手札19)R中基本统计分析技巧总结

在获取数据,并且完成数据的清洗之后,首要的事就是对整个数据集进行探索性的研究,这个过程中会利用到各种描述性统计量和推断性统计量来初探变量间和变量内部的基本关系,本篇笔者便基于R,对一些常用的数据探索方法进行总结: 1.描述性统计量部分 1.1 计算描述性统计量的常规方法 summary() summary()函数提供了最小值.最大值.四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计: > #挂载鸢尾花数据 > data(iris) > #计算鸢尾花各变量的基本描述统计量 &

(数据科学学习手札62)详解seaborn中的kdeplot、rugplot、distplot与jointplot

一.简介 seaborn是Python中基于matplotlib的具有更多可视化功能和更优美绘图风格的绘图模块,当我们想要探索单个或一对数据分布上的特征时,可以使用到seaborn中内置的若干函数对数据的分布进行多种多样的可视化,本文以jupyter notebook为编辑工具,针对seaborn中的kdeplot.rugplot.distplot和jointplot,对其参数设置和具体用法进行详细介绍. 二.kdeplot seaborn中的kdeplot可用于对单变量和双变量进行核密度估计并

(数据科学学习手札65)利用Python实现Shp格式向GeoJSON的转换

一.简介 Shp格式是GIS中非常重要的数据格式,主要在Arcgis中使用,但在进行很多基于网页的空间数据可视化时,通常只接受GeoJSON格式的数据,众所周知JSON(JavaScript Object Nonation)是利用键值对+嵌套来表示数据的一种格式,以其轻量.易解析的优点,被广泛使用与各种领域,而GeoJSON就是指在一套规定的语法规则下用JSON格式存储矢量数据,本文就将针对GeoJSON的语法规则,以及如何利用Python完成Shp格式到GeoJSON格式的转换进行介绍. 二.