(1)C4.5算法的特点为:
输入变量(自变量):为分类型变量或连续型变量。
输出变量(模板变量):为分类型变量。
连续变量处理:N等分离散化。
树分枝类型:多分枝。
分裂指标:信息增益比率gain ratio(分裂后的目标变量取值变异较小,纯度高)
前剪枝:叶节点数是否小于某一阈值。
后剪枝:使用置信度法和减少-误差法。
(2)CART算法的特点为:
输入变量(自变量):为分类型变量或连续型变量。
输出变量(目标变量):为分类型变量(或连续型:回归分析)
连续变量处理:N等分离散化。
树分枝类型:二分枝。
分裂指标:gini增益(分裂后的目标变量取值变异较小,纯度高)。
前剪枝:maxdepth,minsplit,minbucket,mincp
后剪枝:使用最小代价复杂度剪枝法(MCCP)
(3)条件推理决策树(CHAID,QUEST)算法的特点为:
输入变量(自变量):为分类变量或连续型变量。
输出变量(目标变量):为分类型变量(或连续型:回归分析)。
连续变量处理:N等分离散化。
树分枝类型:二分枝(以party包中的ctree函数为例)。
分裂指标:独立性检验和相关性(分裂后自变量与目标变量的相关性)
时间: 2024-10-30 00:14:17