Weka算法Classifier-trees-REPTree源码分析（二）

（接上篇）

一、剪枝过程

上篇分析完了tree节点的构建过程，在REPTree.buildClassifier之后如果设置了剪枝选项，则还有一个剪枝和backfit过程。

    if (!m_NoPruning) {
      m_Tree.insertHoldOutSet(prune);
      m_Tree.reducedErrorPrune();
      m_Tree.backfitHoldOutSet();
    }

其中insertHoldOutSet就是把剪枝用到的数据集传进去，不具体的区跟代码了。

重点卡一下reducedErrorPrune和backfitHoldOutSet过程。

二、Tree.reducedErrorPrune

    protected double reducedErrorPrune() throws Exception {
<span style="white-space:pre">	</span>//这个函数会返回该树及其子树的一个错误情况，如果是枚举类型返回的是分错的instance数量，数值类型返回的是与正确值的偏差的平方和
      // 如果是叶子节点就不做任何操作
      if (m_Attribute == -1) {
	return m_HoldOutError;//简单的说一下这个error怎么计算来的，使用<span style="font-size:18px;">insertHoldOutSet传入数据时会根据原先训练时的分布，来预测出传入数据的class，然后根据这个结果和真正的class值进行比对，就知道是否分的正确了</span>
      }

      //计算一下所有的子树的偏差
      double errorTree = 0;
      for (int i = 0; i < m_Successors.length; i++) {
	errorTree += m_Successors[i].reducedErrorPrune();
      }

      if (errorTree >= m_HoldOutError) {
	m_Attribute = -1;//如果子树偏差大于本身的偏差，那子树就没啥存在的意义了，直接去掉。
	m_Successors = null;
	return m_HoldOutError;
      } else {
	return errorTree;
      }
    }

可以看出，这个剪枝过程和J48相比还是简单不少的。

三、Tree.backfitHoldOutSet

protected void backfitHoldOutSet() throws Exception {

      // Insert instance into hold-out class distribution
      if (m_Info.classAttribute().isNominal()) {

	// Nominal case
	if (m_ClassProbs == null) {
	  m_ClassProbs = new double[m_Info.numClasses()];
	}
	System.arraycopy(m_Distribution, 0, m_ClassProbs, 0, m_Info.numClasses());
        for (int i = 0; i < m_HoldOutDist.length; i++) {
          m_ClassProbs[i] += m_HoldOutDist[i];
        }
        if (Utils.sum(m_ClassProbs) > 0) {
          Utils.normalize(m_ClassProbs);
        } else {
          m_ClassProbs = null;
        }
      } else {

	// Numeric case
        double sumOfWeightsTrainAndHoldout = m_Distribution[1] + m_HoldOutDist[0];
        if (sumOfWeightsTrainAndHoldout <= 0) {
          return;
        }
	if (m_ClassProbs == null) {
	  m_ClassProbs = new double[1];
	} else {
          m_ClassProbs[0] *= m_Distribution[1];
        }
	m_ClassProbs[0] += m_HoldOutDist[1];
	m_ClassProbs[0] /= sumOfWeightsTrainAndHoldout;
      }	

      // The process is recursive
      if (m_Attribute != -1) {
        for (int i = 0; i < m_Successors.length; i++) {
          m_Successors[i].backfitHoldOutSet();
        }
      }
    }

可以看出，就是一个根据新传入的数据集对原数据的分布进行重新计算，并且再对子树进行递归的调用backfit的过程，不再详细对代码进行注释了。

四、REPTree和J48的比较

同样都是分类树，REPTree和J48有很多不同点，下面简单的说一说这些差异。

1、对连续值排序的处理

J48在处理连续值的时候，每一个subset都要进行排序，而REPTree是先在主流程中对所有属性进行排序，并生成index传给Tree节点来进行处理的。

因此J48所耗时间比较长，而REPTree则占用较大内存（数据数量*数据属性列数量，因此也可以看到REPTree的代码中不断的有显式置空去尝试释放内存的操作），这是一个典型的时间和空间的tradeoff。

2、递归退出条件

J48的分裂停止条件有5个，

（1）所有的instances已经属于同一个分类（selectModel里）

（2）instances数量小于2*minNoObj（selectModel里）

（3）一个分裂产生的信息增益石0（selectModel里）

（4）对离散值进行分裂节点的计算时，超过一个的Bag里的instance数量小于minNoObj（spliter里）

（5）对连续值进行分裂计算时，有效instances数量小于2*minNoObj（spliter里）

REPTree的停止条件有4个

（1）训练集数量小于2*minNum

（2）如果枚举类型，且在一个类中

（3）如果数值类型，方差小于一个给定值

（4）达到最大深度

可以看出，主要的不同在于REPTree使用方差来判断连续值是否结束分裂。

3、节点选择方式

J48使用信息增益率，REPTree使用信息增益

4、剪枝与backfit

J48的剪枝较为复杂，分成了collapse()和prune()两个操作，而REPTree的剪枝从逻辑上讲只是J48的collapse操作，并没有子树上提等较为激进的剪枝策略。

J48没有backfit，REPTree有backfit，这是因为J48就自己独立的classifyInstance过程并不依赖样本集的分布，而J48的classifyInstance是调用基类过程，需要自己存储一个分布，进而使用backfit来防止过拟合。

时间： 2024-10-22 13:56:52

Weka算法Classifier-trees-REPTree源码分析（二）

Weka算法Classifier-trees-REPTree源码分析（二）的相关文章

netty 源码分析二

[Android]Volley源码分析(二)Cache

哇！板球源码分析二

baksmali和smali源码分析(二)

【梦幻连连连】源码分析(二)

[Android]Fragment源码分析(二) 状态

JAVA Collection 源码分析(二)之SubList

Tomcat源码分析二：先看看Tomcat的整体架构

folly::AtomicHashmap源码分析(二)

JDK中String类的源码分析(二)