机器学习——树回归

　　线性回归创建模型需要拟合所有的样本点（局部加权线性回归除外）。当数据拥有众多特征并且特征之间关系十分复杂的时候，构建全局模型的想法就显得太难了，也略显笨拙。而且，实际生活中很多问题都是非线性的，不可能使用全局限性模型来拟合任何数据。

　　一种可行的方法是将数据集切分成很多份易建模的数据，然后再利用线性回归技术来建模。如果首次切分之后仍然难以拟合线性模型就继续切分。

　　决策树是一种贪心算法，它要在给定时间内做出最佳选择，但是并不关心能否达到全局最优。

CART（classification and regression trees，分类回归树）

之前使用过的分类树构建算法是ID3，ID3决策树学习算法是以信息增益为准则来选择划分属性。ID3的做法是每次选取当前最佳的特征来分割数据，并按照该特征的所有可能取值来切分。也就是说，如果一个特征有4种取值，那么数据将被切成4份。一旦按某特征切分后，该特征在之后的算法执行过程中将不会再起作用，所以所以有观点认为这种切分方式过于迅速。另外一种方法是二元切分法，即每次把数据集切成两份。如果数据的某特征值等于切分所要求的值，那么这些数据就进入树的左子树，反之则进入树的右子树。

　　ID3算法还存在另一个问题，它不能直接处理连续性数据。只有事先将连续特征转换成离散型，才能在ID3算法中使用。

　　CART算法使用二元切分来处理连续型变量。对CART稍作修改就可以处理回归问题。CART决策树使用“基尼指数”来选择划分属性，基尼值是用来度量数据集的纯度。

时间： 2024-10-23 23:38:02

机器学习——树回归

机器学习——树回归的相关文章

机器学习day14 机器学习实战树回归之CART与模型树

机器学习实战之树回归

学习日志---树回归（回归树，模型树）

机器学习——Logistic回归

Machine Learning in Action -- 树回归

树回归

深入学习高级非线性回归算法 --- 树回归系列算法

机器学习---逻辑回归（二）（Machine Learning Logistic Regression II）

机器学习-正则化+回归与分类辨析