以下内容仅为自己梳理知识,是许多人博客看后和思考的结晶,无故意抄袭,也记不清都看了哪些大神的博客。。。大家看见切勿怪罪!
决策树:
决策树可分为分类树和回归树.
ID3,C45是经典的分类模型,可二分类,多分类。它是通过挑选对整体区分度较大的属性,朝着混乱程度减小的方向,迭代建立的过程。使得最终也节点中的样本大体上属于同一类。本质上试讲空间分成叶子节点个互不相交的子空间,标明每个空间的属性,达到分类模型的建立。这样,每来一个新的样本,就会被放入唯一的某个子空间,达到预测分类的效果。
ID3 使用信息熵来表示混乱程度;C45使用信息增益率。
熵的计算公式: P(X = xi)= pi
H(X)= - ∑ pi log pi 通常左式log都是以2或者e为底。这是熵的单位是比特(bit)或者纳特(nat),所以熵 只依赖于X的分布,与X的具体值无关,熵越大,随机变量的不确定性越大。
CART可用于分类也可用于回归,分类时使用的混乱程度表示是Gini指数
时间: 2024-10-13 06:50:46