集成学习 概念介绍

集成学习(Esemble learning)

在机器学习领域,如何根据观察数据学习一个精确的估计数据是一个主要问题。

通常,我们通过训练数据应用某个算法得出一个训练模型,然后使用评估数据来评估这个模型的预测正确率,最后如果我们可以接受这个正确率就使用该模型进行预测数据。通常我们将训练数据进行交叉验证,比如说10则交叉验证,我们将训练数据平均分为10份,循环用其中的9份数据来训练模型,用另一份数据验证准确率,最后将结果准确率平均就是最后的分类准确率。当然还有其他方法。

但是寻找一个可以有很高准确率的算法是很难的。

弱学习:就是学习算法在辨别一组概念仅比猜测好一点。

强学习:可以再一个多项式级的时间内辨别一组概念,而且准确率很高。

目前,已经证明,强学习和弱学习是相互等价的,意思就是说在我们学习某一组概念的时候可以只使用一个比一个随机猜测好一点的弱学习算法,然后使用某种方法将它提升为强学习。

即使用多个弱学习器集成为一个强学习。集成学习的理论基础就是这个。

集成学习可以显著的提高学习系统的泛化能力。

步骤:

1)通过不同方法训练出多个学习器(比如使用同质的分类器不同的训练数据和参数设置,使用不一样的分类器。。。。)

2)集成多个分类器的结果。

在集成学习系统中,分量学习器的输出形式对采用何种集成方法有很大的影响,根据输出形式我们可以这么分:

(1)基于抽象级信息的集成

所谓抽象指的是分量分类器直接输出单纯的识别结果,没有其他附加信息,是最普遍的一种方法,比如常用的投票,加权投票等。

(2)基于排序级(目前我还不知是啥意思)

(3)基于度量级信息的集成

指的是分量分类器输出为度量值,如概率,信度等。比如Max、Min、Sum。Product、Median等等(weka里面有)

问题:但其实我们可以看出这些集成方法其实有个问题,就是他们并没有考虑到分量分类器在不同的数据有不同的可信度,而是仅仅使用某个分类器的权重用于结果的集成,这边集成的权重视一样的。

可不可以这样:比如我们有好多个分类器,我们可以动态改变分类器的集成权重,通过分类器对数据的可信度来动态改变权重。

选择性集成:

对于集成学习,有个问题就是,由于随着分量分类器的不断增加,导致需要更大的内存,运行速度下降。于是提出一种方法就是选择性集成。

选择性集成:通过选择部分个体学习器来构建集成要优于使用所有的个体学习器构建的集成,也就意味着利用中小规模的选择性集成就可以获得很好的性能。

“Many could be better than all”

集成学习 概念介绍

时间: 2024-10-23 19:28:22

集成学习 概念介绍的相关文章

数据挖掘-集成学习

1.集成学习概念: ?    个体学习器通常是用一个现有的学习算法从训练数据产生,例如C4.5决策树算法.BP神经网络算法等.此时集成中只包含同种类型的个体学习器,例如"决策树集成"中的个体学习器全是决策树,"神经网络集成"中就全是神经网络,这样的集成是"同质"(homogeneous)的,同质集成中的个体学习器也称为"基学习器"(baselearner),相应的学习算法称为"基学习算法"(baselear

3. 集成学习(Ensemble Learning)随机森林(Random Forest)

1. 前言 相信看了之前关于集成学习的介绍,大家对集成学习有了一定的了解.本文在给大家介绍下远近闻名的随机森林(RF)算法. 随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是它可以很方便的并行训练,在如今大数据大样本的的时代很有诱惑力. 2. 随机森林原理 随机森林是Bagging算法的进化版,也就是说,它的基本思想仍然和Bagging,但是进行了独有的改进. RF使用了CART决策树作为弱学习器,这让我们想到了梯度提示树GBDT. 在使用决策树的基础上,RF对决策树的建立做了

大白话5分钟带你走进人工智能-第二十八节集成学习之随机森林概念介绍(1)

                                                      第二十八节集成学习之随机森林概念介绍(1) 从本系列开始,我们讲解一个新的算法系列集成学习.集成学习其实是怎么样去应用决策树解决一些问题. 在机器学习领域集成学习是一种非常简单直接的提升分类器回归器预测效果的一种思路.决策树有一个困境,当层数太深的时候会有过拟合问题,当我不想过拟合,就通过预剪枝给它砍掉一部分深度,此时损失又容易太大了,导致在训练集上预测的又不怎么准.所以对于决策树很难去找

rac学习--集群概念介绍

集群概念介绍(一)) 白宁超 2015年7月16日 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体系的总结,一则进行回顾复习,另则便于查询使用.本图文文档亦源于此.阅读Oracle RAC安装与使用教程前,笔者先对这篇文章整体构思和形成进行梳理.由于阅读者知识储备层次不同,我将从Oracle RAC安装前的准备与规划开始进行整体介绍安装部署Oracle RAC.始于唐博士指导,对数据库集

Shiro权限控制框架入门1:Shiro的认证流程以及基本概念介绍

前言:我在最开始学习Shiro这个框架时,在网上搜索到的一个介绍比较全面的教程是:<跟我学Shiro>系列教程.但是在我看了他写的前几篇文章后,我发现虽然他在这个系列教程中把shiro的一些特性介绍地非常全面详细,但是整个教程的叙述方式还是有很大缺陷的.文章与文章之间并没有很好地串联起来,每篇文章介绍的东西都过于分散了,如果是对shiro完全不了解的新手来看的话完全是一场噩梦.就像一个网友评价的这样: 看了看这个教程,看完之后都想放弃shiro了,完全看不懂,后来百度了很多别的资料才理解了sh

关于集成学习基础的简单描述

关于集成学习基础的简单描述 什么是集成学习? 集成建模是优化模型表现的一条重要途径.通常来说,将集成学习方法运用在你所构建的诸多模型之上是十分值得的,而同道中人们也一次又一次地证明着这一点.他们在诸如Kaggle之类的数据建模竞赛中往往会不约而同地采用集成学习,并且从中受益. 集成学习其实是一个很宽泛的概念,对于它的定义,可谓仁者见仁智者见智.接下来,本文将介绍一些集成建模的基本概念和思想,这些知识应该足以让你起步,从而去构建你自己的集成模型.同时,和往常一样,我们将尽量让它们看起来简单一些.

集成学习之Boosting —— Gradient Boosting原理

集成学习之Boosting -- AdaBoost原理 集成学习之Boosting -- AdaBoost实现 集成学习之Boosting -- Gradient Boosting原理 集成学习之Boosting -- Gradient Boosting实现 上一篇介绍了AdaBoost算法,AdaBoost每一轮基学习器训练过后都会更新样本权重,再训练下一个学习器,最后将所有的基学习器加权组合.AdaBoost使用的是指数损失,这个损失函数的缺点是对于异常点非常敏感,(关于各种损失函数可见之前

Ensemble_learning 集成学习算法 stacking 算法

原文:https://herbertmj.wikispaces.com/stacking%E7%AE%97%E6%B3%95 stacked 产生方法是一种截然不同的组合多个模型的方法,它讲的是组合学习器的概念,但是使用的相对于bagging和boosting较少,它不像bagging和boosting,而是组合不同的模型,具体的过程如下:1.划分训练数据集为两个不相交的集合.2. 在第一个集合上训练多个学习器.3. 在第二个集合上测试这几个学习器4. 把第三步得到的预测结果作为输入,把正确的回

机器学习之集成学习

1. 概念梳理: AdaBoost: 运行过程:训练数据中的每一个样本,并赋一个权重,这些权重值构成向量D,已开始这些权重值一样. 第一次训练完,得到一个弱分类器,计算该分类器的错误率,然后调整每个样本的权重值,对同一个训练数据进行第二次训练得到第二个分类器.(第一次分对的样本权重减小,分错的权重提高.)并且AdaBoost为每个分类器都分配了一个权重值alpha. 这样,样本权重D和alpha不断训练和调整,知道错误率为0或者分类器的数目达到要求为止. bagging:从原始数据集选择S次后得