Python机器学习：7.1 集成学习

集成学习背后的思想是将不同的分类器进行组合得到一个元分类器，这个元分类器相对于单个分类器拥有更好的泛化性能。比如，假设我们从10位专家那里分别得到了对于某个事件的预测结果，集成学习能够对这10个预测结果进行组合，得到一个更准确的预测结果。

后面我们会学到，有不同的方法来创建集成模型，这一节我们先解决一个基本的问题：为什么要用集成学习？她为什么就比单个模型效果要好呢？

本书是为初学者打造的，所以集成学习这里我们也只关注最基本的集成方法：投票法(majority voting)。投票法意味着我们在得到最后的预测类别时，看看哪个类别是大多数单分类器都预测的，这里的大多数一般是大于50%。更严格来说，投票法只适用于二分类，当然他很容易就扩展到多分类情况: 多数表决(plurality voting).

下图展示了一个投票法的例子，一共10个基本分类器：

我们先用训练集训练m个不同的分类器, 这里的分类器可以是决策树、SVM或者LR等。我们当然也可以用同一种分类器，只不过在训练每一个模型时用不同的参数或者不同的训练集(比如自主采样法)。随机森林就是一个采用这种策略的例子，它由不同的决策树模型构成。这图展示了用投票策略的集成方法步骤：

投票策略非常简单，我们收集每个单分类器的预测类别,将票数最多的作为预测结果：

以二分类为例，类别class1=-1, class2=+1, 投票预测的过程如下, 把每个单分类器的预测结果相加，如果值大于0，预测结果为正类，否则为负类：

读到这里，我想大家都有一个疑问：凭啥集成学习就比单分类器效果好？道理很简单(一点点组合数学知识)，假设对于一个二分类问题，有n个单分类器，每个单分类器有相等的错误率，并且单分类器之间相互独立，错误率也不相关。有了这些假设，我们可以计算集成模型的错误概率：

如果n=11，错误率为0.25，要想集成结果预测错误，至少要有6个单分类器预测结果不正确，错误概率是：

集成结果错误率才0.034哦，比0.25小太多。继承结果比单分类器好，也是有前提的，就是你这个单分类器的能力不能太差，至少要比随机猜测的结果好一点，至少。

从下图可以看出，只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的。

Python机器学习中文版目录（http://www.aibbt.com/a/20787.html）

转载请注明出处，Python机器学习(http://www.aibbt.com/a/pythonmachinelearning/)

原文地址：https://www.cnblogs.com/aibbt/p/8548477.html

时间： 2024-10-31 03:04:30

Python机器学习：7.1 集成学习的相关文章

吴裕雄 python 机器学习——人工神经网络感知机学习算法的应用

import numpy as np from matplotlib import pyplot as plt from sklearn import neighbors, datasets from matplotlib.colors import ListedColormap from sklearn.neural_network import MLPClassifier ## 加载数据集 np.random.seed(0) # 使用 scikit-learn 自带的 iris 数据集 ir

选择性集成学习

在机器学习领域,集成学习由于可以提高学习系统的泛化能力,因此被广泛关注使用.对于集成学习可以分为两个阶段: 1)对训练数据集构造出多个基分类器. 这些基分类器的构造通常采用数据子集或者特征子集的方法进行构造,加上随机子集的方法,保证构造出的多个基分类器相互之间具有差异性 2)对这些基分类器的预测结果采用某种方式进行组合预测. 组合方式可以是平均投票,加权投票等等. 那么选择性集成学习,其实就是在集成学习的基础上增加了一个阶段,即分类器的选择阶段.也可以认为是通过剔除那些对

吴裕雄 python 机器学习——集成学习随机森林RandomForestClassifier分类模型

import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklearn.model_selection import train_test_split def load_data_classification(): ''' 加载用于分类问题的数据集 ''' # 使用 scikit-learn 自带的 digits 数据集 digits=datasets.load_d

吴裕雄 python 机器学习——集成学习梯度提升决策树GradientBoostingRegressor回归模型

import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklearn.model_selection import train_test_split def load_data_regression(): ''' 加载用于回归问题的数据集 ''' #使用 scikit-learn 自带的一个糖尿病病人的数据集 diabetes = datasets.load_di

吴裕雄 python 机器学习——集成学习随机森林RandomForestRegressor回归模型

import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklearn.model_selection import train_test_split def load_data_regression(): ''' 加载用于回归问题的数据集 ''' #使用 scikit-learn 自带的一个糖尿病病人的数据集 diabetes = datasets.load_di

吴裕雄 python 机器学习——集成学习AdaBoost算法分类模型

import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklearn.model_selection import train_test_split def load_data_classification(): ''' 加载用于分类问题的数据集 ''' # 使用 scikit-learn 自带的 digits 数据集 digits=datasets.load_d

吴裕雄 python 机器学习——集成学习AdaBoost算法回归模型

import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklearn.model_selection import train_test_split def load_data_classification(): ''' 加载用于分类问题的数据集 ''' # 使用 scikit-learn 自带的 digits 数据集 digits=datasets.load_d

学习《Python机器学习—预测分析核心算法》高清中文版PDF+高清英文版PDF+源代码

在学习和研究机器学习的时候,面临令人眼花缭乱的算法,机器学习新手往往会不知所措.从算法和Python 语言实现的角度,认识机器学习.专注于两类核心的"算法族",即惩罚线性回归和集成方法,并通过代码实例来展示所讨论的算法的使用原则.详细讨论预测模型的两类核心算法.预测模型的构建.惩罚线性回归和集成方法的具体应用和实现. 参考: <Python机器学习-预测分析核心算法>高清中文版PDF+高清英文版PDF+源代码高清中文版,338页,带目录和书签,文字能够复制粘贴. 高清英文

机器学习算法--集成学习

1. 个体和集成集成学习通过构建并结合多个"个体学习器"来完成学习任务.个体学习器通常由一个现有的学习算法从训练数据产生,若集成中只包含同种类型的个体学习器,称为同质集成:若包含不同类型的个体学习器,为异质集成.同质集成中的个体学习器也成为"基学习器". 如何产生并结合"好而不同"的个体学习器,恰是集成学习研究的核心. 根据个体学习器的生成方式,目前的集成学习方法大致分为两大类: (1)个体学习器间存在强依赖关系,必须串行生成的序列化方法,代表

猜你喜欢

登录RMAN 报ORA-12162：TNS:net service name is incorrectly specified错误

[[email protected] admin]$ date Tue Apr 22 18:06:16 CST 2014 [[email protected] admin]$ rman target ...

March 13 2017 Week 11 Monday

A warm smile is the universal language of kindness. 温暖的笑容是善意的通用语. Face comes from the heart. Just sm ...

超级有用的三个原则

1. 闭环原则如果你能够在完成自己工作任务的过程中,及时的把自己的工作成果反馈给你的Leader,总能够带来各种惊喜.你的反馈或许提升了团队效率,也可能改变了产品决策,同时你会因为持续的反馈获得更为 ...

DataTable转为List对象

1 public static List<T> Convert2Object<T>(DataTable dt) where T : new() 2 { 3 List<T& ...

django 配置中STATICFILES_DIRS 和STATIC_ROOT不能同时出现

系统环境: win7 django版本查看: 启动django项目的时候,一直找不到静态资源,很奇怪放在linux服务器上的时候好好的,拿下来随便修改了配置就说url找不到了. 用wingIDE没有任 ...

KVM 存储虚拟化

KVM 的存储虚拟化是通过存储池(Storage Pool)和卷(Volume)来管理的. Storage Pool 是宿主机上可以看到的一片存储空间,可以是多种类型,后面会详细讨论.Volume 是 ...

在ubuntu下配置Ecshop环境并使用Jmeter进行压力测试

一.搭建Lamp环境安装集成mysql.php和Apache的Xampp软件,具体过程如下: 在ubuntu自带的火狐浏览器打开网址: http://sourceforge.net/projects ...

android_ListView

Day1 今天看了listView,并对简单的列表选择进行了实现. 首先明确一下适配器的概念,就我个人理解而言,就是连接layout.xml和Activity.java的桥梁.在xml中定义一个lis ...

进制转换规则

整型常量 1.八进制整常数八进制整常数必须以0开头,即以0作为八进制数的前缀.数码取值为0-7.八进制数通常是无符号数. 以下各数是合法的八进制数: 015(十进制为13) 0101(十进制为65) ...

Spring——IoC原理

一.概念 IoC是Inversion of Control的缩写,有的翻译成"控制反转",还有翻译为"控制反向"或者"控制倒置". 二.什么 ...

VS开发工具不会在异常的地方停止的问题.

启用"仅我的代码"

10条Unix次要准则

--摘自<Linux/Unix设计思想> (0)允许用户定制环境. (1)尽量使操作系统内核小而轻巧. (2)使用小写字母,并尽量保持简短. (3)保护树木. (4)沉默是金. (5)并行 ...

grep命令笔记和练习题

grep,egrep,fgrep grep: 根据模式搜索文本,并将符合模式的文本行显示出来. pattern: 文本字符和正则表达式的元字符组合而成匹配条件 grep [options] PATTE ...

ubuntu /etc/profile和/etc/environment的比较（转载）

转自:http://blog.csdn.net/teamlet/article/details/8257853 先将export LANG=zh_CN加入/etc/profile ,退出系统重新登录, ...

Java多线程-Java同步块

以下内容转自http://ifeve.com/synchronized-blocks/: Java 同步块(synchronized block)用来标记方法或者代码块是同步的.Java同步块用来避免 ...

struts2+uploadify上传文件

common.uploadPhoto=function(){ $("#uploadFile").uploadify({ swf: '/ecp/res/web/plugins/upl ...

Linq 左外连接

swip consumer 1 var result = from x in swip 2 join y in consumer on x. ...

Ajax传递路径问题及解决

在使用Ajax的过程中,如果要通过JSON传递路径值到处理页面,可能会出现传值不正确. 解决方法就是在传值之前将路径进行编码: JS中: encodeURIComponent(url); 在php处理 ...

Thinkphp 连接查询的使用

方法一:使用table()方法 $tables = 'b_order ordert, b_busbid busbid'; $map['busbid.buscompanyid'] = 1; $map[' ...

手机APP测试之ADB常见问题解决方法

QQ群522720170,无商业广告,每日干货电子书+视频分享荔枝FM手机客户端搜索"挨踢脱口秀"即可订阅我们视频汇总首页:http://edu.51cto.com/lectu ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.