04-03 scikit-learn库之AdaBoost算法

目录

  • scikit-learn库之AdaBoost算法
  • 一、AdaBoostClassifier
    • 1.1 使用场景
    • 1.2 参数
    • 1.3 属性
    • 1.4 方法
  • 二、AdaBoostRegressor

更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:https://www.cnblogs.com/nickchen121/

scikit-learn库之AdaBoost算法

当我们对Adaboost调参时,主要要对两部分内容调参,第一部分是对Adaboost的框架进行调参,第二部分是对弱学习器调参。本文主要介绍AdaBoost的两个模型AdaBoostClassifierAdaBoostRegressor,会详解介绍AdaBoostClassifier模型,然后会对比着讲解AdaBoostRegressor模型。

接下来将会讨论上述两者的区别,由于是从官方文档翻译而来,翻译会略有偏颇,有兴趣的也可以去scikit-learn官方文档查看https://scikit-learn.org/stable/modules/classes.html#module-sklearn.ensemble

一、AdaBoostClassifier

1.1 使用场景

AdaBoostClassifier模型主要解决分类问题,并且它在scikit-learn库中使用了两种分类算法的实现,分别是SAMME和SAMME.R。

1.2 参数

  • base_estimator:弱分类器类型,object类型。理论上可以选择任何一个弱分类器,不过需要支持样本权重,一般用决策树或神经网络。如果algorithm=‘SAMME.R‘,弱分类器应该支持概率预测,即支持predict_proba()方法。如果为默认值,算法会选择一个最大深度为1的决策树。默认为None。
  • n_estimators:最大迭代次数,int类型。弱学习器的最大迭代次数,如果迭代次数太小,容易欠拟合;如果迭代次数太大,容易过拟合。默认为50。
  • learning_rate:权重缩减系数,float类型。这个参数是正则化项的参数\(\lambda\)。较小的\(\lambda\)需要更多的迭代次数,即learning_rate和n_estimators需要一起调参。默认为1。
  • algorithm:算法类型,str类型。该参数主要用来度量学习器的权重。默认为‘SAMME.R‘。
    • ‘SAMME‘:使用样本集分类效果作为弱分类器权重
    • ‘SAMME.R‘:使用样本集分类的预测概率大小作为弱分类器权重
  • random_state:随机数种子,int类型。使用后可以保证随机数不会随着时间的变化而变化。默认为None。

1.3 属性

  • estimators_:list类型。弱学习集合。
  • classes_:array类型。类别列表。
  • n_classes_:int类型。类别数。
  • estimator_weights_:array类型。每个弱学习的权重。
  • estimator_errors_:array类型。每个弱学习额分类误差。
  • feature_importances_:array类型。返回特征重要度。

1.4 方法

  • decision_function(X):计算样本X的决策函数值。
  • fit(X,y):把数据放入模型中训练模型。
  • get_params([deep]):返回模型的参数,可以用于Pipeline中。
  • predict(X):预测样本X的分类类别。
  • predict_log_proba(X):返回样本X在各个类别上对应的对数概率。
  • predict_proba(X):返回样本X在各个类别上对应的概率。
  • score(X,y[,sample_weight]):基于报告决定系数\(R^2\)评估模型。
  • set_prams(**params):创建模型参数。
  • staged_decision_function(X):返回每个阶段样本X的决策函数值。
  • staged_predict(X):返回每个阶段样本X的预测值。
  • staged_predict_proba(X):返回每个阶段样本X在各个类别上对应的概率。
  • staged_score(X,y[,sample_weight]):返回每个阶段样本X的\(R^2\)分数。

二、AdaBoostRegressor

AdaBoostRegressor模型和AdaBoostClassfier模型参数上差不多,只是前者一般用来解决回归问题,后者用来解决分类问题,预测值处理方式不同。并且AdaBoostRegressor模型在scikit-learn库中只是用了Adaboost.R2算法实现。

AdaBoostRegressor模型没有参数‘algorithm‘,而是使用了loss参数,即误差函数{‘linear‘,‘square‘,‘exponential‘}的选择。

原文地址:https://www.cnblogs.com/nickchen121/p/11686781.html

时间: 2024-11-11 03:11:10

04-03 scikit-learn库之AdaBoost算法的相关文章

写一个个人认为比较详细的adaboost算法

最近在看机器学习中adaboost(adaptive boostint)算法部分的内容,在csdn上面查找一番发现,好像没有讲的特别的详尽的,当然可能是我人品不佳,所以没有找到,为了防止同样的事情发生在其他人的身上,所以就写了这篇博文,尽量多的解释算法的推演过程更方便的大家去理解这个算法. 介绍adaboost算法之前,首先介绍一下学习算法的强弱,这个是PAC定义的:弱学习算法---识别错误率小于1/2(即准确率仅比随机猜测略高的学习算法),强学习算法---识别准确率很高并能在多项式时间内完成的

Query意图分析:记一次完整的机器学习过程(scikit learn library学习笔记)

所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质. 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图.假设现在有一个O2O领域的垂直搜索引擎,专门为用户提供团购.优惠券的检索:同时存在一个通用的搜索引擎,比如百度,通用搜索引擎希望能够识别出一个Query是否具有O2O检索意图,如果有则调用O2O垂直搜索引擎,获取结果作为通用搜索引擎的结果补充. 我们的目的是学习出一个分类器(classifier),分类器可以理解为一个函数,

基于单层决策树的AdaBoost算法源码

基于单层决策树的AdaBoost算法源码 Mian.py 1 # -*- coding: utf-8 -*- 2 # coding: UTF-8 3 4 import numpy as np 5 from AdaBoost import AdaBoost 6 from sklearn.model_selection import train_test_split 7 from sklearn.metrics import accuracy_score 8 9 def main(): 10 11

Adaboost算法原理分析和实例+代码(简明易懂)

Adaboost算法原理分析和实例+代码(简明易懂) [尊重原创,转载请注明出处] http://blog.csdn.net/guyuealian/article/details/70995333     本人最初了解AdaBoost算法着实是花了几天时间,才明白他的基本原理.也许是自己能力有限吧,很多资料也是看得懵懵懂懂.网上找了一下关于Adaboost算法原理分析,大都是你复制我,我摘抄你,反正我也搞不清谁是原创.有些资料给出的Adaboost实例,要么是没有代码,要么省略很多步骤,让初学者

杂文 - [1.1]使用库语言排序算法

[1.1]使用库语言排序算法 本文地址: http://blog.csdn.net/caroline_wendy 如果不缺少内存, 可以直接使用库的排序算法. 使用库语言的排序程序: C语言性能最好的算法是快速排序(quick sort). C++性能最好的是集合(set)的排序算法. C语言代码: /* * main.cpp * * Created on: 2014.6.12 * Author: Spike */ /*eclipse cdt, gcc 4.8.1*/ #include <std

集成学习之Adaboost算法原理小结

在集成学习原理小结中,我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,另一类是个体学习器之间不存在强依赖关系.前者的代表算法就是是boosting系列算法.在boosting系列算法中, Adaboost是最著名的算法之一.Adaboost既可以用作分类,也可以用作回归.本文就对Adaboost算法做一个总结. 1. 回顾boosting算法的基本原理 在集成学习原理小结中,我们已经讲到了boosting算法系列的基本思想,如下图: 从图中

记:Ubuntu 14.04 安装32位库支持库失败

现象: [email protected]:~$ sudo apt-get install ia32-libs[sudo] password for rengh: 正在读取软件包列表... 完成正在分析软件包的依赖关系树 正在读取状态信息... 完成 现在没有可用的软件包 ia32-libs,但是它被其它的软件包引用了.这可能意味着这个缺失的软件包可能已被废弃,或者只能在其他发布源中找到可是下列软件包取代了它:lib32z1 lib32ncurses5 lib32bz2-1.0 E: 软件包 i

【机器学习笔记之四】Adaboost 算法

本文结构: 什么是集成学习? 为什么集成的效果就会好于单个学习器? 如何生成个体学习器? 什么是 Boosting? Adaboost 算法? 什么是集成学习 集成学习就是将多个弱的学习器结合起来组成一个强的学习器. 这就涉及到,先产生一组‘个体学习器’,再用一个策略将它们结合起来. 个体学习器可以选择:决策树,神经网络.集成时可以所有个体学习器属于同一类算法:全是决策树,或全是神经网络:也可以来自不同的算法.结合策略:例如分类问题,可以用投票法,少数服从多数. 之所以用这种集成的思想,是因为单

【机器学习详解】AdaBoost算法原理

转载请注明出处:勿在浮沙筑高台http://blog.csdn.net/luoshixian099/article/details/51714346 1.概念 AdaBoost是一种级联算法模型,即把几个弱分类器级联到一起去处理同一个分类问题.也就是"三个臭皮匠顶一个诸葛亮"的道理.例如一个专家作出的判定往往没有几个专家一起作出的判定更准确.一种情况:如果每个专家都仅有一票的权利,采用投票机制的方法属于uniform形式:另一种情况是分配给每个专家的票数不一致则属于linear形式.A