机器学习第5周--炼数成金-----决策树，组合提升算法，bagging和adaboost，随机森林。

决策树decision tree

什么是决策树
输入：学习集
输出：分类觃则（决策树）

决策树算法概述

70年代后期至80年代初期，Quinlan开发了ID3算法（迭代的二分器）
Quinlan改迚了ID3算法，称为C4.5算法
1984年，多位统计学家在著名的《Classification and regression tree》书里提出了CART算法
ID3和CART几乎同期出现，引起了研究决策树算法的旋风，至今已经有多种算法被提出

算法的核心问题

该按什么样的次序来选择变量（属性）？
最佳分离点（连续的情形）在哪儿？

ID3算法

信息增益计算

递归+分而治之

在上图的基础上，再递归使用这个方法计算子节点的分裂属性，最终就可以得到整个决策树。
这个方法称为ID3算法，还有其它的算法也可以产生决策树
对于特征属性为连续值，可以如此使用ID3算法：先将D中元素按照特征属性排序，则每两个相邻元素的中间点可以看做潜在分裂点，

从第一个潜在分裂点开始，分裂D并计算两个集合的期望信息，具有最小期望信息的点称为这个属性的最佳分裂点，其信息期望作为此属性的信息期望。

C4.5算法

信息增益的方法倾向于首先选择因子数较多的变量
信息增益的改迚：增益率

CART算法

使用基尼指数选择变量

剪枝

CART的剪枝

后剪枝：先产生完全的决策树，再迚行裁剪。不之相对的做法是前剪枝
代价复杂度：叶节点个数（裁减对象）和树的错误率的函数
如果剪枝能使代价复杂度下降，则实施之
剪枝集

怎样评估分类器效能？

提升分类器准确率的组合方法

组合方法包括：裃袋（bagging），提升（boosting）和随机森林
基于学习数据集抽样产生若干训练集
使用训练集产生若干分类器
每个分类器分别迚行预测，通过简单选举多数，判定最终所属分

为什么组合方法能提高分类准确率？

组合算法的优势

1.能明显提升判别准确率
2.对误差和噪音更加鲁棒性
3.一定程度抵消过度拟合
4.适合并行化计算

装袋算法

解释：有放回抽样不自助样本

有放回抽样
自助样本（bootstrap），韩家炜书第241页

袋装算法的优势

准确率明显高于组合中任何单个的分类器
对于较大的噪音，表现不至于很差，并且具有鲁棒性
不容易过度拟合

提升（boosting）算法思想

训练集中的元组被分配权重
权重影响抽样，权重越大，越可能被抽取
迭代训练若干个分类器，在前一个分类器中被错误分类的元组，会被提高权重，使到它在后面建立的分类器里被更加“关注”
最后分类也是由所有分类器一起投票，投票权重取决于分类器的准确率

Adaboost算法

提升算法的优缺点

可以获得比bagging更高的准确率
容易过度拟合

随机森林（Random Forest）算法

由很多决策树分类器组合而成（因而称为“森林”）
单个的决策树分类器用随机方法构成。首先，学习集是从原训练集中通过有放回抽样得到的自助样本。

其次，参不构建该决策树的变量也是随机抽出，参不变量数通常大大小于可用变量数。
单个决策树在产生学习集和确定参不变量后，使用CART算法计算，不剪枝
最后分类结果取决于各个决策树分类器简单多数选举

随机森林算法优点

准确率可以和Adaboost媲美
对错误和离群点更加鲁棒性
决策树容易过度拟合的问题会随着森林规模而削弱
在大数据情况下速度快，性能好

时间： 2024-08-08 09:42:00

机器学习第5周--炼数成金-----决策树，组合提升算法，bagging和adaboost，随机森林。的相关文章

机器学习第7周-炼数成金-支持向量机SVM

支持向量机SVM 原创性(非组合)的具有明显直观几何意义的分类算法,具有较高的准确率源于Vapnik和Chervonenkis关于统计学习的早期工作(1971年),第一篇有关论文由Boser.Guyon.Vapnik发表在1992年(参考文档见韩家炜书9.10节)思想直观,但细节异常复杂,内容涉及凸分析算法,核函数,神经网络等高深的领域,几乎可以写成单独的大部头与著.大部分非与业人士会觉得难以理解.某名人评论:SVM是让应用数学家真正得到应用的一种算法思路简单情况,线性可分,把问题转化为一个

机器学习第9周-炼数成金-聚类

聚类和分类判别有什么区别? 聚类应用场景:寻找优质客户二八定律无处丌在20%的用户提供了银行80%的利润来源20%的用户消费了运营商话费总额的80%公司中20%的员工完成了80%的工作社会中20%的人拥有80%的话语权聚类应用场景:推荐系统关键度量指标:距离距离的定义常用距离(薛毅书P469) 绝对值距离欧氏距离闵可夫斯基距离切比雪夫距离马氏距离Lance和Williams距离离散变量的距离计算对变量进行分类的指标:相似系数距离:对样本进行分类相似系数:对变量进行分类常用相似系数:夹角

机器学习第5周--炼数成金-----线性分类器，Knn算法，朴素贝叶斯分类器，文本挖掘

分类:分类的意义传统意义下的分类:生物物种预测:天气预报决策:yes or no分类的传统模型分类(判别分析)与聚类有什么差别?有监督学习,无监督学习,半监督学习常见分类模型与算法线性判别法距离判别法贝叶斯分类器决策树支持向量机(SVM)神经网络文本挖掘典型场景网页自动分类垃圾邮件判断评论自动分析通过用户访问内容判别用户喜好网页自动分类自动化门户系统(百度新闻,谷歌新闻等)搜索引擎根据用户标签类型推送不同类别的搜索结果距离判别法原理:计算待测点与各类的距离,取最短者为其所属分类

机器学习第2周---炼数成金-----线性回归与Logistic

重点归纳回归分析就是利用样本(已知数据),产生拟合方程,从而(对未知数据)迚行预测用途:预测,判别合理性例子:利用身高预测体重:利用广告费用预测商品销售额:等等.线性回归分析:一元线性:多元线性:广义线性非线性回归分析困难:选定变量(多元),避免多重共线性,观察拟合方程,避免过度拟合,检验模型是否合理相关系数一元线性回归模型如何确定参数使用平方误差和衡量预测值不真实值的差距平方误差真实值y,预测值,则平方误差就是寻找合适的参数,使得平方误差和最小. 最小二乘法: RSS其实是关于α不β

机器学习第4周---炼数成金-----降维技术

主成分分析 Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析成分的保留:Kaiser主张(1960)将特征值小于1的成分放弃,只保留特征值大于1的成分如果能用不超过3-5个成分就能解释变异的80%,就算是成功通过对原始变量进行线性组合,得到优化的指标把原先多个指标的计算降维为少量几个经过优化指标的计算(占去绝大部分份额)基

机器学习第3周---炼数成金-----岭回归

多元线性回归的最小二乘解(无偏估计) 岭回归(Ridge Regression,RR) 当自变量间存在复共线性时,|X′X|≍0,我们设想给X′X加上一个正常数矩阵kI,(k>0), 那么X′X+kI接近奇异癿程度就会比X′X接近奇异癿程度小得多.岭回归做为β癿估计应比最小二乘估计稳定,当k=0时癿岭回归估计就是普通癿最小二乘估计.

dataguru（炼数成金）大数据培训基地印象

dataguru访问地址:http://f.dataguru.cn/?fromuid=99611 课程优惠码:C4B6 这段时间一直在dataguru(炼数成金)上学习<hadoop数据分析平台(第十四期)>,说说我对炼数成金的印象. 最开始听说dataguru是通过它的广告邮件中的链接,发送的对象是itpub会员,如果你也是itpub会员,应该也会收到这么一封邮件. 后来才知道dataguru的前身是是ITPUB培训,ITPUB的创始人正是dataguru的主讲师-黄志洪(同时也是分布式系

炼数成金（dataguru）IT技能修炼

2016我定的目标就是要走出舒适区,进入学习区!为了少走弯路,节约学习的成本和时间,我选择了dataguru.看到心仪的课程毫不犹豫的就报了名. 分享了炼数成金邀请码,使用邀请码报名课程可以减免50%固定学费哦!http://www.dataguru.cn/invite.php?invitecode=AA62 课程优惠码:AA62 推荐理由有三: 1. 最近我在Dataguru学了<***>网络课程,挺不错的,你可以来看看!要是想报名,可以用我的优惠码 AA62 ,立减你50%的固定学费! 2

炼数成金hadoop视频干货03

视频地址:http://pan.baidu.com/s/1dDEgKwD 着重介绍了HDFS 运行了示例程序wordcount,自己也试了一遍(用的伪分布式) 1.建立数据(和讲师的操作有些不一样,不过我相信自己) 2.运行wordcount程序 3.查看结果 (可以看出来,只要没空格,它都看作是一个单词) 接下来介绍了50030和50070查看任务和HDFS状态 ...... 其中如果想看日志的话除了命令行也可以直接输入 http://localhost:50070/logs/ http://

猜你喜欢

SET IDENTITY_INSERT

格式: set IDENTITY_INSERT 表名 on set IDENTITY_INSERT 表名 off set IDENTITY_INSERT uc_user on insert uc_u ...

HDU 1023 Traning Problem （2）大数卡特兰数

用java做就很好做了套公式就可以了 import java.io.*; import java.util.*; import java.math.BigInteger; public class ...

首次运行,会出现功能向导, 上图第1个单选按钮表示你可以指定 IntelliJ IDEA 导入你计算机上存在的 IntelliJ IDEA 配置文件目录,如果你有的话. 上图第2个单选按钮表示你没有任 ...

CodeForces 710A King Moves (水题)

题意:给定一个坐标,问你皇后有几个方向可以走. 析:直接格举那八个方向即可. 代码如下: #pragma comment(linker, "/STACK:1024000000,1024000 ...

IOS 下拉菜单复用

由于之前曾经用到过下拉菜单,所以现在花一些时间回过头来细细整理了一下,逐步完善这个下拉菜单,并提供一些比较基本的功能,以便日后如果有需要的话可以进行复用,并提供给需要的人参考.下拉菜单同样分为数据源和 ...

win10下vs2015编译的程序如何运行在win7等系统（无需安装Redistributable）

最近新写的程序要做beta测试,在做绿色版(免安装版)时遇到了问题,vs2015做的项目本以为像之前的vs版本一样把msvcrXXX.dll还有另外几个运行时库都放到exe旁边即可,然并卵...,在w ...

H - Funny Car Racing

There is a funny car racing in a city with n junctions and m directed roads. The funny part is: each ...

io流之写文件

用Java程序写文件有多种方式,对于不同类型的数据,有不同的写方法.写文件的关键技术点如下: 1.FileOutputStream打开文件输出流,通过write方法以字节为单位写文件,是写文件最通用的 ...

C语言之基本算法38—格式化输出10000以内的所有完数

//穷举法! /* ================================================================== 题目:求10000以内的所有完数,统计数量并以 ...

java 代理模式二：动态代理

java动态代理: java动态代理类位于java.lang.reflect包下,一般主要涉及两个类: 1.Interface InvocationHandler 该接口中仅定义了一个方法:Objec ...

在Android Wear开发中使用蓝牙调试同时操作手机与手表设备

在开发Android Wear应用过程中需要对手表和手机进行同时操作,可以通过蓝牙同时对手机和手表进行操作. 1 打开手表和手机的调试设置打开手机的usb调试打开手表设置的开发者选项,选中Debu ...

（排序回顾）归并排序

#include <iostream> using namespace std; int a[10]; int temp[10]; void mergeArray(int left,int ...

控件重绘

1. 设置控件DrawMode属性为OwnerDrawFixed,编辑控件DrawItem事件重绘tabControl--选项卡控件 string text = ((TabControl)sende ...

创建br0桥接脚本

配置kvm时总是先要配置br0桥接,通过脚本来创建往往比修改配置文件要灵活的多,只需要一条命令即可实现所要实现的功能:脚本命令如下: #!/bin/bash # case $1 in start) ...

内存管理：栈区，堆区，全局区，文字常量区，程序代码区

一.预备知识-程序的内存分配一个由C/C++编译的程序占用的内存分为以下几个部分 1.栈区(stack)- 由编译器自动分配释放 ,存放函数的参数值,局部变量的值等.其操作方式类似于数据结构中的栈 ...

深入研究Application和Session对象

用ASP编写虚拟社区.网上购物等程序时,Application和Session对象具有举足轻重的作用,能够灵活合理地运用这两个对象是提高程序质量的关键.下面让笔者根据自己在这方面的经验,向大家深入介绍 ...

Linux用过的命令

-上传sudo -u b2b rz--创建文件夹sudo -u b2b mkdir--copysudo -u b2b cp /b2b/apache-tomcat-7.0.64/matt/DqN017S ...

android 判断应用程序是系统程序还是用户程序

直接上代码: AppInfo.java <span style="font-size:18px;">package com.example.packages; publ ...

解决表被锁了

select object_name, machine, s.sid, s.serial# from v$locked_object ll, dba_objects o, v$session s wh ...

python3爬虫初探（四）之文件保存

接着上面的写,抓取到网址之后,我们要把图片保存到本地,这里有几种方法都是可以的. #-----urllib.request.urlretrieve----- import urllib.request ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.061 s.