《第1章:统计学习方法概论》

http://www.cnblogs.com/levone/p/3531054.html#2898984

1.4 模型评估与模型选择 

      泛化能力(generalization ability):学习方法对未知数据的预测能力。

过拟合(over-fitting):学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测的很好,

但对未知数据预测的很差的现像。

经验风险最小化(empirical risk minimization, ERM):即求解损失函数最小化:

当模型是条件概率分布,损失函数是对数损失函数时,ERM等价于极大似然估计(maximum likelihood estimation)。

   结构风险最小化(structural risk minimization, SRM):当样本容量很小时,容易产生过拟合(overfitting)问题,SRM就是为了防止过拟合。SRM等价于正则化(regularization)。SRM就是在ERM的基础上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term):

即需要满足经验风险和模型复杂度同时小。当模型是条件概率分布,损失函数时对数损失函数,模型复杂度由模型的先验概率表示时,SRM就是贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation, MAP)。

为了使测试误差最小,需要选择复杂度适当的模型。有两种常用的模型选择方法:正则化与交叉验证。

1.5 正则化与交叉验证

结构风险 = 经验风险 + 正则化

如上式所示,第一项为经验风险,第二项为正则化项

  正则化:结构风险中的罚项,可以选择参数向量的L1范数,参数向量的L2范数等。

  正则化的作用是选择经验风险和结构风险同时较小的模型。

  正则化符合奥卡姆剃刀定律(Occam‘s Razor, Ockham‘sRazor):能够较好的解释已知数据且较为简单的模型才是好的模型。

  数据集常被切分为三个部分:训练集(training set),验证集(validation set)和测试集(test set),分别用户训练模型,模型的选择以及模型的评估。但在数据不充足的前提下,再切分数据明显是不科学的。

因此引入交叉验证的方法,交叉验证(cross validation)分为:

  简单交叉验证:将数据集简单切分为训练集和测试集两部分

  S折交叉验证:将数据集切分为S个大小相同的子集,选择S-1个子集训练模型,剩下的一个子集测试模型;重复S次后再选取。

  留一交叉验证:用于数据缺乏的情况下。是S折交叉验证的特殊情形S=N。

 1.6 泛化能力

泛化能力(generalization ability):由该方法学习到的模型对未知数据的预测能力。

泛化误差(generalization error):就是所学习到的模型的期望风险。

泛化误差上界(generalization error bound):它是样本容量的函数,当样本容量增加时,泛化上界趋于0;它是假设空间容量(capacity)的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。

第一项是经验误差(训练误差) 
          第二项,N是样本数量,当N趋于无穷时,这项为0,即期望误差等于经验误差 
         d表示假设空间中的函数个数,越大就越难学,泛化误差就越大

 1.7 生成模型与判别模型

生成方法(generative approach)学到的模型称为生成模型(generative model),由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即P(Y|X)=P(X,Y)/P(X),典型的生成模型有朴素贝叶斯模型和隐马尔可夫模型。

优点:

     可以得到联合概率分布 
     收敛速度更快 
     当存在隐变量时,仍可以使用

  判别方法(discriminative approach)学到的模型称为判别模型(discriminative model),由数据直接学习决策函数f(X)或条件概率分布P(Y|X),典型的判别模型包括:k近邻算法,感知机,决策树,逻辑斯谛回归模型,最大熵模型,支持向量机,提升方法和条件随机场等。

优点, 
     学习准确率比较高 
     便于对数据进行抽象,可以简化学习问题

1.8 分类问题

        输出变量是有限个离散值时,就是分类问题 
        学习出的分类模型或分类决策函数称为分类器(classifier)

 1.9 标注(tagging)问题

   分类问题的推广输入是一个观测序列,而输出是一个标记序列 
   典型的应用,词性标注,输入词序列,输出是(词,词性)的标记序列

 1.10 回归问题

回归(regression):输入输出都是连续变量,用于预测输入变量和输出变量之间的关系,即选择输入变量到输出变量间的映射函数,等价于函数拟合,选择函数曲线拟合已知数据且很好的预测未知数据。

  按照输入变量的个数,分为一元回归和二元回归;按照模型类型,分为线性回归和非线性回归。

第一章主要介绍了一些基本概念,了解这些概念还是很有必要的。

时间: 2024-10-28 12:38:37

《第1章:统计学习方法概论》的相关文章

CI框架源码阅读笔记3 全局函数Common.php

从本篇开始,将深入CI框架的内部,一步步去探索这个框架的实现.结构和设计. Common.php文件定义了一系列的全局函数(一般来说,全局函数具有最高的加载优先权,因此大多数的框架中BootStrap引导文件都会最先引入全局函数,以便于之后的处理工作). 打开Common.php中,第一行代码就非常诡异: if ( ! defined('BASEPATH')) exit('No direct script access allowed'); 上一篇(CI框架源码阅读笔记2 一切的入口 index

IOS测试框架之:athrun的InstrumentDriver源码阅读笔记

athrun的InstrumentDriver源码阅读笔记 作者:唯一 athrun是淘宝的开源测试项目,InstrumentDriver是ios端的实现,之前在公司项目中用过这个框架,没有深入了解,现在回来记录下. 官方介绍:http://code.taobao.org/p/athrun/wiki/instrumentDriver/ 优点:这个框架是对UIAutomation的java实现,在代码提示.用例维护方面比UIAutomation强多了,借junit4的光,我们可以通过junit4的

Yii源码阅读笔记 - 日志组件

?使用 Yii框架为开发者提供两个静态方法进行日志记录: Yii::log($message, $level, $category);Yii::trace($message, $category); 两者的区别在于后者依赖于应用开启调试模式,即定义常量YII_DEBUG: defined('YII_DEBUG') or define('YII_DEBUG', true); Yii::log方法的调用需要指定message的level和category.category是格式为“xxx.yyy.z

源码阅读笔记 - 1 MSVC2015中的std::sort

大约寒假开始的时候我就已经把std::sort的源码阅读完毕并理解其中的做法了,到了寒假结尾,姑且把它写出来 这是我的第一篇源码阅读笔记,以后会发更多的,包括算法和库实现,源码会按照我自己的代码风格格式化,去掉或者展开用于条件编译或者debug检查的宏,依重要程度重新排序函数,但是不会改变命名方式(虽然MSVC的STL命名实在是我不能接受的那种),对于代码块的解释会在代码块前(上面)用注释标明. template<class _RanIt, class _Diff, class _Pr> in

CI框架源码阅读笔记5 基准测试 BenchMark.php

上一篇博客(CI框架源码阅读笔记4 引导文件CodeIgniter.php)中,我们已经看到:CI中核心流程的核心功能都是由不同的组件来完成的.这些组件类似于一个一个单独的模块,不同的模块完成不同的功能,各模块之间可以相互调用,共同构成了CI的核心骨架. 从本篇开始,将进一步去分析各组件的实现细节,深入CI核心的黑盒内部(研究之后,其实就应该是白盒了,仅仅对于应用来说,它应该算是黑盒),从而更好的去认识.把握这个框架. 按照惯例,在开始之前,我们贴上CI中不完全的核心组件图: 由于BenchMa

CI框架源码阅读笔记2 一切的入口 index.php

上一节(CI框架源码阅读笔记1 - 环境准备.基本术语和框架流程)中,我们提到了CI框架的基本流程,这里这次贴出流程图,以备参考: 作为CI框架的入口文件,源码阅读,自然由此开始.在源码阅读的过程中,我们并不会逐行进行解释,而只解释核心的功能和实现. 1.       设置应用程序环境 define('ENVIRONMENT', 'development'); 这里的development可以是任何你喜欢的环境名称(比如dev,再如test),相对应的,你要在下面的switch case代码块中

Apache Storm源码阅读笔记

欢迎转载,转载请注明出处. 楔子 自从建了Spark交流的QQ群之后,热情加入的同学不少,大家不仅对Spark很热衷对于Storm也是充满好奇.大家都提到一个问题就是有关storm内部实现机理的资料比较少,理解起来非常费劲. 尽管自己也陆续对storm的源码走读发表了一些博文,当时写的时候比较匆忙,有时候衔接的不是太好,此番做了一些整理,主要是针对TridentTopology部分,修改过的内容采用pdf格式发布,方便打印. 文章中有些内容的理解得益于徐明明和fxjwind两位的指点,非常感谢.

CI框架源码阅读笔记4 引导文件CodeIgniter.php

到了这里,终于进入CI框架的核心了.既然是"引导"文件,那么就是对用户的请求.参数等做相应的导向,让用户请求和数据流按照正确的线路各就各位.例如,用户的请求url: http://you.host.com/usr/reg 经过引导文件,实际上会交给Application中的UsrController控制器的reg方法去处理. 这之中,CodeIgniter.php做了哪些工作?我们一步步来看. 1.    导入预定义常量.框架环境初始化 之前的一篇博客(CI框架源码阅读笔记2 一切的入

jdk源码阅读笔记之java集合框架(二)(ArrayList)

关于ArrayList的分析,会从且仅从其添加(add)与删除(remove)方法入手. ArrayList类定义: p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 18.0px Monaco } span.s1 { color: #931a68 } public class ArrayList<E> extends AbstractList<E> implements List<E> ArrayList基本属性: /** *

dubbo源码阅读笔记--服务调用时序

上接dubbo源码阅读笔记--暴露服务时序,继续梳理服务调用时序,下图右面红线流程. 整理了调用时序图 分为3步,connect,decode,invoke. 连接 AllChannelHandler.connected(Channel) line: 38 HeartbeatHandler.connected(Channel) line: 47 MultiMessageHandler(AbstractChannelHandlerDelegate).connected(Channel) line: