统计学习方法概论

统计学习

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statical machine learning).

统计学习的方法是基于数据构建统计模型从而对数据进行预测和分析。统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。

统计学习方法包括假设空间、模型选择的准则、模型学习的算法,这些统称为统计学习方法的三要素:模型(Model)、策略(Strategy)、算法(Algorithm)。

实现统计学习方法的步骤如下:

  1. 得到有限的训练数据集合
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合
  3. 确定模型选择的准则(什么是最优模型的标准),即学习的策略
  4. 实现求解最优模型的算法(如何获取最优模型),即学习的算法
  5. 通过学习方法选择最优模型
  6. 利用学习到的最优模型对新数据进行预测和分析

监督学习

监督学习是学习一个模型,使模型能够对任意的输入,对其相应的输出做出一个好的预测。

基本概念

训练数据(training data):一个给定的、有限的、用于学习的数据。

输入空间(input space):输入的可能取值的集合;

特征空间(feature space):每个具体的输入是一个实例,通常由特征向量表示。特征向量存在的空间称为特征空间。(有时输入空间和特征空间为相同空间,有时则不同,则需将实例从输入空间映射到特征空间),模型是定义在特征空间的。

输出空间(output space):输出的可能取值的集合;

训练集:输入(或特征向量)与输出对组成。

输入与输出对又称为样本。

联合概率分布:监督学习假设输入和输出的随机变量X和Y遵循联合概率分布P(X,Y),P(X,Y)表示分布函数或分布密度函数。 训练数据和测试数据是依据P(X,Y)独立同分布产生的。X 和 Y 具有联合分布的假设是监督学习关于数据的基本假设。

假设空间(hypothesis space):模型属于输入空间到输出空间的映射的集合,这个集合就是假设空间。模型可以是概率模型也可以使非概率模型。由P(Y|X)或决策函数 Y = f(X)表示。具体的用小写字母表示。

(PS.输入、输出变量用大写字母表示,输入输出变量所取得的值用小写字母表示。)

问题形式化

监督学习分为学习和预测两个过程,由学习系统与预测系统组成,如下图:

监督学习问题

统计学习三要素

模型

在监督学习过程中,模型就是索要学习的条件概率或者决策函数。模型的假设空间(hypothesis space)包含所有可能的太哦见概率或决策函数。假设空间用F表示

策略

有了模型的假设空间之后,需要考虑用什么样的准则来学习或者选择最优的模型。
统计学习常用的损失函数有:

算法

算法是指学习模型中的具体计算方法。

模型评估与模型选择

训练误差与测试误差

训练误差是模型Y=f(x)关于训练数据集的平均损失:

过拟合与模型选择

下图描述了训练误差和测试误差与模型的复杂度之间的关系:

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0,而测试误差会先减少,达到最小值后又增大。模型选择的典型方法是正则化与交叉验证。

正则化与交叉验证

正则化

模型选择的典型方法是正则化,正则化的一般形式如下:

其中,第一项是经验风险,第二项是正则化项,正则化项可以取不同的形式,例如,正则化项可以是模型参数向量的范数。回归问题中,损失函数是平方损失,正则化项可以是参数向量的L2范数:

交叉验证

给定样本充足情况下,进行模型选择的简单方法是随机将数据分为三部分:训练集、验证集、测试集,训练集用来训练模型,验证集用于模型的选择,测试集用于最终对学习方法的评估。

当数据不充足的情况下, 模型选择的另一种方法是交叉验证。基本思想是重复使用数据。常见的有简单交叉验证、S折交叉验证和留一交叉验证。

  • 简单交叉验证:将数据分为两部分,一部分为训练集、另一部分为测试集(如 70% 为训练集, 30% 为测试集);然后用训练集在各种条件下训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
  • S折交叉验证:将数据随机分为S个互不相交的大小相同的子集,然后利用S-1 个子集作为训练集,剩下1个作为测试集来训练和测试模型;将这个过程对S种可能重复进行,选择S次测评中测试误差最小的模型。
  • 留一交叉验证:S=N的S折交叉验证(N 为给定数据集的容量),往往在数据缺乏情况下使用。

泛化能力

泛化误差

学习方法的泛化能力(generalization ability)指该方法学习到的模型对未知数据的预测能力。往往采用通过测试误差来评价学习方法的泛化能力,问题是过于依赖测试集,并且测试集是有限的,不是很可靠,所以定义泛化误差来表示泛化能力。

泛化误差(generalization error),即模型的期望风险

泛化误差上界

学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,简称为泛化误差上界(generalization error bound)。通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。

泛化误差上界的性质:

  • 样本容量增加,泛化上界趋于0;
  • 假设空间容量越大,模型越难学,泛化误差上界也越大。

生成模型与判别模型

监督学习方法可以分为生成方法(generative approach)和判别方法(discriminative approach)。对应的模型的即为生成模型和判别模型。

生成模型是指由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,如:朴素贝叶斯和隐马尔可夫模型等。优点是可以得到联合概率分布,收敛速度更快,当存在隐变量时,仍可以使用。

判别模型是指由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测模型,如:KNN,感知机,决策树,逻辑回归,支持向量等。优点是学习准确率比较高,便于对数据进行抽象,可以简化学习问题。

判别模型与生成模型的最重要的不同是,训练时的目标不同,判别模型主要优化条件概率分布,使得x,y更加对应,在分类中就是更可分。而生成模型主要是优化训练数据的联合分布概率。而同时,生成模型可以通过贝叶斯得到判别模型,但判别模型无法得到生成模型。

分类问题、标注问题、回归问题

输入变量和输出变量均为连续变量的预测问题称为回归问题,如函数拟合;输出变量为有限个离散变量的预测问题称为分类问题,学习出的分类模型或分类决策函数称为分类器(classifier);输入变量与输出变量均为变量序列的预测问题称为标注问题,如词性标注,输入词序列,输出是(词,词性)的标记序列。

对于二分类问题,常用的评价指标是精确率和召回率。通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4中情况出现的总数分别记为:

  • TP——将正类预测为正类数;
  • FN——将正类预测为负类数;
  • FP——将负类预测为正类数;
  • TN——将负类预测为负类数。

则,精确率定义为:

参考

    1. 《统计学习方法》——李航著
    2. http://www.cnblogs.com/fxjwind/p/3601119.html
    3. http://blog.csdn.net/qll125596718/article/details/8351337
时间: 2024-10-03 18:11:25

统计学习方法概论的相关文章

统计学习方法 李航---第1章 统计学习方法概论

第一章 统计学习方法概论 统计学习的主要特点是: (1)统计学习以计算机及网络为平台,是建立在计算机及网络之上的; (2)统计学习以数据为研究对象,是数据驱动的学科: (3)统计学习的目的是对数据进行预测与分析: (4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析; (5)统计学习是概率论.统计学.信息论.计算理论.最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论. 统计学习的对象是数据Cdata) 统计学习的目的是对数据进行预铡与分析

统计学习方法笔记(1)——统计学习方法概论

1.统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习.统计学习是数据驱动的学科.统计学习是一门概率论.统计学.信息论.计算理论.最优化理论及计算机科学等多个领域的交叉学科. 统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去.统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提. 统计学习的目的就是考虑学习什么样的模型和如何学习模型. 统计学习

机器学习-统计学习方法概论

统计学习由监督学习(supervised learning).非监督学习(unsupervised learning).半监督学习(semi-supervised learning)和强化学习(reinforcement learning)组成. 统计学习方法包括模型的假设空间.模型的选择准则以及模型学习的算法,称其为统计学习方法的三要素:模型(model).策略(strategy)和算法(algorithm). 计算机科学由三维组成:系统.计算和信息. 模型属于输入空间到输出空间的映射集合,这

1.统计学习方法概论

1.统计学习 统计学习的对象:(1)data : 计算机及互联网上的各种数字.文字.图像.视频.音频数据以及它们的组合.(2)数据的基本假设是同类数据具有一定的统计规律性.统计学习的目的:用于对数据(特别是未知数据) 进行预测和分析.统计学习的方法:(1)分类: 监督学习无监督学习半监督学习强化学习 2.监督学习Instance, feature vector, feature space输入实例x的特征向量: x(i)与xi 不同,后者表示多个输入变量中的第i个 训练集: 输入变量和输出变量:

《第1章:统计学习方法概论》

http://www.cnblogs.com/levone/p/3531054.html#2898984 1.4 模型评估与模型选择        泛化能力(generalization ability):学习方法对未知数据的预测能力. 过拟合(over-fitting):学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测的很好, 但对未知数据预测的很差的现像. 经验风险最小化(empirical risk minimization, ERM):即求解损失函数最小化: 当模型是条

第1章 统计学习方法概论

学习 定义:如果一个系统能够通过执行某个过程改进他的性能,这就是学习. 统计学习的对象:数据 目的:对数据进行预测和分析 方法:监督学习.非监督学习.半监督学习.强化学习 统计学习的三要素:方法 = 模型+策略+算法 输入变量和输出变量均为连续变量的预测问题称为回归问题 输出变量为有限个离散变量的预测问题称为分类问题 输入变量与输出变量均为变量序列的预测问题称为标注问题 模型:就是所要学习的条件概率分布或决策函数 策略: 损失函数:度量模型一次预测的好坏 风险函数:度量平均意义下模型预测的好坏

第01章 统计学习方法概论

统计学习方法--机器学习概论

(本章主要参考李航老师的<统计学习方法>,其次是周志华老师的<机器学习>.通过自己的阅读,提炼出书中的知识点以及些许自己部分的理解(可能不到位),巩固所学知识.) 统计学习方法概论 本章简要叙述统计学习方法的一些基本概念.首先许如统计学习的定义.研究对象与方法:然后叙述监督学习:接着提出统计学习方法的三要素:介绍模型选择:介绍生成模型与判别模型:最后介绍监督学习方法的应用:分类问题.标注问题与回归问题. 以下是目录结构: 一. 统计学习 二. 监督学习 三.统计学习三要素 四. 模

统计学习方法(一)(李航)

统计学习方法概论: (一),统计学习 1,统计学习的特点 2,统计学习的对象 3,统计学习的目的 4,统计学习的方法 (二),监督学习重要概念 1,输入空间,特征向量空间,输出空间 (三),统计学习三要素 1,模型 决策函数模型: 条件概率模型: 2,策略 2.1 损失函数: 2.2 经验风险最小化和结构最小化 如贝叶斯估计的最大后验概率就是一种结构风险最小化的一个例子 3,算法 (四)模型评估选择 1,训练误差和测试误差 2,过拟合 过拟合和欠拟合产生的原因及解决方式: 欠拟合的原因:模型复杂