统计学习的相关定义

1. 什么是统计学习?

  统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。具有以下特点:

  (1)以计算机和网络为平台;(2)以数据为对象,数据驱动的学科;(3)目的是对数据进行预测和分析;(4)以方法为中心,统计学习方法构建模型并应用模型进行预测和分析;(5)概率论、信息论、计算理论、最优化理论及计算机学习的交叉学科。

  统计学习方法的步骤:

  (1)得到一个有限的训练数据集合;(2)得到包含所有可能的模型的假设空间,即学习模型的集合;(3)确定模型选择的准则,即学习的策略;(4)实现求解最优模型的算法,即学习的算法;(5)通过学习方法选择最优的学习模型;(6)利用学习的最优模型对新数据进行预测和分析;

2. 统计学习的三要素

  方法=模型+策略+算法;构建一种统计学习方法就是确定具体的统计学习三要素;

  统计学习首先要考虑的是学习什么样的模型。在监督学习过程中,模型就是要学习的条件概率分布或决策函数。

  按照什么样的准则学习或选择最优的模型。

    损失函数:度量模型一次预测的好坏。常用的损失函数有:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等;

    风险函数:度量平均意义下模型预测的好坏。

      经验风险函数:

             当容量很小时,经验风险函数会产生“过拟合”的情况

      结构风险函数:

             结构风险(正则化)是为了防止过拟合提出的策略,在经验风险函数加上表示模型复杂度的正则化项(罚项)。J(f)为模型的复杂度,表示了对复杂模型的惩罚。λ>=0是系数,权衡经验风险和模型复杂度。

  从假设空间中选择最优模型,需要考虑用什么样的计算方法求解最优模型。

    学习的目标就是要让期望风险(经验风险、结构风险)最小化,因此问题就转化为了最优化问题(两个主要问题:如何保证找到全局最优解,如何使求解过程高效)

3. 模型的评估与选择

  给定两种学习方法,测试误差小的方法具有更好的预测能力,是更有效的方法,通常将学习方法对未知数据的预测能力称为泛化能力。

  过拟合(voer-fitting)指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。模型的选择旨在避免过拟合并提高模型的预测能力。

  模型选择方法:正则化 和 交叉验证

    正则化:加入罚项(结构风险最小化)

    交叉验证:(主要是考虑到数据量不足的现状)简单交叉验证方法、S折交叉验证方法、留一交叉验证方法。

4, 泛化能力

  训练误差反映的是给定的问题是不是一个容易学习的问题(本质上不重要);测试误差反映的是学习方法对未知数据的预测能力(本质上重要的性质)。

  泛化误差:学到的模型为f(x),那么用这个模型对未知数据预测的误差就是泛化误差。

  泛化误差上界性质:

    是样本容量的函数,当样本容量增加时,泛化上界趋于0;

    是假设空间容量的函数,假设空间容量越大,模型越难学,泛化误差上界越大。

5. 生成模型和判别模型

  生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率P(Y|X)作为预测的模型,即生成模型。

      典型的生成模型有:朴素贝叶斯和隐马尔科夫模型等;  

      特点:生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,只能用生成学习方法。

  判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。

      典型的判别模型有:K紧邻法、感知机、决策树、Logist回归模型、最大熵模型、支持向量机、提升方法和条件随机场等;

      特点:判别方法直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,往往学习的准确率更高;由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征。

6. 监督学习中的三类主要问题

  回归问题:输入变量与输出变量均为连续变量的预测问题;

    回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。

    回归问题:一元回归和多元回归;线性回归和非线性回归;

  分类问题:输出变量为有限个离散变量的预测问题;

    评价分类器性能的指标一般是分类准确率:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比;

    对于二分类问题常用的评价指标是精确率和召回率。

    常用的统计学习分类方法:K紧邻法、感知机、决策树、Logist回归模型、最大熵模型、支持向量机、朴素贝叶斯等。

  标注问题:输入变量与输出变量均为变量序列的预测问题;

    评价标注模型的指标与评价分类模型的指标一样,常用的有标注准确率、精确率和召回率。

    标注常用的统计学习方法有:隐马尔科夫模型、条件随机场等

  

时间: 2024-07-30 06:28:00

统计学习的相关定义的相关文章

统计学习基本理论知识(一)

本篇将依据<统计自然语言处理>(宗成庆),重新梳理统计学习相关理论知识,相关概率论与梳理统计的课本不再列出来,可以找任意相关的课本复(预)习. 概率 概率是表示事件发生的可能性,将随机试验中的事件映射到实数域.用$P(A)$表示事件A的概率,$\Omega$表示试验的样本空间(所有可能发生的事件),则概率满足: 非负性:$P(A) \geq 0$ 规范性:$P(\Omega) = 1$ 可列可加性:对于可列个事件$A_1,A_2,...$,如果事件两两互不相容($A_i \bigcap A_j

?统计学习精要(The Elements of Statistical Learning)?课堂笔记(一)

前两天微博上转出来的,复旦计算机学院的吴立德吴老师在开?统计学习精要(The Elements of Statistical Learning)?这门课,还在张江...大牛的课怎能错过,果断请假去蹭课...为了减轻心理压力,还拉了一帮同事一起去听,eBay浩浩荡荡的十几人杀过去好不壮观!总感觉我们的人有超过复旦本身学生的阵势,五六十人的教室坐的满满当当,壮观啊. 这本书正好前阵子一直在看,所以才会屁颠屁颠的跑过去听.确实是一本深入浅出讲data mining models的好书.作者网站上提供免

?统计学习精要(The Elements of Statistical Learning)?课堂笔记(三)

照例文章第一段跑题,先附上个段子(转载的哦~): I hate CS people. They don't know linear algebra but want to teach projective geometry. They don't know any probability but want to use graphical models. They don't understand stats at all but still do machine learning like c

统计学习概念

统计学习是基于数据构建统计模型从而对数据进行预测与分析,统计学习由监督学习,非监督学习,半监督学习和强化学习等组成 统计学习由模型的假设空间(学习的模型属于某个函数的集合),模型选择的准则,及模型学习的算法 统计学习方法步骤如下: (1)得到一个有限的训练数据集合 (2)确定包含所有可能的模型的假设空间(学习模型的集合) (3)确定模型选择的准则,即学习的策略 (4)实现求解最优模型的算法即学习的算法 (5)通过学习方法选择最优模型 (6)利用学习的最优模型对新数据进行预测或分析 1.监督学习

统计学习方法一:基础

对统计学习方法中的基础概念和理论做一个总结.逐步更新. 内容摘自<统计学习方法>第一章,第一章内容基本全是重要内容,因此此篇部落格算是一个加入了自己理解思路的读书笔记. 一.统计学习方法包含哪几种? 监督学习:用于学习的数据集都是输入\输出数据对(有标记的样本),学习的任务是找到输入与输出的对应规则.主要用于分类.标注.回归分析. 非监督学习:用于学习的数据集只有输入(未标记的样本),学习的任务是对于数据进行分析,找到输出.主要用于聚类. 半监督学习:是监督学习和非监督学习的结合,它主要考虑如

?统计学习精要(The Elements of Statistical Learning)?课堂笔记(二)

继续一周一次的课堂笔记 :D 昨天去晚了站着听讲,感觉好好啊,注意各种集中.想想整个教室里面就是我和老师是站着的,自豪感油然而生. 第二次课讲的东西依旧比较简单,是这本书第二章的前半部分.作为一个好久之前已经预习过的孩子,我表示万分的得意(最小二乘法难道不是三四年前就学过的?话说以后我再面人的时候,就让他推导最小二乘估计量,嘻嘻...考验一下基本功). ------------原谅我的废话,笔记开始------------ 简单预测方法:最小二乘法(以下沿用计量经济学的习惯,简称OLS) OLS

《统计学习》——感知机

<统计学习>--感知机 本文不是像网上大多数的博文那样,洋洋洒洒的写一大篇文章,只是记录下学习机器学习的一些总结与心得,志在总结与和同道中人一起讨论,分享各自的想法. 1.何为感知机? 我们在学习机器学习的时候,基本都是从感知机开始的,为什么?因为它的思想较为易懂和容易实现,而且对于一般的问题(如二分类问题),效果也很好.感知机是神经网络和支持向量机SVM的基础,也被称为"单层神经网络". 感知机是二分类分类的线性分类模型,输入为实例的特征向量,输出为实例的类别,定义为+1

统计学习三要素

原文链接:https://www.mlpod.com/mlbase/23.html 三要素:方法=模型+策略+算法. 1.1 模型 在监督学习过程中,模型就是所要学习的条件概率分布或决策函数.假设空间用$\mathcal{F}$表示,假设空间可以定义为$$\mathcal{F} = \left\{ {f|Y = {f_\theta }\left( X \right),\theta \in {\mathbb{R}^n}} \right\}$$或$$\mathcal{F} = \left\{ {P|

机器学习统计学习

统计学习 前言:机器学习比较重要的几部分:线性模型.统计学习.深度学习,线性部分包括SVM.压缩感知.稀疏编码,都是控制整个模型的稀疏性去做线性函数,偏 Discriminative 判别模型:统计学习主要通过统计方法对数据建模找到极大似然,偏 Generative 生成方法:深度学习就是 neural model,偏非线性. 机器学习中的统计多是基于对事件的不确定性度量关于,是主观的,而不是客观地基于频次. EM算法 ( 期望最大算法,Expectation Maximum ) 参考:EM-最