统计学习概念

统计学习是基于数据构建统计模型从而对数据进行预测与分析,统计学习由监督学习,非监督学习,半监督学习和强化学习等组成

统计学习由模型的假设空间(学习的模型属于某个函数的集合),模型选择的准则,及模型学习的算法

统计学习方法步骤如下:

(1)得到一个有限的训练数据集合

(2)确定包含所有可能的模型的假设空间(学习模型的集合)

(3)确定模型选择的准则,即学习的策略

(4)实现求解最优模型的算法即学习的算法

(5)通过学习方法选择最优模型

(6)利用学习的最优模型对新数据进行预测或分析

1.监督学习

1)输入特征向量,每一维对应一个特征,如x=(x(1),x(2),....x(n)),其中x(i)表示x的第i特征Xi表示多个输入中的第i个

2)输入变量和输出变量均为连续变量的预测问题称为回归问题,输出变量为有限个离散变量的预测问题称为分类问题;输入与输出变量均为变量序列的预测问题称为标注

3)监督学习的模型可以使概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数Y=f(X)表示

2、损失函数度量一次预测的好坏,分先函数度量评价意义下模型预测的好坏,损失函数式f(X)和Y的非负实值函数记作L(Y,f(X))

常用的损失函数0-1损失函数(0—1 loss function)(Y与f(X)不等为1,相等为0),平方损失函数(quadratic loss funcition)(Y-X)^2,绝对损失函数(absolute loss function)|Y-f(X)|,对数损失函数(logarithmic loss function)或者对数似然损失函数(log-likelihood loss function)(-logP(Y|X))

风险函数是期望的损失

经验风险最小化:min 1/N∑L(yi,f(xi)) ,当样本容量很小时会产生过拟合(over-fitting)的现象

结构风险最小化是为防止过拟合而提出的,定义为Rsrm= 1/N∑L(yi,f(xi))+rJ(f),其中J(f)为模型的复杂度,模型f越复杂度J(f)越大(贝叶斯估计中最大后验概率估计MAP就是结构风险最小化的例子)

3.I是指示函数(indicator function)y=f(X)时为1否则为0

通常将学习方法对未知数据的预测能力称为泛化能力(generalization ability)

过拟合是学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测的很好,但对未知数据预测的很差的现象,因为训练数据本身存在噪声,测试误差会随着多项式的次数的增加先减小后增加

模型选择方法:正则化与交叉验证

正则化:

min(1/N∑L(yi,f(xi))+rJ(f)),J(f)是正则化项,有不同的形式,在回归问题中正则化项可以是参数向量L2范式,也可以是L1范式

交叉验证:

若数据充足:将数据集随机分成训练集、验证集、测试集;训练集用于训练模型,验证集用于模型选择,测试集用于对学习方法的评估,要选择对验证集有最小预测误差的模型

数据不足:交叉验证反复使用数据:把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复进行训练、测试及模型选择

应用最多的是S折交叉验证:随机将数据切分成s个互不相交的大小相同的子集,然后利用S-1个自己的数据训练模型,利用剩下的自己测试模型;将这一过程对可能的s中选择重复进行,最后选出s此凭此中平均误差最小的模型

4.泛化能力值由该方法学习到的模型对未来数据的预测能力

这种评价依赖于测试数据集的

泛化误差上界:他是样本容量的函数,样本容量增加,泛化上界趋于0,假设空间容量越大,模型越难学,泛化误差越大

生成模型,由数据学习联合概率分布,然后求出条件概率分布:P(Y|X)=P(X,Y)/P(X)

判别方法:由数据直接学习决策函数f(X)或者条件分布P(Y|X)

生成方法:可还原P(X,Y)判别不能;学习收敛速度快,即样本容量增加时,学到的模型可以很快的收敛到真实模型,存在隐变量的时候也能

判别方法:直接面对预测,准确率高,简化学习问题

5.分类问题

5.标注:

标注的输入是一个观测序列,输出时一个标记序列或者状态序列

常见的例子隐马尔科夫模型,条件随机场

6.回归问题按照输入变量的个数分为医院回归、多元回归,输入变量与输出变量的关系分为线性回归和非线性回归,回归学习最常用的损失函数是平方损失函数,在此情况下,函数回归问题有著名的最小二乘法求解

时间: 2024-08-01 22:47:06

统计学习概念的相关文章

?统计学习精要(The Elements of Statistical Learning)?课堂笔记(三)

照例文章第一段跑题,先附上个段子(转载的哦~): I hate CS people. They don't know linear algebra but want to teach projective geometry. They don't know any probability but want to use graphical models. They don't understand stats at all but still do machine learning like c

统计学习方法一:基础

对统计学习方法中的基础概念和理论做一个总结.逐步更新. 内容摘自<统计学习方法>第一章,第一章内容基本全是重要内容,因此此篇部落格算是一个加入了自己理解思路的读书笔记. 一.统计学习方法包含哪几种? 监督学习:用于学习的数据集都是输入\输出数据对(有标记的样本),学习的任务是找到输入与输出的对应规则.主要用于分类.标注.回归分析. 非监督学习:用于学习的数据集只有输入(未标记的样本),学习的任务是对于数据进行分析,找到输出.主要用于聚类. 半监督学习:是监督学习和非监督学习的结合,它主要考虑如

统计学习基础(HGL的读书笔记)

统计学习:统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,统计学习也成为统计机器人学习[1]. 统计学习分类:有监督学习与无监督学习[2]. 统计学习三要素:模型.策略与算法[1]. 统计学习的对象:统计学习的对象是数据.统计学习从数据出发,提取数据的特征,抽取数据的模型,发现数据中的指示,又回到对数据的分析与预测中去[1]. 统计学习的目的:建立输入与输出的关系,评价输入与输出的关系,即Y = f(X) + ε.其中输入变量X可以称为预测变量.自变量.属性

统计学习基本理论知识(一)

本篇将依据<统计自然语言处理>(宗成庆),重新梳理统计学习相关理论知识,相关概率论与梳理统计的课本不再列出来,可以找任意相关的课本复(预)习. 概率 概率是表示事件发生的可能性,将随机试验中的事件映射到实数域.用$P(A)$表示事件A的概率,$\Omega$表示试验的样本空间(所有可能发生的事件),则概率满足: 非负性:$P(A) \geq 0$ 规范性:$P(\Omega) = 1$ 可列可加性:对于可列个事件$A_1,A_2,...$,如果事件两两互不相容($A_i \bigcap A_j

深度学习“深度学习”-概念篇

Q:什么是"深度学习" 对于"深度学习"这个术语,一个粗浅的定义是"主要使用深度神经网络为工具的机器学习算法".深度学习首先是一类机器学习的方法,因为它和其他机器学习方法一样允许计算机从样本中.从实例中.从数据中使用统计手段"学习"出规律来,而不用像专家系统和其他符号主义的方法一样人工定义规则.其次,深度学习不同于其他机器学习方法的地方,在于它主要的工具,或者说使用到的数学模型是深度神经网络. 虽说深度学习这个词时近几年才后起

k8s学习 - 概念 - ReplicaSet

k8s学习 - 概念 - ReplicaSet 首先,ReplicaSet 和 ReplicationController 基本上一样,除了上篇说到的selector有不同之外,没有啥区别.(官网也是这么说的).但是为什么官方建议的不是ReplicaController + Deployment的集合呢?咋们也不敢说,咋们也不敢问.反正我就知道,用 ReplicationController 的值得被鄙视,用ReplicationSet +deployment 的现在是正统. ReplicaSe

(八)从零开始学人工智能--统计学习:统计学习基础知识

目录 统计学习基础知识 1. 统计学习种类 1.1 监督学习 1.2 非监督学习 2. 统计学习中的基本概念 2.1 统计学习三要素:模型,策略,算法 2.2 欠拟合和过拟合 2.3 如何避免过拟合 2.4 过拟合产生的原因 2.5 最大似然估计和贝叶斯估计 3. 线性回归 3.1 经典线性回归 3.2 岭回归(ridge regression) 3.3 lasso回归和ElasticNet 4. 线性分类 4.1 感知机 4.2 逻辑回归(logistic regression) 4.3 So

?统计学习精要(The Elements of Statistical Learning)?课堂笔记(一)

前两天微博上转出来的,复旦计算机学院的吴立德吴老师在开?统计学习精要(The Elements of Statistical Learning)?这门课,还在张江...大牛的课怎能错过,果断请假去蹭课...为了减轻心理压力,还拉了一帮同事一起去听,eBay浩浩荡荡的十几人杀过去好不壮观!总感觉我们的人有超过复旦本身学生的阵势,五六十人的教室坐的满满当当,壮观啊. 这本书正好前阵子一直在看,所以才会屁颠屁颠的跑过去听.确实是一本深入浅出讲data mining models的好书.作者网站上提供免

分布式计算、统计学习与ADMM算法

在整理旧电脑时,才发现13年下半年电脑里有不少残文.老师说,东西搁下了再拿起来花费的时间和之前可能差不多.我一眼看过去这篇关于分布式计算的文章,貌似还真的没有了当时理解的深度和感觉.当时还想利用ADMM算法,把统计中常见的带惩罚的高维问题在此框架下用R重写一下,但是中途多种事情一耽搁,就早已抛之脑后.看来任何事情,真的还是需要坚持,哪怕拨点时间都是好的.先把一篇残文扔出来祭奠下过去的13年吧.公式多文字长,慎入! 业界一直在谈论大数据,对于统计而言,大数据其实意味着要不是样本量增加n→∞,要不就