统计学习

朴素贝叶斯法

朴素贝叶斯是通过训练数据集学习联合概率分布P(X,Y),通过学习先验分布和条件分布得到联合概率分布。

P(x,y)=p(y)*P(x|y)

朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型

4.5式子

4.6式子

P50的朴素贝叶斯算法

P51贝叶斯估计

逻辑斯谛回归(logistic regression)与最大熵模型(maximum entropy)

这两个都属于对数线性模型

一个事件发生的几率(odds)指的是该事件发生的概率与该事件不发生的概率的比值

P78 6.5,6.6

输出Y=1的对数几率是输入x的线性函数

逻辑斯谛回归学习中通常采用的是梯度下降法和拟牛顿法

最大熵模型

学习的目的在于采用最大熵原理选择最好的分类模型

最大熵模型的学习过程就是求解最大熵模型的过程,最大熵模型的学习可以形式化为约束最优化问题 ,模型学习约束条件是两个期望值相等(P83 6.10)(有约束的最优化的原始问题转化成无约束的最优化的对偶问题),这其中用到拉格朗日函数

最大熵模型学习中的对偶函数极大化等价于最大熵模型的极大似然估计

多种最优化的方法:迭代尺度法、梯度下降法、牛顿法、拟牛顿法;牛顿法或拟牛顿法一般收敛速度更快

改进的迭代尺度法IIS

P88:

支持向量机

支持向量机是一种二类分类模型,他的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机,支持向量机还包括核技巧,使它成为市值上的非线性分类器,支持向量分类机的策略是间隔最大化,可形式化为解一个凸二次规划问题(convex quadratic programming)等价于正则化的合页损失函数最小化的问题支持向量机的学习算法是求解凸二次规划的最优化的算法。包括:线性可分支持向量机、线性支持向量机、非线性支持向量机。当训练数据线性可分时候,通过硬间隔最大化(hard margin maximum),学习一个线性的分类器,即线性可分支持向量机;当训练数据接近线性可分时,通过软间隔最大化(soft margin maximum),即软间隔支持向量机,当训练数据不可分时,通过使用核技巧(kernel trick)及软间隔最大化

当输入空间为欧式空间或者离散集合、特征空间为希尔伯特空间时,核函数就是将输入从输入空间映射到特征空间得到的特征向量之间的内积,使用核函数等价于隐式地在高维的特征空间中学习线性支持向量机,这样的方法称为核技巧,和方法是比支持向量机更为一般的机器学习方法

在感知机中,利用误分类最小的策略,求得分离超平面,这时候的解有无穷多个,线性可分支持向量机利用分割最大化求最优超平面(几何间隔最大),所得到的解释唯一的

P97函数间隔的概念(7.3)

函数间隔可以表示分类预测的正确性和确信度。要对分离超平面的法向量w加某些约束,如规范化

P98(几何间隔)概念

凸优化问题是指约束最优化问题P100

非线性支持向量机:首先使用一个变换将元空间的数据映射到新空间,然后在心空间里用线性分类学习方法训练数据中学习分类模型

核函数:设X是输入空间(欧式空间的子集或离散集合),设H为特征空间(希尔伯特空间),如果存在一个从X到H的映射,Ø(x):x->h

使得对于所有的x,z属于X,函数k(x,z)满足条件K(x,z)= Ø(x)。 Ø(z)

K(x,z)为核函数,Ø(x)为映射函数,Ø(x)。 Ø(z)为内积

每一个具体的输入是一个实例,通常由特征向量表示,这是,所有特征向量存在的空间称为特征空间

学习是隐性的,不需要显示地定义特征空间和隐式函数,这样的技巧成为核技巧

矩阵的半正定性的含义是什么??

希尔伯特空间:

在一个是实向量空间或复向量空间H上给定内积<x,y> ||x||=sqrt(<x,x>)

任意有限维内积空间都是希尔伯特空间

一个内积空间当作为一个赋范向量是完备时,就是希尔伯特空间

正定核的充要条件:

设K:x×X->R是对称函数,则K(x,z)为正定核函数的充要条件是对于任意的xi属于X ,K(X,Z)对应的Gram矩阵:K=[K(xi,xj)]m*n    是半正定矩阵

P122常用的核函数

当训练样本容量大的时候,这些算法会变得非常的低效,

快速实现算法:SMO(sequential minimal optimization 序列最小最优化问题)

KKT(Karush-Kuhn-Tucker  conditions)

朴素贝叶斯法

朴素贝叶斯是通过训练数据集学习联合概率分布P(X,Y),通过学习先验分布和条件分布得到联合概率分布。

P(x,y)=p(y)*P(x|y)

朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型

4.5式子

4.6式子

P50的朴素贝叶斯算法

P51贝叶斯估计

逻辑斯谛回归(logistic regression)与最大熵模型(maximum entropy)

这两个都属于对数线性模型

一个事件发生的几率(odds)指的是该事件发生的概率与该事件不发生的概率的比值

P78 6.5,6.6

输出Y=1的对数几率是输入x的线性函数

逻辑斯谛回归学习中通常采用的是梯度下降法和拟牛顿法

最大熵模型

学习的目的在于采用最大熵原理选择最好的分类模型

最大熵模型的学习过程就是求解最大熵模型的过程,最大熵模型的学习可以形式化为约束最优化问题 ,模型学习约束条件是两个期望值相等(P83 6.10)(有约束的最优化的原始问题转化成无约束的最优化的对偶问题),这其中用到拉格朗日函数

最大熵模型学习中的对偶函数极大化等价于最大熵模型的极大似然估计

多种最优化的方法:迭代尺度法、梯度下降法、牛顿法、拟牛顿法;牛顿法或拟牛顿法一般收敛速度更快

改进的迭代尺度法IIS

P88:

支持向量机

支持向量机是一种二类分类模型,他的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机,支持向量机还包括核技巧,使它成为市值上的非线性分类器,支持向量分类机的策略是间隔最大化,可形式化为解一个凸二次规划问题(convex quadratic programming)等价于正则化的合页损失函数最小化的问题支持向量机的学习算法是求解凸二次规划的最优化的算法。包括:线性可分支持向量机、线性支持向量机、非线性支持向量机。当训练数据线性可分时候,通过硬间隔最大化(hard margin maximum),学习一个线性的分类器,即线性可分支持向量机;当训练数据接近线性可分时,通过软间隔最大化(soft margin maximum),即软间隔支持向量机,当训练数据不可分时,通过使用核技巧(kernel trick)及软间隔最大化

当输入空间为欧式空间或者离散集合、特征空间为希尔伯特空间时,核函数就是将输入从输入空间映射到特征空间得到的特征向量之间的内积,使用核函数等价于隐式地在高维的特征空间中学习线性支持向量机,这样的方法称为核技巧,和方法是比支持向量机更为一般的机器学习方法

在感知机中,利用误分类最小的策略,求得分离超平面,这时候的解有无穷多个,线性可分支持向量机利用分割最大化求最优超平面(几何间隔最大),所得到的解释唯一的

P97函数间隔的概念(7.3)

函数间隔可以表示分类预测的正确性和确信度。要对分离超平面的法向量w加某些约束,如规范化

P98(几何间隔)概念

凸优化问题是指约束最优化问题P100

非线性支持向量机:首先使用一个变换将元空间的数据映射到新空间,然后在心空间里用线性分类学习方法训练数据中学习分类模型

核函数:设X是输入空间(欧式空间的子集或离散集合),设H为特征空间(希尔伯特空间),如果存在一个从X到H的映射,Ø(x):x->h

使得对于所有的x,z属于X,函数k(x,z)满足条件K(x,z)= Ø(x)。 Ø(z)

K(x,z)为核函数,Ø(x)为映射函数,Ø(x)。 Ø(z)为内积

每一个具体的输入是一个实例,通常由特征向量表示,这是,所有特征向量存在的空间称为特征空间

学习是隐性的,不需要显示地定义特征空间和隐式函数,这样的技巧成为核技巧

矩阵的半正定性的含义是什么??

希尔伯特空间:

在一个是实向量空间或复向量空间H上给定内积<x,y> ||x||=sqrt(<x,x>)

任意有限维内积空间都是希尔伯特空间

一个内积空间当作为一个赋范向量是完备时,就是希尔伯特空间

正定核的充要条件:

设K:x×X->R是对称函数,则K(x,z)为正定核函数的充要条件是对于任意的xi属于X ,K(X,Z)对应的Gram矩阵:K=[K(xi,xj)]m*n    是半正定矩阵

P122常用的核函数

当训练样本容量大的时候,这些算法会变得非常的低效,

快速实现算法:SMO(sequential minimal optimization 序列最小最优化问题)

KKT(Karush-Kuhn-Tucker  conditions)

时间: 2024-10-04 04:51:25

统计学习的相关文章

?统计学习精要(The Elements of Statistical Learning)?课堂笔记(一)

前两天微博上转出来的,复旦计算机学院的吴立德吴老师在开?统计学习精要(The Elements of Statistical Learning)?这门课,还在张江...大牛的课怎能错过,果断请假去蹭课...为了减轻心理压力,还拉了一帮同事一起去听,eBay浩浩荡荡的十几人杀过去好不壮观!总感觉我们的人有超过复旦本身学生的阵势,五六十人的教室坐的满满当当,壮观啊. 这本书正好前阵子一直在看,所以才会屁颠屁颠的跑过去听.确实是一本深入浅出讲data mining models的好书.作者网站上提供免

?统计学习精要(The Elements of Statistical Learning)?课堂笔记(三)

照例文章第一段跑题,先附上个段子(转载的哦~): I hate CS people. They don't know linear algebra but want to teach projective geometry. They don't know any probability but want to use graphical models. They don't understand stats at all but still do machine learning like c

分布式计算、统计学习与ADMM算法

在整理旧电脑时,才发现13年下半年电脑里有不少残文.老师说,东西搁下了再拿起来花费的时间和之前可能差不多.我一眼看过去这篇关于分布式计算的文章,貌似还真的没有了当时理解的深度和感觉.当时还想利用ADMM算法,把统计中常见的带惩罚的高维问题在此框架下用R重写一下,但是中途多种事情一耽搁,就早已抛之脑后.看来任何事情,真的还是需要坚持,哪怕拨点时间都是好的.先把一篇残文扔出来祭奠下过去的13年吧.公式多文字长,慎入! 业界一直在谈论大数据,对于统计而言,大数据其实意味着要不是样本量增加n→∞,要不就

统计学习概念

统计学习是基于数据构建统计模型从而对数据进行预测与分析,统计学习由监督学习,非监督学习,半监督学习和强化学习等组成 统计学习由模型的假设空间(学习的模型属于某个函数的集合),模型选择的准则,及模型学习的算法 统计学习方法步骤如下: (1)得到一个有限的训练数据集合 (2)确定包含所有可能的模型的假设空间(学习模型的集合) (3)确定模型选择的准则,即学习的策略 (4)实现求解最优模型的算法即学习的算法 (5)通过学习方法选择最优模型 (6)利用学习的最优模型对新数据进行预测或分析 1.监督学习

统计学习方法一:基础

对统计学习方法中的基础概念和理论做一个总结.逐步更新. 内容摘自<统计学习方法>第一章,第一章内容基本全是重要内容,因此此篇部落格算是一个加入了自己理解思路的读书笔记. 一.统计学习方法包含哪几种? 监督学习:用于学习的数据集都是输入\输出数据对(有标记的样本),学习的任务是找到输入与输出的对应规则.主要用于分类.标注.回归分析. 非监督学习:用于学习的数据集只有输入(未标记的样本),学习的任务是对于数据进行分析,找到输出.主要用于聚类. 半监督学习:是监督学习和非监督学习的结合,它主要考虑如

?统计学习精要(The Elements of Statistical Learning)?课堂笔记(二)

继续一周一次的课堂笔记 :D 昨天去晚了站着听讲,感觉好好啊,注意各种集中.想想整个教室里面就是我和老师是站着的,自豪感油然而生. 第二次课讲的东西依旧比较简单,是这本书第二章的前半部分.作为一个好久之前已经预习过的孩子,我表示万分的得意(最小二乘法难道不是三四年前就学过的?话说以后我再面人的时候,就让他推导最小二乘估计量,嘻嘻...考验一下基本功). ------------原谅我的废话,笔记开始------------ 简单预测方法:最小二乘法(以下沿用计量经济学的习惯,简称OLS) OLS

统计学习基础(HGL的读书笔记)

统计学习:统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,统计学习也成为统计机器人学习[1]. 统计学习分类:有监督学习与无监督学习[2]. 统计学习三要素:模型.策略与算法[1]. 统计学习的对象:统计学习的对象是数据.统计学习从数据出发,提取数据的特征,抽取数据的模型,发现数据中的指示,又回到对数据的分析与预测中去[1]. 统计学习的目的:建立输入与输出的关系,评价输入与输出的关系,即Y = f(X) + ε.其中输入变量X可以称为预测变量.自变量.属性

统计学习精要

统计学习精要(The Elements of Statistical Learning)课堂笔记系列 Posted at January 2nd, 2014 Filed under 课程教材:The Elements of Statistical Learning http://www-stat.stanford.edu/~tibs/ElemStatLearn/ 授课人:复旦大学计算机学院 吴立德教授 分节课堂笔记: 统计学习精要(The Elements of Statistical Lear

scikit-learning教程(二)统计学习科学数据处理的教程

统计学习:scikit学习中的设置和估计对象 数据集 Scikit学习处理来自以2D数组表示的一个或多个数据集的学习信息.它们可以被理解为多维观察的列表.我们说这些阵列的第一个轴是样本轴,而第二个轴是 特征轴. scikit:iris数据集附带的一个简单示例 >>> >>> from sklearn import datasets >>> iris = datasets.load_iris() >>> data = iris.data

统计学习基本理论知识(一)

本篇将依据<统计自然语言处理>(宗成庆),重新梳理统计学习相关理论知识,相关概率论与梳理统计的课本不再列出来,可以找任意相关的课本复(预)习. 概率 概率是表示事件发生的可能性,将随机试验中的事件映射到实数域.用$P(A)$表示事件A的概率,$\Omega$表示试验的样本空间(所有可能发生的事件),则概率满足: 非负性:$P(A) \geq 0$ 规范性:$P(\Omega) = 1$ 可列可加性:对于可列个事件$A_1,A_2,...$,如果事件两两互不相容($A_i \bigcap A_j