【machine learning】regularization

一、机器学习范式

1、按数据类型划分(带标签与否)

这是从样本的数据进行划分,现实中大部分属于半监督学习,并且大部分数据是没分类好的。

监督学习:

例子:

分类

e.g. 文本分类  垃圾邮件过滤  搜索结果

回归分析

e.g. 房价预测  股价预测

序列标注

e.g. 词性标注

输入:“我中了一张彩票”

输出:“我/r  中/v 了/y /一/m /张/q /彩票/n

无监督学习:

例子:

聚类

e.g. 热点话题发现  社团发现

密度函数估计(probability density estimation )

e.g. pdf估计

异常点检测(outlier detection)

e.g. one-class  SVM, 去噪

半监督学习:

核心思想

考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题

例子:

分类

e.g. 垃圾邮件过滤,半监督SVM

回归分析

聚类

e.g. GMM

2、按学习过程划分

主动学习、转导学习、强化学习

主动学习(Active Learning)

有少量标注的数据以及丰富的未标注数据 ,标注数据的成本很高,学习算法主动提出一些标注请求,将筛选过的数据交给专家进行标注,然后将标注的数据加入到训练集中,再进行训练。

核心问题:怎么样筛选数据才能使得请求标注的次数尽量少而最终的结果又尽量好

与半监督学习的区别:半监督学习算法不需要人工干预,基于自身对未标记数据加以利用,微博的用户推荐用户就是充当专家的角色。

问题可形式化为:

转导学习(Transductive Learning)

一种通过观察特定的训练样本,进而预测特定的测试样本的方法在不同的测试集上会产生相互不一致的预测

特点:

1.建立一个更适用于问题域的模型,而非一个更通用的模型

2.利用无标注的测试样本的信息发现聚簇,进而更有效地分类

3.模型近似

与半监督学习的区别:半监督学习不知道测试案例是什么,转导学习知道测试案                                                                                                                                                      例是什么

半监督学习本质上是从特殊到一般(train),一般到特殊(predict)的推理方法

转导学习本质上是直接从特殊到特殊的推理方法,自动修正模型。

强化学习(Reinforcement Learning)

从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖赏值最大。该方法不同与监督学习技术那样通过正例、反例来告知采取何种行为,而是通过试错(trial-and-error)的方法来发现最优行为策略

适用情况:适用于序列决策或者控制问题,很难有这么规则的样本。

e.g. 象棋AI程序

解决思路:我们设计一个回报函数(reward function),如果learning agent(象棋AI程序)在决定一步后,获得了较好的结果,那么我们给agent一些回报(比如回报函数结果为正),得到较差的结果,那么回报函数为负。如果我们能够对每一步进行评价,得到相应的回报函数,那么就好办了,我们只需要找到一条回报值最大的路径(每步的回报之和最大),就认为是最佳的路径。

备注:一个强化学习的比赛 http://ijcai-15.org/index.php/angry-birds-competition

二、正则化

1、模型选择:

a.若采用多项式拟合

欠拟合(underfit,also high bias)

特征集过小,模型过于简单,会导致训练集的误差明显增大的现象。

过拟合(overfit,also high variance)

非常多的特征,那么所学的Hypothesis有可能对训练集拟合的非常好,但是对测试集效果很差,即训练误差少,测试集误差大。

b.避免过拟合的方法——约束高阶多项式的系数

以下是不同阶数的多项式相对应的系数

定义损失函数:

绿色曲线为最佳拟合,红色曲线为实际拟合结果。

罚项系数选择

1.交叉验证

2.超参数学习,解决最优化问题

2、模型选择策略

a.代价函数(Cost function)

b.风险函数或期望风险(risk function)

① 定义为损失函数的期望

② 理论上模型f(x)关于联合分布P(X, Y)的平均意义下的损失

① 学习的本质目标是选择期望风险最小的模型,由于联合分布P(X,Y)是未知的,风险函数Rexp(f)不能直接计算。

c.经验风险(empirical risk minimizatiion, ERM)

①模型f(x)关于训练数据集的平均损失称为经验风险,对期望风险的近似

其实,最大似然估计等价于最小化经验风险。

②经验风险最小化(ERM)的策略认为,经验风险最小的模型是最优模型

③当样本容量是够大时,经验风险最小化能保证有很好的学习效果,在现实中被广泛应用

④当样本容量很小时,经验风险最小化学习的效果就未必很好,会产生“过拟合(over-fitting)”现象,如多项式阶数很大,出现过拟合。

d.结构风险(structural risk minimization, SRM)

①在经验风险上加上表示模型复杂度的正则化项或罚项

②防止过拟合

其中J(f)为模型的复杂度,是定义在假设空间 F 上的泛函数。

模型 f 越复杂,复杂度J(f)就越大;反之,模型 f 越简单,复杂度J(f)就越小

决定了用以权衡经验风险和模型复杂度

④结构风险小需要经验风险与模型复杂度同时小,结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测,正则化的本质是控制模型的复杂度。

3、贝叶斯公式

贝叶斯公式反映人们推理的方式,即人做实验时,先需要作出一定的假设(利用先验知识),在假设的指导上去做实验,得到观察数据,最后利用实验数据修正对假设的理解,也就得到后验分布。

最小二乘问题的最大后验估计(MAP)

最大后验估计等价于最小化正则化的平方损失函数,最大后验估计等价于最小化结构风险。

代价函数可改成:

回顾下不加正则化的正规方程

加正则化的正规方程,相当于对矩阵所有特征值同时加了,新矩阵基本上是可逆的(除非原矩阵存在负的特征值),即新的特征方程有唯一解。因而利用贝叶斯的正则化是分类算法中常用的方法。

时间: 2024-10-17 16:41:33

【machine learning】regularization的相关文章

【machine learning】KNN算法

适逢学习机器学习基础知识,就将书中内容读读记记,本博文代码参考书本Machine Learning in Action(<机器学习实战>). 一.概述 kNN算法又称为k近邻分类(k-nearest neighbor classification)算法. kNN算法则是从训练集中找到和新数据最接近的k条记录,然后根据他们的主要分类来决定新数据的类别.该算法涉及3个主要因素:训练集.距离或相似的衡量.k的大小. 二.算法要点 1.指导思想 kNN算法的指导思想是"近朱者赤,近墨者黑&q

【Machine Learning】机器学习の特征

绘制了一张导图,有不对的地方欢迎指正: 下载地址 机器学习中,特征是很关键的.其中包括,特征的提取和特征的选择.他们是降维的两种方法,但又有所不同: 特征抽取(Feature Extraction):Creatting a subset of new features by combinations of the exsiting features.也就是说,特征抽取后的新特征是原来特征的一个映射. 特征选择(Feature Selection):choosing a subset of all

【machine learning】linear regression

一.曲线拟合 1.问题引入 ①假设现在有一份关于某城市的住房面积与相应房价的数据集 表1    居住面积与房价关系 图1    居住面积与房价关系 那么给定这样一个数据集,我们怎么学习出一个以住房面积大小为自变量的用于预测该城市房价的函数? 问题可形式化为 给定大小为m的训练样本集 我们希望学习的目标函数为 房价预测本质上是回归问题 a.回归分析挖掘自变量与因变量之间的关系 b.有监督的学习问题,所有的样本点都带有目标变量 c.输出变量为连续值,可取任意实数 ②假设现在我们有份更详尽的数据集,它

Logistic回归Cost函数和J(θ)的推导----Andrew Ng【machine learning】公开课

最近翻Peter Harrington的<机器学习实战>,看到Logistic回归那一章有点小的疑问. 作者在简单介绍Logistic回归的原理后,立即给出了梯度上升算法的code:从算法到代码跳跃的幅度有点大,作者本人也说了,这里略去了一个简单的数学推导. 那么其实这个过程在Andrew Ng的机器学习公开课里也有讲到.现在回忆起来,大二看Andrew的视频的时候心里是有这么一个疙瘩(Andrew也是跳过了一步推导) 那么这里就来讲一下作者略去了怎样的数学推导,以及,怎么推导. 在此之前,先

【machine learning】GMM算法(Python版)

本文参考CSDN大神的博文,并在讲述中引入自己的理解,纯粹理清思路,并将代码改为了Python版本.(在更改的过程中,一方面理清自己对GMM的理解,一方面学习了numpy的应用,不过也许是Python粉指数超标才觉得有必要改(⊙o⊙)) 一.GMM模型 事实上,GMM 和 k-means 很像,不过 GMM 是学习出一些概率密度函数来(所以 GMM 除了用在 clustering 上之外,还经常被用于 density estimation ),简单地说,k-means 的结果是每个数据点被 as

【Machine Learning】wekaの特征选择简介

看过这篇博客的都应该明白,特征选择代码实现应该包括3个部分: 搜索算法: 评估函数: 数据: 因此,代码的一般形式为: AttributeSelection attsel = new AttributeSelection(); // create and initiate a new AttributeSelection instanceRanker search = new Ranker(); // choose a search methodPrincipalComponents eval

【Machine :Learning】 朴素贝叶斯

1. 朴素贝叶斯: 条件概率在机器学习算法的应用.理解这个算法需要一点推导.不会编辑公式.. 核心就是 在已知训练集的前提条件下,算出每个特征的概率为该分类的概率, 然后套贝叶斯公式计算 预测集的所有分类概率,预测类型为概率最大的类型 from numpy import * def loadDataSet(): """ Returns: postingList: list, 用于测试的静态数据 classVec: list, 标签,与 postingList 对应, 1 代表

【Machine Learn】机器学习及其基础概念简介

机器学习及其基础概念简介 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结合视频学习和书籍基础的笔记所得.本系列文章将采用理论结合实践方式编写.首先介绍机器学习和深度学习的范畴,然后介绍关于训练集.测试集等介绍.接着分别介绍机器学习常用算法,分别是监督学习之分类(决策树.临近取样.支持向量机.神经网络算法)监督学习之回归(线性回归.非线性回归)非监督学习(K-means聚

【Machine Learn】决策树案例:基于python的商品购买能力预测系统

决策树在商品购买能力预测案例中的算法实现 作者:白宁超 2016年12月24日22:05:42 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结合视频学习和书籍基础的笔记所得.本系列文章将采用理论结合实践方式编写.首先介绍机器学习和深度学习的范畴,然后介绍关于训练集.测试集等介绍.接着分别介绍机器学习常用算法,分别是监督学习之分类(决策树.临近取样.支持向量机.神经网络算法)监督学习之回归(线性回归.非线性回归)非监督学习(