统计学习方法--机器学习概论

(本章主要参考李航老师的《统计学习方法》,其次是周志华老师的《机器学习》。通过自己的阅读,提炼出书中的知识点以及些许自己部分的理解(可能不到位),巩固所学知识。)

统计学习方法概论

本章简要叙述统计学习方法的一些基本概念.首先许如统计学习的定义、研究对象与方法;然后叙述监督学习;接着提出统计学习方法的三要素;介绍模型选择;介绍生成模型与判别模型;最后介绍监督学习方法的应用:分类问题、标注问题与回归问题。

以下是目录结构:

一. 统计学习

二. 监督学习

三.统计学习三要素

四. 模型评估与模型选择

五. 正则化与交叉验证

六. 泛化能力

七. 生成模型与判别模型

八. 分类问题

九. 标注问题

十. 回归问题

以下是正文:

一. 统计学习

1.统计学习的特点:

‘学习’的定义(赫尔伯特·西蒙):如果一个系统能通过执行某个过程改进他的性能,这就是学习。

(1):以计算机网络为平台  (2):以数据为研究对象 (3):对数据进行预测和分析 (4):构建模型并应用模型进行预测 (5):以概率论、统计学、信息论、计算理论、最优化理论、计算机科学等多个领域的交叉学科

2.统计学习的对象:

统计学习的对象是数据。从数据出发,提取数据特征(如预测房子的价格,提取房子的占地面积,地理位置、交通情况等特征),抽象数据模型(将占地面积、地理位置、交通情况以向量的形式表达),发现数据的知识,对数据做预测和分析(构建模型如多元函数拟合)。

3.统计学习的目的:

统计学习的目的是对数据作预测和分析,特别是对位置新数据进行预测与分析。

4.统计学习的方法:

统计学习的方法是基于数据结构统计模型从而对数据进行预测与分析.统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。

实现统计学方法的步骤如下:

1.得到一个有限的训练数据集合

    2.确定包含所有可能的模型的假设空间,即学习模型的集合

    3.确定模型选择的准则

    4.实现求解最优模型的算法

    5.通过学习方法选择最优模型

    6.利用最有模型预测数据

5.统计学习的研究:

统计学习的研究包括统计学方法、统计学理论及统计学应用

6.统计学习的重要性:

近二十年来,统计学习无论是在理论还是应用方面取得了巨大的发展,统计学习已经被成功地应用到人工智能、模式识别、数据挖掘、自然语言处理、语音识别、图像识别、信息检索和生物信息等许多领域中。

统计学的重要性体现在以下三个方面:

 1.处理海量数据的有效方法

   2.计算机智能化的有效手段

   3.计算机科学发展的一个重要组成部分

二. 监督学习

监督学习的任务是学习一个模型,使得模型能够对任意给定的输入,对其相应的输出做出一个好的预测。

下面介绍几个基本术语:

1.输入空间(input space):输入的所有可能取值

2.输出空间(ouput space):输出的所有可能取值

3.实例(instance):具体的输入,通常由特征向量表示(x(1) ,x(2),……,x(n) )

4.特征空间(feature space):所有特征向量存在的空间

5.样本(sample):输入与输出对

6.假设空间(hypothesis space):模型由输入空间到输出空间的映射的集合

由此,根据输入输出变量的不同类型,给了监督学习不同的名称:

1.输入与输出变量均为连续变量的预测问题称为回归问题(如支持向量回归SVR输出 wx+b,即某个样本点到分类面的距离,是连续值,所以是回归模型)

2.输出变量为有限个离散变量的预测成为分类问题(如二分类问题的输出为-1:反类,+1:正类;如支持向量机把这个距离用 sign(·) 函数,距离为正(在超平面一侧)的样本点是一类,为负的是另一类;k邻近法;朴素贝叶斯;决策树、感知机、贝叶斯网络、提升方法、神经网络等)

3.输入输出变量均为变量序列的预测问题成为标记问题(如隐马尔可夫模型、条件随机场。应用:信息抽取,自然语言处理如词性标注、抽取基本名词短语)

三.统计学习三要素

统计学习方法 = 模型 + 策略 + 算法

1.模型

模型就是所要学习的条件概率分布或者决策函数。如SVR输出wx+b、二分类问题的分类器P=(Y|X)或Y=f(X)对于输出实例进行分类。

2.策略

由于输出的预测值f(X)与真实值有差异,用损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。

损失函数为f(X)和Y的非负实值函数,记为L(Y,f(X)),常用的损失函数如下:

(1): 0-1损失函数:    L(Y,f(X)) =  1 (Y!=f(X)) , 0 (Y = f(X)).

(3): 平方损失函数:  L(Y,f(X)) = (Y - f(X))2

(4): 绝对损失函数:  L(Y,f(X)) =  |Y - f(X) |

(5): 对数损失函数:  L(Y,f(X)) =   -log P(Y|X)

 

损失函数值越小模型就越好.故考察损失函数的期望:E p[ L(Y,f(X))] = X*Y L * P(x,y) dxdy 其中P(x,y)是(X,Y)的联合分布概率。学习的目标就是选择期望风险最小的模型。

但是,实际上如果知道联合分布P(X,Y),便可直接求出P(Y|X),也就不需要学习了。故考察平均损失(经验风险):R(f)=   1/N * ∑i=1-N   L(yi,f(xi))

经验最小化认为:经验最小的模型是最优模型,即求解最优化问题 min 1/N * ∑i=1-N   L( yi , f(xi) )

结构最小化认为:结构风险最小化求解最优问题 min 1/N * ∑i=1-N   L( yi , f(xi) )   +λ * J(f) ,

3.算法

算法是指学习模型的具体算法,一般归结于最优化问题.

若最优化问题有显示解析解,则最优化问题较为简单

若最优化问题没有显示解,则需要用数值计算的方法求解。如何保证找到全局最优解(可能会陷入局部最优解即极值),并使得求解过程最高效成为一个重要的问题。

四. 模型评估与模型选择

五. 正则化与交叉验证

六. 泛化能力

七. 生成模型与判别模型

八. 分类问题

九. 标注问题

十. 回归问题

原文地址:https://www.cnblogs.com/Qlearner/p/9414059.html

时间: 2024-10-12 11:58:06

统计学习方法--机器学习概论的相关文章

机器学习-统计学习方法概论

统计学习由监督学习(supervised learning).非监督学习(unsupervised learning).半监督学习(semi-supervised learning)和强化学习(reinforcement learning)组成. 统计学习方法包括模型的假设空间.模型的选择准则以及模型学习的算法,称其为统计学习方法的三要素:模型(model).策略(strategy)和算法(algorithm). 计算机科学由三维组成:系统.计算和信息. 模型属于输入空间到输出空间的映射集合,这

统计学习方法笔记(1)——统计学习方法概论

1.统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习.统计学习是数据驱动的学科.统计学习是一门概率论.统计学.信息论.计算理论.最优化理论及计算机科学等多个领域的交叉学科. 统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去.统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提. 统计学习的目的就是考虑学习什么样的模型和如何学习模型. 统计学习

机器学习-李航-统计学习方法学习笔记之感知机(2)

在机器学习-李航-统计学习方法学习笔记之感知机(1)中我们已经知道感知机的建模和其几何意义.相关推导也做了明确的推导.有了数学建模.我们要对模型进行计算. 感知机学习的目的是求的是一个能将正实例和负实例完全分开的分离超平面.也就是去求感知机模型中的参数w和b.学习策略也就是求解途径就是定义个经验损失函数,并将损失函数极小化.我们这儿采用的学习策略是求所有误分类点到超平面S的总距离.假设超平面s的误分类点集合为M,那么所有误分类点到超平面S的总距离为 显然损失函数L(w,b)是非负的,如果没有误分

统计学习方法概论

统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科.统计学习也称为统计机器学习(statical machine learning). 统计学习的方法是基于数据构建统计模型从而对数据进行预测和分析.统计学习由监督学习.非监督学习.半监督学习和强化学习等组成. 统计学习方法包括假设空间.模型选择的准则.模型学习的算法,这些统称为统计学习方法的三要素:模型(Model).策略(Strategy).算法(Algorithm). 实现统计学习方法的步骤如下:

机器学习-统计学习方法中多项式拟合偏导函数推导

最近在学机器学习,看了Andrew Ng 的公开课,同时学习李航博士的 <统计学习方法>在此记录. 在第十二页有一个关于多项式拟合的问题.此处,作者直接给出了所求的的偏导.这里做一下详细推导. , 此处函数模型的求偏导问题,首先看一下偏导的定义 因为此处是,所以除了Wj 外的Xi,Yi 都可以视作常数.对此求解. 推导后我们会发现所得出的公式与作者给出的答案不同 ,不过作者也给出了更正的勘误 但是我们发现还是和我推导出的答案不同.作者分母下的x上标为j+1,而我推导出的上标为2j,参考作者的勘

统计学习方法 李航---第1章 统计学习方法概论

第一章 统计学习方法概论 统计学习的主要特点是: (1)统计学习以计算机及网络为平台,是建立在计算机及网络之上的; (2)统计学习以数据为研究对象,是数据驱动的学科: (3)统计学习的目的是对数据进行预测与分析: (4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析; (5)统计学习是概率论.统计学.信息论.计算理论.最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论. 统计学习的对象是数据Cdata) 统计学习的目的是对数据进行预铡与分析

1.统计学习方法概论

1.统计学习 统计学习的对象:(1)data : 计算机及互联网上的各种数字.文字.图像.视频.音频数据以及它们的组合.(2)数据的基本假设是同类数据具有一定的统计规律性.统计学习的目的:用于对数据(特别是未知数据) 进行预测和分析.统计学习的方法:(1)分类: 监督学习无监督学习半监督学习强化学习 2.监督学习Instance, feature vector, feature space输入实例x的特征向量: x(i)与xi 不同,后者表示多个输入变量中的第i个 训练集: 输入变量和输出变量:

机器学习概论

机器学习原理.实现与实践——机器学习概论 如果一个系统能够通过执行某个过程改进它的性能,这就是学习. ——— Herbert A. Simon 1. 机器学习是什么 计算机基于数据来构建概率统计模型并运用模型对数据进行预测与分析的一门学科. 从上面的机器学习的定义中,我们可以了解到以下的信息: 机器学习以计算机及网络为平台,是建立在计算机及网络之上的: 机器学习以数据为研究对象. 机器学习计学习的目的是对数据进行预测与分析 机器学习以模型为中心.构建模型.优化模型并用模型来进行预测. 机器学习的

统计学习方法(一)(李航)

统计学习方法概论: (一),统计学习 1,统计学习的特点 2,统计学习的对象 3,统计学习的目的 4,统计学习的方法 (二),监督学习重要概念 1,输入空间,特征向量空间,输出空间 (三),统计学习三要素 1,模型 决策函数模型: 条件概率模型: 2,策略 2.1 损失函数: 2.2 经验风险最小化和结构最小化 如贝叶斯估计的最大后验概率就是一种结构风险最小化的一个例子 3,算法 (四)模型评估选择 1,训练误差和测试误差 2,过拟合 过拟合和欠拟合产生的原因及解决方式: 欠拟合的原因:模型复杂