003 机器学习中的基础知识

　　有些知识还是记录下来比较容易复习。

　　懂原理，会使用平台，使用语言实现常见算法。

1.大纲

　　机器学习的基本概念

　　机器学习的实质

　　机器学习方法的三要素

　　经验风险与结构风险

　　常见损失函数

一：基本概念

1.机器学习的方法流程

　　用监督学习为例

　　首先，有一个输入数据，然后根据这个输入数据做一些特征的加工和整理，基于特征进行模型的训练，去建模，然后做模型评估，得到一个可以接受的模型，然后对模型就行部署，使用模型对业务进行应用。

　　定期更新模型，对模型生命周期进行维护。

2.输入空间与输出空间

　　输入空间（input space）：将输入的所有可能取值的集合称作输入空间

　　输出空间（output space）：将输出的所有可能取值的集合作为输出空间

　　输入空间与输出空间可以是有限元素的集合，也可以是欧式空间

　　输出空间与输出空间可以是连续值的集合，也可以是离散集合

　　输入空间与输出空间可以是同一个空间

　　通常，输出空间比输入空间小

3.特征空间

　　特征：每个输入实例的各个部分称为原始特征，基于特征还可以扩展出衍生特征

　　特征向量：多个特征组合的集合

　　特征空间：将特征向量存在的空间称为特征空间

　　特征空间每一维都对应一个特性

　　特征空间可以与输入空间相同，也可以不同

　　需要将实例从输入空间映射到特征空间

　　模型实际上是定义特征空间之上的

4.输入空间与特征空间

　　需要将实例从输入空间映射到特征空间

　　模型实际上是定义特征空间之上的

5.假设空间

　　由输入空间到输出空间的映射的集合。

　　监督学习的目的在于学习一个由输入到输出的映射，这一映射由模型来表示。学习的目的就是找到最好的这样的模型。

　　模型属于输入空间到输出空间的映射集合，这个结合就是假设空间

　　举例：

二：机器学习方法的三要素

1.三要素

　　方法=模型+策略+算法

　　模型：输入空间到输出空间的映射关系，学习过程就是从假设空间中搜索适合当前数据的假设

　　策略：从假设空间众多的假设中选择最优模型的学习标准或者规则

　　算法：学习模型的具体计算方法，通常所以求解最优化问题

　　模型：确定学习范围

　　策略：确定学习规则

　　算法：按照规则在范围内学习

2.模型

　　分析当前需要解决的问题，确定模型。

3.策略

　　从假设空间众多假设中选择到最优的模型的学习标准或者规则

　　选择时，需要解决以下的问题：

　　评估对单个样本的效果

　　评估对训练集的整体效果

　　评估对包括训练集预测集在内的所有数据的整体效果

　　定义几个指标来衡量：

　　损失函数：0-1损失函数

　　风险函数：经验风险，期望风险，结构风险

　　策略：

　　经验风险最小EMR

　　结构风险最小SRM

4.损失函数

　　用来衡量预测结果与真实结果之间的差距，值越小，越一致

　　通常是一个非负实值函数

　　通过各种方式缩小损失函数的过程被称为优化，损失函数记做L（Y,f(x)）

　　常见：

　　0-1损失函数：预测值与实际值相同是没有损失为0，否是是完全损失，为1。过于严格，一般采用两者的差小于某个阈值的方式。

　　绝对值损失函数：预测结果与真实结果差的绝对值，简单易懂，但是计算不方便

　　平方损失函数：预测结果与真实结果差的平方。

　　　　优势：

　　　　　　每个差值都是正的，累加不会被抵消

　　　　　　平方对于大误差的惩罚大于小误差

　　　　　　数据计算简单，友好，导数为一次函数

　　对数损失函数：对数函数具有单调性，在求最优化问题时，结果与原始目标一致，可以将乘法转化为加法，简化计算

　　指数损失函数：单调性，非负性优良性质，使得越接近正确结果，误差越小

　　折叶损失函数：也叫铰链损失，对于判定边界附近的点的惩罚力度较高，常见于SVM。

　　使用场景：

　　0-1：理想状况模型

　　log：逻辑回归，交叉熵

　　squared：线性回归

　　exponential：AdaBoosting

　　Hinge：SVM，soft margin

5.经验风险与风险函数

　　经验风险：损失函数度量了单个样本的预测结果，想要很亮整个训练集的预测值与真实值的差异，将整个训练集所有记录均进行一次预测，求损失函数，将所有的值累加，即为经验风险。

　　　　经验风险越小，说明模型对训练集的拟合度越好。

　　风险函数：又要期望损失，期望风险。所有的数据集的损失函数的期望。

　　经验风险与期望风险：

　　　　期望风险是对全局的效果，经验风险对局部的效果

　　　　期望风险往往无法计算，经验风险可以计算

　　　　当训练集足够大时，经验风险可以替代期望风险

6.经验风险的的问题

　　在样本比较小时，仅关注经验风险，容易导致过拟合

7.结构风险

　　在经验风险的基础上，我们继续解决。

　　在经验风险的基础上，增加一个正则化项（Regularizer）或者为惩罚项（Penalty Term）。

　　结构风险与经验风险：

　　经验风险越小，模型决策函数越复杂，包含的参数越多

　　当经验风险函数小到一定程度就出现过拟合

　　防止过拟合的方式，就是降低决策函数的复杂度，让惩罚项最小化

　　需要同时保证经验风险函数与模型决策函数的复杂度都达到最小化

　　把两个式子融合得到结构风险函数，然后对这个结构风险函数进行最小化

8.范数

原文地址：https://www.cnblogs.com/juncaoit/p/10387272.html

时间： 2024-10-20 01:00:13

003 机器学习中的基础知识的相关文章

机器学习中的基础知识（入门上篇）

前面我们已经给大家讲述了很多有关机器学习的概念,这些概念都是十分重要的,我们如果要学习人工智能的话就需要重视这些知识.在这篇文章我们接着给大家介绍机器学习中的基础知识,希望这篇文章能够给大家带来帮助. (1)正则化就是对模型复杂度的惩罚.正则化帮助防止过拟合.正则化包括不同种类:L1 正则化.L2 正则化.dropout正则化. (2)正则化率就是一种标量级,用lambda来表示,指正则函数的相对重要性. (3)表征就是将数据映射到有用特征的过程. (4)根目录就是指定放置 TensorFlow

机器学习中的基础知识（深入上篇）

机器学习的知识有很多,我们在前面的文章中讲述的都是相对比较简单的知识,想必那些已经让大家头疼不已吧?在这篇文章中我们给大家介绍一下机器学习中深层次的知识.大家跟着小编学起来吧. (1)层就是神经网络中的神经元序列,可以处理输入特征序列或神经元的输出.也是 TensorFlow 的一种抽象化概念.层是将张量和配置选项作为输入.输出其他张量的 Python 函数.一旦必要的张量出现,用户就可以通过模型函数将结果转换成估计器. (2)学习率就是通过梯度下降训练模型时使用的一个标量.每次迭代中,梯度下降

活到老学到老：iOS开发中的基础知识（一）

本文参考标哥的博客:宝库iOS开发笔试题进行学习整理.与其说是看面试题,不如说是对自己知识的巩固.工欲善其事必先利其器,基础知识不牢固可能会导致编程中的一些注意不到的问题.总之一句话:活到老,学到老. 1.数组中的元素去重问题. //重复元素 NSArray *array = [NSArray arrayWithObjects:@"1",@"2",@"3",@"4",@"5",@"1"

机器学习中有关概率论知识的小结

一.引言最近写了许多关于机器学习的学习笔记,里面经常涉及概率论的知识,这里对所有概率论知识做一个总结和复习,方便自己查阅,与广大博友共享,所谓磨刀不误砍柴工,希望博友们在这篇博文的帮助下,阅读机器学习的相关文献时能够更加得心应手!这里只对本人觉得经常用到的概率论知识点做一次小结,主要是基本概念,因为机器学习中涉及概率论的地方,往往知道基本概念就不难理解,后面会不定期更新,希望博友们多留言补充. 二.贝叶斯(Bayes)公式通常把事件 A 的概率 P(A)叫做实验前的假设概率,即先验概率(pr

机器学习－－基础知识复习（模式识别，成本函数）

由于时间原因,今天主要复习下machine learning课程的前三节,简单记录自己的理解. 1.模式表达(Model representation) 其实就是指通过一定的范例数据学习追踪生成一个函数的表达形式.然后通过矩阵得到整个运算过程. 模型表达就是给出输入和输出之间的函数关系式,当然这个函数是有前提假设的,里面可以含有参数. 比如下图,我们有一个房子的大小size,卧室数目(bedrooms)然后得到房屋价格(price),通过这三个常数就可计算一个输入和输出的函数关系. hprice

javascript中DOM基础知识介绍

1.1. 基本概念 1.1.1. DOM DOM Document Object Model 文档对象模型就是把HTML文档模型化,当作对象来处理 DOM提供的一系列属性和方法可以视作一个工具箱,极大地方便了我们对文档的处理. 1.1.2. 内容概念文档(Document):就是指HTML或者XML文件节点(Node):HTML文档中的所有内容都可以称之为节点,常见的节点有元素节点属性节点文本节点注释节点元素(Element):HTML文档中的标签可以

css中的基础知识

1.了解什么是块元素什么是行内元素. 块级元素可以设置width,height属性. 行内元素设置width,height属性无效. 块级元素即使设置了宽度,仍然是独占一行. 块级元素可以设置margin和padding属性. 行内元素的margin和padding属性,水平方向的padding-left,padding-right,margin-left,margin-right都产生边距效果,但竖直方向的padding-top,padding-bottom,margin-top

Oracle中DML基础知识

DML(insert,update,delete) 1.插入数据insert into 表名(列,列...)values(值,值...)//当插入的数据与表格一一对应时,列可以省略insert into 表名 values(值,值...) 例如:--给tbl_user表中添加一条记录insert into tbl_user values (22,'刘强东','123456'); 2.更新数据update 表名 set 列=新值 where 条件: 例如:--修改tbl_user表中第二行记录的用

黑马程序员_java基础知识精华总结

本文总结了JAVA中的基础知识部分,具体包括:1.对象的初始化:2.2.继承时,对象的初始化过程:3.关于构造方法:4.有关public.private和protected:5.抽象类:6.final关键字:7.接口interface:8.多重继承:9.接口的嵌入:10.类的嵌入:11.异常类. 1.对象的初始化 (1)非静态对象的初始化在创建对象时,对象所在类的所有数据成员会首先进行初始化.基本类型:int型,初始化为0.如果为对象:这些对象会按顺序初始化.※在所有类成员初始化完成之后,才调用