AI - 过拟合 overfitting

Reference

  1. How to prevent the overfitting
  2. What is the overfitting

Overfitting definition

  1. Diagram

    1.   

The reason of the overfiting

  1. The data is limited
  2. Model is too complicated

How to avoid the overfitting

    1. Argument data
      1. Increase the data during the training
      2. Argument the data
        1. For example: 在物体分类(object recognition)问题中,数据扩增已经成为一项特殊的有效的技术。物体在图像中的位置、姿态、尺度,整体图片敏感度等都不会影响分类结果,所以我们就可以通过图像平移、翻转、缩放、切割等手段将数据库成倍扩充。或者在语音识别(speech recognition)中,加入噪音也被看做是一种数据扩增方式。
    2. Enhance the model
      1. 奥卡姆剃刀原则,鼓励简单模型。(过拟合的模型往往是复杂的)

    1. Dropout: 就是让神经网络在前向传播的时候,让某个神经元的激活值以一定的概率P,让他停止工作,也就是将这个神经元的激活值变为0。Dropout是非常有效的减少过拟合的方法,通俗的讲当我们挡住了数据的一部分,模型仍然能判断出数据是什么的话,说明模型的能力已经很强。同时挡住了一部分特征,能让模型不依赖于数据的某些局部特征,因为他可能已经被罢工了。

    2. Early stopping
      1. 如下图所示,在对模型训练的时候,模型在训练集上的训练误差(training error)随着时间会一直减少,然而模型在验证集上的验证误差会减少到一定程度后逐步上升,形成一个非对称的U型曲线。对模型进行训练的过程即是对模型的参数进行更新的过程,参数更新会用到一些优化算法,为了能够得到最低测试误差时的参数,Early Stopping的做法就是运行优化方法直到若干次在验证集上的验证误差没有提升时候停止。

    3. 正则化 regularization
      1. 正则化(regularization)

        损失函数分为经验风险损失函数和结构风险损失函数,结构风险损失函数就是经验损失函数+表示模型复杂度的正则化,正则项通常选择L1或者L2正则化。结构风险损失函数能够有效地防止过拟合。

        L1正则化是指权值向量中各个元素的绝对值之和,通常表示为,L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择,一定程度上,L1也可以反之过拟合  L2化是指权值向量中各个元素的平方和的平方,通常表示为,L2正则化可以防止模型过拟合 那L1和L2正则化是如何防止过拟合呢?首先我们先明白稀疏参数和更小参数的好处。

        稀疏参数(L1):参数的稀疏,在一定程度实现了特征的选择。稀疏矩阵指有很多元素为0,少数参数为非零值。一般而言,只有少部分特征对模型有贡献,大部分特征对模型没有贡献或者贡献很小,稀疏参数的引入,使得一些特征对应的参数是0,所以就可以剔除可以将那些没有用的特征,从而实现特征选择。

        更小参数(L2):越复杂的模型,越是尝试对所有样本进行拟合,那么就会造成在较小的区间中产生较大的波动,这个较大的波动反映出在这个区间内的导数就越大。只有越大的参数才可能产生较大的导数。试想一下,参数大的模型,数据只要偏移一点点,就会对结果造成很大的影响,但是如果参数比较小,数据的偏移对结果的影响力就不会有什么影响,那么模型也就能够适应不同的数据集,也就是泛化能力强,所以一定程度上避免过拟合。2.2  正则化(regularization)

        假设带有L1正则化的损失函数为:,当我们在后添加L1正则化项时,相当于对做了一个约束。此时我们的任务就变成在L1正则化约束下求出取最小值的解。考虑二维的情况,在有两个权值和的情况下,此时L1为,对于梯度下降方法,求解的过程用等值线表示,如下图所示。黑色方形是L1正则化的图形,五彩斑斓的等值线是的等值线。在图中,等值线与黑色方形首次相交的地方就是最优解。因为黑色方形棱角分明(二维情况下四个,多维情况下更多),与这些棱角接触的几率要远大于其他部位接触的概率,而在这些棱角上,会有很多权值为0,这就是为什么L1正则化可以产生稀疏模型,进而可以用于特征选择。

        L1正则化

        假设带有L2正则化的损失函数为:,类似地,可以得到下图在二维平面上的图形。因为二维L2正则化函数是个圆,与L1的方形相比,圆滑了好多,因此和L2相交于棱角的几率比较小,而是更多权值取值更小。

        1.   
    4. 集成学习:简而言之,训练多个模型,以每个模型的平均输出作为结果。

原文地址:https://www.cnblogs.com/yousoluck/p/11719432.html

时间: 2024-08-13 13:06:01

AI - 过拟合 overfitting的相关文章

tensorflow学习4-过拟合-over-fitting

过拟合: 真实的应用中,并不是让模型尽量模拟训练数据的行为,而是希望训练数据对未知做出判断. 模型过于复杂后,模型会积极每一个噪声的部分,而不是学习数据中的通用 趋势.当一个模型的参数比训练数据还要多的时候,这个模型就可以记忆这个所以训练数据的结果,而使损失函数为0. 避免过拟合的常用方法:正则化.在损失函数中加入刻画模型复杂程度的指标.损失函数: J(θ) 引入正则化损失:J(θ)+λR(ω) λ代表模型复杂损失在总损失的比列,R(ω)刻画的是模型的复杂程度. 模型的复杂程度由权重决定,一般.

23-过犹不及:正则化方法防止过度拟合

有时我想:如果我能复制好几份,每个自己都活在不同的平行宇宙多好.人都有永恒不朽的愿望,也有尽善尽美的追求.我们的征途是星辰大海,然而现实中常在泥潭里打滚--想起了一个笑话:Arguing with an Engineer is a lot like wrestling in the mud with a pig, after a couple of hours your realize the pig likes it.很好的自我写照.现实让人焦头烂额,但一味地苛求自己并不是办法,往往还会事倍功

1. 欠拟合与过拟合概念

欠拟合与过拟合概念 欠拟合与过拟合概念 图3-1 欠拟合与过拟合概念演示 通常,你选择让交给学习算法处理的特征的方式对算法的工作过程有很大影响.如图3-1中左图所示,采用了y = θ0 + θ1x的假设来建立模型,我们发现较少的特征并不能很好的拟合数据,这种情况称之为欠拟合(underfitting).而如果我们采用了y = θ0 + θ1x+ θ2x2的假设来建立模型,发现能够非常好的拟合数据(如中图所示):此外,如果我们采用了y = θ0 + θ1x+ θ2x2+ θ3x3 + θ4x4 +

AI - MLCC06 - 训练集和测试集 (Training and Test Sets)

原文链接:https://developers.google.com/machine-learning/crash-course/training-and-test-sets 1- 拆分数据 可将单个数据集拆分为一个训练集和一个测试集. 训练集 - 用于训练模型的子集. 测试集 - 用于测试训练后模型的子集. 训练集的规模越大,模型的学习效果越好.测试集规模越大,对于评估指标的信心越充足,置信区间就越窄.在创建一个能够很好地泛化到新数据模型的过程中,测试集充当了新数据的代理. 拆分数据的一些注意

AI - MLCC07 - 验证 (Validation)

原文链接:https://developers.google.com/machine-learning/crash-course/validation/ 1- 检查您的直觉 将一个数据集划分为训练集和测试集.借助这种划分,可以对一个样本集进行训练,然后使用不同的样本集测试模型.工作流程如下: 在"调整模型"阶段,可以调整学习速率.添加或移除特征,到从头开始设计全新模型.可以看到使用测试集和训练集来推动模型开发迭代,在每次迭代时,都会对训练数据进行训练并评估测试数据,并以基于测试数据的评

机器学习之欠拟合和过拟合(一)

1.欠拟合(underfitting)与过拟合(overfitting) 在机器学习中,我们的主要思想是通过对数据集的学习来生成我们的假设模型.在对数据集进行拟合的过程中,我们可能会遇到欠拟合和过拟合的问题.以身高预测的例子为例,这里给出7-18岁男生的身高标准(数据来源:7 岁-18 岁儿童青少年身高发育等级评价),如图1: 将中位数随年龄的变化绘制成散点图,如图2: 由图2中的散点可知,先开始身高随年龄几乎成一条直线关系,后来增长率逐渐下降.如果我们采用线性函数取拟合,这显然是不合理的(线性

人工智能在近年来智能医疗上的研究问题整理

人工智能在近年来智能医疗上的研究问题整理 智能医疗的现状是什么?为什么还没有太大突破? 现状:在美國,医疗系統近年來最关注的是成本.效率.和政策(比如ObamaCare) 問題.智能的话题大都在边缘领域造声势,至今并未全面和直接改变大医院系统的操作运行.但是今年的RSNA(北美放射年会)的开门主题是智能化.所以这个话題还会执续升温.但是请记住:任何智能系統必須与"降成本,提效率,順政策"挂上钩,才能有希望达到快速的成功. 人工智能在近几年很多行业应用中有了很大的突破, 同以往相比,突破

人工智能中卷积神经网络基本原理综述

人工智能Artificial Intelligence中卷积神经网络Convolutional Neural Network基本原理综述 人工智能(Artificial Intelligence,简称AI)的Deep Learning(深度学习)通过机器学习,把某一层的输出output当做下一层的输入input.在人工智能中,认为output是机器通过深度学习获得的某种"智慧".深度学习(Deep Learning)通过神经网络把海量数据分组,然后形成组合分层结果,这样就形成了神经网络

数据挖掘-决策树 Decision tree

数据挖掘-决策树 Decision tree 目录 数据挖掘-决策树 Decision tree 1. 决策树概述 1.1 决策树介绍 1.1.1 决策树定义 1.1.2 本质 1.1.3 决策树的组成 1.1.4 决策树的分类 1.1.5 决策过程 1.2 决策树的优化 1.2.1 过拟合 1.3.1 剪枝 2. 理论基础 2.1 香农理论 2.1.1 信息量 2.1.2 平均信息量/信息熵 2.1.3 条件熵 2.1.4 信息增益(Information gain) 2.1.5 信息增益率