机器学习基本问题

如何解决过拟合问题

过拟合:为了得到一致假设而使假设变得过度复杂称为过拟合。

过拟合的产生原因: 
1)由于对样本数据,可能存在隐单元的表示不唯一,即产生的分类的决策面不唯一。

2)权值学习迭代次数足够多,拟合了训练数据中的噪声和训练样例中没有代表性的特征。

过度拟合解决方法: 
1)权值衰减。

2)适当的停止准则。

3)增加数据

4)减少特征 

5)交叉验证。

6)正则化

7)dropout

交叉验证

  交叉验证的基本思想是把在某种意义下将原始数据进行分组,一部分做为训练集,另一部分做为验证集,首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,以此来做为评价分类器的性能指标。

常见的交叉验证形式:

1)K-fold cross-validation 
K折交叉验证,初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10折交叉验证是最常用的。
2)Holdout 验证 
常识来说,Holdout 验证并非一种交叉验证,因为数据并没有交叉使用。 随机从最初的样本中选出部分,形成交叉验证数据,而剩余的就当做训练数据。 一般来说,少于原本样本三分之一的数据被选做验证数据。 
3)留一验证 :相当于Holdone验证
正如名称所建议, 留一验证(LOOCV)意指只使用原本样本中的一项来当做验证资料, 而剩余的则留下来当做训练资料。 这个步骤一直持续到每个样本都被当做一次验证资料。 事实上,这等同于和K-fold 交叉验证是一样的,其中K为原本样本个数。 在某些情况下是存在有效率的演算法,如使用kernel regression 和Tikhonov regularization。

L1和L2的区别L1与L2区别:

使用L1可以得到稀疏的权值;用L2可以得到平滑的权值。

实际上L1也是一种妥协的做法,要获得真正sparse的模型,要用L0正则化。

L1范数可以使权值稀疏,是指向量中各个元素绝对值之和,用于特征选择;

L2范数是指向量各元素的平方和然后求平方根,用于防止过拟合,提升模型的泛化能力。

生成模型和判别模型的区别

生成模型:由数据学习联合概率密度分布P(X,Y),求出条件概率分布P(Y|X)作为预测的模型,即生成模型P(Y|X)=P(X,Y)/P(X),再利用它分类。 
判别模型:由数据直接学习决策函数y=f(x)或者条件概率分布P(Y|X)作为预测的模型。基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。 
典型的判别模型包括K近邻、感知机、决策树、支持向量机等。 
由生成模型可以得到判别模型,但由判别模型得不到生成模型。生成模型学习联合概率分布P(X,Y),而判别模型学习条件概率分布P(Y|X)。

时间: 2024-10-25 15:06:37

机器学习基本问题的相关文章

机器学习--基本问题定义,任务确定和概念理解

机器学习从本质上是一个多学科的领域.它吸取了人工智能.概率统计.计算复杂性理论.控制论.信息论.哲学.生理学.神经生物学等学科的成功.机器学习,是计算机程序通过经验来提高某任务处理性能的行为. 更准确的定义: 定义:如果一个计算机程序针对某类任务T的用P衡量的性能根据经验E来自我完善.那么我们称这个计算机程序在从经验E中学习,针对某类任务T,它的性能用P来衡量. 通常,为了很好的定义一个学习问题,我们最后明确三个特征: 任务的种类,衡量任务提高的标准,经验的来源. 例如: 手写识别学习问题: 任

【文智背后的奥秘】系列篇——情感分类

版权声明:本文由文智原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/92 来源:腾云阁 https://www.qcloud.com/community 情感分类是对带有感情色彩的主观性文本进行分析.推理的过程,即分析对说话人的态度,倾向正面,还是反面.它与传统的文本主题分类又不相同,传统主题分类是分析文本讨论的客观内容,而情感分类是要从文本中得到它是否支持某种观点的信息.比如,"日媒:认为歼-31能够抗衡F-35,这种

机器学习基本概念和模型训练基本问题

分类与回归的区别 二叉树 二叉树很容易理解,在这里我们一般用满二叉树:就是非叶子节点都有2个分支的树形数据结构 决策树分类 决策树最初是用来做决策用的,就好像下面的见不见相亲对象的决策过程一样: 如果把最后的决策结果看成是分类,那么决策树就可以用来分类了,例如,下面的例子就是把相亲对象分为见和不见两种. 下面通过一个例子来区分这些概念 特征,正负样本,训练集(数据),验证集(数据),预测集(数据) 我们的数据集是一百个点,如下图所示,是二维平面的100个点,这个就是我们总的数据集(全集),这些数

利用机器学习算法寻找网页的缩略图

博客中的文章均为meelo原创,请务必以链接形式注明本文地址 描述一个网页 现在的世界处于一个信息爆炸的时代.微信.微博.新闻网站,每天人们在大海捞针的信息海洋里挑选自己感兴趣的信息.我们是如何判断哪条信息可能会感兴趣?回想一下,你会发现是标题.摘要和缩略图.通过标题.摘要和缩略图,就能够很好地猜测到网页的内容.打开百度搜索引擎,随便搜索一个关键字,每一条搜索结果也正是这三要素构成的. 那么一个自然的问题是搜索引擎是如何找到网页的标题.摘要和缩略图的呢. 寻找网页的标题其实是一个非常简单的问题.

七月算法-12月机器学习在线班--第十七次课笔记-隐马尔科夫模型HMM

七月算法-12月机器学习--第十七次课笔记-隐马尔科夫模型HMM 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 隐马尔科夫模型 三个部分:概率计算,参数估计,模型预测 1,HMM定义 HMM由初始概率分布π.状态转移概率分布A以及观测概率分布B确定. Eg:以中文分词为例子 隐状态为="2",是不是终止字,是/否?(Y/N)即是不是最后一个字. A矩阵:第一个:当前是终止字,下一个也是终止字的概率 B是当前的隐状态是终止词,

机器学习定义及常用算法

转载自:http://www.cnblogs.com/shishanyuan/p/4747761.html?utm_source=tuicool 1 . 机器学习概念 1.1   机器学习的定义 在维基百科上对机器学习提出以下几种定义: l “ 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能 ” . l “ 机器学习是对能通过经验自动改进的计算机算法的研究 ” . l “ 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准. ” 一

Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介

[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”. l“机器学习是对能通过经验自动改进的计算机算法的研究”. l“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准.” 一种经常引用的英文定义是:A computer program is said

龙星计划机器学习笔记

前言 最近几周花了点时间学习了下今年暑假龙星计划的机器学习课程,具体的课程资料参考见附录.本课程选讲了写ML中的基本模型,同时还介绍了最近几年比较热门,比较新的算法,另外也将ML理论和实际问题结合了起来,比如将其应用在视觉上,web上的等.总之,虽然课程内容讲得不是特别细(毕竟只有那么几节课),但是内容还算比较新和比较全的.学完这些课后,收获还算不少的,至少了解到了自己哪方面的知识比较弱,下面是课程中做的一些简单笔记. 第1课  绪论课 机器学习中3个比不可少的元素,数据,模型和算法.现在数据来

机器学习的一些常用算法

下面是些泛泛的基础知识,但是真正搞机器学习的话,还是非常有用.像推荐系统.DSP等目前项目上机器学习的应用的关键,我认为数据处理非常非常重要,因为很多情况下,机器学习的算法是有前提条件的,对数据是有要求的. 机器学习强调三个关键词:算法.经验.性能,其处理过程如下图所示. 上图表明机器学习是数据通过算法构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就要调整算法来重新建立模型,再次进行评估,如此循环往复,最终获得满意的经验来处理其他的数据. 1.2