机器学习可行性分析

机器学习可行性分析(1)

1No free lunch

机器学习不是万能的,机器学习是通过学习样本D,推测样本D之外的其它的情况。如果样本D中存在任何未知的f,使用机器学习是注定失败的。我的理解是样本D中存在一些不是f的关系,机器学习的方法无法保证学到类似f的关系g,所以不能使用机器学习。参考课件中的三个例子

英文描述:

learning from D (to infer something outside D) is doomed if any ‘unknown’ f can happen.

2、如何计算大罐子中橙色弹珠的比例?

这是一个概率统计的问题,通过计算样本的情况,估计总体的情况。

“大”罐子的弹珠的比例不好计算,通过随机抓取样本,计算样本的橙色弹珠的比例。

关于这种统计方法得出的样本结果v,总体的实际情况u,样本数量N,误差

3、罐子理论和机器学习时间的关系

机器学习与上述通过样本计算弹珠比例的十分相似。

对于给定的h,样本D中(N条记录)的错误率 ,样本之外的错误率 ,也存在霍夫不等式的关系:

也就是说

在实际机器学习中,面对多个h可以选择时,随着h的增加,出现错误的概率会增加。假设存在M个h:


所以,当假设空间有限时(M),如果给定样本空间N足够大,发生BAD sample的概率非常大。此时学习是有效的

当假设空间无限大时,下一节讨论。

机器学习可行性研究(2)

1.回顾重要公式

当假设空间H有限,大小为M,样本空间N足够大时,总存在训练错误率。合适的机器学习算法A使得样本空间的训练错误率接近为零时, ,使用样本空间的训练出的g估计样本空间的情况,此时的学习是有效的。

2.假设空间大小HM

根据上面的公式,当M无限大时,机器学习是无效的

主要原因是计算M的时候使用UNION BOUND的方式,这样的上界太宽松了。实际上,由于不同的假设下发生坏是有很多重叠的,其实我们可以得到比M小得多的上界。

3.增长函数(Growth Function:描述假设空间m与样本N的大小的关系

positive rays:

positive intervals:

convex sets:

2D perceptron:   N>3

4.突破点(break point:对于某假设空间H,如果m(k)<2^k,则K是它的突破点,最小的k,称为最小突破点

对于存在突破点的假设空间H,

5.vc bound

根据突破点得到了 的多项式上界,希望对之前的不等式中的M进行替换。然而直接替换是存在问题的,具体的替换方法,严格的证明比较复杂,结果就是著名的vc 界(vc bound)

课件中最后给了一个例子,

,ε=0.1,N=10000,计算BAD events 的VC bound,得到0.298

时间: 2024-11-05 02:31:12

机器学习可行性分析的相关文章

机器学习笔记(四)机器学习可行性分析

从大量数据中抽取出一些样本,例如,从大量弹珠中随机抽取出一些样本,总的样本中橘色弹珠的比例为,抽取出的样本中橘色弹珠的比例为,这两个比例的值相差很大的几率很小,数学公式表示为: 用抽取到的样本作为训练样本集(in-sample),可以求得一个最佳的假设g,该假设最大可能的接近目标函数f,但是在训练样本集之外的其他样本(out-of-sample)中,假设g和目标函数f可能差别很远,不能说抽取样本分布等同于所有样本的分布,只是大致相近. 二者的错误几率相差为: 当数据资料足够多,且模型H集合有有限

机器学习—逻辑回归理论简介

下面是转载的内容,主要是介绍逻辑回归的理论知识,先总结一下自己看完的心得 简单来说线性回归就是直接将特征值和其对应的概率进行相乘得到一个结果,逻辑回归则是这样的结果上加上一个逻辑函数 这里选用的就是Sigmoid函数,在坐标尺度很大的情况下类似于阶跃函数 在确认特征对应的权重值也就是回归系数的时候 最常用的方法是最大似然法,EM参数估计,这个是在一阶导数能够有解的前提下 如果一阶导数无法求得解析值,那么一般选取梯度上升法,通过有限次的迭代过程,结合代价函数更新回归系数至收敛 //////////

【机器学习实战】Machine Learning in Action 代码 视频 项目案例

MachineLearning 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远 Machine Learning in Action (机器学习实战) | ApacheCN(apache中文网) 视频每周更新:如果你觉得有价值,请帮忙点 Star[后续组织学习活动:sklearn + tensorflow] ApacheCN - 学习机器学习群[629470233] 第一部分 分类 1.) 机器学习基础 2.) k-近邻算法 3.) 决策树 4.) 基于概率论的分类方法:朴素

机器学习 一 监督学习和无监督学习的区别

前话: 最近一直想学机器学习的东西,无奈自己的书太多但无法专心看一本,纯理论的东西看了感觉不记下来就忘记类,所以我想理论学习和实践一起. 所以最近想把机器学习实战这本书看完,并做好记录.加油.!~ 一:什么是监督学习? 监督学习(supervised learning):通过已有的训练样本(即已知数据以及其对应的输出)来训练,从而得到一个最优模型,再利用这个模型将所有新的数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的,那么这个最优模型也就具有了对未知数据进行分类的能力.

R语言使用机器学习算法预测股票市场

quantmod 介绍 quantmod 是一个非常强大的金融分析报, 包含数据抓取,清洗,建模等等功能. 1. 获取数据 getSymbols 默认是数据源是yahoo 获取上交所股票为 getSymbols("600030.ss"), 深交所为 getSymbols("000002.sz").  ss表示上交所, sz表示深交所 2. 重命名函数 setSymbolLookup 3. 股息函数 getDividends 4. 除息调整函数 adjustOHLC

一次失败的却又成功的尝试机器学习经历

一遍看书一遍运行着书中提供的代码,我学习到K-NN分类算法.于是晚上找到一串数据进行尝试. 数据来自于网络1401班C语言教学平台里的数据 首先我对数据进行了简单的处理得到以下结果.这里的分类是对学生的期末考试分数(总评分)和省二级分数综合评定的 最后真正被使用的是txt格式的文件 然后使用了python读取TXT文件,用matplotlib库对数据画图 讲道理确实看不出来有什么规律,大概就是做题少的同学最后至少有一次考试不及格. 然后对数据的随堂测试.自由练习次数进行归一化处理,使用kNN模型

深度学习(deeplearing)(5月完成)共三部分 第一部分应用数学与机器学习(5.1-5.10)线性代数

第一章:线性代数: 学习一个新东西,首先要从概念开始,抓住其核心点 机器学习相关问题中,数据集多是以矩阵的形式存在,而模型的参数如W也是以矩阵或向量的形式存在,所以一个模型从数学的角度来说,就是矩阵间的运算,而运算中矩阵相乘的运算又是最常用的运算.本章后半部分讲解了在机器学习中会用到的一些矩阵运算的概念,如范数.行列式. 特征分解.奇异值分解等 一.基本单元:标量.向量.矩阵.张量 二.

TensorFlow【机器学习】:如何正确的掌握Google深度学习框架TensorFlow(第二代分布式机器学习系统)?

本文标签:   机器学习 TensorFlow Google深度学习框架 分布式机器学习 唐源 VGG REST   服务器 自 2015 年底开源到如今更快.更灵活.更方便的 1.0 版本正式发布,由 Google 推出的第二代分布式机器学习系统 TensorFlow一直在为我们带来惊喜,一方面是技术层面持续的迭代演进,从分布式版本.服务框架 TensorFlow Serving.上层封装 TF.Learn 到 Windows 支持.JIT 编译器 XLA.动态计算图框架 Fold 等,以及

机器学习进阶笔记之一 | TensorFlow安装与入门

原文链接:https://zhuanlan.zhihu.com/p/22410917 TensorFlow 是 Google 基于 DistBelief 进行研发的第二代人工智能学习系统,被广泛用于语音识别或图像识别等多项机器深度学习领域.其命名来源于本身的运行原理.Tensor(张量)意味着 N 维数组,Flow(流)意味着基于数据流图的计算,TensorFlow 代表着张量从图象的一端流动到另一端计算过程,是将复杂的数据结构传输至人工智能神经网中进行分析和处理的过程. -- 由 UCloud