机器学习升级版(VII)——第1课 机器学习与数学分析

参考:邹博 《机器学习升级版》

1. 机器学习概论

  • 1. 什么是机器学习

    • 定义:对于某给定的任务T,在合理的性能度量方案P的前提下,某计算机程序可以自主学习任务T经验E;随着提供合适、优质、大量的经验E,该程序对于任务T性能逐步提高。——by Tom Michael Mitchell
    • 通俗理解:机器学习是人工智能的一个分支。我们使用计算机设计一个系统 ,使它能够根据提供的训练数据按照一定的方式来学习 ;随着训练次数的增加,该系统可以在性能上不断学习和改进;通过参数优化的学习模型,能够用于预测相关问题的输出。——by 邹博
    • 机器学习的对象(最重要)
      • 任务 Task,T ,一个或者多个
      • 经验 Experience,E
      • 性能 Performance,P
    • 结论:随着任务的不断执行,经验的累积会带来计算机性能的提升。  
  • 2. 机器学习的内涵与外延

    • 学习方式:

      • 有监督学习
      • 无监督学习
      • 增强学习
    • 可以解决:
      • 数据清洗/特征选择
      • 确定算法模型/参数优化
      • 结果预测
    • 不可以解决:

      • 大数据存储/并行计算
      • 做一个机器人
  • 3. 机器学习的一般流程

    • 数据挖掘 / 机器学习的流程与西红柿炒鸡蛋
  • 4.机器学习方法

2. 数学分析基础

  • 1.问题分析

  • 2.构造数列{xn}

  • 3.自然常数 

  • 4.导数

  • 5.常用函数的导数

  • 6.应用1

  • 7.求解 xx

  •  8.积分应用2:

  •  9.Taylor公式–Maclaurin公式

  •  10.Taylor公式的应用1:计算ex

  •  11.Taylor公式的应用2

  •  12.方向导数

  •  13.梯度

  •  14.Γ函数 :

  • 15.凸函数

  • 16.一阶可微

  • 17.二阶可微

  • 18.凸函数举例

3. 术语摘录

  • 频数:也称“次数”,对总数据按某种标准进行分组,统计出各个组内含个体的个数。我们把各个类别及其相应的频数全部列出来就是“频数分布”或称“次数分布”。

    • Count(X)
  • 凝固程度:
    • X = A.B
    • P(A)P(B) vs P(X)
  • 自由程度
    • aXb
    • 信息熵 H(a) 、 H(b)
  • 熵:热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量。
  • 最大熵模型 :给定一个概率分布,则熵的定义为:Hp=−p(x)logp(x)
    • 自然语言处理解决标记问题
  • 线性回归:线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w‘x+e,e为误差服从均值为0的正态分布。
  • 正态分布:正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)。
    • 正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。图像如下所示:

  • 标准正态分布:若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
  • EM算法:指的是最大期望算法(Expectation Maximization Algorithm,又译期望最大化算法),是一种迭代算法,在统计学中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。
  • GMM :高斯混合模型,也可以简写为MOG。
  • 高斯模型:就是用高斯概率密度函数精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数形成的模型。
  • 卷积:简单定义:卷积是分析数学中一种重要的运算。
    • 设:f(x),g(x)是R1上的两个可积函数,作积分:
    • 可以证明,关于几乎所有的实数x,上述积分是存在的。这样,随着x的不同取值,这个积分就定义了一个新函数h(x),称为函数f与g的卷积,记为h(x)=(f*g)(x)。
    • 卷积与傅里叶变换有着密切的关系。利用一点性质,即两函数的傅里叶变换的乘积等于它们卷积后的傅里叶变换,能使傅里叶分析中许多问题的处理得到简化。
  • 正则化:由卷积得到的函数f*g一般要比f和g都光滑。特别当g为具有紧致集的光滑函数,f为局部可积时,它们的卷积f * g也是光滑函数。利用这一性质,对于任意的可积函数f,都可以简单地构造出一列逼近于f的光滑函数列fs,这种方法称为函数的光滑化或正则化。
    • 训练方法:

      • 梯度下降法:

      • 牛顿法:
  • ICA : ICA是20世纪90年代提出的,起初是神经网络的研究中有一个重要的问题,独立成分分析是一个解决问题的新方法。在许多应用方面,包括特征识别、信号分离。这种方法是用一种解线性方程组的方式的估计方式求解信号源。
  • SVM:SVM(Support Vector Machine)指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。
    • 与核技术相结合
  • HMM : 隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。
  • 马尔可夫过程:马尔可夫过程(Markov process)是一类随机过程。它的原始模型马尔可夫链,由俄国数学家A.A.马尔可夫于1907年提出。马尔可夫过程是研究离散事件动态系统状态空间的重要方法,它的数学基础是随机过程理论。
  • LDA : 是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。
  • 生成模型:就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
  • 舆情:是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。
  • 聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。
    • K-means/K-Mediods/密度聚类/谱聚类
  • K-means:K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
  • K-Mediods:K-mediods算法就是基于划分方法的一种聚类算法,确切的说,是对K-means算法的一种改进算法。
  • 降维:通过单幅图像数据的高维化,将单幅图像转化为高维空间中的数据集合,对其进行非线性降维。寻求其高维数据流形本征结构的一维表示向量,将其作为图像数据的特征表达向量。
    • PCA/SVD/ICA
  • PCA : PCA(principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据压缩算法。在PCA中,数据从原来的坐标系转换到新的坐标系,由数据本身决定。转换坐标系时,以方差最大的方向作为坐标轴方向,因为数据的最大方差给出了数据的最重要的信息。第一个新坐标轴选择的是原始数据中方差最大的方法,第二个新坐标轴选择的是与第一个新坐标轴正交且方差次大的方向。重复该过程,重复次数为原始数据的特征维数。
  • SVD:奇异值分解(Singular Value Decomposition)是线性代数中一种重要的矩阵分解,是矩阵分析中正规矩酉对角化的推广。在信号处理、统计学等领域有重要应用。
  • 主题模型pLSA/LDA:主题模型(Topic Model)是用来在一系列文档中发现抽象主题的一种统计模型。
    • 与聚类、标签传递算法相结合
  • 标签传递算法:标签传播(LPA)算法是最早的基于标签的一种算法,是所有基于标签的算法的基础。标签传播算法最大的特色是简单、高效,缺点是每次迭代结果不稳定,准确率不高。
  • 条件随机场
    • 无向图模型,链式条件随机场解决标记问题
  • 变分推导Variation Inference
    • 与EM、贝叶斯相结合,参数、隐变量的学习
  • 深度学习
    • 大规模神经网络

原文地址:https://www.cnblogs.com/lxr1995/p/9160513.html

时间: 2024-08-29 17:12:22

机器学习升级版(VII)——第1课 机器学习与数学分析的相关文章

机器学习升级版(VII)——第2课 概率论与贝叶斯先验

摘录自:邹博<机器学习升级版>课件 1. 概率论基础 1.初步认识 2.古典概型 3.生日悖论 生日悖论(Birthday paradox)是指,如果一个房间里有23个或23个以上的人,那么至少有两个人的生日相同的概率要大于50%.这就意味着在一个典型的标准小学班级(30人)中,存在两人生日相同的可能性更高.对于60或者更多的人,这种概率要大于99%.从引起逻辑矛盾的角度来说生日悖论并不是一种悖论,从这个数学事实与一般直觉相抵触的意义上,它才称得上是一个悖论.大多数人会认为,23人中有2人生日

机器学习升级版第七期

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

七月算法12月机器学习在线班---第二十次课笔记---深度学习--RNN

七月算法12月机器学习在线班---第二十次课笔记---深度学习--RNN 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 循环神经网络 复习之前的知识点: 全连接前向网络: 学习出来的是函数 卷积网络:卷积操作,部分链接,共享操作,逐层提取原始图像的特征(语音,NLP) 学习出来的特征 局部相关性 浅层宽网络很难做成神经网络 ? 1.1状态和模型 1, ID数据 ·分类问题 ·回归问题 ·特征表达 2, 大部分数据都不满足ID ·大部分

【机器学习快讯】20150124第一篇机器学习快讯

快讯动机 现在每天真的是变化太快,太多的资讯信息铺天盖地而来,要想把每天遇到的大量的优质资讯信息进行学习吸收又非常的困难,所以特此做一个机器学习快讯专题,把平日遇到的优质文章整理罗列出来,等有时间或者遇到类似的问题的时候再看也是有益处的. 机器学习技术 12个用好朴素贝叶斯算法的小提示 使用随机森林:Use Random Forest: Testing 179 Classifiers on 121 Datasets在很多场景下,可以先用随机森林或高斯SVM试试,因为它们在121个数据集上的179

斯坦福机器学习公开课学习笔记(1)—机器学习的动机与应用

(转载请注明出处:http://blog.csdn.net/buptgshengod) 1.背景 斯坦福机器学习公开课差不多是网上能找到的最好的机器学习入门课程了.现在一共有20节课放到网络上,博主是在网易公开课学的,那里的视频有中文字幕然后课件也很全. (地址:http://v.163.com/special/opencourse/machinelearning.html) 主讲师Andrew Ng(已经被百度诏安了)是华裔科学家,看他的课特别有亲切感.感觉他们的课跟国内老师的课区别还是挺大的

推荐文章:机器学习:“一文读懂机器学习,大数据/自然语言处理/算法全有了

PS:文章主要转载自CSDN大神"黑夜路人"的文章:          http://blog.csdn.NET/heiyeshuwu/article/details/43483655      本文主要对机器学习进行科普,包括机器学习的定义.范围.方法,包括机器学习的研究领域:模式识别.计算机视觉.语音识别.自然语言处理.统计学习和数据挖掘.这是一篇非常好的文章,尤其感学原文作者~          http://www.thebigdata.cn/JieJueFangAn/1308

HIT机器学习期末复习(1)——机器学习简介及决策树

刘杨的机器学习终于上完了惹,下周就要考试了,赶紧复习ing...... 趁机做个总结,就当是复习了惹...... 机器学习简介 1.什么是机器学习 简单来说,就是一个三元组<P, T, E> P--performance性能(对应着性能的评估函数,也就是常说的loss或者likelihood) T--task任务(对应着被优化的对象,也就是目标函数) E--experience经验 就是我们想要某种算法,这种算法的目的是提高某项任务的性能,怎么提升呢?通过已有的经验. 一个经常被引用的定义是:

(转)统计学和机器学习到底有什么区别? - 机器学习研究会订阅号

很有必要讨论一下,争论很大. 统计学和机器学习之间的界定一直很模糊. 无论是业界还是学界一直认为机器学习只是统计学批了一层光鲜的外衣. 而机器学习支撑的人工智能也被称为“统计学的外延” 例如,诺奖得主托马斯·萨金特曾经说过人工智能其实就是统计学,只不过用了一个很华丽的辞藻. 萨金特在世界科技创新论坛上表示,人工智能其实就是统计学 当然也有一些不同的声音.但是这一观点的正反双方在争吵中充斥着一堆看似高深实则含糊的论述,着实让人摸不着头脑. 一位名叫Matthew Stewart的哈佛大学博士生从统

人工智能第二课 机器学习 Orange 开源项目

第一天先在整体上对Orange有个大概的了解,目前我的看法是Orange是做数据挖掘和机器学习开发的框架平台,它本身应该已经包含了好多数据挖掘和分析的算法. 本文暂时用来保存学习资料, 源代码已经下载到本地,明天开始安装学习. Orange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了 Python以进行脚本开发.它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功