机器学习基础大纲

数学基础(2节课)

微积分

极限,e,导数,微分,积分

偏导数,方向导数,梯度

极值,多元函数极值,多元函数泰勒展开

无约束优化,约束优化

拉格朗日乘子,对偶问题

线性代数

矩阵,行列式,初等变换

线性相关,线性无关

秩,特征值,特征向量

正交向量、正交矩阵

矩阵分解

概率

随机变量,概率密度函数,分布函数

条件概率,全概率公式,贝叶斯公式

期望,方差

大数定理,中心极限定理

协方差,相关系数

常见概率分布,泊松分布

指数族分布,多元高斯分布

参数估计,矩估计,极大似然估计MLE

机器学习基本概念(0.5节课)

输入空间,特征空间和输出空间

联合概率分布,假设空间

三要素:方法=模型+策略+算法

损失函数、风险函数、经验风险、结构风险

MLE和MAP

感知机Perceptron(1节课)

感知机模型、学习策略、训练方法

0-1损失函数

感知机的几何解释

感知机证明

pocket perceptron

线性回归和逻辑回归(2节课)

损失函数、训练方法、几何解释,平方损失函数

梯度下降

逻辑回归的形式,推导和训练,逻辑斯蒂损失

拟牛顿法,LBFGS

机器学习诊断和调试(1节课)

训练误差、测试误差、欠拟合、过拟合

正规化、交叉验证

树模型和boost(3节课)

熵的定义和应用,信息增益

决策树、ID3、C4.5和CART

Adaboost,指数损失函数

梯度提升树 GBDT

随机森林 Random Forest

支持向量机SVM(3-4节课)

硬间隔最大化,函数间隔,几何间隔

软间隔最大化

对偶算法

合页损失函数

核函数、核技巧

SMO算法

最大熵模型(1节课)

模型定义、约束条件和推导

重新理解逻辑回归

神经网络(1节课)

模型的定义和训练

BPA算法

无监督学习(3节课)

K-Means和高斯混合模型GMM

EM算法,推导、解释和理解

Topic Model基础,svd、lsa、plsa、lda

总结(1节课)

损失函数比较

模型的比较和选择

解决实际问题的一般步骤

时间: 2024-10-16 16:33:53

机器学习基础大纲的相关文章

【机器学习基础】混合和装袋

融合模型(Aggregation Model) 如果我们已经得到了一些特征或者假设,它们和我们做机器学习的目标有若干的一致性的话,我们可以将这些假设综合起来,让预测效果变得更好,这样的模型被称为融合模型. 融合模型是通过混合(mix)和组合(combine)一些假设的方式,得到更好的预测结果. 下面列举了四种不同的混合组合方式,并给出了数学表示形式: 当有多个假设时,我们选择检验误差最小的假设作为我们最信任的目标函数: 我们现在有多个假设,我们可以给每个假设一个投票的权利,综合所有假设的投票结果

机器学习实战笔记1(机器学习基础)

1:如何选择合适的算法 2:python简介 (1)   python的优势:相对于matlab,matlab单个软件授权就要花费数千美元,也没有一个有影响力的大型开源项目.相对于c++/c/java,完成简单的操作就需要编写大量的代码:而如今我们应该花费更多的时间去处理数据内在的含义,而无需花费太多精力解决计算机如何得到数据结果(python简洁) (2)   python具有numpy科学函数库,它是一个使运算更容易.执行更迅速的库:另外还有matplotlib绘图工具. 3:python语

第一章:机器学习基础

第一部分:分类 本书前两部分主要探讨监督学习(supervisedieaming).在监督学习的过程中,我们只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果.监督学习相对比较简单,机器只需从输入数据中预测合适的模型,并从中计算出目标变量的结果.      监督学习一般使用两种类型的目标变量:标称型和数值型.标称型目标变量的结果只在有限目标集中取值,如真与假.动物分类集合{爬行类.鱼类.哺乳类.两栖类.植物.真菌};数值型目标变量则可以从无限的数值集合中取值,如0.100.42.0

【机器学习实战】第1章 机器学习基础

第1章 机器学习基础 机器学习 概述 机器学习就是把无序的数据转换成有用的信息. 获取海量的数据 从海量数据中获取有用的信息 我们会利用计算机来彰显数据背后的真实含义,这才是机器学习的意义. 机器学习 场景 例如:识别动物猫 模式识别(官方标准):人们通过大量的经验,得到结论,从而判断它就是猫. 机器学习(数据学习):人们通过阅读进行学习,观察它会叫.小眼睛.两只耳朵.四条腿.一条尾巴,得到结论,从而判断它就是猫. 深度学习(深入数据):人们通过深入了解它,发现它会'喵喵'的叫.与同类的猫科动物

机器学习实战之第一章 机器学习基础

第1章 机器学习基础 机器学习 概述 机器学习就是把无序的数据转换成有用的信息. 获取海量的数据 从海量数据中获取有用的信息 我们会利用计算机来彰显数据背后的真实含义,这才是机器学习的意义. 机器学习 场景 例如:识别动物猫 模式识别(官方标准):人们通过大量的经验,得到结论,从而判断它就是猫. 机器学习(数据学习):人们通过阅读进行学习,观察它会叫.小眼睛.两只耳朵.四条腿.一条尾巴,得到结论,从而判断它就是猫. 深度学习(深入数据):人们通过深入了解它,发现它会'喵喵'的叫.与同类的猫科动物

【机器学习基础】线性可分支持向量机

引言 接下里的一系列有关机器学习的博文,我将具体的介绍常用的算法,并且希望在这个过程中尽可能地结合实际应用更加深入的理解其精髓,希望所付出的努力能得到应有的回报. 接下来的有关机器学习基础博文主要根据机器学习技法课程的学习,围绕特征转换(feature transforms)这个主要工具,从以下三个方向进行探讨: 如果现在有很多特征转换可以使用的时候,我们该如何运用这些特征转换,如何控制特征转换中的复杂度的问题,从这个角度刺激了支持向量机(Support Vector Machine)算法的发展

机器学习基础2--评价回归模型

再次回到上一节的13次模型. 这个疯狂的曲线造成了一种现象过拟合. 很明显,你的房子不可能只值这么点价钱,所以看上去,这个13次模型甚至还不如一开始的二次模型. 那么现在有个疑问,我们应该怎样去选择最合适的模型? 我们想要准确预测,但是我们无法观测未来. 下面我们模拟一次预测过程: 1.我们随机将一些房子数据排除在外. 2.然后拟合剩下的数据 3.最后进行预测和推断. 术语: 训练集(training set):用来拟合模型的数据. 测试集(test set):排除出去的数据. 训练损失(tra

机器学习基础4--评估线性分类

如线性回归一样,我们也分成了训练集和测试集. 用训练集进行分类器的学习,用测试集来评估分类错误. 分类错误: 测试集 -> 隐藏类型标签 -> 放到分类器进行处理 -> 得出结果 -> 与定义好的类型标签进行比较 错误率: 分类错误数/总句子数 正确率: 分类正确数/总句子数 那么,什么样的正确率才是好的? 至少要比随机猜测效果要好. 如果有k个分类,那么正确率至少要大于等于1/k 同时要关注是否有意义: 2010年,全球有90%的邮件是垃圾邮件.而只要说所有邮件都是垃圾邮件,就有

机器学习基础5--文档相似性检索与度量算法

案例:在阅读文章时,推荐相似的文章. 这个案例简单粗暴,尤其是我看小说的时候,闹书荒的时候,真的很希望有这样的功能.(PS:我现在就职于某小说公司) 那么,如何衡量文章之间的相似度? 在开始讲之前,先提一下elasticsearch. elasticsearch所使用的索引方式被称为倒排索引.将文档拆分成一个一个的词,然后记录该词出现在哪篇文档的哪个位置.具体解释请参照维基百科. 而在这里,我们将使用和倒排索引类似的方法--词袋模型. 我们有如下一句话. "Carlos calls the sp