机器学习笔记(一):绪论

机器学习的特点

机器学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。其主要特点:

  • 建立在计算机及网络之上
  • 以数据为研究对象,是数据驱动学科
  • 目的是对数据进行预测和分析
  • 以方法为中心构建模型并运用模型对数据进行预测和分析
  • 机器学习是概率论、统计学、信息论、计算理论、最优化理论等多个领域的交叉学科

机器学习的对象

机器学习的对象数据。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据的知识,又回到对数据的分析预测当中去。机器学习关于数据的基本假设是同类数据具有一定的统计规律性,这是机器学习的前提。

机器学习的目的

机器学习的目的是对是数据进行预测和分析,尤其是对未知的新数据进行预测和分析。

机器学习的方法

机器学习可以分为:

  • 监督学习
  • 无监督学习
  • 半监督学习
  • 强化学习

机器学习的三要素:

  • 模型:机器学习中首先考虑的就是模型,在监督学习中,模型就是所要学习的条件概率分布或决策函数
  • 策略:即以什么样的准则学习或选择最优模型
  • 算法:学习模型的具体计算方法

损失函数和风险函数

机器学习中,损失函数用来度量模型一次预测的好坏;风险函数度量平均意义下模型预测的好坏。

损失函数越值小,模型就越好,常见的损失函数有:

  • 0-1损失函数
  • 平方损失函数
  • 绝对损失函数
  • 对数损失函数

风险函数是理论上模型对联合分布的平均意义下的损失,也称为期望风险。实际学习中一般用经验风险(模型关系训练样本集的平均损失)估计期望风险。这里又涉及到两个基本策略:经验风险最小化和结构风险最小化。

训练误差和测试误差

  • 训练误差是模型关于训练集的平均损失,其大小对判断给定问题是不是一个容易的学习有意义,但本质上不重要。
  • 测试误差反映了模型对未知的测试数据集的预测能力,是机器学习中的重要概念。

过拟合

过拟合是指模型对已知数据预测的很好,但对未知数据预测很差的现象。

交叉验证

交叉验证的基本想法就是重复的使用数据,把给定的数据进行切分,将切分的数据集组合成训练集和测试集,在此基础上反复地进行训练、测试及模型选择。交叉验证可以分为:

  • 简单交叉验证
  • S折交叉验证
  • 留一交叉验证

生成模型和判别模型

监督学习方法可以分为生成方法和判别方法,所学到的模型分别成为生成模型和判别模型。

生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即为生成模型。典型的生成模型有朴素贝叶斯模型和隐马尔科夫模型。

判别方法由数据直接学习决策函数f(x)或条件概率分布P(Y|X)作为预测模型,即判别模型。典型的判别模型有:k近邻法、感知机、决策树、逻辑回归、最大熵模型、支持向量机、条件随机场等。

时间: 2024-10-10 20:22:00

机器学习笔记(一):绪论的相关文章

机器学习笔记

下载链接:斯坦福机器学习笔记 这一系列笔记整理于2013年11月至2014年7月.所有内容均是个人理解,做笔记的原因是为了以后回顾相应方法时能快速记起,理解错误在所难免,不合适的地方敬请指正. 笔记按照斯坦福机器学习公开课的notes整理,其中online学习部分没有整理,reinforcement learning还没接触,有时间补上. 这份笔记主要记录自己学习过程中理解上的难点,所以对于初学者来说可能不容易理解,更详细和全面的说明可以参照JerryLead等的机器学习博文. 水哥@howde

机器学习笔记(1)

今天按照<机器学习实战>学习 k-邻近算法,输入KNN.classify0([0,0],group,labels,3)的时候总是报如下的错误: Traceback (most recent call last): File "<pyshell#75>", line 1, in <module> KNN.classify0([0,0],group,labels,3) File "KNN.py", line 16, in classi

机器学习笔记——K-means

K-means是一种聚类算法,其要求用户设定聚类个数k作为输入参数,因此,在运行此算法前,需要估计需要的簇的个数. 假设有n个点,需要聚到k个簇中.K-means算法首先从包含k个中心点的初始集合开始,即随机初始化簇的中心.随后,算法进行多次迭代处理并调整中心位置,知道达到最大迭代次数或中性收敛于固定点. k-means聚类实例.选择三个随机点用作聚类中心(左上),map阶段(右上)将每个点赋给离其最近的簇.在reduce阶段(左下),取相互关联的点的均值,作为新的簇的中心位置,得到本轮迭代的最

机器学习笔记 贝叶斯学习(上)

机器学习笔记(一) 今天正式开始机器学习的学习了,为了激励自己学习,也为了分享心得,决定把自己的学习的经验发到网上来让大家一起分享. 贝叶斯学习 先说一个在著名的MLPP上看到的例子,来自于Josh Tenenbaum 的博士论文,名字叫做数字游戏. 用我自己的话叙述就是:为了决定谁洗碗,小明和老婆决定玩一个游戏.小明老婆首先确定一种数的性质C,比如说质数或者尾数为3:然后给出一系列此类数在1至100中的实例D= {x1,...,xN} :最后给出任意一个数x请小明来预测x是否在D中.如果小明猜

机器学习笔记——人工神经网络

人工神经网络(Artificial Neural Networks,ANN)提供了一种普遍而实用的方法从样例中学习值为实数.离散值或向量的函数. 人工神经网络由一系列简单的单元相互密集连接构成,其中每一个单元有一定数量的实值输入(可能是其他单元的输出),并产生单一的实数值输出(可能成为其他单元的输入). 适合神经网络学习的问题: 实例是很多"属性-值"对表示的 目标函数的输出可能是离散值.实数值或者由若干实数或离散属性组成的向量 训练数据可能包含错误 可容忍长时间的训练 可能需要快速求

机器学习笔记04:逻辑回归(Logistic regression)、分类(Classification)

之前我们已经大概学习了用线性回归(Linear Regression)来解决一些预测问题,详见: 1.<机器学习笔记01:线性回归(Linear Regression)和梯度下降(Gradient Decent)> 2.<机器学习笔记02:多元线性回归.梯度下降和Normal equation> 3.<机器学习笔记03:Normal equation及其与梯度下降的比较> 说明:本文章所有图片均属于Stanford机器学课程,转载请注明出处 面对一些类似回归问题,我们可

机器学习笔记之基础概念

本文基本按照<统计学习方法>中第一章的顺序来写,目录如下: 1. 监督学习与非监督学习 2. 统计学习三要素 3. 过拟合与正则化(L1.L2) 4. 交叉验证 5. 泛化能力 6. 生成模型与判别模型 7. 机器学习主要问题 8. 提问 正文: 1. 监督学习与非监督学习 从标注数据中学习知识的规律以及训练模型的方法叫做监督学习,但由于标注数据获取成本较高,训练数据的数量往往不够,所以就有了从非标注数据,也就是非监督数据中学习的方法. 由于非监督数据更容易获取,所以非监督学习方法更适合于互联

cs229 斯坦福机器学习笔记(一)

前言 说到机器学习,很多人推荐的学习资料就是斯坦福Andrew Ng的cs229,有相关的视频和讲义.不过好的资料 != 好入门的资料,Andrew Ng在coursera有另外一个机器学习课程,更适合入门.课程有video,review questions和programing exercises,视频虽然没有中文字幕,不过看演示的讲义还是很好理解的(如果当初大学里的课有这么好,我也不至于毕业后成为文盲..).最重要的就是里面的programing exercises,得理解透才完成得来的,毕

机器学习笔记——SVM之一

SVM(Support Vector Machine),中文名为 支持向量机,就像自动机一样,听起来异常神气,最初总是纠结于不是机器怎么能叫"机",后来才知道其实此处的"机"实际上是算法的意思. 支持向量机一般用于分类,基本上,在我的理解范围内,所有的机器学习问题都是分类问题.而据说,SVM是效果最好而成本最低的分类算法. SVM是从线性可分的情况下最优分类面发展而来的,其基本思想可以用下图表示: (最优分类面示意图) 图中空心点和实心点代表两类数据样本,H为分类线

机器学习笔记02:多元线性回归、梯度下降和Normal equation

在<机器学习笔记01>中已经讲了关于单变量的线性回归以及梯度下降法.今天这篇文章作为之前的扩展,讨论多变量(特征)的线性回归问题.多变量梯度下降.Normal equation(矩阵方程法),以及其中需要注意的问题. 单元线性回归 首先来回顾一下单变量线性回归的假设函数: Size(feet2) Price($1000) 2104 460 1416 232 1534 315 852 178 - - 我们的假设函数为 hθ(x)=θ0+θ1x 多元线性回归 下面介绍多元线性回归(Linear R