机器学习的特点
机器学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。其主要特点:
- 建立在计算机及网络之上
- 以数据为研究对象,是数据驱动学科
- 目的是对数据进行预测和分析
- 以方法为中心构建模型并运用模型对数据进行预测和分析
- 机器学习是概率论、统计学、信息论、计算理论、最优化理论等多个领域的交叉学科
机器学习的对象
机器学习的对象数据。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据的知识,又回到对数据的分析和预测当中去。机器学习关于数据的基本假设是同类数据具有一定的统计规律性,这是机器学习的前提。
机器学习的目的
机器学习的目的是对是数据进行预测和分析,尤其是对未知的新数据进行预测和分析。
机器学习的方法
机器学习可以分为:
- 监督学习
- 无监督学习
- 半监督学习
- 强化学习
机器学习的三要素:
- 模型:机器学习中首先考虑的就是模型,在监督学习中,模型就是所要学习的条件概率分布或决策函数
- 策略:即以什么样的准则学习或选择最优模型
- 算法:学习模型的具体计算方法
损失函数和风险函数
机器学习中,损失函数用来度量模型一次预测的好坏;风险函数度量平均意义下模型预测的好坏。
损失函数越值小,模型就越好,常见的损失函数有:
- 0-1损失函数
- 平方损失函数
- 绝对损失函数
- 对数损失函数
风险函数是理论上模型对联合分布的平均意义下的损失,也称为期望风险。实际学习中一般用经验风险(模型关系训练样本集的平均损失)估计期望风险。这里又涉及到两个基本策略:经验风险最小化和结构风险最小化。
训练误差和测试误差
- 训练误差是模型关于训练集的平均损失,其大小对判断给定问题是不是一个容易的学习有意义,但本质上不重要。
- 测试误差反映了模型对未知的测试数据集的预测能力,是机器学习中的重要概念。
过拟合
过拟合是指模型对已知数据预测的很好,但对未知数据预测很差的现象。
交叉验证
交叉验证的基本想法就是重复的使用数据,把给定的数据进行切分,将切分的数据集组合成训练集和测试集,在此基础上反复地进行训练、测试及模型选择。交叉验证可以分为:
- 简单交叉验证
- S折交叉验证
- 留一交叉验证
生成模型和判别模型
监督学习方法可以分为生成方法和判别方法,所学到的模型分别成为生成模型和判别模型。
生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即为生成模型。典型的生成模型有朴素贝叶斯模型和隐马尔科夫模型。
判别方法由数据直接学习决策函数f(x)或条件概率分布P(Y|X)作为预测模型,即判别模型。典型的判别模型有:k近邻法、感知机、决策树、逻辑回归、最大熵模型、支持向量机、条件随机场等。
时间: 2024-10-10 20:22:00