机器学习原理、实现与实践——机器学习概论
如果一个系统能够通过执行某个过程改进它的性能,这就是学习。 ——— Herbert A. Simon
1. 机器学习是什么
计算机基于数据来构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
从上面的机器学习的定义中,我们可以了解到以下的信息:
- 机器学习以计算机及网络为平台,是建立在计算机及网络之上的;
- 机器学习以数据为研究对象。
- 机器学习计学习的目的是对数据进行预测与分析
- 机器学习以模型为中心。构建模型、优化模型并用模型来进行预测。
- 机器学习的模型是基于概率统计的模型。里面大量用到了概率与统计的知识。同时,机器学习也是信息论
- 计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独立的理论体系与方法论。
2. 机器学习的对象
机器学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。同时,数据是多样的,包括存在计算机及网络上的各种数字、文字、图像、视频、音频数据及它们的组合。
那么什么样的数据可以被抽象,被学习呢,杂乱无章的数据可以吗?
机器学习关于数据的基本假设是同类数据具有一定的统计规律性。同类数据是指具有某种共同性质的数据,由于它们具有统计规律,所以可以用概率统计方法来加以处理。可以用随机变量描述数据数据中的特征,用概率分布描述数据的统计规律。
在实际的机器学习中,数据往往被提取为一个特征向量表示为
$$x = (x^{(1)},x^{(2)},\dots,x^{(i)},x^{(n)})^T$$
数据可以为离散的,也可以为连续的。
3. 机器学习的目的
机器学习用于对数据进行预测与分析,特别是对未知新数据进行预测与分析。
机器学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同理也要考虑尽可能地提高学习效率。
4. 机器学习的方法
机器学习的方法是基于数据构建统计模型从而对数据进行预测与分析。机器学习包括了监督学习、非监督学习、半监督学习和强化学习。
监督学习:从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数集合,称为假设空间(hypothesis space);应用某个评价准则,从假设空间中先取一个最优的模型,使它对已知训练数据及未知测试数据在给定的评价准则下有最优的预测;最优模型的选择由算法实现。
模型的假设空间、模型的选择准则以及模型学习的算法 : 机器学习的三要素,简称模型、策略、算法。
步骤可以归纳为:
- 得到一个有限的训练数据集合;
- 确定包含所有可能的模型的假设空间,即学习模型的集合;
- 确定模型选择的准则,即学习策略;
- 实现求解最优模型的算法,即学习的算法;
- 通常学习方法选择最优模型;
- 利用学习的最优模型对新数据进行预测或分析。
5. 机器学习的应用
近20年来,机器学习无论是在理论上还是在应用方面都得到了巨大的发展,有许多重要突破,统计学习已被成功地应用到人工智能、模式识别、数据挖掘、自然语言处理、语音识别、图像识别、信息检索和生物信息等许多计算机应用领域中。