定义
Tom Mitchell对机器学习定义为“计算机从经验E中学习,解决某一任务T,进行某一度量P,通过P测定在T上的表现因经验E而提高”。定义个人觉得大体理解即可,如果扣文咬字去理解会十分痛苦,就不做过多解释了。
原文:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
分类
Supervised learning
监督性学习是指“我们已有数据集,并且该数据集里面对于一个输入,我们是知道正确的输出结果的。”,这个定义非常重要,也是区分监督性学习和非监督性学习明显分界性。监督性学习问题又分为regression(回归)和classification(分类)。
在满足监督性学习问题前提下,对一个求解的问题,如果判断它是属于回归还是分类范畴?
首先看个人理解定义:求解问题结果是连续的还是离散的,如果是连续的就是回归问题,离散的就是分类问题。
再举个例子加深理解:假设我们手头上有一份数据为广州所有楼盘的均价数据集。如果要预测距离市中心500米楼盘价格,我们也许就会以数据集建立这样的一个数学模型,一个坐标轴,x轴代表距离市中心距离,y轴为楼盘价格。套用机器学习定义,我们的任务T是要预测记录市中心N米的楼盘价格,而度量P就是预测价格准确性,经验E就是我们数据集,数据集数据越多对我们预测结果将会有正向作用。在这个例子了楼盘价格(y轴)曲线明显是一个连续的值,因此属于回归问题。
相同的数据集,如果我们要预测问题是距离市中心500米楼盘价格是高于还是低于广州均价。也许坐标轴我们就会这样去表示,y轴只有0和1,0代表低于均价,1代表高于均价。x轴为距离市中心距离。在这个例子明显y轴值是离散的,因为属于分类问题。实际上分类问题离散值类别可能不止只有0和1,而是有多个,但无论多少个,类别种类是确定的,这一点也是分类问题明显特性。
Unsupervised learning
与监督性学习不同的是非监督性学习“同样有数据集,但没有该数据集的任何标签信息,也就是一堆没有答案的数据”,而非监督性学习目标就是我们可以通过算法从数据集能把相同特征或者是相似的数据归类。其中可以分为Clustering(聚类)和Non-clustering(非聚类)算法。对于聚类和非聚类可以这样理解,他们都是对数据集数据进行归类,但是聚类可以把一堆数据集按照某个标准或者特征对相似数据划分为一个类别,而非聚类算法可以从数据集一堆数据中发现相同数据结构数据(如Cocktail Party Algorithm算法,能在嘈杂声音环境中把人说话的声音和背景音乐声音找出来)。
原文地址:https://www.cnblogs.com/yipaihushuo/p/9644210.html