一、简介
0.example:假设你要对房价进行预测,横轴是不同房屋的平方英尺数,纵轴是不同房子的价格,单位是千美元。那么现在有了这些数据,假设你现在有一栋150平方英尺的房子,你想把这个房子卖掉,想知道能卖多少钱。那么什么样的学习算法能帮到你呢?
学习算法能做的一件事就是根据数据画一条直线来拟合数据,如下图,基于此看上去,房子大约可以卖15万美元
但这可能不是你可以唯一使用的学习算法,可以有一个更好的算法,除了用直线来进行拟合数据,可以使用二次函数或者二阶多项式,来拟合数据会更好,如果此时在这里做一个预测,看上去能卖到将近20w美元:
1.上面就是一个监督学习的例子。监督学习是指我们给算法一个数据集,其中包含了一个正确的答案,也就是我们给它一个房价数据集,在这个数据集中的每个样本,我们都给出正确的卖价,即这个房子的实际卖价,算法的目的是给出更多正确的答案。上面这个问题也被称为回归问题。回归指的是预测的数值是连续的。回归这个术语是指预测连续值的属性。
2.接下来看另外一个监督学习的例子。
(1)假设你想查看医疗记录,并且设法预测乳腺癌是恶性的还是良性的,假设某人发现了一个乳腺肿瘤,恶性肿瘤就是有害且危险的,良性肿瘤是无害的,显然人们很关心这个。在我们收集的数据集中,横轴是肿瘤的尺寸,纵轴用1或0代表是或者否,即我们看到的肿瘤样本是否是恶性的。如下图所示,下面这行的五个样本是良性的样本,上面一行的五个肿瘤样本对应纵轴上的1。假设有个人很不幸得了乳腺癌,假设肿瘤是接近下面的这个位置,机器学习所要解决的问题是,肿瘤是良性还是恶性的概率。用更专业的属于来说,这就是一个分类的问题,分类是指设法预测一个离散值输出,0或1,恶性或者良性。在实际分类问题中,有时的输出可能有两个或者两个以上的输出,在实际例子中,可能有三种类型的乳腺癌,因此可能要设法预测离散值0、1、2或3,0表示是良性的即没有癌症,1表示第一种癌症,三种之一,2是指第二种癌症,3就表示第三种癌症,这也是一个分类问题,因为这一世一组离散值的输出
在分类问题中,还有另一种方法来绘制这些数据,我们用不同的符号来绘制这些数据,我们用O表示良性肿瘤,用x表示恶性肿瘤,将上面的数据集对应下来。
在这个例子中,我们只用了一个特征或者属性,即肿瘤的大小来预测肿瘤是恶性的还是良性的
(2)假设我们直到了肿瘤的大小和病人的年龄,在这种情况下,数据集就是这样的,我们可以用直线来分离这两类瘤:
在这个例子中,我们有两种特征,即病人年纪和肿瘤的大小。在其他机器学习算法中,往往会有更多的特征
原文地址:https://www.cnblogs.com/bigdata-stone/p/10290498.html