对于一组对象的数据,将其的集合按照不同“属性”,而其对应的值为“属性值”,由“属性”所张成的空间称为“属性空间”。而一个对象的各个数据在”属性空间“中为不同坐标轴上的对应”属性值“,而在”属性空间“中的对应点所对应的向量就是该对象的”特征向量“。
由在这个”属性空间“中各个”特征向量“所建立的模型,可以预测后续对象的相应值。
若想要预测离散值,则被称为”分类“;若想要预测连续值,则被称为”回归“。对于只涉及两个类别的”二分类“,通常称其中一个为”正类“,另一个为”反类“;对于涉及多个类别的,称为”多分类“。
学习模型后,试用其进行预测的过程被称为”测试“,被预测的样本被称为”测试样本"。
对于“聚类”,是指对一组对象进行分组,每组称为一个“簇”,这些自动形成的簇可能对应一些潜在的概念划分,有助于了解数据内在规律,更深入地分析数据建立基础。但是,在“聚类”学习中,实际上的“概念”是事先未知的,且在学习过程中所使用的训练样本通常不具备标记信息。
根据训练数据是否拥有标记信息,可以将学习任务大致划分为两大类:“监督学习”和“无监督学习”。分类和回归是前者的代表,聚类是后者的代表。
机器学习的目标是使学得的模型能较好地适用于“新样本”,而不仅仅是在训练样本上做的好;即使是对于聚类这种无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本。学得模型适用于新样本的能力被称为“泛化”。具有强泛化能力的模型能更好地适用于整个样本空间。所以,为了使我们的模型能具有强泛化能力,我们期望我们的训练样本能较好地反映整个样本空间的特征。如:假设样本空间中全体样本服从一个未知的“分布”D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”。一般而言,训练样本越多,我们得到的关于D的信息越多,就越可能通过学习获得具有强泛化能力的模型。
原文地址:https://www.cnblogs.com/wzc440302/p/9886465.html