td p { margin-bottom: 0cm }
p { margin-bottom: 0.25cm; line-height: 120% }
Day2 机器学习基本概念
Eg1.
样例 |
天气 |
温度 |
风力 |
享受运动 |
1 |
晴 |
暖 |
小 |
是 |
2 |
晴 |
暖 |
大 |
是 |
3 |
晴 |
适中 |
大 |
否 |
4 |
雨 |
冷 |
大 |
否 |
5 |
晴 |
适中 |
适中 |
是 |
Eg2.
样例 |
面积(平方米) |
学区(1-10) |
房价(100$) |
1 |
100 |
8 |
1000 |
2 |
120 |
9 |
1300 |
3 |
60 |
6 |
800 |
4 |
80 |
9 |
1100 |
1.基本概念:
训练集(training set/data)[训练样例(training example)]:用来进行训练,也就是产生模型或者是算法的数据集。在表中是12345样例
测试集(testing set/data)[测试样例(testing examples)]:用来专门进行测试已经学习好的模型或者是算法的数据集。
特征向量(feature vector):属性的集合,通常一个向量来表示,是附属于每一个实例的。每一个实例都对应一个特征向量。
分类(classification):目标标记为类别型数据(category).Eg1
回归(regression):目标标记为连续型数值(continuous numeric value)。Eg2
Eg3.例子:研究肿瘤良性,恶性与尺寸,颜色的关系
特征值:肿瘤尺寸,颜色
标记:良性/恶性
特征值:
标记(label),实例类别的标记,及eg.中最后一列,分为正例和反例。
监督学习(supervised learning):训练集有类别标记(class label)
非监督学习(unsupervised learning):训练集无类别标记(class label)
半监督学习(semi-supervised learning):有类别标记的训练集+无标记的训练集
2.概念学习:人类学习的概念:鸟、车、计算机
定义:概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。
概念定义在实例集合上,这个集合表示为X。x表示诶一个实例。样例是所有实例的所有集合。
待学习的概念或目标称为目标概念。f:X→Y
3.机器学习步骤框架:
1>把数据拆分成训练集和测试集
2>用训练集和测试集的特征向量来训练算法
3>用学习来的算法运用在测试集上评估算法(可能要涉及到调参,用验证集(validation
set))