第三讲介绍了不同类型的机器学习问题,根据4个方面划分:输出空间,标签,方式,输入空间。
1. 根据输出空间y不同划分:通过变换y的种类,可得到不同的机器学习问题
(1)y = {+1, -1}:二元分类问题,类似于做是非题,机器学习的基础。
(2)y = {0, 1, 2, ..., k}:k元分类问题,类似于做单选题。
(3)y = R:回归分析。
(4)y = structures:structured learning,给定一段序列,判断序列的各个部分属于哪种结构。比如,输入一个句子,判断句子里每个词语的词性;输入一段蛋白质序列,判断序列各部分属于哪种结构域。
2. 根据所用标签不同划分:
(1)supervised:所有输入的数据xn都有相应的标签yn,类似于老师给出了答案。
(2)unsupervised:输入的数据没有标签,对应于clustering,类似于老师不给答案。
(3)semi-supervised:只有部分数据有标签yn,当给所有数据标上标签所需代价很大时使用。
(4)reinforcement:用goodness来提示标签,当没有明确的标签可以使用时使用。比如,一个广告系统根据客户以及广告的点击数来确定某个广告的好坏。
3. 根据所用学习方式不同划分:
(1)batch learning:给机器一批已知的资料用于学习。
(2)online learning:从不断接收到的一笔一笔资料中学习。比如,垃圾邮件过滤器。
(3)active learning:从资料中提出xn,询问xn对应的yn,用于取得标签很贵的场合,用很少的标签就能完成学习。
4. 根据输入空间不同划分:从不同的input feature,找出最合适的,往往是机器学习成功的关键
(1)Concrete features: each dimension of x represents ‘sophisticated physical meaning‘, often including ‘human intelligence‘ on the learning task。
(2)Raw features: ‘simple physical meaning‘; thus more difficult for ML than concrete features; often need human or machines to convert to concrete ones。
(3)Abstract features: ‘no physical meaning‘; thus even more difficult for ML。