- 根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习”和“无监督学习”,分类和回归是前者的代表,聚类是后者的代表。
- 预测的若是离散值,学习任务则成为“分类”,涉及两个类别的是“二分类”,涉及多个类别的是“多分类”;
- 预测任务对象若是连续值,此类学习任务成为“回归”;
- 聚类,是根据训练集的数据内在规律进行划分,不依赖标记信息。
- 归纳与演绎--科学推理的两大基本手段。
- 演绎:从基本原理定律推演出具体状况;
- 归纳:从具体的事实归结出一般性规律,即在机器学习中称为从样例中学习;
- 广义的归纳学习大体为从样例中学习;狭义的归纳学习要求从训练数据中学习概念,概念学习最基本的是布尔概念学习(即Y或N)。
- 归纳偏好
- 机器学习的发展历程:
- 二十世纪五十年代中后期,基于神经网络的“连接主义”;
- 六七十年代,基于逻辑表示的“符号主义”;
- 二十世纪八十年代,“符号主义学习”--决策树和基于逻辑的学习
- 二十世纪九十年代中期前,基于神经网络的“连接主义学习”--BP算法/神经网络
- 二十世纪九十年代中期,“统计学习”--支持向量机和核方法
- “深度学习”--基于大数据和计算机的发展
- 课后习题:
1.1假设数据集有n种属性,第i个属性可能的取值有ti种,加上该属性的泛化取值(*),所以可能的假设有∏i(ti+1)。再用空集表示没有正例,假设空间中一共∏i(ti+1)+1种假设。
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 稍蜷 | 沉闷 | 否 |
一共有3*3*3+1=28种假设。故其版本空间如下:
-
- 色泽=青绿 根蒂=蜷缩 敲声=浊响
- 色泽=青绿 根蒂=* 敲声=*
- 色泽=* 根蒂=蜷缩 敲声=*
- 色泽=* 根蒂=* 敲声=浊响
- 色泽=青绿 根蒂=蜷缩 敲声=*
- 色泽=* 根蒂=蜷缩 敲声=浊响
- 色泽=青绿 根蒂=* 敲声=浊响
1.2 http://blog.csdn.net/icefire_tyh/article/details/52065626
1.3通常认为两个数据的属性越相近,则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据,留下的数据就是没误差的数据,但是可能会丢失部分信息。
1.4* 还是考虑二分类问题,NFL首先要保证真是目标函数f均匀分布,对于有X个样本的二分类问题,显然f共有2X种情况。其中一半是与假设一致的,也就 P(f(x)=h(x))=0.5。
此时, ∑fl(h(x),f(x))=0.5?2X?(l(h(x)=f(x))+l(h(x)≠f(x)))
l(h(x)=f(x))+l(h(x)≠f(x))应该是个常数,隐含的条件就该是(一个比较合理的充分条件) l(0,0)=l(1,1),l(1,0)=l(0,1)。如果不满足, NFL 应该就不成立了(或者不那么容易证明)。
1.5 问题:试述机器学习在互联网搜索的哪些环节起什么作用
1.百度、搜狗搜索网页,网站相关度排行。
2.网页或者信息推送,推荐系统。
时间: 2024-11-08 12:18:42