机器学习学习笔记-绪论

  • 根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习”和“无监督学习”,分类和回归是前者的代表,聚类是后者的代表。
  1. 预测的若是离散值,学习任务则成为“分类”,涉及两个类别的是“二分类”,涉及多个类别的是“多分类”;
  2. 预测任务对象若是连续值,此类学习任务成为“回归”;
  3. 聚类,是根据训练集的数据内在规律进行划分,不依赖标记信息。
  • 归纳与演绎--科学推理的两大基本手段。
  1. 演绎:从基本原理定律推演出具体状况;
  2. 归纳:从具体的事实归结出一般性规律,即在机器学习中称为从样例中学习;
  3. 广义的归纳学习大体为从样例中学习;狭义的归纳学习要求从训练数据中学习概念,概念学习最基本的是布尔概念学习(即Y或N)。
  4. 归纳偏好
  • 机器学习的发展历程:
  1. 二十世纪五十年代中后期,基于神经网络的“连接主义”;
  2. 六七十年代,基于逻辑表示的“符号主义”;
  3. 二十世纪八十年代,“符号主义学习”--决策树和基于逻辑的学习
  4. 二十世纪九十年代中期前,基于神经网络的“连接主义学习”--BP算法/神经网络
  5. 二十世纪九十年代中期,“统计学习”--支持向量机和核方法
  6. “深度学习”--基于大数据和计算机的发展

1.1假设数据集有n种属性,第i个属性可能的取值有ti种,加上该属性的泛化取值(*),所以可能的假设有∏i(ti+1)。再用空集表示没有正例,假设空间中一共∏i(ti+1)+1种假设。

编号  色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
2 乌黑 稍蜷 沉闷

一共有3*3*3+1=28种假设。故其版本空间如下:

    1. 色泽=青绿 根蒂=蜷缩 敲声=浊响
    2. 色泽=青绿 根蒂=* 敲声=*
    3. 色泽=* 根蒂=蜷缩 敲声=*
    4. 色泽=* 根蒂=* 敲声=浊响
    5. 色泽=青绿 根蒂=蜷缩 敲声=*
    6. 色泽=* 根蒂=蜷缩 敲声=浊响
    7. 色泽=青绿 根蒂=* 敲声=浊响

1.2 http://blog.csdn.net/icefire_tyh/article/details/52065626

1.3通常认为两个数据的属性越相近,则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据,留下的数据就是没误差的数据,但是可能会丢失部分信息。

1.4* 还是考虑二分类问题,NFL首先要保证真是目标函数f均匀分布,对于有X个样本的二分类问题,显然f共有2X种情况。其中一半是与假设一致的,也就 P(f(x)=h(x))=0.5。 
此时, ∑fl(h(x),f(x))=0.5?2X?(l(h(x)=f(x))+l(h(x)≠f(x))) 
l(h(x)=f(x))+l(h(x)≠f(x))应该是个常数,隐含的条件就该是(一个比较合理的充分条件) l(0,0)=l(1,1),l(1,0)=l(0,1)。如果不满足, NFL 应该就不成立了(或者不那么容易证明)。

1.5 问题:试述机器学习在互联网搜索的哪些环节起什么作用

1.百度、搜狗搜索网页,网站相关度排行。 
2.网页或者信息推送,推荐系统。

时间: 2024-11-08 12:18:42

机器学习学习笔记-绪论的相关文章

编译原理学习笔记 -- 绪论1

1. 语言处理器 语言处理系统 _________ 经过预 _______ 源程序 --> |预处理器| --> 处理的 --> |编译器| --> 目标汇编程序 -------- 源程序 ------- _______ 可重定位的 ______________ --> |汇编器| --> 机器代码 --> |链接器/加载器| --> 目标机器代码 ------- -------------- ↑ 库文件/可重定位对象文件 预处理器:把源程序聚合在一起,并宏

机器学习学习笔记1

机器学习学习笔记1 周志华 机器学习 Flyu6 Time: 2016-6-12 基本概念的学习 Learning Style(学习类型) supervised(监督学习) unsupervised(非监督学习) 假设空间 归纳 (induction) 演绎 (deduction) 归纳偏好 没有免费午餐(NFL: No Free Lunch Theorem) 基本概念的学习 Learning Style(学习类型) supervised(监督学习) 监督学习 所谓的监督学习其实就是在数据集D中

数据结构学习笔记——绪论

数据结构学习笔记——绪论 为了更贴切的描述一种数据结构,通常采用二元组表示:(对于一种数据结构其逻辑结构唯一) B=(D,R)其中,B是一种数据结构,它由数据元素的集合D和D上二元关系的集合R所组成.即D={ di | 1 <= i<= n, n > 0}R={ rj | 1 <= j<= n, n > 0}D 上的一个关系r是序偶的集合,对于r中任一序偶<x,y>(x,y属于集合D),把x叫做偶序第一节点,把y叫做偶序第二结点,又称序偶的第 一结点为第二结

数字语音信号处理学习笔记——绪论(2)

1.2.2 语音编码 语音编码的目的是在保证一定语音质量的前提下,尽可能降低编码比特率,以节省频率资源. 语音编码技术的鼻祖: 研究开始于1939年军事保密通信的需要,贝尔电话实验室的Homer Dudley提出并实现了在低频带宽电话电报电缆上传输语音信号的通道声码器. 20世纪70年代:国际电联(ITU-T,原CCITT)64kbit/s脉冲编码调制(PCM)语音编码算法的G.711建议,它被广泛应用于数字通信.数字交换机等领域,从而占据统治地位. 1980年:美国政府公布了一种2.4kbit

数字语音信号处理学习笔记——绪论(1)

1.绪论 1.1概述 语言是人类交换信息最方便.最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送.存储.识别.合成和增强等是整个数字化通信网中最重要.最基本的组成部分之一. 语音信号处理技术主要可以应用到: 1) 数字电话通信 2) 高音质的窄带语音通信系统 3) 语言学习机 4) 声控打字机 5) 自动翻译机 6) 智能机器人 7) 新一代计算机语音智能终端 8) 许多军事上的应用 语音信号处理是一门新兴的边缘科学,它是语音学与数字信号处理两个学科相结合的产物.它和认知科

吴恩达“机器学习”——学习笔记五

朴素贝叶斯算法(Naive Bayes)(续学习笔记四) 两个朴素贝叶斯的变化版本 x_i可以取多个值,即p(x_i|y)是符合多项式分布的,不是符合伯努利分布的.其他的与符合伯努利的情况一样.(同时也提供一种思路将连续型变量变成离散型的,比如说房间的面积可以进行离散分类,然后运用这个朴素贝叶斯算法的变形). 第二个朴素贝叶斯的变化形式专门用来处理文本文档,即对序列进行分类,被称为朴素贝叶斯的事件模型(event model).这将使用一种不同的方式将邮件转化为特征向量. 之前的特征向量是:向量

数据结构学习笔记-----------------绪论

为了加深自己对数据结构的理解:所以这个专题下会记录我的学习的笔记.  程序设计的实质:对确定的问题选择一种好的结构,加上设计一个好的算法! 计算机解决一个具体的问题,需要经过下列几个步骤: 一.从具体问题抽象出一个适当的数学模型. 二.设计一个解这个数学模型的算法. 三.编写程序进行测试.调整直至得到最终解答. 数据结构:相互之间存在一种或多种特定关系的数据元素的集合. 根据数据元素之间关系的不同特性,通常有下列4类基本结构: 一.集合:结构中的数据元素处理"同属于一个集合"的关系外,

机器学习-学习笔记

一个Windows操作系统能够使用的pythonIDE winPython下载地址:WinPython_2.7 传统的F-measure或平衡的F-score (F1 score)是精度和召回的调和平均值: F1=2precision?recallprecision+recall 1.Cross Validation (交叉验证) cross validation大概的意思是:对于原始数据我们要将其一部分分为train_data,一部分分为test_data.train_data用于训练,tes

“机器学习” 学习笔记

看了 Andrew Ng 公开课里的第一节课后,感觉机器学习好高大上..系里最高大上的国家级重点实验室CAD实验室用的3D成像技术就跟Andrew Ng大大放的聚类算法做出的3D场景几乎一样.看完后我觉得,我现在也开始走高端路线了→_→ 第一章:回归算法 1.LMS Algorithm (待续...)