机器学习基础知识整理归纳

关于机器学习的一些基本概念的整理

1.前言

1.机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科。1997年Mitchell给出一个更形式化的定义,假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

  1. 机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即学习算法(learning algorithm)。“数据”即是现实生活中的“经验”。
  2. 关于产生的模型(model),可以泛指从数据中学得的结果。但也有不同说法。Hand在2001年发表的一篇文献中就提到,模型是全局结果(例如一颗决策树),模式指的是局部性结果(例如一条规则)。

2. 基本术语

引例,假设搜集到一些关于西瓜的数据(色泽 = 青绿;根蒂 = 蜷缩;敲声 = 浊响),(色泽 = 乌黑;根蒂 = 稍蜷;敲声 = 沉闷),(色泽 = 浅白;根蒂 = 硬挺;敲声 = 清脆),......

上述引例中,每对括号内是关于西瓜的(也可是任何一个事件或者对象的)一条记录,则有:

数据集 (data set): 一组记录的集合

示例/样本(instance/sample):上述都每一条记录,均可称为示例/样本

属性/特征(attribute/feature):反映事件或者对象在某方面的表现或者性质的事项。例如上述色泽,根蒂,敲声

属性值(attribute value): 属性上的取值,例如青绿,乌黑,等等

特征向量(feature vector): 属性空间上每一个点相对原点构成的坐标向量

样本维数(sample dimensionality): 每一个样本(示例)所包含的不同属性的数量

学习/训练(learning/training) : 从数据中学得模型的过程

训练数据(training data): 训练过程中使用的数据

训练样本(training sample): 训练数据中的样本

训练集(training set): 训练样本的集合

假设(hypothesis): 值得是学得模型。因为这个模型对应了关于数据的某种潜在规律

真相/真实(ground-truth): 潜在规律本身

标记(label): 训练样本的结果信息

样例(example): 拥有了标记信息的示例。一般的,用(\(x_i,y_i\))来表示第i个样例。其中\(y_i\)是示例\(x_i\)的标记

标记空间/输出集合(label space): 所有标记的集合

属性空间/样本空间/输入空间(attribute/sample space): 属性张成的空间。例如,如果把色泽,根蒂,敲声作为三个坐标轴,则他们张成一个用于描述西瓜的三维空间,每个西瓜都可以找到自己的位置。

分类(classification): 在关于利用训练集学得的预测模型中,预测值是离散值。这样的学习任务称为分类

回归(regression): 与分类相似,只是预测值是连续值

\({\color{red} 补充一句:(预测的任务是希望通过对训练集{(x_1,y_1),(x_2,y_2),...}进行学习,建立一个从输入空间到输出空间的映射关系)}\)

二分类任务(binary classification): 预测结果只有两个类别。通常将其中的一个称为正类(positive class),另一个称为反类(negative class)。而涉及多个,类别则称为多分类(multi-class)任务

测试(testing): 学得模型以后,使用其进行预测的过程

测试样本(testing sample): 被预测的样本,例如,在学得\(\mathit{f}\) 以后,对测试例\(x_i\) 可得到其预测标记\(y=f(x_i)\)

聚类(clustering): 将训练集中的示例分成若干组,每组称为一个簇(cluster)。这些自动形成的簇可能对应一些潜在的概念划分,例如本例中的西瓜可以分成浅色瓜,深色瓜...在聚类学习中,这些浅色瓜,深色瓜的概念事先是不知道的,而且学习过程中使用的训练样本通常也没有标记信息

? 学习任务大致可以划分成两类:

(1)监督学习(supervised learning):训练数据带有标记,例如分类与分归

(2)无监督学习(unsupervised learning):训练数据不带有标记,例如聚类

泛化能力: 学得模型适用于新样本的能力

(目前机器学习仍然假设样本空间的全体样本满足独立同分布假设,因此经典概率论得以适用)

3.假设空间

? 前言:归纳(induction)和假设(deduction)是科学推理的两大基本手段。前者是从特殊到一般的泛化(generalization),即从具体的事实归结出一般性规律;后者则是从一般到特殊的特化(specialization)过程,即从基础原理推演出具体状况。 在机器学习中,“从样例中学习”显然是一个归纳过程。因此,又被称为归纳学习(inductive learning)

广义的归纳学习:相当于从样例中学习

狭义的归纳学习:从训练数据中学得概念(concept)。因此也称为“概念学习”或者“概念形成” .概念学习中最基本的是布尔概念学习,即是或者不是的结果表述

假设空间(hypothesis space): 所有假设组成的空间

? 我们可以将学习的过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中的样本判断正确的假设,假设的表示一旦确定,假设空间及其规模大小就确定了。

? 可以有许多策略对假设空间进行搜索,搜索过程中可以不断删除与正例不一致的假设,或者与反例一致的假设。最终将会获得与训练集一致的假设,就这是学得的结果。

版本空间(version space):现实生活中,我们常常面临很大的假设空间,但是学习的过程是基于有限的样本训练集进行的,因此,可能有多个假设与训练集一致,即存在一个与训练集一致的假设集合,这个假设集合就是版本空间

4.归纳偏好

? 归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好。偏好要起作用,是发生在形成版本空间的时候。而学习算法又必须产生一个模型。这样,偏好会起作用

\({\color{red}任何一个有效的机器学习算法都必有其偏好,否则它将被假设空间中看似在训练集上等效的假设所迷惑,而无法产生正确的学习结果}\) 对于归纳偏好的看法: 归纳偏好可以看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或价值观。有一个一般性的原则来引导算法确立正确的偏好,即

奥卡姆剃刀(Occam‘s razor):若有多个假设与观察一致,则选择最简单的那个。\({\color{red}然而奥卡姆原则并非唯一可用原则}\)

事实上,归纳偏好对应了学习算法本身所做出的关于"什么样的模型更好的假设"。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

? 假设学习算法\(\zeta_a\) 是基于某种归纳偏好产生的模型,学习算法\(\zeta_b\)是基于另一种归纳偏好产生的模型。对于学习算法\(\zeta_a\)若它在某些问题上比学习算法\(\zeta_b\)好,则必然存在一个问题,\(\zeta_a\)比\(\zeta_b\)好在哪里?根据NFL定理,无论两种算法怎样产生,两者出错概论的期望是相同的(但是NFL定理前提是,所有问题出现的机会相同,或者所有问题同等重要,但是实际情形我们只需要关注我们目前试图解决的问题即可,因此\(\zeta_a\)与$ \zeta_b$ 还是有区别的。NFL定理其实是想说明,脱离具体问题讨论学习算法好坏是无意义的。学习算法自身的归纳偏好与问题是否匹配,往往起到决定性作用。)

原文地址:https://www.cnblogs.com/my-python-learning/p/11827852.html

时间: 2024-10-07 05:50:48

机器学习基础知识整理归纳的相关文章

Java基础知识整理(一)

概述 公司业务需要,产品既要有.NET又需要Java,没得选择,只能业余时间学习Java,整体觉得Java也.NET还是很相似的,只是语法有差别,差别也不是很大,这就将学习Java的基础知识整理下,以便于自己的学习.作为个.NET程序猿也可以学习Java ,毕竟技多不压身,学习多也要精通. 开发工具 eclipse ,开发java类似.NET 需要装JDK类似.NET Framework. Java开发工具eclipse设置 1.设置字体:window设置: 2.设置快捷键:window--ke

DIV+CSS网页布局常用的一些基础知识整理

CSS命名规范一.文件命名规范 全局样式:global.css:框架布局:layout.css:字体样式:font.css:链接样式:link.css:打印样式:print.css: 二.常用类/ID命名规范页 眉:header内 容:content容 器:container页 脚:footer 版 权:copyright 导 航:menu主导航:mainMenu子导航:subMenu 标 志:logo标 语:banner标 题:title侧边栏:sidebar 图 标:Icon注 释:note

Kali Linux渗透基础知识整理(二)漏洞扫描

Kali Linux渗透基础知识整理系列文章回顾 漏洞扫描 网络流量 Nmap Hping3 Nessus whatweb DirBuster joomscan WPScan 网络流量 网络流量就是网络上传输的数据量. TCP协议 TCP是因特网中的传输层协议,使用三次握手协议建立连接.当主动方发出SYN连接请求后,等待对方回答SYN+ACK ,并最终对对方的 SYN 执行 ACK 确认.这种建立连接的方法可以防止产生错误的连接,TCP使用的流量控制协议是可变大小的滑动窗口协议. 连接建立 TC

JAVA基础知识整理

一.首先先明白get与post的基本定义和区别: 这是两种在客户端和服务器端进行请求-响应的方法. 1get:从指定的资源请求数据. 2post:向指定的资源提交要处理的数据. get基本上用于从服务器取回数据,注意:get方法可能返回缓存数据. post可以从服务器上获取数据,不过,post方法不会缓存数据,并且常用语连同请求一起发送数据. 二. Jquery $.get()方法. $.get()方法通过Http Get发起请求,从服务器上请求数据. 语法:&.get(URL,callback

perl重点基础知识整理

? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86

[HTTP] 高级基础知识整理

HTTP 高级基础知识 整理 HTTP 高级基础知识,包括 Cookie / Session / localStorage / sessionStorage / Cache-Control / Expires / Etag 等 Cookie cookie :wiki Cookie(复数形态Cookies),又称为"小甜饼".中文名称为"小型文本文件",指某些网站为了辨别用户身份而储存在用户本地终端(Client Side)上的数据(通常经过加密) -wiki coo

密码学基础知识整理

最近在研究密码学加密,签名方面的东西.经过几天的学习对一些基础知识进行一下整理 PKI:PKI是Public Key Infrastructure的首字母缩写,翻译过来就是公钥基础设施,在X509标准中PKI为支持共有密钥管理并且支持认证.加密.完整性.可追究性服务的基础设施. CA:CA是 Certificate Authority首字母的缩写,翻译过来的意思是:证书认证授权机构,其主要作用是负责发放管理数字证书的具有权威性的第三方机构.CA通过证书证实他人的公钥信息,证书上有CA的签名.用户

c语言基础知识整理(二)

C语言的基础知识 对C语言的基础认识: 1.C语言编写的程序称为源程序,又称为编译单位. 2.C语言书写格式是自由的,每行可以写多个语句,可以写多行. 3.一个C语言程序有且只有一个main函数,是程序运行的起点. 4.每个C语言程序写完后,都是先编译,后链接,最后运行.(.c---à.obj---à.exe)这个过程中注意.c和.obj文件时无法运行的,只有.exe文件才可以运行. (程序编辑-程序编译-程序连接-程序运行) 标识符: 1.标识符: 合法的要求是由字母,数字,下划线组成.有其它

[转]基础知识整理

[写在前面]本页面仅涉及基础知识的梳理,比如算法与数据结构,操作系统,数据库,C/C++等,这一块主要是确定性知识,仅有对或者不对之说,可探讨的地方较少,对于找工作的同学会比较有用.对于已工作的同志,可绕过此页面,直接前往“专业知识处理”. 原文地址:http://dongxicheng.org/knowledges-carding/ ————————————————————————————————————————————- 1. 数据结构与算法 1.1 书籍 (1)算法导论 (2)编程之美 (