机器学习的基本概念理解

  1. 术语理解

    示例:

对应着数据中的一条记录(多条记录构成数据集)。可以包含标记,也可以不包含标记。

假设一条记录有多个属性构成的,则这条记录就有5维。多个属性构成的空间叫做属性空间,样本空间(示例也可以叫做样本)或者输入空间。每个属性都有多个属性取值,则每条记录都能够在输入空间中找到唯一的一个点与之对应,我们称这个点为一个坐标向量,因此我们也把一个示例称为一个特征向量。

样例:

拥有标记信息的示例,则称为样例。

模型:

对训练集(x1,y1),(x2,y2)....(xm,ym)进行学习,建立一个从输入空间x到输出空间y的映射f:x能够推 y,言下之意就是能够根据记录的属性数推测出记录的标签。也就是所谓的输入空间x推导出输出空间y的f。

预测:

对测试集(xm+1,ym+1),(xm+2,ym+2),...(xm+n,ym+n),进行测试,根据输入空间x推导出输出空间y与示例的实际y值进行对比的过程。

泛化:

模型适用于新样本的能力,称为泛化能力(泛化能力有强弱之分)。

假设空间:

每个样例它有多个属性,每个属性有多个取值,这些取值之间的组合就构成了假设空间。我们的目的就是对这个空间进行搜索,从一般到特殊,或是自底向上,从特殊到一般,搜索过程中可以不断删除与正例不一致的假设,和(与)反例一致的假设。最终将会获得与训练集一致的假设,这就是我们学得到的结果,即模型。也就是说假设空间,我们学的模型,可能有多个,这个怎么办呢?选择哪个好了。

归纳偏好:在假设空间学到的模型有多个,每个模型在面对新样本的时候会产生不同的输出,机器学习对某种模型的偏好,称之为归纳偏好。

2.模型评估

错误率:如果在m个样本中有a个样本分类错误,则错误率为E=a/m

精度:1-E

泛化误差:我们把模型用于新样本上产生的误差,称为泛化误差。

欠拟合:对于训练集学习太差,泛化能力很弱,欠拟合问题容易解决。

过拟合:对于训练集学习太好,泛化能力很弱,过拟合很难解决。

泛化误差的衡量:需要一个测试集来测试学习器对新样本的判别能力,然后以测试集上的测试误差,作为泛化误差的近似。

测试集的选取有一定的标准。

留出法:直接将数据集D,划分成训练集S和测试集T,分层采样,训练集中有多少是正样本的比例,多少负样本的比例,则测试集中就应该有多少个。一般来说,即便给定训练集合测试集的样本比例后,不同的数据划分,也会造成结果的差异。例如500个正例中,有350个为训练集正例,150个为测试集正例,那么到底以这500个中,那些正例划分为350个呢,不同的划分方法结果也会不一样,怎么办呢?一般采用随机划分,重复进行试验评估后,去平均值做为留出法的评估结果。我们规定一般留出法的比例为2/3到4/5用于训练,剩余的用作测试。

留一法:就留一个做为测试,其他的都做为训练。

交叉验证法:将数据集划分为K个大小相似的互斥子集,都是通过分层采样,以前k-1个作为训练,第k个作为测试,测试算出第一次结果,在以k-2和最后一个k作为训练,以第k-1个作为测试集,算出第二次结果。....以此类推,多次算出之后,取其平均值。

自助法:从数据集中D,抽一个放入D’中,然后在放回D中,在继续抽一个放入D‘中,抽取m个,这个对集成学习等方法会有很大的好处。(利于集成分类器的之间的差异性)

调参与最终模型:大多数学习算法,都有些参数需要设定,参数配置不同,学得模型的性能往往有差别。

性能度量:

对回归任务来说,最常用的性能度量是均方误差。

错误率:不必多说,前面有

精度:不必多说,前面有

分类结果的混淆矩阵:TP+FP+TN+FN=测试样本数。TP+FP=你认为的正例个数,TP是实际的正例个数。

FN+TN=你认为的反例个数,TN=实际反例个数。

查准率: 实际的正例个数TP/你认为的正例个数

查全率:实际的正例个数TP/你认为的实际的正例个数+实际的反例个数

时间: 2024-07-30 10:57:57

机器学习的基本概念理解的相关文章

机器学习的基本概念

智能系统:需要具有学习能力.例如,遇到错误时能自我校正:会通过经验改善自身的性能:会自动获取和发现所需要的知识. 基本特征: 自适应:根据数据自动调整参数 自组织:根据数据自动确定组织规则 自推理:根据已有数据和规则能发现新的定理.定律和规则 应用:如专家系统.自动推理.自然语言理解.模式识别.计算机视觉.智能机器人等领域.其中尤其典型的是专家系统中的知识获取瓶颈问题,人们一直在努力试图采用机器学习的方法加以克服. 机器学习的基本概念: 按照人工智能大师西蒙的观点,学习就是系统在不断重复的工作中

【Machine Learn】机器学习及其基础概念简介

机器学习及其基础概念简介 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结合视频学习和书籍基础的笔记所得.本系列文章将采用理论结合实践方式编写.首先介绍机器学习和深度学习的范畴,然后介绍关于训练集.测试集等介绍.接着分别介绍机器学习常用算法,分别是监督学习之分类(决策树.临近取样.支持向量机.神经网络算法)监督学习之回归(线性回归.非线性回归)非监督学习(K-means聚

机器学习:基本概念、五大流派与九种常见算法

机器学习正在进步,我们正在不断接近创造人工智能的目标.语音识别.图像检测.机器翻译.风格迁移等技术已经在生活中开始得到了应用,但机器学习的发展仍还在继续,有人认为这场变革有可能会彻底改变人类文明的发展方向乃至人类自身.但你了解现在正在发生的这场变革吗?四大会计师事务所之一的普华永道(PwC)近日发布了多份解读机器学习基础的图表,其中介绍了机器学习的基本概念.原理.历史.未来趋势和一些常见的算法. 一.机器学习概览 1. 什么是机器学习? 机器通过分析大量数据来进行学习.比如说,不需要通过编程来识

机器学习的基础概念

一.概念理解 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能. 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳.综合而不是演绎. 机器学习有下面几种定义:(一个讲的比较好的文章) “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如

实现HTTPS系列第四弹之【TLS ,SSL等概念理解】

博文说明[前言]: 本文将通过个人口吻介绍TLS ,SSL,PKI等相关知识,在目前时间点[2017年5月21号]下,所掌握的技术水平有限,可能会存在不少知识理解不够深入或全面,望大家指出问题共同交流,在后续工作及学习中如发现本文内容与实际情况有所偏差,将会完善该博文内容. 1.第一弹:实现HTTPS系列第一弹之[http,https,www,web等概念简介] 博文链接:http://watchmen.blog.51cto.com/6091957/1922919 2.第二弹:实现HTTPS系列

基本概念理解(二)

基本概念理解 1.bool类型表示真值true和false.可以将算数类型的任何值赋值给bool独享.0值算数类型表示false,任何非0的值都表示true(为什么经常搞反,汗!).也可以直接用false或者true给bool型变量赋值. 2.C++建议每个内置变量都进行初始化.虽然这样做不是必须的,但是会更加容易和安全. 3.和其它变量不同,除非特别说明,在全局作用域中声明的const变量是定义该对象的文件的局部变量.此变量只存在于那个文件中,不能被其它文件访问. 通过指定const变量为ex

计算机网络入门概念理解

计算机网络入门概念理解 下面我来讲解一些关于网络的基础知识,这些知识有利于帮助我们今后学习TCP/IP协议相关知识打好基础. 诞生背景 首先从网络的诞生背景讲起.一开始计算机的运作是独立存在的(独立模式),每个计算机有各自的业务,用户需要在不同的计算机上执行特定的业务逻辑.用户采用卡带的方式将程序和数据输入计算机让计算机进行运算.之后出现了分时系统,分时系统具有"多终端,一主机 "的特点,由于分时系统CPU时间片轮转的特性让用户有了"一人一机"的错觉.70年代后计算

基本概念理解

基本概念理解: 1.编译器:就是将“一种语言(通常为高级语言)”翻译为“另一种语言(通常为低级语言)”的程序.一个现代编译器的主要工作流程:源代码 (source code) → 预处理器 (preprocessor) → 编译器 (compiler) → 目标代码 (object code) → 链接器(Linker) → 可执行程序 (executables) 2.集成开发环境(IDE,Integrated Development Environment )是用于提供程序开发环境的应用程序,

Zigbee 概念理解

1.IEEE802.15.4协议 IEEE802.15.4工作组致力于无线个人区域网络(wireless personal area network, WPAN)的标准化工作,制定的IEEE802.15.4标准规定了WPAN网络的物理层(PHY)和媒体访问层(MAC) 2.ZigBee协议 ZigBee协议由ZigBee Alliance制定. ZigBee协议在IEEE802.15.4标准规定的WPAN网络的物理层(PHY)和媒体访问层(MAC)的基础上又增加了传输层(TL).网络层(NWK)