机器学习中常见的专业术语

模型(model):计算机层面的认知
学习算法(learning algorithm),从数据中产生模型的方法
数据集(data set):一组记录的合集
示例(instance):对于某个对象的描述
样本(sample):也叫示例
属性(attribute):对象的某方面表现或特征
特征(feature):同属性
属性值(attribute value):属性上的取值
属性空间(attribute space):属性张成的空间
样本空间/输入空间(samplespace):同属性空间
特征向量(feature vector):在属性空间里每个点对应一个坐标向量,把一个示例称作特征向量
维数(dimensionality):描述样本参数的个数(也就是空间是几维的)
学习(learning)/训练(training):从数据中学得模型
训练数据(training data):训练过程中用到的数据
训练样本(training sample):训练用到的每个样本
训练集(training set):训练样本组成的集合
假设(hypothesis):学习模型对应了关于数据的某种潜在规则
真相(ground-truth):真正存在的潜在规律
学习器(learner):模型的另一种叫法,把学习算法在给定数据和参数空间的实例化
预测(prediction):判断一个东西的属性
标记(label):关于示例的结果信息,比如我是一个“好人”。
样例(example):拥有标记的示例
标记空间/输出空间(label space):所有标记的集合
分类(classification):预测是离散值,比如把人分为好人和坏人之类的学习任务
回归(regression):预测值是连续值,比如你的好人程度达到了0.9,0.6之类的
二分类(binary classification):只涉及两个类别的分类任务
正类(positive class):二分类里的一个
反类(negative class):二分类里的另外一个
多分类(multi-class classification):涉及多个类别的分类
测试(testing):学习到模型之后对样本进行预测的过程
测试样本(testing sample):被预测的样本
聚类(clustering):把训练集中的对象分为若干组
簇(cluster):每一个组叫簇
监督学习(supervised learning):典范--分类和回归
无监督学习(unsupervised learning):典范--聚类
未见示例(unseen instance):“新样本“,没训练过的样本
泛化(generalization)能力:学得的模型适用于新样本的能力
分布(distribution):样本空间的全体样本服从的一种规律
独立同分布(independent and identically distributed,简称i,i,d.):获得的每个样本都是独立地从这个分布上采样获得的。

原文地址:https://www.cnblogs.com/wbyixx/p/12079554.html

时间: 2024-08-29 21:18:30

机器学习中常见的专业术语的相关文章

机器学习中常见的最优化算法

我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题,比如每个企业和个人都要考虑的一个问题"在一定成本下,如何使利润最大化"等.最优化方法是一种数学方法,它是研究在给定约束之下如何寻求某些因素(的量),以使某一(或某些)指标达到最优的一些学科的总称.随着学习的深入,博主越来越发现最优化方法的重要性,学习和工作中遇到的大多问题都可以建模成一种最优化模型进行求解,比如我们现在学习的机器学习算法,大部分的机器学习算法的本质都是建立优化模型,通过最优化方法对目标函数(或损失函数)进行优

机器学习中常见的损失函数

损失函数是机器学习中常用于优化模型的目标函数,无论是在分类问题,还是回归问题,都是通过损失函数最小化来求得我们的学习模型的.损失函数分为经验风险损失函数和结构风险损失函数.经验风险损失函数是指预测结果和实际结果的差别,结构风险损失函数是指经验风险损失函数加上正则项.通常表示为: θ*是我们通过损失函数最小化要求得的参数,一般都是通过梯度下降法来求得 1.0-1损失函数 0-1损失函数的表达式如下,常见于感知机模型中,预测正确则损失为0,预测错误则损失为1: 2.绝对值损失函数 3.log对数损失

机器学习中常见的过拟合解决方法

在机器学习中,我们将模型在训练集上的误差称之为训练误差,又称之为经验误差,在新的数据集(比如测试集)上的误差称之为泛化误差,泛化误差也可以说是在模型在总体样本上的误差.对于一个好的模型应该是经验误差约等于泛化误差,也就是经验误差要收敛于泛化误差,根据霍夫丁不等式可知经验误差在一定条件下是可以收敛于泛化误差的. 当机器学习模型对训练集学习的太好的时候(再学习数据集的通性的时候,也学习了数据集上的特性,这些特性是会影响模型在新的数据集上的表达能力的,也就是泛化能力),此时表现为经验误差很小,当往往此

机器学习中常见优化方法汇总

http://www.scipy-lectures.org/advanced/mathematical_optimization/index.html#a-review-of-the-different-optimizers 机器学习中数学优化专门用于解决寻找一个函数的最小值的问题.这里的函数被称为cost function或者objective function,或者energy:损失函数或者目标函数. 更进一步,在机器学习优化中,我们并不依赖于被优化的函数的数学解析表达式,我们通过使用$sc

无线通信中的那些专业术语

香农定理 类比:城市道路上的汽车的车速和什么有关系?和道路的宽度有关系,和自己车的动力有关系,也其他干扰因素有关系(如:车量的多少和红灯的数量). 香农定理是所有通信制式最基本的原理. C=Blog2(1+S/N): 其中C是可得到的链路速度,B是链路的带宽,S是平均信号功率,N是平均噪声功率,S/N即信噪比.香农定理给出了链路速度上限(比特每秒(bps))和 链路信噪比及带宽的关系.香农定理可以解释3G各种制式由于带宽不同,所支持的单载波最大吞吐量的不同 趋肤效应 类比:下大雨后,农村的土路上

php面向对象常见的专业术语

类 − 定义了一件事物的抽象特点.类的定义包含了数据的形式以及对数据的操作. 对象 − 是类的实例. 成员变量 − 定义在类内部的变量.该变量的值对外是不可见的,但是可以通过成员函数访问,在类被实例化为对象后,该变量即可称为对象的属性. 成员函数 − 定义在类的内部,可用于访问对象的数据. 继承 − 继承性是子类自动共享父类数据结构和方法的机制,这是类之间的一种关系.在定义和实现一个类的时候,可以在一个已经存在的类的基础之上来进行,把这个已经存在的类所定义的内容作为自己的内容,并加入若干新的内容

ANTLR v4 专业术语集

记录<The Definitive ANTLR 4 Reference>中出现的专业术语: grammar 文法,一种形式化(formal)的语言描述. syntax 语法 phrase 短语 lexer 词法分析器 parser 语法分析器 parse tree 语法分析树,表示语法如何匹配输入的数据结构. tree walker 树遍历器 top-down 自顶向下 backtracking 回溯 semantic predicates 语义谓词 原文地址:https://www.cnbl

现代软件工程—构建之法》第一章 中出现的计算机专业术语

现代软件工程-构建之法>第一章 中出现的计算机专业术语 1.软件 2.程序 3.软件工程 4.二叉树 5.遍历算法 6.数据结构 7.算法 8.应用软件 9.软件服务 10.源程序 11.软件架构 12.软件设计与实现 13.依赖关系 14.编译参数 15.链接参数 16.构建 17.源代码管理 18.配置管理 19.质量保证 20.软件测试 21.需求分析 22.程序理解 23.软件维护 24.服务运营 25.软件的生命周期 26.软件项目的管理 27.用户体验 28.国际化和本地化 29.A

机器学习项目中常见的误区

http://blog.jobbole.com/86131/ 机器学习项目中常见的误区 2015/04/22 · IT技术 · 机器学习 分享到:7 2015 Oracle技术嘉年华 Java实现图片水印 学写一个字 前端性能优化-基础知识认知 本文由 伯乐在线 - ruan.answer 翻译,Daetalus 校稿.未经许可,禁止转载!英文出处:machinelearningmastery.欢迎加入翻译组. 在最近的一次报告中,Ben Hamner向我们介绍了他和他的同事在Kaggle比赛中