机器学习概念_1

p.p1 { margin: 0.0px 0.0px 2.0px 0.0px; font: 14.0px ".PingFang SC" }
p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; min-height: 14.0px }
p.p3 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px ".PingFang SC" }
li.li3 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px ".PingFang SC" }
span.s1 { font: 12.0px "Helvetica Neue" }
span.s2 { font: 10.0px Menlo }
ul.ul1 { list-style-type: disc }

监督学习:机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测

机器学习的基本术语

标签:要预测的事物,即简单线性回归中的y变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。

特征:输入变量,即简单线性回归中的x变量。简单的机器学习项目可能会使用单个特征,而比较复杂的机器学习项目可能会使用数百万个特征,按这种方式指定:{x1, x2, x3, …..xn}

在垃圾邮件检测器示例中,特征可能包括:

  • 电子邮件文本中的字词
  • 发件人的地址
  • 发送电子邮件的时段
  • 电子邮件中包含“一种奇怪的把戏”这样的短语。

样本:数据的特定实例X。(我们采用粗体 x 表示它是一个矢量)

我们将样本分为以下两类:

  • 有标签样本
  • 无标签样本

模型:定义特征和标签之间的关系。例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。

模型生命周期的两个阶段:

  • 训练表示创建或学习模型。也就是说,您向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。
  • 推断表示将训练后的模型应用于无标签样本。也就是说,您使用训练后的模型来做出有用的预测 (y‘)。

回归与分类

回归模型可预测连续值。例如,回归模型做出的预测可回答如下问题:

  • 加利福尼亚州一栋房产的价值是多少?
  • 用户点击此广告的概率是多少?

分类模型可预测离散值。例如,分类模型做出的预测可回答如下问题:

  • 某个指定电子邮件是垃圾邮件还是非垃圾邮件?
  • 这是一张狗、猫还是仓鼠图片?

p.p1 { margin: 0.0px 0.0px 2.0px 0.0px; font: 14.0px ".PingFang SC" }
p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; min-height: 14.0px }
p.p3 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px ".PingFang SC" }
p.p4 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue" }
li.li3 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px ".PingFang SC" }
span.s1 { font: 12.0px "Helvetica Neue" }
span.s2 { font: 10.0px Menlo }
span.s3 { color: #dca10d }
span.s4 { font: 12.0px ".PingFang SC" }
ul.ul1 { list-style-type: disc }

线性回归

鸣叫声与温度之间的关系,如下所示: y = mx + b

其中:

  • y指的是温度(以摄氏度表示),即我们试图预测的值。
  • m指的是直线的斜率。
  • x指的是每分钟的鸣叫声次数,即输入特征的值。
  • b指的是 y 轴截距。

按照机器学习的惯例,您需要写一个存在细微差别的模型方程式:y′ = b + w1x1

其中:

  • y′指的是预测标签(理想输出值)。
  • b指的是偏差(y 轴截距)。而在一些机器学习文档中,它称为 w0
  • w1指的是特征 1 的权重。权重与上文中用 m表示的“斜率”的概念相同。
  • x1指的是特征(已知输入项)。

要根据新的每分钟的鸣叫声值 x1推断(预测)温度 y′,只需将 x1值代入此模型即可。

下标(例如 w1和 x1)预示着可以用多个特征来表示更复杂的模型。例如,具有三个特征的模型可以采用以下方程式:y′ = b + w1x1 + w2x2 + w3x3

训练与损失

训练模型表示通过有标签样本来学习(确定)所有权重和偏差的理想值。

在监督式学习中,机器学习算法通过以下方式构建模型:检查多个样本并尝试找出可最大限度地减少损失的模型;这一过程称为经验风险最小化。

平方损失:一种常见的损失函数

接下来我们要看的线性回归模型使用的是一种称为平方损失(又称为 L2 损失)的损失函数,单个样本的平方损失如下:(y - y‘)2

均方误差 (MSE) 指的是每个样本的平均平方损失。要计算 MSE,请求出各个样本的所有平方损失之和,然后除以样本数量:MSE =1/N∑(x,y)∈D(y?prediction(x))2

其中:

  • (x,y)指的是样本,其中
    • x指的是模型进行预测时使用的特征集(例如,温度、年龄和交配成功率)。
    • y指的是样本的标签(例如,每分钟的鸣叫次数)。
  • prediction(x)指的是权重和偏差与特征集 x结合的函数。
  • D指的是包含多个有标签样本(即 (x,y))的数据集。
  • N指的是 D中的样本数量。

虽然 MSE 常用于机器学习,但它既不是唯一实用的损失函数,也不是适用于所有情形的最佳损失函数。

原文地址:https://www.cnblogs.com/jp-mao/p/10108877.html

时间: 2024-10-19 22:32:25

机器学习概念_1的相关文章

机器学习——概念

机器学习的大概概念 你们可以上百度查找—https://baike.baidu.com/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/217599?fr=aladdin 我当初学机器学习的时候用的是 jupyterlab 安装 jupyterlab pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jupyterlab Jupyther notebook(曾经的Ipython notebook),

1.0 机器学习概念介绍

机器学习的基本概念 数据 数据集 数据的整体叫做数据集   ( data set ) 样本 每一行数据被称为一个样本   ( sample ) 标记 最后一列, 称为标记   ( label ) 特征 表中的每个列都是一个特征, 用特征向量来表示一个特征值 特征空间 特征进行数据表示后的范围空间 此图中的形式是一个二维的特征空间, 高维的话则基于低维进行推导即可 抽象特征 很多的特征并不一定非要具体, 比如图像识别像素点 机器学习的基本任务 分类任务 二分类 多分类 多标签分类 回归任务 什么是

机器学习概念

机器学习就是把无序的数据转换成实用的信息. 机器学习的主要任务就是分类,通过通过训练数据训练算法,终于能够将实际的数据分到合适的类别中 监督学习算法:预測目标变量的值 k-means算法.线性回归 朴素贝叶斯算法,局部加权线性回归 支持向量机.ridge回归 决策树.lasso最小回归系数预计 无监督学习算法:不须要预測目标变量的值 k-均值.最大期望算法 DBSCAN,parzen窗设计 确定哪种算法之后,还要确定目标变量的类型: 离散型:是/否,1/2/3     分类器算法 连续性:-99

机器学习概念_2

降低损失:减少模型预测和标签之间的误差 迭代方法:在训练机器学习模型时,首先对权重和偏差进行初始猜测,然后反复调整这些猜测,直到获得损失可能最低的权重和偏差为止 原文地址:https://www.cnblogs.com/jp-mao/p/10108929.html

莫烦Python之机器学习概念了解

1.机器学习分类 有监督学习 无监督学习 半监督学习 强化学习 遗传算法 2.神经网络 一种基于传统统计学的模型,由大量的神经元与其关系构成.常用来对复杂的输入和输出关系进行建模 误差反向传递:给出信号,得到经过神经网络算法之后的结果(信号正向传播),再根据结果来修改神经网络中的神经元强度(信号反向传播) 通过正向和反向传播来更新神经元,从而形成更好的神经系统 每一个神经元都有属于它的激活函数,在训练过程中可以通过调整不同神经元的激活参数来调整模型 输入层:负责信息的传入 输出层:权衡.中转.输

图像处理、机器学习概念一箩筐

Population Sparsity(种群稀疏) vs Lifetime Sparsity(存在稀疏) Fn×m=Wn×d?Xd×m d:表示原有的特征空间 n:变换后的特征空间 m:样本的数目 F:特征矩阵(Feature Matrix) 每个样本都只用很少的激活(非零)特征来描述.具体来说,对于特征矩阵的每一列(一个样本)f(i),只有很少的非零元素.其他的都是0 .例如,一幅图像可以由里面包含的一些目标来描述,如果里面存在很多可能的目标,那么在某一时刻,也只可能出现一些.我们称之为pop

机器学习---概念基础

分类:针对离散型数据 回归:针对连续型数据 代价函数就是目标函数和实际训练集的误差 平方误差代价函数可能是解决回归问题最常用的手段. https://study.163.com/course/courseLearn.htm?courseId=1004570029#/learn/video?lessonId=1049095158&courseId=1004570029 原文地址:https://www.cnblogs.com/yzhnm/p/10472224.html

轻松入门机器学习之概念总结(二)

欢迎大家前往云加社区,获取更多腾讯海量技术实践干货哦~ 作者:许敏 接上篇:机器学习概念总结笔记(一) 8)逻辑回归 logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域.例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等.以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等.因此因变量就为是否胃癌,值为"是"或"否",自变量就可以

Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介

[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”. l“机器学习是对能通过经验自动改进的计算机算法的研究”. l“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准.” 一种经常引用的英文定义是:A computer program is said