1.0 机器学习概念介绍

机器学习的基本概念

数据

数据集

数据的整体叫做数据集   ( data set )

样本

每一行数据被称为一个样本   ( sample )

标记

最后一列, 称为标记   ( label )

特征

表中的每个列都是一个特征, 用特征向量来表示一个特征值

特征空间

特征进行数据表示后的范围空间

此图中的形式是一个二维的特征空间, 高维的话则基于低维进行推导即可

抽象特征

很多的特征并不一定非要具体, 比如图像识别像素点

机器学习的基本任务

分类任务

二分类

多分类

多标签分类

回归任务

什么是机器学习

机器学习方法的分类

监督学习

给机器的训练数据拥有 "标记" 或者 "答案"

监督学习的应用场景

监督学习的算法

非监督学习

给机器的训练数据没有 "标记" 或者 "答案"

聚类分析

对没有 "标记" 的数据进行分类 - 聚类分析

降维处理

特征提取  

信用卡的评级和人的身高如何关系?

特征压缩  

PCA, 如下图这种二维的特征表示呈现出一种一维的线性表现, 这时可进行特征压缩

在尽量少损失特征信息的情况下, 将高维的特征向量压缩成低纬的特征向量, 大大提高效率而且不会降低质量

方便可视化

高维有点不好处理, 降维自然容易理解

异常检测

如下图中的两个红点就很不适合整体的状态, 因此检测出后进行干预即可

半监督学习

给机器的训练数据一部分有 "标记" 或者 "答案", 另一部分没有

在现实中更常见, 各种原因都会产生标记的缺失

增强学习

无人驾驶, 机器人等应用场景

机器学习方法的其他分类

批量学习 - Batch Learning

进行一个批次的数据样本进行学习以及辨识, 训练出的算法线上投入使用

不会对新的数据样本来更新自己的学习能力, 运算识别能力基于最初的效率和质量

优点  简单

如何适应环境变化 ?   - 定时重新批量学习

缺点  每次重新批量学习, 运算量巨大, 某些环境变化快的情况下, 基本无望

在线学习 - Online Learning

进行一个批次的数据样本进行学习以及辨识, 训练出的算法线上投入使用

会对新的数据样本来更新自己的学习能力, 运算识别能力会基于最初的版本不断的自动优化提升适应当前的样本情景

优点  及时反映新的环境变化

新数据带来不好的变化 ?   - 加强对数据的监控

其他  也适用于数据量巨大, 完全无法批量学习的环境

参数学习

假设存在某个参数, 大量的数据集都是基于此参数存在的一个具体实例

分析数据集本身就是为了获得参数

非参数学习

和机器学习相关的哲学思考

数据即算法?

算法为王?

如何选择机器学习算法?

奥卡姆剃刀

没有免费午餐定律

其他思考

原文地址:https://www.cnblogs.com/shijieli/p/10957779.html

时间: 2024-11-08 21:47:50

1.0 机器学习概念介绍的相关文章

概念介绍(机器学习)

似然函数:似然函数在形式上就概率密度函数.   似然函数用来估计某个参数. 最大似然函数:就是求似然函数的最大值.         最大似然函数用于估计最好的参数. 最小二乘法:它通过最小化误差的平方和寻找数据的最佳函数匹配.就是求 y=a1+a2x的系数.通过最小化误差的平方,然后求系数的偏导数,令导数为0,求解. 梯度下降法,基于这样的观察:如果实值函数  在点  处可微且有定义,那么函数 在  点沿着梯度相反的方向  下降最快.就是求最低点. 局部加权回归:它的中心思想是在对参数进行求解的

机器学习算法介绍

什么是程序 计算机程序,是指为了得到某种结果而可以由计算机(等具有信息处理能力的装置)执行的代码化指令序列(或者可以被自动转换成代码化指令序列的符号化指令序列或者符号化语句序列). 通俗讲,计算机给人干活,但它不是人,甚至不如狗更懂人的需要,那怎么让它干活呢,那就需要程序员来写程序,程序就是计算机能懂的语言(指令),然后计算机可以执行这些程序(指令),最终完成任务. int n = std::atoi(argv[1]); //求n的阶乘 double result = 1.0; for (int

大白话5分钟带你走进人工智能-第二十八节集成学习之随机森林概念介绍(1)

                                                      第二十八节集成学习之随机森林概念介绍(1) 从本系列开始,我们讲解一个新的算法系列集成学习.集成学习其实是怎么样去应用决策树解决一些问题. 在机器学习领域集成学习是一种非常简单直接的提升分类器回归器预测效果的一种思路.决策树有一个困境,当层数太深的时候会有过拟合问题,当我不想过拟合,就通过预剪枝给它砍掉一部分深度,此时损失又容易太大了,导致在训练集上预测的又不怎么准.所以对于决策树很难去找

Shiro权限控制框架入门1:Shiro的认证流程以及基本概念介绍

前言:我在最开始学习Shiro这个框架时,在网上搜索到的一个介绍比较全面的教程是:<跟我学Shiro>系列教程.但是在我看了他写的前几篇文章后,我发现虽然他在这个系列教程中把shiro的一些特性介绍地非常全面详细,但是整个教程的叙述方式还是有很大缺陷的.文章与文章之间并没有很好地串联起来,每篇文章介绍的东西都过于分散了,如果是对shiro完全不了解的新手来看的话完全是一场噩梦.就像一个网友评价的这样: 看了看这个教程,看完之后都想放弃shiro了,完全看不懂,后来百度了很多别的资料才理解了sh

足彩基础知识入门(4)赛事数据库与预测平台基础概念介绍(一)

在足球赛事数据库以及统计分析预测平台中,有很多概念,如果不搞懂,很难进行下一步的工作.所以为了配合团队人员的学习和任务进行,特意编写这篇文章.如果有其他问题和不懂的,请留言,将根据情况进行更新. 本文原文地址:足彩基础知识入门(4)赛事数据库与预测平台基础概念介绍(一) 1.指数1/2/3.... 我在 足彩基础知识入门(3)足彩赔率的本质 一文中介绍了赔率的概念,那么指数的概念和赔率以及结果是相关的.我们举个例子: 如上图的比赛,前面是竞彩非让球的赔率:1.74-3.25-4.15,也就是说

斯坦福机器学习公开课---1.机器学习简单介绍

斯坦福机器学习公开课---1. 机器学习简单介绍 1.1  介绍 机器学习流行原因--- 1)      由人工智能AI发展来的一个领域 2)      是计算机需要开发的一项新的能力,涉及工业和基础学科中的很多内容. 应用学习算法,如设计自主机器人,计算生物学和其他被机器学习影响的领域. 1.2  机器学习应用 1)        数据挖掘 网站点击流数据.电子医疗记录.计算生物学和工程学. 2)        无法手动进行编程的领域 自动直升机.手写体识别.自然语言处理NLP和计算机视觉.

攻城狮在路上(贰) Spring(二)--- Spring IoC概念介绍

一.IoC的概念: IoC(控制反转)是Spring容器的核心.另一种解释是DI(依赖注入),即让调用类对某一个接口的依赖关系由第三方注入,以移除调用类对某一个接口实现类的一览. 定义如此,由此可见,在面向接口编程的情况下,IoC可以很好的实现解耦,可以以配置的方式为程序提供所需要的接口实现类. 在实际程序开发中,我们只需要提供对应的接口及实现类,然后通过Spring的配置文件或者注解完成对依赖类的装配.二.IoC的类型: 1.通过构造函数: 此种方式的缺点是,在构造函数中注入之后一般会作为一个

DNS系列- 1.dns基本概念介绍

DNS系列- 1.dns基本概念介绍     目录         前言         一.概述             1.名词解释             2.DNS域名结构         二.DNS域名解析             1.查询类型             2.解析类型             3.DNS服务器的类型             4.区域传输             5.解析过程             6.解析答案         三.资源记录        

Spring 2.0 的AOP介绍及其通知类型

Spring 2.0的AOP 在Spring 2.0中最激动人心的增强之一是关于Spring AOP,它变得更加便于使用而且更加强大,主要是通过复杂而成熟的AspectJ语言的支持功能来实现,而同时保留纯的基于代理的Java运行时.Spring 2.0的AOP提供给我们一种新的思考程序结构的方法,能够解决很多纯OOP无法解决的问题--让我们能够在一个模块中实现某些需求,而不是以发散的方式实现.Spring 2.0允许用户选择使用基于模式或@AspectJ注解的方式来自定义切面.这两种风格都支持所