机器学习总结(1)机器学习基础知识

机器学习分类
(1)监督学习
数据集是有标签的,就是说对于给出的样本我们是知道答案的,我们大部分学到的模型都是属于这一类的,包括线性分类器、支持向量机等等;

(2)无监督学习
跟监督学习相反,数据集是完全没有标签的,主要的依据是相似的样本在数据空间中一般距离是相近的,这样就能通过距离的计算把样本分类,这样就完全不需要label,比如著名的K-means算法就是无监督学习应用最广泛的算法;

(3)半监督学习
半监督学习一般针对的问题是数据量超级大但是有标签数据很少或者说标签数据的获取很难很贵的情况,训练的时候有一部分是有标签的而有一部分是没有的;

(4)强化学习
一直激励学习的方式,通过激励函数来让模型不断根据遇到的情况做出调整;

监督学习:分类、回归

1、回归问题 regression(输入、输出:连续值)

2、分类问题 classification(输入、输出:离散值)

训练集、测试集、验证集

过拟合

  • 过拟合的特点:训练集错误率很低,测试集错误率很高,模型泛化能力差

解决过拟合的方法:

1)从简单的模型开始尝试;

2)数据预处理,数据清洗;

3)额外的数据;

4)正则化,regularization;

5)验证,validation;

正则化相当于给训练误差加了一个惩罚项,以防止过拟合的发生。

用的比较多的正则项是L1和L2 
还有dropout、早停

正则化通过牺牲一定的训练集准确率而增加一定的泛化能力

交叉验证

最广泛的是V-fold cross validation,把数据集分成V份,每次拿出V-1作为训练集,而剩下的一份作为验证,通过V次的训练,把最后训练错误的平均值作为该模型的评价,然后选出最佳

梯度下降

梯度下降要同步更新

梯度下降的三种方式: 
批梯度下降 
随机梯度下降 
小批量梯度下降

原文地址:https://www.cnblogs.com/guodavid/p/10158845.html

时间: 2024-10-29 19:01:28

机器学习总结(1)机器学习基础知识的相关文章

机器学习概率论的一些基础知识

概率论的一些基础知识 条件概率 \(P(B|A) = \frac{1}{3}\) 表示的意思为当A发生的时候,B发生的概率 有公式 \[P(B|A) = \frac{P(AB)}{P(A)}\] \[P(AB) = P(B|A)*P(A)=P(A|B)*P(B)\] \[ P(A|B) = \frac{P(B|A)*P(A)}{P(B)}\] 全概率公式 \(B_1,B_2,B_3\)--\(B_n\) 为样本空间的S的一个划分则可以得到 \(P(A) = P(A|B_1) + P(A|B_2)

机器学习中的基础知识(入门上篇)

前面我们已经给大家讲述了很多有关机器学习的概念,这些概念都是十分重要的,我们如果要学习人工智能的话就需要重视这些知识.在这篇文章我们接着给大家介绍机器学习中的基础知识,希望这篇文章能够给大家带来帮助. (1)正则化就是对模型复杂度的惩罚.正则化帮助防止过拟合.正则化包括不同种类:L1 正则化.L2 正则化.dropout正则化. (2)正则化率就是一种标量级,用lambda来表示,指正则函数的相对重要性. (3)表征就是将数据映射到有用特征的过程. (4)根目录就是指定放置 TensorFlow

《机器学习实战》-机器学习基础

目录 机器学习基础 什么是机器学习 机器学习 应用场景 海量数据 机器学习的重要性 机器学习的基本术语 监督学习和非监督学习 监督学习:supervised learning 非监督学习:unsupervised learning 机器学习工具介绍 Python 非 Python NumPy 函数库基础 测试 Numpy 库 测试 NumPy 库代码整合 总结 机器学习基础 什么是机器学习 机器学习的基本术语 监督学习和非监督学习 机器学习工具介绍 总结 人工智能的核心是机器学习,机器学习的本质

写给程序员的机器学习入门 (一) - 从基础说起

前段时间因为店铺不能开门,我花了一些空余时间看了很多机器学习相关的资料,我发现目前的机器学习入门大多要不门槛比较高,要不过于着重使用而忽视基础原理,所以我决定开一个新的系列针对程序员讲讲机器学习.这个系列会从机器学习的基础原理开始一直讲到如何应用,看懂这个系列需要一定的编程知识(主要会使用 python 语言),但不需要过多的数学知识,并且对于涉及到的数学知识会作出简单的介绍.因为我水平有限(不是专业的机器学习工程师),这个系列不会讲的非常深入,看完可能也就只能做一个调参狗,各路大佬觉得哪些部分

机器学习实战笔记-1基础

机器学习基础 什么是机器学习 机器学习能让我们从数据集中受到启发,换句话说,我们会利用计算机来彰显数据背后的真实含义.简单的说机器学习就是把无序数据转换成有用的信息. 关键术语 特征(属性):对一类物体我们关心的性质,比如鸟的体重.翼展.脚蹼.后背颜色等 训练集:已经有分类的大量数据,是用来训练机器学习算法的数据样本集合. 训练样本:实例数据 目标变量:机器学习的预测结果 训练数据:用来训练算法 测试数据:用来评估算法 监督学习: 无监督学习: 机器学习主要任务 机器学习的主要任务时分类和回归.

从零单排入门机器学习:OctaveMatlab的常用知识之画图

OctaveMatlab的常用知识之画图 之前一段时间在coursera看了Andrew ng的机器学习的课程,感觉还不错,算是入门了.这次打算以该课程的作业为主线,对机器学习基本知识做一下总结.小弟才学疏浅,如有错误,敬请指导. 看几个例子即可. 'ro'的含义,r表示红色,o表示o形. 可以记住某些常用的选项. 一条命令画两条线.其实可以多条. 一般来说,用户在新输入plot 命令之后,原图片上的内容将被删除.如果你想保存当前的图片内容并将新创建的图片层叠到原图片上,你可以通过使用hold

Day1 机器学习(Machine Learning, ML)基础

一.机器学习的简介 定义 Tom Mitchell给出的机器学习定义: 对于某类任务T和性能度量P,如果计算机程序在T上以P衡量的性能随着经验E而自我完善,那么就称这个计算机程序从经验E学习. 百度百科给出的机器学习定义:机器学习是多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能. 分类 监督学习(supervised learning):数据集是有标签的,

最全的Spark基础知识解答

最全的Spark基础知识解答 时间:2016-12-12 12:00:50      阅读:19      评论:0      收藏:0      [点我收藏] 原文:http://www.cnblogs.com/sanyuanempire/p/6163732.html 一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架. dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMa

Deep Reinforcement Learning 基础知识(DQN方面)

Introduction 深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算法.简单的说,就是和人类一样,输入感知信息比如视觉,然后通过深度神经网络,直接输出动作,中间没有hand-crafted工作.深度增强学习具备使机器人实现完全自主的学习一种甚至多种技能的潜力. 虽然将深度学习和增强学习结合的想法在几年前就有人尝试,但真正成功的开端是DeepMind在NIPS 201

特征值与奇异值的基础知识

在看论文的过程中,经常遇到涉及到特征值.特征向量.奇异值.右奇异向量等相关知识的地方,每次都是看得似懂非懂.本文将从特征值和奇异值相关的基础知识入手,探究奇异值和特征值的内涵,进而对特征值和奇异的知识进行梳理. 特征值分解和奇异值分解(SVD)在主成分分析(PCA)和机器学习领域都有广泛的应用.PCA的实现由两种方法,一种是特征值分解,另一种是奇异值分解,特征值分解和奇异值分解的目的是一样的,都是提取出一个矩阵最重要的特性.特征值和奇异值在大部分人的印象中都只是停留在线性代数中,对他们特殊的物理