机器学习的基础概念

一、概念理解

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

  它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

  机器学习有下面几种定义:(一个讲的比较好的文章)

  • “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。
  • “机器学习是对能通过经验自动改进的计算机算法的研究”。
  • “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”

  一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

二、应用  

  机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

3、划分情况

机器学习不仅有一种方法,实现它的方法多种多样。这里所说的方法,在程序语言中,我们叫做算法。目前所有机器学习算法大致上可以被分为5类模式:

1、监督学习模式:supervised learning
  如果在学习过程中,我们不断的向计算机提供数据和这些数据对应的值,比如说给计算机看猫和狗的图片,告诉计算机那些图片里是猫,那些是狗,然后在让它学习去分辨猫和狗。通过这种指引的方式,让计算机学习我们是如何把这些图片数据对应上图片所代表的物体。也就是让计算机学习这些标签可以代表那些图片。这种学习方式叫做“监督学习”。预测房屋的价格,股票的涨停同样可以用监督学习来实现。大家所熟知的神经网络同样是一种监督学习的方式。

2、非监督学习模式:unsupervised learning
  同样在这种学习过程中,我只给计算机提供猫和狗的图片,但是并没有告诉它那些是猫那些是狗。取而代之的是,我让它主机去判断和分类。让它自己总结出这两种类型的图片的不同之处。这就是一种“非监督学习”,在这种学习过程中,我们可以不用提供数据所对应的标签信息,计算机通过观察各种数据之间的特性,会发现这些特性背后的规律。这些规律也就是非监督方法所学到的东西。

3、半监督学习模式:semi-supervised learning
  还有一种方法,综合了监督学习和非监督学习的特征,这种叫作“半监督学习”,它主要考虑如何利用少量有标签的样本和大量的没有标签样本进行训练和分类。

4、遗传算法模式:genetic algorithm
  还有一种和强化学习类似的学习方法,叫做遗传算法。这种方法是模拟我们熟知的进化理论,淘汰弱者,适者生存。通过这样的淘汰机制去选择最优的设计或模型。比如开发者所开发的计算机学会超级玛丽,最开始的马里奥1代可能不久就牺牲了,不过系统会基于1代的马里奥随机生成2代。然后在保存这些代里面最厉害的马里奥。淘汰掉比较弱的马里奥代,然后再次基于强者“繁衍和变异”,生出更强的马里奥,这也就是遗传算法的基本思想。

5、强化学习模式:reinforcement learning

  在规划机器人的行为准则方面,一种机器人学习方法叫作“强化学习”,也就是把计算机丢到一个对于它完全陌生的环境或者让它完成一项从未接触过的任务。它自己回去尝试各种手段。最后让自己成功使用这一个陌生的环境。或者学会完成这件任务的方法途径。比如我想训练机器人去投篮,我们只需要给它一个球。并告诉它你投进了我给你记一分,让它自己去尝试各种各样的投篮方法。在开始阶段,它的命中率可能会非常低。不过它回像人类一样主机总结和学习投篮失败或成功的经验。最后达到很高的命中率。GOOGLE 开发的ALPHAGO 也就是应用了之一种学习方式。

机器学习根据算法类型,可以划分为:

  • 传统统计学习:基于数学模型的机器学习方法。包括SVM、逻辑回归、决策树等。

    这一类算法基于严格的数学推理,具有可解释性强、运行速度快、可应用于小规模数据集的特点。

  • 深度学习:基于神经网络的机器学习方法。包括前馈神经网络、卷积神经网络、递归神经网络等。

    这一类算法基于神经网络,可解释性较差,强烈依赖于数据集规模。但是这类算法在语音、视觉、自然语言等领域非常成功。

没有免费的午餐定理(No Free Lunch Theorem:NFL):对于一个学习算法A,如果在某些问题上它比算法B好,那么必然存在另一些问题,在那些问题中BA更好。

因此不存在这样的算法:它在所有的问题上都取得最佳的性能。因此要谈论算法的优劣必须基于具体的学习问题。

原文地址:https://www.cnblogs.com/windyrainy/p/10893362.html

时间: 2024-10-09 18:31:32

机器学习的基础概念的相关文章

【Machine Learn】机器学习及其基础概念简介

机器学习及其基础概念简介 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结合视频学习和书籍基础的笔记所得.本系列文章将采用理论结合实践方式编写.首先介绍机器学习和深度学习的范畴,然后介绍关于训练集.测试集等介绍.接着分别介绍机器学习常用算法,分别是监督学习之分类(决策树.临近取样.支持向量机.神经网络算法)监督学习之回归(线性回归.非线性回归)非监督学习(K-means聚

伯克利教授Stuart Russell:人工智能基础概念与34个误区

伯克利教授Stuart Russell:人工智能基础概念与34个误区 机器之心 9 个月前 机器之心 Russell 是加州大学伯克利分校人工智能系统中心创始人兼计算机科学专业教授,同时还是人工智能领域里「标准教科书」<人工智能:一种现代方法>作者(谷歌研究主管 Peter Norvig 也是该书作者).在这篇文章中,他以 Q&A 的方式讲解了人工智能的未来以及常见的误解. 1. 什么是人工智能? 是对让计算机展现出智慧的方法的研究.计算机在获得正确方向后可以高效工作,在这里,正确的方

机器学习算法基础概念学习总结

转自:http://blog.csdn.net/lantian0802/article/details/38333479 1.基础概念: (1) 10折交叉验证:英文名是10-fold cross-validation,用来测试算法的准确性.是常用的测试方法.将数据集分成10份.轮流将其中的9份作为训练数据,1分作为测试数据,进行试验.每次试验都会得出相应的正确率(或差错率).10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证,在求其平均值,对算法的准

机器学习--线性代数基础

关闭 yunqishequ1的博客 目录视图 摘要视图 订阅 管理博客 写新文章 评论送书 | 7月书讯:众多畅销书升级!      CSDN日报20170727--<想提高团队技术,来试试这个套路!>      评论送书 | 机器学习.Java虚拟机.微信开发 机器学习--线性代数基础 2017-07-28 14:05 6人阅读 评论(0) 收藏 编辑 删除  分类: 机器x 目录(?)[+] 原文地址 数学是计算机技术的基础,线性代数是机器学习和深度学习的基础,了解数据知识最好的方法我觉得

机器学习算法基础概念学习总结(转载)

来源:lantian0802的专栏 blog.csdn.net/lantian0802/article/details/38333479 一.基础概念 1.10折交叉验证,英文名是10-fold cross-validation,用来测试算法的准确性.是常用的测试方法.将数据集分成10份.轮流将其中的9份作为训练数据,1分作为测试数据,进行试验.每次试验都会得出相应的正确率(或差错率). 10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证,在求其平均值

机器学习:基本概念、五大流派与九种常见算法

机器学习正在进步,我们正在不断接近创造人工智能的目标.语音识别.图像检测.机器翻译.风格迁移等技术已经在生活中开始得到了应用,但机器学习的发展仍还在继续,有人认为这场变革有可能会彻底改变人类文明的发展方向乃至人类自身.但你了解现在正在发生的这场变革吗?四大会计师事务所之一的普华永道(PwC)近日发布了多份解读机器学习基础的图表,其中介绍了机器学习的基本概念.原理.历史.未来趋势和一些常见的算法. 一.机器学习概览 1. 什么是机器学习? 机器通过分析大量数据来进行学习.比如说,不需要通过编程来识

【强化学习RL】必须知道的基础概念和MDP

本系列强化学习内容来源自对David Silver课程的学习 课程链接http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 之前接触过RL(Reinforcement Learning) 并且在组会学习轮讲里讲过一次Policy Gradient,但是由于基础概念不清,虽然当时懂了 但随后很快就忘..虽然现在写这个系列有些晚(没有好好跟上知识潮流o(╥﹏╥)o),但希望能够系统的重新学一遍RL,达到遇到问题能够自动想RL的解决方法的程

计算机视觉概要和卷积神经网络基础概念

本文主要介绍了CV概要和CNN基础概念. 1 计算机视觉(computer vision)简介 计算机视觉旨在识别和理解图像/视频中的内容.其诞生于1966年MIT AI Group的"the summer vision project".当时,人工智能其他分支的研究已经有一些初步成果.由于人类可以很轻易地进行视觉认知,MIT的教授们希望通过一个暑期项目解决计算机视觉问题.当然,计算机视觉没有被一个暑期内解决,但计算机视觉经过50余年发展已成为一个十分活跃的研究领域.如今,互联网上超过

关系型数据库常用基础概念知识归纳

声明:我的文章都是只挑主要的写,次要细节太多,归纳就没意义了,同时归纳主要是给自己看的, 而且基本都是凭自己的一些记忆和理解即时写的.不一定对和全(但大多是一些需要理解的概念),请各位看管见谅! 数据库设计篇 1.范式 A.1范式,原子性,即列不可分 B.2范式,完全依赖,即有个主键唯一区分 C.3范式,不能传递依赖,即表中不能还有其他表的非主键信息 2.模型 A.概念模型,即ER图等 B.逻辑模型,即建逻辑表 C.物理模型,即生成物理表 事务 1.四大特性, A.原子,要么..要么.. B.隔