机器学习概论

机器学习原理、实现与实践——机器学习概论

如果一个系统能够通过执行某个过程改进它的性能,这就是学习。 ——— Herbert A. Simon

1. 机器学习是什么

计算机基于数据来构建概率统计模型并运用模型对数据进行预测与分析的一门学科。

从上面的机器学习的定义中,我们可以了解到以下的信息:

  • 机器学习以计算机及网络为平台,是建立在计算机及网络之上的;
  • 机器学习以数据为研究对象。
  • 机器学习计学习的目的是对数据进行预测与分析
  • 机器学习以模型为中心。构建模型、优化模型并用模型来进行预测。
  • 机器学习的模型是基于概率统计的模型。里面大量用到了概率与统计的知识。同时,机器学习也是信息论
  • 计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独立的理论体系与方法论。

2. 机器学习的对象

机器学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。同时,数据是多样的,包括存在计算机及网络上的各种数字、文字、图像、视频、音频数据及它们的组合。

那么什么样的数据可以被抽象,被学习呢,杂乱无章的数据可以吗?

机器学习关于数据的基本假设是同类数据具有一定的统计规律性。同类数据是指具有某种共同性质的数据,由于它们具有统计规律,所以可以用概率统计方法来加以处理。可以用随机变量描述数据数据中的特征,用概率分布描述数据的统计规律。

在实际的机器学习中,数据往往被提取为一个特征向量表示为

$$x = (x^{(1)},x^{(2)},\dots,x^{(i)},x^{(n)})^T$$

数据可以为离散的,也可以为连续的。

3. 机器学习的目的

机器学习用于对数据进行预测与分析,特别是对未知新数据进行预测与分析。

机器学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同理也要考虑尽可能地提高学习效率。

4. 机器学习的方法

机器学习的方法是基于数据构建统计模型从而对数据进行预测与分析。机器学习包括了监督学习、非监督学习、半监督学习和强化学习。

监督学习:从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数集合,称为假设空间(hypothesis space);应用某个评价准则,从假设空间中先取一个最优的模型,使它对已知训练数据及未知测试数据在给定的评价准则下有最优的预测;最优模型的选择由算法实现。

模型的假设空间、模型的选择准则以及模型学习的算法 : 机器学习的三要素,简称模型、策略、算法。

步骤可以归纳为:

  1. 得到一个有限的训练数据集合;
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合;
  3. 确定模型选择的准则,即学习策略;
  4. 实现求解最优模型的算法,即学习的算法;
  5. 通常学习方法选择最优模型;
  6. 利用学习的最优模型对新数据进行预测或分析。

5. 机器学习的应用

近20年来,机器学习无论是在理论上还是在应用方面都得到了巨大的发展,有许多重要突破,统计学习已被成功地应用到人工智能、模式识别、数据挖掘、自然语言处理、语音识别、图像识别、信息检索和生物信息等许多计算机应用领域中。

时间: 2024-11-12 19:31:01

机器学习概论的相关文章

1.机器学习概论

1.python基础的准备 本课程拟采用Python做为机器算法应用的实现语言,所以请确保: 1)安装好Python开发环境, PyCharm 或 Anaconda等都可以,按个人习惯喜好. 2)基本库的安装,如numpy.pandas.scipy.matplotlib 3)具备一定的Python编程技能,如果不熟悉,可选择一个教程进行学习,Python简单好上手,资源也很丰富. 菜鸟教程 Python 3 教程 http://www.runoob.com/python3/python3-tut

统计学习方法--机器学习概论

(本章主要参考李航老师的<统计学习方法>,其次是周志华老师的<机器学习>.通过自己的阅读,提炼出书中的知识点以及些许自己部分的理解(可能不到位),巩固所学知识.) 统计学习方法概论 本章简要叙述统计学习方法的一些基本概念.首先许如统计学习的定义.研究对象与方法:然后叙述监督学习:接着提出统计学习方法的三要素:介绍模型选择:介绍生成模型与判别模型:最后介绍监督学习方法的应用:分类问题.标注问题与回归问题. 以下是目录结构: 一. 统计学习 二. 监督学习 三.统计学习三要素 四. 模

机器学习入门:机器学习概论

什么是机器学习? 在1959年,Arthur Samuel:不用编程去指定机器做什么,而是让机器有能力自己学习: 在1998年,Tom Mitchell:首先定义任务T,经验E,表现P,如果机器有一个任务T,随着经验E的增多,表现P也会变好,则表示机器正在经验E中学习: 以上就是对机器学习的两个定义: 机器学习在生活中也处处可见,比如: (1)在gmail中,提供了一个“垃圾邮件”选项,可以通过机器学习辨别邮件是否为垃圾邮件,此处利用了分类算法: 如果我们根据Tom Mitchell的定义,则:

机器学习算法集锦

机器学习 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能. 严格的定义:机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问.这里所说的"机器",指的就是计算机,电子计算机,中子计算机.光子计算机或神经计算机等等. 机器学习概论 由上图所示:机器学习分为四大块: classifi

coursera机器学习

上周出差回来,开始找了一篇论文看<ScSPM>,这里有源代码,自己希望能认真看懂:毕竟这篇文章包含了dense sift特征提取+Spare coding+linear svm知识很全面,希望能看懂代码.这个过程却发现自己缺少了很多东西,他自己的sift提取方法,Sc,svm都是自己实现的:感觉看懂好难.然后周六开始实验室有“学术交流”,师兄师姐交流他们整个小论文的过程,针对梯度下降这些基本的方法,我们都没有认真的理解.发现图像和机器学习自己都没有认真的系统的学习:自己在博客上零零散散的看了很

机器学习升级版(VII)——第1课 机器学习与数学分析

参考:邹博 <机器学习升级版> 1. 机器学习概论 1. 什么是机器学习 定义:对于某给定的任务T,在合理的性能度量方案P的前提下,某计算机程序可以自主学习任务T的经验E:随着提供合适.优质.大量的经验E,该程序对于任务T的性能逐步提高.——by Tom Michael Mitchell 通俗理解:机器学习是人工智能的一个分支.我们使用计算机设计一个系统 ,使它能够根据提供的训练数据按照一定的方式来学习 :随着训练次数的增加,该系统可以在性能上不断学习和改进:通过参数优化的学习模型,能够用于预

基于C#的机器学习--机器学习的基本知识

机器学习的基本知识 作为一个终生的微软开发人员,我经常看到开发人员努力寻找解决日常问题所需的资源.让我们面对现实吧,我们没有人有时间按照自己喜欢的方式做事,我们中很少有人有幸在真正的研发部门工作.虽然这些年来我们已经走过了相当长的一段旅程,还记得曾经我们通过桌上的C程序员参考资料和其他50本书中翻找资料,到现在能够在谷歌中快速搜索并得到我们想要的东西.但现在人工智能时代已经到来,情况有些不同了. 作为c#开发人员,当涉及到机器学习时,谷歌搜索并不总是我们最好的朋友,因为几乎所有正在使用的东西都是

机器学习:概述入门篇

本周任务: 1.python基础的准备 本课程拟采用Python做为机器算法应用的实现语言,所以请确保: 1)安装好Python开发环境, PyCharm 或 Anaconda等都可以,按个人习惯喜好. 2)基本库的安装,如numpy.pandas.scipy.matplotlib 3)具备一定的Python编程技能,如果不熟悉,可选择一个教程进行学习,Python简单好上手,资源也很丰富. 菜鸟教程 Python 3 教程 http://www.runoob.com/python3/pytho

算法-综述

1.机器学习概论. 2.线性回归与Logistic.案例:电子商务业绩预测 3.岭回归,Lasso,变量选择技术.从一团乱麻中识别有用维度的技巧 4.降维技术.案例:业绩综合指标设计 5.线性分类器,Knn算法,朴素贝叶斯分类器,文本挖掘,案例:智能判断垃圾短信,通过文本挖掘给用户加标签,评论自动分析,用户流失预警 6.决策树,组合提升算法,bagging和adaboost,随机森林.案例:运营商用户分析 7.支持向量机,为什么能理解SVM的人凤毛麟角? ? 8.人工神经网络,单层感知器,线性神