机器学习相关慨念

一、    机器学习相关慨念

1、机器学习定义

  大数据时代,随着网络的普及化以及计算机计算速度和存储能力的提高,人类更容易收集、存储、传输、管理数据,各行各业已经积累了大量的数据资源。如何利用这些数据服务于人类社会、促进经济发展、便捷人类生活日益成为各行各业关注的重点。由于人类处理数据的能力有限,因而只能让机器处理大量的数据,“机器学习”正是针对这一问题,它致力于研究通过计算的手段,让计算机从数据中学习知识,从而实现一些人类才能完成的任务,产生机器智能。

  机器学习的定义有很多,大致可以归纳为以下三个:

(1)    如果一个系统能够通过执行某个过程改进自身的性能,我们就可以称之为学习。

(2)    学习可以看作是一个基于经验数据的函数估计问题。

(3)    学习就是从数据中提取重要模式,并理解数据。

  机器学习的核心问题就是如何设计一种模型(算法)从数据中学习到知识(经验),并据此对未来做出预测。

2、机器学习的类型

监督学习(supervised learning:在给出计算机输入的同时,同时给与输出的标签,学习的模型能够对任意给定的输入,对其相应的输出做出一个好的预测。

无监督学习(unsupervised learning: 只给计算机训练数据,不给结果(标签),因此计算机无法准确地知道哪些数据具有哪些标签,只能凭借强大的计算能力提取数据内在的隐含特征,从而得到一定的成果,通常是得到一些集合,集合内的数据在某些特征上相同或相似。例如,聚类(clustering),聚类的结果将产生一组集合,集合中的对象与同集合中的对象彼此相似,与其他集合中的对象相异

  半监督学习(semi-supervised learning:给计算机大量训练数据与少量的分类结果(具有同一标签的集合)。

强化学习reinforcement learning:强调如何基于环境而行动,以取得最大化的预期利益。强化学习作为一个序列决策(Sequential Decision Making)问题,它需要连续选择一些行为,从这些行为完成后得到最大的收益作为最好的结果。在序列决策中,获取大量有标记的训练样本本身是一件困难的事,强化学习在没有任何label告诉算法应该怎么做的情况下,通过先尝试做出一些行为——然后得到一个结果,通过判断这个结果是对还是错来对之前的行为进行反馈,通过奖励和惩罚措施,鼓励模型做出正确的决策,从而改进算法的性能。

3、回归与分类的不同

  回归(regression)的目标是用来预测一个连续的值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析。一个比较常见的回归算法是线性回归算法(LR)。另外,回归分析用在神经网络上,其最上层是不需要加上softmax函数的,而是直接对前一层累加即可。回归是对真实值的一种逼近预测。

  分类(classification)的目标是将事物打上一个标签,预测结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上,分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。最常见的分类方法是逻辑回归,或者叫逻辑分类。

4、过拟合(overfitting)与欠拟合(underfitting

过拟合是在训练样本学习的很好,从而把训练样本本身的一些特点当作了所有潜在样本都会有的一般性质,导致泛化能力下降,在测试样本表现不好。欠拟合是指对训练样本的一般性质尚未学好。通常过多的参数会导致过拟合,可以加入正则项减弱过拟合。

5、损失函数(loss function

  损失函数是用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数通常有两部分组成:损失项和正则项。

  其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面的Φ是正则化项(regularizer)或者叫惩罚项(penalty term),它可以是L1,也可以是L2,或者其他的正则函数。

常用的损失函数有以下几中:

(1)0-1损失函数(0-1 loss function)

(2)绝对值损失函数(absolute loss function)

(3)平方损失函数(quadratic loss function)

(4)    对数损失函数(logarithmic loss function)或对数似然损失函数(log-likelihood loss function)

(5)    指数损失函数(exponential loss function)

  指数损失函数的典型代表是AdaBoost。Boosting是一族可将弱机器学习器提升为强机器学习的算法。工作机制:先从初始训练集中训练一个基学习器,再根据学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多的关注,最典型的代表是AdaBoost算法。

6、模型评估

(未完待续)

时间: 2024-08-20 23:27:46

机器学习相关慨念的相关文章

27.初识分布式文档存储系统慨念

主要知识点: 初识distributed document store 一.distributed document store(分布式文档存储系统) Elasticsearch在运行起来以后,他的第一个最核心的功能就是一个分布式的文档数据存储系统.主要有以下三个慨念: 分布式的:es可以实现分布式,可以很方便的扩容. 文档数据:es可以存储和操作json文档类型的数据,而且这也是es的核心数据结构. 存储系统:es可以对json文档类型的数据进行存储,查询,创建,更新,删除等操作.满足了这些功

[转]计算机视觉、机器学习相关领域论文和源代码大集合

计算机视觉.机器学习相关领域论文和源代码大集合--持续更新…… [email protected] http://blog.csdn.net/zouxy09 注:下面有project网站的大部分都有paper和相应的code.Code一般是C/C++或者Matlab代码. 最近一次更新:2013-3-17 一.特征提取Feature Extraction: ·         SIFT [1] [Demo program][SIFT Library] [VLFeat] ·         PCA

计算机视觉、机器学习相关领域论文和源代码大集合[转]

注:下面有project网站的大部分都有paper和相应的code.Code一般是C/C++或者Matlab代码. 最近一次更新:2013-3-17 一.特征提取Feature Extraction: ·         SIFT [1] [Demo program][SIFT Library] [VLFeat] ·         PCA-SIFT [2] [Project] ·         Affine-SIFT [3] [Project] ·         SURF [4] [Ope

[转载][资料].计算机视觉、机器学习相关领域论文和源代码大集合

注:下面有project网站的大部分都有paper和相应的code.Code一般是C/C++或者Matlab代码. 最近一次更新:2013-3-17 目录(注:未添加索引,仅用于方便浏览) 一.特征提取Feature Extraction 二.图像分割Image Segmentation 三.目标检测Object Detection 四.显著性检测Saliency Detection 五.图像分类.聚类Image Classification, Clustering 六.抠图Image Matt

【目录】数据挖掘与机器学习相关算法文章总目录

本博客所有文章分类的总目录链接:http://www.cnblogs.com/asxinyu/p/4288836.html 数据挖掘与机器学习相关算法文章目录 1.数据挖掘之—基于ReliefF和K-means算法的医学应用实例  2.彩票数据预测算法(一):离散型马尔可夫链模型实现[附C#代码] 

常用牛人主页链接(计算机视觉、模式识别、机器学习相关方向,陆续更新。。。。)【转】

转自:http://blog.csdn.net/goodshot/article/details/53214935 目录(?)[-] The Kalman Filter 介绍卡尔曼滤波器的终极网页 Navneet DalalHistograms of Oriented Gradients for Human Detection 牛人主页(主页有很多论文代码) Serge Belongie at UC San Diego Antonio Torralba at MIT Alexei Ffros a

机器学习相关数据库

KDD杯的中心,所有的数据,任务和结果. UCI机器学习和知识发现研究中使用的大型数据集KDD数据库存储库. UCI机器学习数据库. AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集. 生物测定数据,在 虚拟筛选,生物测定数据,对化学信息学,J.由阿曼达Schierz的,有21个生物测定数据集(有效/无效的化合物)可供下载. 加拿大开放数据,许多政府和地理空间数据集的试点项目. 因果关系工作平台的数据存储库. 数据源手册,指南公开数据,

windows下64位python的安装及机器学习相关包的安装(实用)

开通博客已久,想了好久决定写个基础的安装教程,望后人少走弯路,也借此希望跟大家多多交流.文中给出的链接默认是基于对python2.7的前提下的包. 1.首先下载64位Python包,进行安装(默认python2.7.6) 下载链接:https://www.baidu.com/link?url=i1EA542Pi-dNF0hi9veKLT6dDlsur0X0n3H81kEOUxwwlnbNvyRiwu8jP_E9Bwi5AjuqDK1isRmuYd9H3SdecbdIOnQiTwAv6t8uTUQ

“机器学习”相关资料分享

近年来人工智能与VR正在变得越来越火,特别是当alphago以绝对优势战胜围棋大师李世石之后,更是炒热了"机器学习"这个概念.国际人工智能专家.百度首席科学家吴恩达教授在今年四月份的"机器学习研究会"上这样说到: 在中国,每天都有500人死于车祸.我们的无人驾驶技术早实现一天,就相当于多拯救了500人的生命,这将会是接下来的十年中,人工智能得到的最重要的应用之一. 我想和在座的年轻人说几句话.我们处在一个独特的时期,这是一个人工智能将会改变世界的时期.如果你知道怎么