ML概念

训练集(traning set/data):用来训练,产生模型的算法的数据集
测试集(testing set/data):用来训练,产生模型的算法的数据集):用来专门进行测试已经学习好的模型或者算法的数据集。
特征向量(feature/feature vector):属性集合,通常用一个向量来表示,附属于一个实例。
标记(label):实例类别的标记(用模型测试完数据后得到的结果)。
正例(position example)
反例(negative example)

分类(classification):目标标记为类别型数据(category)。
回归(regression):目标标记为连续性数值(continuous numeric value)。

有监督学习(supervised learning):训练集有类别标记(class label)。
无监督学习(unsupervised learning):无类别标记(class label)。
半监督学习(semi-supervised learning):有类别标记的训练集+无标记的训练集

机器学习步骤框架
把数据拆分为训练集和测试集
用训练集和测试集的特征向量来训练算法
用学习来的算法运用在测试集上来评估算法(可能要设计到调整参数(parameter tuning),用验证集(validation set))

原文地址:https://www.cnblogs.com/vichin/p/9222008.html

时间: 2024-10-16 03:03:08

ML概念的相关文章

ML 概念小记

一般地,我们可以把分类(或者回归)的问题分为两类:参数学习的形式和基于实例的学习形式. 参数学习的形式就是通过一堆训练数据,把相应模型的参数给学习出来,然后训练数据就没有用了,对于新的数据,用学习出来的参数即可以得到相应的结论: 而基于实例的学习(又叫基于内存的学习)则是在预测的时候也会使用训练数据,如KNN算法.而基于实例的学习一般就需要判定两个点之间的相似程度,一般就通过向量的内积来表达.从这里可以看出,核方法不是万能的,它一般只针对基于实例的学习. —— http://blog.csdn.

个人的工作总结(和工作规划)

写在前面: 结合我的工作经验,我对未来工作做出了一些规划.算是想法的总结,我希望能达到有效的沟通.请指正我哪里有不合适的.告诉我哪里能做,哪里不能做,哪里不足. 现在,我已经养成一个engineer思维,所以我可以教授如何像一个engineer一样思考. 思维方式: Engineer和scientist的思维方式,完全不同. Scientist:why Analyze:注重原理,从简入繁(从现象,原因,分析各种复杂的因素) Engineer:how Realize:注重实现.化繁为简(将原理用工

ML(1)--概念理解

机器是如何模拟人来学习的? 人:  observations===>learning===>skill 人从出生开始经过大量的观察(也可能经过身边的的指导)进行学习然后得到相应的技能(比如小孩认车) 机器:data====>learning====>skill 机器从大量的数据里学习获得相应的技能 对于机器来说skill:improve some performance measure 即:电脑从资料出发经过学习得到某种表现的增进. e.g   stock data===>M

Spark ML下实现的多分类adaboost+naivebayes算法在文本分类上的应用

1. Naive Bayes算法 朴素贝叶斯算法算是生成模型中一个最经典的分类算法之一了,常用的有Bernoulli和Multinomial两种.在文本分类上经常会用到这两种方法.在词袋模型中,对于一篇文档$d$中出现的词$w_0,w_1,...,w_n$, 这篇文章被分类为$c$的概率为$$p(c|w_0,w_1,...,w_n) = \frac{p(c,w_0,w_1,...,w_n)}{p(w_0,w_1,...,w_n)} = \frac{p(w_0,w_1,...,w_n|c)*p(c

第三章 基本概念(第五部分:函数初步)

六. 函数初步 无论在哪门语言,函数都是一个相当核心的概念.通过函数可以封装任意多的语句,刻意在任何地方调用执行.函数实质上是一个短小的脚本,需要反复做一件事时,可以利用函数避免重复键入过多重复的代码.良好的编程习惯要求,先定义函数,再使用它们.定义函数用法如下: function 函数名(参数){函数代码;} 比如封装以下代码: var beatles=["Joln","Paul","George","Ringo"]; fo

ML简史

原文地址:http://www.52ml.net/15427.html 图 1 机器学习时间线 在科学技术刚刚萌芽的时候,科学家Blaise Pascal和Von Leibniz就想到了有朝一日能够实现人工智能.即让机器拥有像人一样的智能. 机器学习是AI中一条重要的发展线,在工业界和学术界都异常火爆.企业.大学都在投入大量的资源来做机器学习方面的研究.最近,机器学习在很多任务上都有了重大的进步,达到或者超越了人类的水平(例如,交通标志的识别[1],ML达到了98.98%,已超越了人类). 图1

机器学习(ML)中文视频教程

本节是李政軒Cheng-Hsuan Li的关于机器学习一些算法的中文视频教程.讲得很好不错,这里非常感谢他的分享:http://www.powercam.cc/chli.也贴到这里,和大家共同学习. Clustering Fuzzy C-Means 基本概念(第1部分) Fuzzy C-Means 基本概念(第2部分) Fuzzy C-Means 基本概念(第3部分) Fuzzy C-Means 迭代公式推導 Regression Linear Regression Models-1 Linea

ML(1): 入门理论

机器学习相关的文章太多,选取一篇本人认为最赞的,copy文章中部分经典供自己学习,摘抄至 http://www.cnblogs.com/subconscious/p/4107357.html#first  示例入门 传统上如果我们想让计算机工作,我们给它一串指令,然后它遵照这个指令一步步执行下去.有因有果,非常明确.但这样的方式在机器学习中行不通.机器学习根本不接受你输入的指令,相反,它接受你输入的数据! 也就是说,机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法.这听起来非常不可思

【Machine Learn】机器学习及其基础概念简介

机器学习及其基础概念简介 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结合视频学习和书籍基础的笔记所得.本系列文章将采用理论结合实践方式编写.首先介绍机器学习和深度学习的范畴,然后介绍关于训练集.测试集等介绍.接着分别介绍机器学习常用算法,分别是监督学习之分类(决策树.临近取样.支持向量机.神经网络算法)监督学习之回归(线性回归.非线性回归)非监督学习(K-means聚