CS229:监督学习

定义符号

m:训练样本的数目

n:特征的数量

x‘s:输入变/特征值

y‘s:输出变量/目标变量

(x,y):训练样本 ->(x(i),y(i)):训练集,第i个训练样本,i=1,2..,m

监督学习

定义:(口头表达,非正式)我们给学习算法一个数据集,这个数据集由“正确答案”组成,它的目标是给定某个训练集,需要学习某个函数h:X->Y(x到Y的映射), 使得h(x)就是一个“好”的预测器,能够给出相应的输出值y。函数h称为hypothesis。

解释:首先通过训练集来学习出一个算法得到一个假设函数h,然后利用假设函数来完成x到y的最好映射。

监督学习的例子

假定我们有一个数据集,它给出了居住地和房子价格的关系,如下表格所示:

假设上面的数据有47组,图像如下图所示:

这样根据我们上面给出的训练集我们要经过一个学习算法,得到一个假设函数,使得这个假设函数能更好的拟合我们给出的数据,从而在以后当我们给出房屋的大小时能更好的预测房屋的价格。

如上图所示,假设我们得出的假设函数是一个线性的,这样上面的函数明显比下面相对于我们给出的样本能够更好的拟合。这就是一个监督问题。

监督学习的分类

当我们想要预测的输出值为连续的,例如上例中我们的输出值是价格,那么该学习问题为一个回归(Regression)问题。当输出值y仅能在一个有限的离散值集合中取值,我们称之为分类(Classification)问题。

时间: 2024-10-11 06:56:11

CS229:监督学习的相关文章

斯坦福CS229机器学习课程笔记七:算法诊断、误差分析以及如何开始一个机器学习问题

这一节是Andrew对应用机器学习给出的建议,虽然没有数学公式,但却是十分重要的一课. Debugging Learning Algorithms 假设要做一个垃圾邮件分类的模型,已经从海量的词汇表中选出一个较小的词汇子集(100个单词)作为特征. 用梯度上升算法实现了贝叶斯逻辑回归,但测试集的错误率达到了20%,这显然太高了. 如何解决这个问题? 收集更多的训练样本 进一步减少特征数 增加特征数 改变特征(考虑邮件标题/正文) 将梯度上升多运行几个迭代 尝试牛顿方法 使用不同的λ 改用SVM

【CS229笔记一】监督学习,线性回归,LMS算法,正态方程,概率解释和局部加权线性回归

监督学习 对于一个房价预测系统,给出房间的面积和价格,以面积和价格作坐标轴,绘出各个点. 定义符号: \(x_{(i)}\)表示一个输入特征\(x\). \(y_{(i)}\)表示一个输出目标\(y\). \((x_{(i)},y_{(i)})\)表示一个训练样本. \(\left\{(x_{(i)},y_{(i)});i=1,\dots,m\right\}\)代表m个样本,也称为训练集. 上标\((i)\)代表样本在训练集中的索引. \(\mathcal{X}\)代表输入值的空间,\(\mat

2nd Class_监督学习_线性回归算法

感谢博临天下,笔记太好,我就直接搬过来再添加了.http://www.cnblogs.com/fanyabo/p/4060498.html 一.引言 本材料参考Andrew Ng大神的机器学习课程 http://cs229.stanford.edu,以及斯坦福无监督学习UFLDL tutorial http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial 机器学习中的回归问题属于有监督学习的范畴.回归问题的目标是给定D维输入变量x,并且每一个

机器学习有监督学习之--回归

一.引言 本材料参考Andrew Ng大神的机器学习课程 http://cs229.stanford.edu,以及斯坦福无监督学习UFLDL tutorial http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial 机器学习中的回归问题属于有监督学习的范畴.回归问题的目标是给定D维输入变量x,并且每一个输入矢量x都有对应的值y,要求对于新来的数据预测它对应的连续的目标值t.比如下面这个例子:假设我们有一个包含47个房子的面积和价格的数据集如

[监督学习]GDA 高斯判别分析

高斯判别分析(Gaussian discriminative analysis )是一个较为直观的模型,基本的假设是我们得到的数据是独立同分布的(IID),虽然在实际中这种假设很难达到,但有时候拥有了好的假设可以得到较好的结果.在Andrew Ng大神的CS229 Lecture notes中有一个例子:假设我们要对大象和狗分类,回归模型和感知机模型是在两类数据之间找到一个decision boundary,通过这个decision boundary来区分大象和狗.高斯判别分析提供了另外一种思路

Machine Learning Algorithms Study Notes(4)—无监督学习(unsupervised learning)

1    Unsupervised Learning 1.1    k-means clustering algorithm 1.1.1    算法思想 1.1.2    k-means的不足之处 1.1.3    如何选择K值 1.1.4    Spark MLlib 实现 k-means 算法 1.2    Mixture of Gaussians and the EM algorithm 1.3    The EM Algorithm 1.4    Principal Components

机器学习(一)--- 监督学习之回归

参考学习资料:http://cs229.stanford.edu/materials.html 通过对学习,掌握的知识点包括: 什么是 cost fuction Linear regression的概念 Logistic regression的概念 ============监督学习的引出============== 机器学习可以分为两个大类,一个是监督学习(supervised learning),一个是无监督学习(unsupervised learning).监督学习的主要任务是通过给定输入样

CS229 1

1.机器学习 机器学习是工具,具体应用到某个实际场景下,才是目的. 2.分类 a 监督学习,包括回归(regression),分类(classification).回归问题,数据可以是连续或者离散,分类问题,数据一般是离散的. b 理论学习,机器学习目前主流的算法,用算法工具结合具体使用场景,解决问题. c 无监督学习,包括聚类,通过聚类,转换成类似监督学习的分类模型,当然,无监督模式应用的范围更广. d 强化学习,设计回报函数,类似狗的反射弧效应. 课程信息 http://cs229.stan

资源 | 源自斯坦福CS229,机器学习备忘录在集结

在 Github 上,afshinea 贡献了一个备忘录对经典的斯坦福 CS229 课程进行了总结,内容包括监督学习.无监督学习,以及进修所用的概率与统计.线性代数与微积分等知识. 项目地址:https://github.com/afshinea/stanford-cs-229-machine-learning 据项目介绍,该 repository 旨在总结斯坦福 CS 229 机器学习课程的所有重要概念,包括: 学习该课程所需的重要预备知识,例如概率与统计.代数与微积分等进修课程. 对每个机器