Coursera 机器学习笔记(七)

主要为第九周内容:异常检测、推荐系统

(一)异常检测(DENSITY ESTIMATION)

核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一。密度估计是指给定数据集 x(1),x(2),..,x(m),我们假使数据集是正常的,我们希望知道新的数据 x(test)是不是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性 p(x)。

通过密度估计之后,选择一个概率阈值进行判断是否是异常,这也是异常检测中常用的方法。如:

  1. 高斯分布

    高斯核函数是核密度估计中常用的核函数。其中一元高斯概率密度函数为:

    可以利用已有的数据来预测总体中的μ和σ2的计算方法如下:

    多元高斯分布的概率密度函数为:

    注:机器学习中对于方差我们通常只除以 m 而非统计学中的(m-1)。

  2. 异常检测

    一般的高斯分布模型中,对于给定的数据集 x(1),x(2),...,x(m) ,我们要针对每一个特征计算μ和σ2的估计值,根据模型计算 p(x):

    如下图所示:

    对于多元高斯分布模型,首先计算所有特征的平均值,然后再计算协方差矩阵,最后我们计算多元高斯分布的 p(x):

(二)推荐系统

基于内容

基于用户

http://www.ccf.org.cn/resources/1190201776262/2010/05/12/h049617016.pdf

时间: 2024-12-15 01:45:04

Coursera 机器学习笔记(七)的相关文章

Coursera 机器学习笔记(五)

主要第七周的内容:支持向量机 优化目标 判定边界 核函数 总结

Coursera 机器学习笔记(八)

主要为第十周内容:大规模机器学习.案例.总结 (一)随机梯度下降法 如果有一个大规模的训练集,普通的批量梯度下降法需要计算整个训练集的误差的平方和,如果学习方法需要迭代20次,这已经是非常大的计算代价. 首先,需要确定大规模的训练集是否有必要.当我们确实需要一个大规模的训练集,可以尝试用随机梯度下降法来替代批量梯度下降法. 在随机梯度下降法中,定义代价函数一个单一训练实例的代价: 随机梯度下降算法如下: 随机梯度下降算法在每一次计算之后便更新参数Θ,而不需要首先将所有的训练集求和,在梯度下降算法

Coursera 机器学习笔记(四)

主要为第六周内容机器学习应用建议以及系统设计. 下一步做什么 当训练好一个模型,预测未知数据发现,不如人意,该如何提高呢? 获得更多的训练实例 尝试减少特征的数量 尝试获得更多的特征 尝试增加二项式特征 尝试减少归一化程度λ 尝试增加归一化程度λ 先不要急着尝试这些方法,而是通过一些机器学习诊断方法来判断现在算法是什么情况,哪些方法是可以提高算法的有效性,如何选择更有意义的方法. ? 如何评估模型 诊断方法 一.偏差和方差 二.归一化 三.学习曲线 回头看 数据多就是好? 误差分析 Precis

Coursera 机器学习笔记(三)

主要为第四周.第五周课程内容:神经网络 神经网络模型引入 ? 模型表示 多分类 代价函数 反向传播算法 留意

coursera机器学习

上周出差回来,开始找了一篇论文看<ScSPM>,这里有源代码,自己希望能认真看懂:毕竟这篇文章包含了dense sift特征提取+Spare coding+linear svm知识很全面,希望能看懂代码.这个过程却发现自己缺少了很多东西,他自己的sift提取方法,Sc,svm都是自己实现的:感觉看懂好难.然后周六开始实验室有“学术交流”,师兄师姐交流他们整个小论文的过程,针对梯度下降这些基本的方法,我们都没有认真的理解.发现图像和机器学习自己都没有认真的系统的学习:自己在博客上零零散散的看了很

Coursera公开课笔记: 斯坦福大学机器学习第七课“正则化”

Coursera公开课笔记: 斯坦福大学机器学习第七课"正则化" NLPJob 斯坦福大学机器学习第七课"正则化"学习笔记,本次课程主要包括4部分: 1) The Problem of Overfitting(过拟合问题) 2) Cost Function(成本函数) 3) Regularized Linear Regression(线性回归的正则化) 4) Regularized Logistic Regression(逻辑回归的正则化) 以下是每一部分的详细解读

(转载)[机器学习] Coursera ML笔记 - 监督学习(Supervised Learning) - Representation

[机器学习] Coursera ML笔记 - 监督学习(Supervised Learning) - Representation http://blog.csdn.net/walilk/article/details/50922854

Coursera机器学习-第三周-逻辑回归Logistic Regression

Classification and Representation 1. Classification Linear Regression (线性回归)考虑的是连续值([0,1]之间的数)的问题,而Logistic Regression(逻辑回归)考虑的是离散值(例如只能取0或1而不能取0到1之间的数)的问题.举个例子,你需要根据以往季度的电力数据,预测下一季度的电力数据,这个时候需要使用的是线性回归,因为这个值是连续的,而不是离散的.而当你需要判断这个人抽烟还是不抽烟的问题时,就需要使用逻辑回

cs229 斯坦福机器学习笔记(一)

前言 说到机器学习,很多人推荐的学习资料就是斯坦福Andrew Ng的cs229,有相关的视频和讲义.不过好的资料 != 好入门的资料,Andrew Ng在coursera有另外一个机器学习课程,更适合入门.课程有video,review questions和programing exercises,视频虽然没有中文字幕,不过看演示的讲义还是很好理解的(如果当初大学里的课有这么好,我也不至于毕业后成为文盲..).最重要的就是里面的programing exercises,得理解透才完成得来的,毕