andrew ng machine learning week8 非监督学习

  

聚类——无监督学习的一种算法

K-means算法 最为广泛使用的聚类算法

选择两个聚类中心

簇分配:根据每个样本更接近哪个聚类中心进行样本的分配

簇中心移动:计算出所有的红点类的均值点,移动原始聚类中心到这个点,蓝点类同理

进行不断地迭代直到收敛

输入:K个簇类和训练集样本数据

注意:不需要X0项,为n维向量

算法的描述:

如果最终有个簇中心没有任何点分配给他那么直接移除就可以

K-means常常适用于右侧这种看不出来结构的混乱的数据的聚类的,所以并不是都是左图如此理想的环境

最优化的目标函数


参数们:

每个训练样本被归类的簇号

簇中心编号

x所属的族的族编号

优化目标:每个样本到所属的簇中心的距离的累加和越小越好

随机初始化

K 应该 小于M

随机选择K个训练样本作为初始的簇中心

如何选择K的数目

看聚类产生的结果来手动选择聚类的数目

肘部法则:绘制随着聚类数目增多的cost曲线,选择位于手肘的位置的类数

衣服尺码的选择

第二种非监督算法 维数约减


一个物体用厘米英寸两种变量表示,其实冗余了,可以降维一次

可视化数据

从高纬度降到2/3维从而可以实现可视化

主成分分析法降维

找到一条线把所有的点投射到这条直线上,每个点到投影点的距离非常小,也就是找一个低维度的面,使这些小蓝色断线投影误差(的和最小)

首先一定要进行特征维度的均值归一化

找到一个方向进行投影

在3D上则是找到两个方向确定一个平面

主成分分析的算法实现:

一组训练数据首先进行特征缩放或者均值归一

计算协方差矩阵的特征向量,svd 奇异值分解 或者 eig命令都可以求特征向量

我们需要的是U矩阵,即为我们需要的u1,u2 and so on ,只需要选取前K列值就可以

总结

PCA作为数据压缩的算法,如何从压缩的数据还原到压缩之前的数据呢?

如何选择K最为合适呢?

使用K=1 进行PCA的计算,看是否差异性能够被保留,否则就增大K的值直到选择一个能保留差异性的K值

S是一个N*N的矩阵,对角线以外的元素都是0

左边这个计算公式可以用右边的S矩阵的公式来更简单地计算出来

也就是1- K个对角线元素/N个对角线元素的和

总结一下计算的方法:

PCA如何在实际操作中提高算法的速度

10000维度的特征向量如何降维

首先得到一组没有y的训练样本

然后得到一组降了维度的z和新的训练集

PCA的应用

压缩

加速学习算法

不合适的应用:避免过拟合

当你发现你的运行空间不够或者效果不够好时才需要考虑用PCA来处理一下

原文地址:https://www.cnblogs.com/twomeng/p/9876316.html

时间: 2024-10-08 00:33:31

andrew ng machine learning week8 非监督学习的相关文章

Andrew Ng Machine Learning - Week 3:Logistic Regression & Regularization

此文是斯坦福大学,机器学习界 superstar - Andrew Ng 所开设的 Coursera 课程:Machine Learning 的课程笔记.力求简洁,仅代表本人观点,不足之处希望大家探讨. 课程网址:https://www.coursera.org/learn/machine-learning/home/welcome Week 1: Introduction 笔记:http://blog.csdn.net/ironyoung/article/details/46845233 We

Andrew Ng Machine Learning - Week 1: Introduction

此文是斯坦福大学,机器学习界 superstar - Andrew Ng 所开设的 Coursera 课程:Machine Learning 的课程笔记.力求简洁,仅代表本人观点,不足之处希望大家探讨. 课程网址:https://www.coursera.org/learn/machine-learning/home/welcome Week 1: Introduction Environment Setup Instructions 这一章介绍课程一般使用的工具.octave或者matlab即

Andrew Ng Machine Learning 专题【Linear Regression】

此文是斯坦福大学,机器学习界 superstar - Andrew Ng 所开设的 Coursera 课程:Machine Learning 的课程笔记. 力求简洁,仅代表本人观点,不足之处希望大家探讨. 课程网址:https://www.coursera.org/learn/machine-learning/home/welcome Week 3: Logistic Regression & Regularization 笔记:http://blog.csdn.net/ironyoung/ar

Andrew Ng Machine Learning - Week 2

此文是斯坦福大学,机器学习界 superstar - Andrew Ng 所开设的 Coursera 课程:Machine Learning 的课程笔记.力求简洁,仅代表本人观点,不足之处希望大家探讨. 课程网址:https://www.coursera.org/learn/machine-learning/home/welcome Week 2 Multivariate Linear Regression Week 1 讨论仅一个特征,即仅有一个未知量x影响了目标y的取值.如果现在有很多特征?

Andrew Ng Machine Learning - Week 4 & 5- Neural Networks

此文是斯坦福大学,机器学习界 superstar - Andrew Ng 所开设的 Coursera 课程:Machine Learning 的课程笔记.力求简洁,仅代表本人观点,不足之处希望大家探讨. 课程网址:https://www.coursera.org/learn/machine-learning/home/welcome Week 1: Introduction 笔记:http://blog.csdn.net/ironyoung/article/details/46845233 We

andrew ng machine learning week9 异常检测和推荐系统

异常检测 概率分布的角度:通过判断某个样本的概率分部值和阈值的关系判断是不是异常样本 异常检测的应用: 1. 在线购物网站如何识别异常用户(欺诈行为或者被盗号) 2. 制造业 3. 检测计算机的运行情况 高斯分布 高斯分布开发异常检测算法 步骤 1. 选择一些异常的特征 2. 计算均值和方差,对于每一个特征来进行计算 在这个三维立体图中,越高的地方是正常的地方,异常区则是接近平面0的这些点 如何开发一个关于异常检测的应用 实数评价法的重要性: 不建议把交叉集和测试集混在一起使用 算法的评估过程

如何区分监督学习(supervised learning)和非监督学习(unsupervised learning)

监督学习:简单来说就是给定一定的训练样本(这里一定要注意,样本是既有数据,也有数据对应的结果),利用这个样本进行训练得到一个模型(可以说是一个函数),然后利用这个模型,将所有的输入映射为相应的输出,之后对输出进行简单的判断从而达到了分类(或者说回归)的问题.简单做一个区分,分类就是离散的数据,回归就是连续的数据. 非监督学习:同样,给了样本,但是这个样本是只有数据,但是没有其对应的结果,要求直接对数据进行分析建模. 比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能

Ng Machine learning

Machine learning Preface Definition T: Task E: Experience P: Performance Sequence: T -> E -> P Supervised learning Definition Give the right answer to each example of the data set(called training data). Type Regression: get the continuous values Cla

机器学习系统设计(Building Machine Learning Systems with Python)- Willi Richert Luis Pedro Coelho

机器学习系统设计(Building Machine Learning Systems with Python)- Willi Richert Luis Pedro Coelho 总述 本书是 2014 的,看完以后才发现有第二版的更新,2016.建议阅读最新版,有能力的建议阅读英文版,中文翻译有些地方比较别扭(但英文版的书确实是有些贵). 我读书的目的:泛读主要是想窥视他人思考的方式. 作者写书的目标:面向初学者,但有时间看看也不错.作者说"我希望它能激发你的好奇心,并足以让你保持渴望,不断探索