无监督学习小记(参考)

下面凌乱的小记一下无监督学习

无监督学习->聚类 降维

聚类:数据相似性

相似性的评估:两个数据样本间的距离

距离:欧氏距离 曼哈顿距离 马氏距离 夹角余弦

sklearn 聚类算法 sklearn.cluster,如k-means 近邻传播 DBSCAN等

标准的数据输入格式:[样本个数,特征个数]定义的矩阵形式

介绍sklearn.cluster

|算法名称|参数|可扩展性|相似度度量|

|-|-|-|-|

降维

主成分分析PCA

PCA常用于高维数据集的探索与可视化,还可以用于数据压缩和预处理

可以把具有相关性的高维变量合成为线性无关的低维变量,称为主成分,它能够尽可能保留原始数据的信息。

一些术语

方差:各个样本和样本均值的差的平方和的均值,度量一组数据的分散程度

协方差:度量两个变量之间的线性相关性程度,为0表示二者线性无关

协方差矩阵:由变量的协方差值构成的矩阵,是对称阵

特征向量和特征值:略

PCA原理:矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值是第一主成分,其次是第二主成分,以此类推。

算法过程(参见周志华书):

输入:样本集,低维空间维数d

过程:1、对所有样本进行去中心化;2、计算样本的协方差矩阵;3、对协方差矩阵做特征值分解;4、取最大的d个特征值所对应的特征向量

输出:投影矩阵={特征向量}

使用:sklearn.decomposition.PCA

非负矩阵分解NMF

是在矩阵中所有元素均为非负数约束条件下的矩阵分解方法

基本思想:给定一个非负矩阵V,NMF能够找到一个非负矩阵W和一个非负矩阵H,使得矩阵W和H的乘积近似等于矩阵V中的值。

W:基础图像矩阵,相当于从元矩阵V中抽取出的特征

H:系数矩阵

广泛用于图像分析、文本挖掘和语音处理等领域。

非负矩阵分解

矩阵分解的优化目标:最小化W矩阵H矩阵的乘积和原始矩阵之间的差。

使用:sklearn.decomposition.NMF

原文地址:https://www.cnblogs.com/rayshaw/p/9165185.html

时间: 2024-08-29 19:48:15

无监督学习小记(参考)的相关文章

机器学习 一 监督学习和无监督学习的区别

前话: 最近一直想学机器学习的东西,无奈自己的书太多但无法专心看一本,纯理论的东西看了感觉不记下来就忘记类,所以我想理论学习和实践一起. 所以最近想把机器学习实战这本书看完,并做好记录.加油.!~ 一:什么是监督学习? 监督学习(supervised learning):通过已有的训练样本(即已知数据以及其对应的输出)来训练,从而得到一个最优模型,再利用这个模型将所有新的数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的,那么这个最优模型也就具有了对未知数据进行分类的能力.

无监督学习——K-均值聚类算法对未标注数据分组

无监督学习 和监督学习不同的是,在无监督学习中数据并没有标签(分类).无监督学习需要通过算法找到这些数据内在的规律,将他们分类.(如下图中的数据,并没有标签,大概可以看出数据集可以分为三类,它就是一个无监督学习过程.) 无监督学习没有训练过程. 聚类算法 该算法将相似的对象轨道同一个簇中,有点像全自动分类.簇内的对象越相似它的分类效果越好. 未接触这个概念可能觉得很高大上,稍微看了一会其实算法的思路和KNN一样很简单. 原始数据集如下(数据有两个特征,分别用横纵坐标表示),原始数据集并没有任何标

最小熵原理(一):无监督学习的原理

https://spaces.ac.cn/archives/5448/comment-page-1?replyTo=9054 话在开头# 在深度学习等端到端方案已经逐步席卷NLP的今天,你是否还愿意去思考自然语言背后的基本原理?我们常说“文本挖掘”,你真的感受到了“挖掘”的味道了吗? 无意中的邂逅# 前段时间看了一篇关于无监督句法分析的文章,继而从它的参考文献中发现了论文<Redundancy Reduction as a Strategy for Unsupervised Learning>

机器学习的动机与应用,监督学习与无监督学习

先抛出个例子,根据房子的面积来判断房子的价格. 什么是监督学习,大概了解就是有标准答案的训练,比如上面那个房子的问题,之前给的training examples都是一个x对应特定的y,就相当于有标准答案,这就是监督学习.supervised learning(我理解的) 无监督学习就是没有标准答案的,往往是会根据数据的某些特征分类,分群.(clustering) 强化学习 reinforcement learning,又称奖励学习,评价学习,key reward function.原理和训练狗一

什么是有监督学习和无监督学习

监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力.在人对事物的认识中,我们从孩子开始就被大人们教授这是鸟啊.那是猪啊.那是房子啊,等等.我们所见到的景物就是输入数据,而大人们对这些景物的判断结果(是房子还是鸟啊)就是相应的输出.当我们见识多了以后,脑子里就慢慢地

有监督学习和无监督学习

有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测.这里,所有的标记(分类)是已知的.因此,训练样本的岐义性低. 无监督学习:对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识.这里,所有的标记(分类)是未知的.因此,训练样本的岐义性高.聚类就是典型的无监督学习 附: 机器学习中的方法或范式(paradigm)有很多种分类体系,例如从学习的方式分,有例子中学习.类比学习.分析学习等,但一般来说,现在研究得最多.被认为最有用

机器学习中的有监督学习,无监督学习,半监督学习

在机器学习(Machine learning)领域.主要有三类不同的学习方法: 监督学习(Supervised learning). 非监督学习(Unsupervised learning). 半监督学习(Semi-supervised learning), 监督学习:通过已有的一部分输入数据与输出数据之间的相应关系.生成一个函数,将输入映射到合适的输出,比如分类. 非监督学习:直接对输入数据集进行建模,比如聚类. 半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数. 一.监

监督学习和无监督学习

监督学习 给出一个算法,需要部分数据集已经有正确答案.比如给定房价数据集.监督学习又叫回归问题 例子:房价预测,癌症预测 无监督学习 样本集未作标记,把一组未标记的数据分成多个聚类 例子:组织计算机集群,社交网络分析 鸡尾酒会问题 从背景噪声中提取有效信息. [W,s,v]=svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x'); 线性回归 比如房价如下: $x_{1}^{(i)}$表示第i个房子的居住面积,$x_{2}^{(i)}$表示第i个房子的卧室数目,因

无监督学习

在无监督学习中,我们很少或者根本不知道结果是什么样子.我们可以根据数据中变量之间的关系对数据进行聚类,无监督学习没有基于预测结果的反馈. 例子: 聚类:收集1000000个不同的基因,并找到一种方法,自动将这些基因分成不同的变量组,如寿命.位置.角色等.非聚类:"鸡尾酒会算法",让你在混乱的环境中找到结构.(也就是说,在鸡尾酒会上从一片声音中辨别出个人的声音和音乐).