Unsupervised Learning: Linear Dimension Reduction---无监督学习：线性降维

一 Unsupervised Learning

把Unsupervised Learning分为两大类：

化繁为简：有很多种input，进行抽象化处理，只有input没有output
无中生有：随机给一个input，自动画一张图，只有output没有input

二 Clustering

有一大堆image ，把他们分为几大类，给他们贴上标签，将不同的image用相同的 cluster表示。也面临一个问题，要有多少种cluster呢？有两种clustering的方法：

2.1 K-means(K均值)

2.2 Hierarchical Agglomerative Clustering (HAC阶层式汇聚分群法)

注：如果说K均值算法的问题是不好却确定分为几类，那么HAC的问题在于不知将分类门槛划在哪一层。

三 Distributed Representation（分布式表征）

光做clustering是很卡的，有的个体并不只属于一个大类，所以需要一个vector来表示在各个类中的概率。这样，从一个（高维）图片到一个各个属性概率（低维）就是一个Dimension Reduction。

四 Dimension Reduction

为什么说降维是很有用的呢？有时候在3D很复杂的图像到2D就被简化了。

在MNIST训练集中，很多28*28维的向量转成一个image看起来根本不像数字，其中是digit的vector很少，所以或许我们可以用少于28*28维的向量来描述它。比如下图一堆3，每一个都是28*28维的向量，但是，我们发现，它们仅仅是角度的不同，所以我们可以加上角度值进行降维，来简化表示。

那我们应该怎样做Dimension Reduction呢？就是要找一个function。有两个方法：

Feature selection特征选择：比如在左图二维坐标系中，我们发现X1轴对样本点影响不大，那么就可以把它拿掉。
PCA 主成分分析：输出 z=Wx输入，找到这个向量W。

在现实中我们很难确定某个因素是否真的不起作用，所以下边重点介绍一个PCA

4.1 Principle Component Analysis (PCA) 主成分分析

在一维的例子里，我们要找 z1 方差最大的情况，当维度升高到2维，找 z2 方差最大，为了避免与 z1 重复，所以规定 w1 与 w2 垂直。依次方法可进行高维计算。将所有w转置一下，组成一个高维向量，就是我们要找的W。

补充一些数学知识（为了求解w）：

4.2 PCA - decorrelation

4.3 PCA – Another Point of View

每个手写识别，都是由基础组件构成的，把基础组件加起来，得到一个数字。对7来说，C1\C2\C3\C4\C5分别为1\0\1\0\1

那我们如何找到 u1-uK这K个Vector呢？我们要找K个vector使重构误差越小越好。

转化为Matrix。

怎么解这个问题呢？SVD方法： matrix X 可以用SVD拆成 matrix U * matrix ∑ * matrix V。

这样w已经通过SVD求出来了，Ck怎么求呢？

4.4 Weakness of PCA

参考：

http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/dim%20reduction%20%28v5%29.pdf

https://blog.csdn.net/soulmeetliang/article/details/73309360

原文地址：https://www.cnblogs.com/Terrypython/p/9456991.html

时间： 2024-10-12 20:11:37

Unsupervised Learning: Linear Dimension Reduction---无监督学习：线性降维的相关文章

Machine Learning——Unsupervised Learning（机器学习之非监督学习）

前面,我们提到了监督学习,在机器学习中,与之对应的是非监督学习.无监督学习的问题是,在未加标签的数据中,试图找到隐藏的结构.因为提供给学习者的实例是未标记的,因此没有错误或报酬信号来评估潜在的解决方案.这区别于监督学习和强化学习无监督学习. 无监督学习是密切相关的统计数据密度估计的问题.然而无监督学习还包括寻求,总结和解释数据的主要特点等诸多技术.在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法. 我们来看两张图片: 从图中我们可以看到:非监督学习中没有任何的标签或者是有相同的标签或者

2019-07-31【机器学习】无监督学习之降维PCA算法实例（鸢尾花）

样本代码: import matplotlib.pyplot as plt from sklearn.decomposition import PCA from sklearn.datasets import load_iris #加载鸢尾花数据集导入函数 data = load_iris()#加载数据,array([[5.1 3.5 1.4 0.2].....]) #print(data) y = data.target #各50个 0,1,2 暂不明作用, #print(y) X = da

Machine Learning Algorithms Study Notes(4)—无监督学习（unsupervised learning）

1 Unsupervised Learning 1.1 k-means clustering algorithm 1.1.1 算法思想 1.1.2 k-means的不足之处 1.1.3 如何选择K值 1.1.4 Spark MLlib 实现 k-means 算法 1.2 Mixture of Gaussians and the EM algorithm 1.3 The EM Algorithm 1.4 Principal Components

无监督学习小记（参考）

下面凌乱的小记一下无监督学习无监督学习->聚类降维聚类:数据相似性相似性的评估:两个数据样本间的距离距离:欧氏距离曼哈顿距离马氏距离夹角余弦 sklearn 聚类算法 sklearn.cluster,如k-means 近邻传播 DBSCAN等标准的数据输入格式:[样本个数,特征个数]定义的矩阵形式介绍sklearn.cluster |算法名称|参数|可扩展性|相似度度量| |-|-|-|-| 降维主成分分析PCA PCA常用于高维数据集的探索与可视化,还可以用于数据压缩和预

如何区分监督学习(supervised learning)和非监督学习(unsupervised learning)

监督学习:简单来说就是给定一定的训练样本(这里一定要注意,样本是既有数据,也有数据对应的结果),利用这个样本进行训练得到一个模型(可以说是一个函数),然后利用这个模型,将所有的输入映射为相应的输出,之后对输出进行简单的判断从而达到了分类(或者说回归)的问题.简单做一个区分,分类就是离散的数据,回归就是连续的数据. 非监督学习:同样,给了样本,但是这个样本是只有数据,但是没有其对应的结果,要求直接对数据进行分析建模. 比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能

机器学习一监督学习和无监督学习的区别

前话: 最近一直想学机器学习的东西,无奈自己的书太多但无法专心看一本,纯理论的东西看了感觉不记下来就忘记类,所以我想理论学习和实践一起. 所以最近想把机器学习实战这本书看完,并做好记录.加油.!~ 一:什么是监督学习? 监督学习(supervised learning):通过已有的训练样本(即已知数据以及其对应的输出)来训练,从而得到一个最优模型,再利用这个模型将所有新的数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的,那么这个最优模型也就具有了对未知数据进行分类的能力.

监督学习与无监督学习

机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning).监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力.在人对事物的认识中,我们从孩子开始就被大人们教授这是鸟啊.那是猪啊.那是

（转）【重磅】无监督学习生成式对抗网络突破，OpenAI 5大项目落地

[重磅]无监督学习生成式对抗网络突破,OpenAI 5大项目落地 [新智元导读]"生成对抗网络是切片面包发明以来最令人激动的事情!"LeCun前不久在Quroa答问时毫不加掩饰对生成对抗网络的喜爱,他认为这是深度学习近期最值得期待.也最有可能取得突破的领域.生成对抗学习是无监督学习的一种,该理论由 Ian Goodfellow 提出,此人现在 OpenAI 工作.作为业内公认进行前沿基础理论研究的机构,OpenAI 不久前在博客中总结了他们的5大项目成果,结合丰富实例介绍了生成对抗网络

（转载）监督学习和无监督学习

机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning). 监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力.在人对事物的认识中,我们从孩子开始就被大人们教授这是鸟啊.那是猪啊.那

猜你喜欢

linux 本地账号密码无法登陆，一直返回登陆的login界面

登陆redhat一直是返回login,账号和密码没错通过ssh crt类的软件远程连接系统然后更改文件 vi /etc/pam.d/login 把 :session required /lib ...

javaWeb笔记：gson

谷歌的Gson.jar: //list转换为json Gson gson = new Gson(); List<Person> persons = new ArrayList<Per ...

JavaScript字符串的操作

平常我们在写JS代码时,遇到最频繁的操作之一也许是字符相关的操作了,同时在面试中也常常会设计字符串的转化的问题,今天刚好将看到资料和前人的经验总结一下,整理如下,希望大家补充和纠正. 1. 非字符串转 ...

javascript事件总结

事件浏览器支持解说一般事件 onclick IE3.N2 鼠标点击时触发此事件 ondblclick IE4.N4 鼠标双击时触发此事件 onmousedown IE4.N4 按下鼠标时触发此事 ...

个体户理财有讲究：保险投资养老三者要兼顾理财个体户养老_新浪财经_新浪网

黄先生今年37岁,妻子刘女士35岁,夫妻二人共同经营了一家综合性批发部.女儿10岁,读四年级,儿子5岁,上幼儿园.家庭年收入35万元,家庭每月支出8500元,其中消费在衣食方面3000元,孩子每月学费 ...

ftp://fr2.rpmfind.net/linux/centos/7.2.1511/os/x86_64, 开源软件清单list

ftp://fr2.rpmfind.net/linux/centos/7.2.1511/os/x86_64 Index of /linux/centos/7.2.1511/os/x86_64/Pack ...

远程管理virtual box的几种方式

发送命令到远程主机上的vboxmanage.exe执行并返回结果(最简单的方式,但如果在windows service中无法获取到vboxmanage.exe输出流中的内容) 发送请求到远程主机上的v ...

RAID-10 阵列的创建（软）

(软)RAID阵列的创建 RAID-10磁盘阵列需要准备的环境首先分区-该文件系统-RAID需要fd Linux raid auto 文件系统: 把5-9 改成:Linux raid autod ...

多线程并发编程

前言多线程并发编程是Java编程中重要的一块内容,也是面试重点覆盖区域,所以学好多线程并发编程对我们来说极其重要,下面跟我一起开启本次的学习之旅吧. 正文线程与进程 1 线程:进程中负责程序执行的 ...

Commons-Email 使用

参考: http://www.oschina.net/p/commons-email http://www.oschina.net/translate/commons-email-userguide

Egret 位图纹理学习

1,重新设置舞台大小,可以直接到VS中的 "解决方案"中,找到 launcher->egret_loader.js中,找到setDesignSize方法,修改其中大小即可:有 ...

搞笑对话

男:聊吗女:不男:为什么女:忙男:忙什么女:玩男:玩什么女:游戏男:什么游戏女:玩的男:什么玩的女:烦男:烦就跟我聊女:滚男:地不干净女:靠男:给你肩膀女:找死啊男:"死"在字典9 ...

Learning Rust - Syntax

Rust is another compiling language that may replace the position of C/C++ in server filed. It runs f ...

BNU52325-Increasing or Decreasing-数位DP-DFS

题目地址: https://www.bnuoj.com/v3/problem_show.php?pid=52325 两份代码,解释在第二份代码里面第一份代码整理一下看着爽 1 #include &l ...

[原创]MvvmLight中用IDialogService替代DialogMessage的用法

在新版的MvvmLight中,DialogMessage被标注为已过时,需要用IDialogService来替代,IDialogService的具体用法如下: 先在主窗体中实现IDialogServi ...

【转】相对路径和绝对路径的转换

unit xPath; interface uses ShlwApi, Windows, SysUtils; /// <summary> /// 取绝对路径的函数.需要引用 ShlwApi ...

html 绑定

html 绑定目的 html绑定到DOM元素上,使得该元素显示的HTML值为你绑定的参数.如果在你的view model里声明HTML标记并且render的话,那非常有用. 例子 <div ...

网络安全法让中国彻底走上极权军国统治之路

伴随着网安组织在各地区的成立,近年不断的抗日洗脑,近期的互联网+行动指导意见,民营企业成立党委,立法审核西方企业(反美),以及最重要的非人民所选的网络安全法的出台,中国终于走上了彻底的极权军国统治之路 ...

《Head First Java》——认识变量

对象的引用 Book b = new Book(); Book c = new Book(); Book d = c; // 声明新的Book引用变量,但不创建新的 ...

企业会计准则第24号——套期保值

企业会计准则第24号--套期保值 2015-12-28来源: 财政部网站企业会计准则第24号--套期保值财会[2006]3号第一章总则第一条为了规范套期保值的确认和计量,根据<企业会 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.026 s.