机器学习工程师 - Udacity 非监督学习 Part Two

四、特征缩放
1.特征缩放的优点:Andrew在他的机器学习课程里强调,在进行学习之前要进行特征缩放,目的是保证这些特征都具有相近的尺度,这将帮助梯度下降算法更快地收敛。
python里常用的是preprocessing.StandardScaler(),公式为:(X-mean)/std,得到的结果是,对于每个属性来说所有数据都聚集在0附近,方差为1。
缺点:如果特征中有异常数值,那么缩放的结果会很不理想。

2.sklearn中的最小值/最大值缩放器
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
y = scaler.fit_transform(x)

3.哪些机器学习算法会受到特征缩放的影响?
□ 决策树
□ 使用 RBF 核函数的 SVM
□ 线性回归
□ K-均值聚类
答案是SVM和K-means。SVM和K-means需要根据不同维度的特征计算距离,而决策树和线性回归只需在不同维度的特征间找到一个切割点。

五、PCA
1.PCA从旧坐标系统仅通过转化和轮换获得新坐标系统,它将坐标系的中心移至数据的中心,将x轴移至方差最大的位置。

2.最大主成分数量是训练点数量和特征数量这两者中的最小值。

PCA 迷你项目

六、随机投影与ICA
1.随机投影是一个很有效的降维方法,在计算上比主成分分析更有效率。它通常应用于当一个数据集里有太多维度,PCA无法直接计算的情境下。PCA选择方差最大的方向,随机投影随机选择一个方向,它在某些情境下没有太大意义。但它其实是有作用的,在更高维度的效果更好,且工作效能更高。
图01

2.sklearn中的随机投影
from sklearn import random_projection
rp = random_projection.SparseRandomProjection()
new_x = rp.fit_transform(x)
稀疏随机投影比高斯随机投影更快速,效果更好。

3.独立成分分析(ICA)
PCA最大化方差,ICA假定这些特征是独力源的混合,并尝试分离这些混合在数据集里的独力源。
盲源分离问题
图02
参考文献: "独立成分分析:算法与应用" (pdf)(https://s3.cn-north-1.amazonaws.com.cn/static-documents/nd101/MLND+documents/10.1.1.322.679.pdf)
图03
ICA假设各成分是分别统计的,各成分须为非高斯分布。
sklearn中的Fast ICA算法:
1)居中、白化数据集x;
2)选择一个初始的随机权重矩阵W;
3)预估W,W是包含多个向量的矩阵,每个向量都是权值向量;
4)对W进行去相关操作。即防止W1和W2转化为相同的值;
5)重复第三步,直到找到满意的W值。

4. ICA 需要与我们试图分离的原始信号一样多的观测值。

5.sklearn中的ICA
图03

独立成分分析 Lab

6.ICA应用
ICA广泛应用于医学扫描仪;有人尝试在财务数据中运用ICA

当你在评估 PCA 中有包含多少组件时,基于你的实际经验,已保留的组件可以捕获的总变化量是多少比较好?80%

原文地址:https://www.cnblogs.com/paulonetwo/p/10000463.html

时间: 2024-10-04 21:14:26

机器学习工程师 - Udacity 非监督学习 Part Two的相关文章

机器学习工程师 - Udacity 监督学习

一.线性回归1.线性回归:一种用于预测数值数据的非常有效的算法. 假设直线为y=w1x+w2:点为(p,q).调整直线的技巧:1)绝对值技巧:如果点在直线上方,y=(w1+pɑ)x+(w2+ɑ),其中ɑ为学习速率.点在直线下方,y=(w1-pɑ)x+(w2-ɑ).p存在的原因:a.如果点不在y轴的右侧,而在左侧,此时p为负,可保证直线绕点的方向旋转:b.如果点距y轴近,则p的值较小,直线一次旋转的角度就小,如果点距y轴远,则p的值较大,直线一次旋转的角度就大,这符合我们的期望.2)平方技巧:无论

机器学习工程师 - Udacity 深度学习

一.神经网络1.为了进行梯度下降,误差函数不能是离散的,而必须是连续的.误差函数必须是可微分的.同时,要将离散预测变成连续预测,方法是将激活函数从阶跃函数变成S函数. 2.最大似然法:选出实际发生的情况所对应的概率更大的模型. 3.交叉熵(损失函数):将得到的概率取对数,对它们的相反数进行求和.准确的模型得到较低的交叉熵.交叉熵可以告诉我们两个向量是相似还是不同. 4.Logistic回归(对数几率回归)机器学习中最热门和最有用的算法之一,也是所有机器学习的基石.基本上是这样的:1)获得数据:2

机器学习工程师 - Udacity 机器学习基础

一.评估指标 1.混淆矩阵: 原文地址:https://www.cnblogs.com/paulonetwo/p/9925404.html

机器学习工程师 - Udacity 强化学习 Part Three

四.动态规划1.在动态规划设置中,智能体完全了解表示环境特性的马尔可夫决策流程 (MDP).(这比强化学习设置简单多了,在强化学习设置中,智能体一开始不知道环境如何决定状态和奖励,必须完全通过互动学习如何选择动作.) 2.迭代方法求状态值函数迭代方法先对每个状态的值进行初始猜测.尤其是,我们先假设每个状态的值为 0.然后,循环访问状态空间并通过应用连续的更新方程修改状态值函数的估算结果. 3.动作值思考下 qπ?(s1?,right) 这个示例.这个动作值的计算方式如下所示:qπ?(s1?,ri

Machine Learning——Unsupervised Learning(机器学习之非监督学习)

前面,我们提到了监督学习,在机器学习中,与之对应的是非监督学习.无监督学习的问题是,在未加标签的数据中,试图找到隐藏的结构.因为提供给学习者的实例是未标记的,因此没有错误或报酬信号来评估潜在的解决方案.这区别于监督学习和强化学习无监督学习. 无监督学习是密切相关的统计数据密度估计的问题.然而无监督学习还包括寻求,总结和解释数据的主要特点等诸多技术.在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法. 我们来看两张图片: 从图中我们可以看到:非监督学习中没有任何的标签或者是有相同的标签或者

监督学习、 非监督学习、 半监督学习

在机器学习(Machine learning)领域,主要有三类不同的学习方法: 监督学习(Supervised learning). 非监督学习(Unsupervised learning). 半监督学习(Semi-supervised learning), 监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类.非监督学习:直接对输入数据集进行建模,例如聚类. 半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数. 一.监督

优达学城机器学习工程师纳米学位项目介绍

本文由 meelo 原创,请务必以链接形式注明 本文地址,简书同步更新地址 一对一的项目辅导是优达学城(udacity)纳米学位的一大亮点.本文将简要介绍优达学城机器学习工程师纳米学位的6个项目.项目覆盖了机器学习的主要领域,包括回归分析.分类.聚类.增强学习及深度学习. 项目 0: 预测泰坦尼克号乘客生还率 这个项目需要你手动地实现一个简单的机器学习模型——决策树.1912年泰坦尼克号在第一次航行中与冰山碰撞沉没,泰坦尼克号乘客生还数据集记录了之中891个乘客的性别.年龄.社会阶级.配偶数量等

机器学习中的有监督学习,无监督学习,半监督学习

在机器学习(Machine learning)领域.主要有三类不同的学习方法: 监督学习(Supervised learning). 非监督学习(Unsupervised learning). 半监督学习(Semi-supervised learning), 监督学习:通过已有的一部分输入数据与输出数据之间的相应关系.生成一个函数,将输入映射到合适的输出,比如分类. 非监督学习:直接对输入数据集进行建模,比如聚类. 半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数. 一.监

Machine Learning — 监督学习与非监督学习

斯坦福大学的Machine Learning课程(讲师是Andrew Ng)公开课是学习机器学习的"圣经",以下内容是听课笔记. 一.何谓机器学习 Machine Learning is field of study that gives computers the ability to learn without being explicitly programmed. 也就是说机器学习不需要制定具体的模型,而是让计算机根据庞大的数据量自己训练模型,与之相对的,例如CFD软件,是建立