降维实例之主成分分析

数据集来源：https://www.kaggle.com/psparks/instacart-market-basket-analysis

思路：

实例代码：

import pandas as pd
from sklearn.decomposition import PCA

def main():
    ‘‘‘
    降维实例：主成分分析
    :return: None
    ‘‘‘
    # 读取数据
    prior = pd.read_csv("order_products__prior.csv")
    products = pd.read_csv("products.csv")
    orders = pd.read_csv("orders.csv")
    aisles = pd.read_csv("aisles.csv")
    # 合并数据
    _mg = pd.merge(prior, products, on=[‘product_id‘, ‘product_id‘])
    _mg = pd.merge(_mg, orders, on=[‘order_id‘, ‘order_id‘])
    mt = pd.merge(_mg, aisles, on=[‘aisle_id‘, ‘aisle_id‘])
    # print(mt.head(10))
    # 交叉表
    cross = pd.crosstab(mt[‘user_id‘], mt[‘aisle‘])
    # print(cross)
    pca = PCA(n_components=0.9)
    data = pca.fit_transform(cross)
    print(data)
    print(data.shape)
    return None

if __name__ == ‘__main__‘:
    main()

运行结果：

从结果中可以看出数据的维数降到了27

原文地址：https://www.cnblogs.com/shixinzei/p/10171751.html

时间： 2024-10-08 23:41:10

降维实例之主成分分析的相关文章

特征降维实例

0_5.txt 00000000000000110000000000000000 00000000000011111100000000000000 00000000000111111110000000000000 00000000001111111111000000000000 00000000111111111111100000000000 00000001111111111111110000000000 00000000111111111111111000000000 00000000111

机器学习课程-第 8 周-降维(Dimensionality Reduction)—主成分分析(PCA)

1. 动机一:数据压缩第二种类型的无监督学习问题,称为降维.有几个不同的的原因使你可能想要做降维.一是数据压缩,数据压缩不仅允许我们压缩数据,因而使用较少的计算机内存或磁盘空间,但它也让我们加快我们的学习算法. 但首先,让我们谈论降维是什么.作为一种生动的例子,我们收集的数据集,有许多,许多特征,我绘制两个在这里. 将数据从二维降一维: 将数据从三维降至二维: 这个例子中我们要将一个三维的特征向量降至一个二维的特征向量.过程是与上面类似的,我们将三维向量投射到一个二维的平面上,强迫使得所

数据降维实例

secom.data 3030.93 2564 2187.7333 1411.1265 1.3602 100 97.6133 0.1242 1.5005 0.0162 -0.0034 0.9455 202.4396 0 7.9558 414.871 10.0433 0.968 192.3963 12.519 1.4026 -5419 2916.5 -4043.75 751 0.8955 1.773 3.049 64.2333 2.0222 0.1632 3.5191 83.3971 9.5126

[机器学习之13]降维技术——主成分分析PCA

始终贯彻数据分析的一个大问题就是对数据和结果的展示,我们都知道在低维度下数据处理比较方便,因而数据进行简化成为了一个重要的技术.对数据进行简化的原因: 1.使得数据集更易用使用.2.降低很多算法的计算开销.3.去除噪音.4.使得结果易懂这里我们关心的数据降维技术为主成分分析(PCA).在PCA中,数据原来的坐标系转换成了新的坐标系,新的坐标系是由数据本身决定的.第一个新的坐标轴的选择是原始数据中方差最大的方向,第二个新的坐标轴的选择和第一个坐标轴正交且具有最大方差方向.这个过程一直重复,重复次

主成分分析法原理及其python实现

主成分分析法原理及其python实现前言: 这片文章主要参考了Andrew Ng的Machine Learning课程讲义,我进行了翻译,并配上了一个python演示demo加深理解. 本文主要介绍一种降维算法,主成分分析法,Principal Components Analysis,简称PCA,这种方法的目标是找到一个数据近似集中的子空间,至于如何找到这个子空间,下文会给出详细的介绍,PCA比其他降维算法更加直接,只需要进行一次特征向量的计算即可.(在Matlab,python,R中这个可以

降维算法中的PCA方法

1 主成分分析(Principal Component Analysis,PCA) 2 线性判别分析(Linear Discriminant Analysis, LDA)研究背景基本知识介绍经典方法介绍总结讨论问题的提出地理系统是多要素的复杂系统.在地理学研究中,多变量问题是经常会遇到的.变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的. 因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新

用scikit-learn进行LDA降维

在线性判别分析LDA原理总结中,我们对LDA降维的原理做了总结,这里我们就对scikit-learn中LDA的降维使用做一个总结. 一.1.?对scikit-learn中LDA类概述在scikit-learn中, LDA类是sklearn.discriminant_analysis.LinearDiscriminantAnalysis.那既可以用于分类又可以用于降维.当然,应用场景最多的还是降维.和PCA类似,LDA降维基本也不用调参,只需要指定降维到的维数即可. 二.2.?LinearDis

05-03 主成分分析(PCA)

目录主成分分析(PCA) 一.维数灾难和降维二.主成分分析学习目标三.主成分分析详解 3.1 主成分分析两个条件 3.2 基于最近重构性推导PCA 3.2.1 主成分分析目标函数 3.2.2 主成分分析目标函数优化 3.3 基于最大可分性推导PCA 3.4 核主成分分析(KPCA) 四.主成分分析流程 4.1 输入 4.2 输出 4.3 流程五.主成分分析优缺点 5.1 优点 5.2 缺点六.小结更新.更全的<机器学习>的更新网站,更有python.go.数据结构与算法.爬虫.人工

机器学习--标准化和缺失值处理、数据降维

标准化和缺失值的处理标准化 : 特点 : 通过对原始数据进行变换把数据变换到均值为0, 标准差为1的范围内. ## 对于归一化来说:如果出现异常点,影响了大值和小值,那么结果显然会发生改变对于标准化来说:如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小.在已有样本足够多的情况下比较稳定,适合现代嘈杂的大数据场景. ## 标准化API : API : sklearn.preprocessing.StandarScaler StandardScaler(