降维实例之主成分分析

数据集来源:https://www.kaggle.com/psparks/instacart-market-basket-analysis

思路:

实例代码:

import pandas as pd
from sklearn.decomposition import PCA

def main():
    ‘‘‘
    降维实例:主成分分析
    :return: None
    ‘‘‘
    # 读取数据
    prior = pd.read_csv("order_products__prior.csv")
    products = pd.read_csv("products.csv")
    orders = pd.read_csv("orders.csv")
    aisles = pd.read_csv("aisles.csv")
    # 合并数据
    _mg = pd.merge(prior, products, on=[‘product_id‘, ‘product_id‘])
    _mg = pd.merge(_mg, orders, on=[‘order_id‘, ‘order_id‘])
    mt = pd.merge(_mg, aisles, on=[‘aisle_id‘, ‘aisle_id‘])
    # print(mt.head(10))
    # 交叉表
    cross = pd.crosstab(mt[‘user_id‘], mt[‘aisle‘])
    # print(cross)
    pca = PCA(n_components=0.9)
    data = pca.fit_transform(cross)
    print(data)
    print(data.shape)
    return None

if __name__ == ‘__main__‘:
    main()

运行结果:

从结果中可以看出数据的维数降到了27

原文地址:https://www.cnblogs.com/shixinzei/p/10171751.html

时间: 2024-10-08 23:41:10

降维实例之主成分分析的相关文章

特征降维 实例

0_5.txt 00000000000000110000000000000000 00000000000011111100000000000000 00000000000111111110000000000000 00000000001111111111000000000000 00000000111111111111100000000000 00000001111111111111110000000000 00000000111111111111111000000000 00000000111

机器学习课程-第 8 周-降维(Dimensionality Reduction)—主成分分析(PCA)

1. 动机一:数据压缩 第二种类型的 无监督学习问题,称为 降维.有几个不同的的原因使你可能想要做降维.一是数据压缩,数据压缩不仅允许我们压缩数据,因而使用较少的计算机内存或磁盘空间,但它也让我们加快我们的学习算法. 但首先,让我们谈论 降维是什么.作为一种生动的例子,我们收集的数据集,有许多,许多特征,我绘制两个在这里. 将数据从二维降一维: 将数据从三维降至二维: 这个例子中我们要将一个三维的特征向量降至一个二维的特征向量.过程是与上面类似的,我们将三维向量投射到一个二维的平面上,强迫使得所

数据降维 实例

secom.data 3030.93 2564 2187.7333 1411.1265 1.3602 100 97.6133 0.1242 1.5005 0.0162 -0.0034 0.9455 202.4396 0 7.9558 414.871 10.0433 0.968 192.3963 12.519 1.4026 -5419 2916.5 -4043.75 751 0.8955 1.773 3.049 64.2333 2.0222 0.1632 3.5191 83.3971 9.5126

[机器学习之13]降维技术——主成分分析PCA

始终贯彻数据分析的一个大问题就是对数据和结果的展示,我们都知道在低维度下数据处理比较方便,因而数据进行简化成为了一个重要的技术.对数据进行简化的原因: 1.使得数据集更易用使用.2.降低很多算法的计算开销.3.去除噪音.4.使得结果易懂 这里我们关心的数据降维技术为主成分分析(PCA).在PCA中,数据原来的坐标系转换成了新的坐标系,新的坐标系是由数据本身决定的.第一个新的坐标轴的选择是原始数据中方差最大的方向,第二个新的坐标轴的选择和第一个坐标轴正交且具有最大方差方向.这个过程一直重复,重复次

主成分分析法原理及其python实现

主成分分析法原理及其python实现 前言: 这片文章主要参考了Andrew Ng的Machine Learning课程讲义,我进行了翻译,并配上了一个python演示demo加深理解. 本文主要介绍一种降维算法,主成分分析法,Principal Components Analysis,简称PCA,这种方法的目标是找到一个数据近似集中的子空间,至于如何找到这个子空间,下文会给出详细的介绍,PCA比其他降维算法更加直接,只需要进行一次特征向量的计算即可.(在Matlab,python,R中这个可以

降维算法中的PCA方法

1 主成分分析(Principal Component Analysis,PCA) 2 线性判别分析(Linear Discriminant Analysis, LDA)研究背景基本知识介绍经典方法介绍总结讨论问题的提出 地理系统是多要素的复杂系统.在地理学研究中,多变量问题是经常会遇到的.变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的. 因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新

用scikit-learn进行LDA降维

在线性判别分析LDA原理总结中,我们对LDA降维的原理做了总结,这里我们就对scikit-learn中LDA的降维使用做一个总结. 一.1.?对scikit-learn中LDA类概述 在scikit-learn中, LDA类是sklearn.discriminant_analysis.LinearDiscriminantAnalysis.那既可以用于分类又可以用于降维.当然,应用场景最多的还是降维.和PCA类似,LDA降维基本也不用调参,只需要指定降维到的维数即可. 二.2.?LinearDis

05-03 主成分分析(PCA)

目录 主成分分析(PCA) 一.维数灾难和降维 二.主成分分析学习目标 三.主成分分析详解 3.1 主成分分析两个条件 3.2 基于最近重构性推导PCA 3.2.1 主成分分析目标函数 3.2.2 主成分分析目标函数优化 3.3 基于最大可分性推导PCA 3.4 核主成分分析(KPCA) 四.主成分分析流程 4.1 输入 4.2 输出 4.3 流程 五.主成分分析优缺点 5.1 优点 5.2 缺点 六.小结 更新.更全的<机器学习>的更新网站,更有python.go.数据结构与算法.爬虫.人工

机器学习--标准化和缺失值处理、数据降维

标准化和缺失值的处理 标准化 : 特点 : 通过对原始数据进行变换把数据变换到均值为0, 标准差为1的范围内. ## 对于归一化来说:如果出现异常点,影响了大值和小值,那么结果显然会发生改变 对于标准化来说:如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从 而方差改变较小.在已有样本足够多的情况下比较稳定,适合现代嘈杂的大数据场景. ## 标准化API : API : sklearn.preprocessing.StandarScaler StandardScaler(