机器学习：PCA（实例：MNIST数据集）

一、数据

获取数据

import numpy as np
from sklearn.datasets import fetch_mldata

mnist = fetch_mldata("MNIST original")

sklearn 的 datasets 中，一个特有的方法：fetch_mldata，使用此方法可以直接从一个官方网站中下载各种机器学习数据；
格式：datas = fetch_mldata("字符串")；

查看数据

mnist
# 输出：
{‘COL_NAMES‘: [‘label‘, ‘data‘],
 ‘DESCR‘: ‘mldata.org dataset: mnist-original‘,
 ‘data‘: array([[0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        ...,
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0]], dtype=uint8),
 ‘target‘: array([0., 0., 0., ..., 9., 9., 9.])}

mnist 是一个字典：‘COL_NAMES‘、‘DESCR‘、‘data‘、‘target‘；
‘DESCR‘：表示 MNIST 数据集所在的网站；

处理数据

X, y = mnist[‘data‘], mnist[‘target‘]

X.shape
# 输出：（70000, 784）

X_train = np.array(X[:60000], dtype=float)
y_train = np.array(y[:60000], dtype=float)
X_test = np.array(X[60000:], dtype=float)
y_test = np.array(y[60000:], dtype=float)

此处没有进行数据归一化处理，因为现在的样本数据整体来说都表示图像中相应的一个像素点的亮度，也就是说，虽然整体数据没有进行归一化处理，但他们还在同一个尺度上，所以此数据集不需要进行归一化处理；
数据归一化的主要意义：当数据的尺度不同时，要把数据放在同一个尺度上；

二、算法

使用 kNN 算法进行识别操作（数据不降维）

from sklearn.neighbors import KNeighborsClassifier

knn_clf = KNeighborsClassifier()
%time knn_clf.fit(X_train, y_train)
# 输出：44.9 s

knn_clf.score(X_test, y_test)
# 输出：0.9688

kNN 算法中还需要进行调参：k、weight

使用 kNN算法进行识别操作（PCA降维数据）

from sklearn.decomposition import PCA

# 只保留样本的 90% 的信息
pca = PCA(0.9)

pca.fit(X_train)
X_train_reduction = pca.transform(X_train)

X_train_reduction.shape
# 输出：（60000, 87）

knn_clf = KNeighborsClassifier()
%time knn_clf.fit(X_train_reduction, y_train)
# 输出：602 s

X_test_reduction = pca.transform(X_test)
%time knn_clf.score(X_test_reduction, y_test)
# 输出：1 min  27 s      0.9728

PCA(0.9)：只保留样本的 90% 的信息，也就是能解释 90% 原是数据方差的前 n 个主成分；
(60000, 87)：将样本从 784 维，降低至 87 维，保留了样本 90% 的信息；

分析：数据使用 PCA 降维前后的效果

现象：识别准确度提高了，预测时间缩短了；
使用 PCA 将数据降维后的优点：识别准确度提高了，预测时间缩短了，减小了数据和存储空间；
疑问：为什么 PCA 的过程中丢失了 10% 的信息，识别准确度反而提高了？
答疑：实际上 PCA 这个过程中，不仅仅对原始数据进行了降维，更有可能在降维的过程中将原有的数据所包含的噪音消除了，使得数据集中更好的特征，以至于识别准确率得到提升；

原文地址：https://www.cnblogs.com/volcao/p/9257578.html

时间： 2024-10-10 23:43:15

机器学习：PCA（实例：MNIST数据集）的相关文章

机器学习在用到mnist数据集报错No module named 'tensorflow.examples.tutorials'解决办法

检查一下安装有tensorflow包的目录下的examples这个文件夹. 每个人的文件路径是不同的,我的在...\Python3\Lib\site-packages,该目录下有文件夹tensorflow, tensorflow_core, tensorflow_estimator等文件夹.进入tensorflow文件夹,里面发现一个examples文件夹,但是文件夹下只有saved_model这个文件,没有找到tutorials. 接下来我们进入github的tensorflow主页下载缺失的

从零到一：caffe-windows(CPU)配置与利用mnist数据集训练第一个caffemodel

一.前言本文会详细地阐述caffe-windows的配置教程.由于博主自己也只是个在校学生,目前也写不了太深入的东西,所以准备从最基础的开始一步步来.个人的计划是分成配置和运行官方教程,利用自己的数据集进行训练和利用caffe来实现别人论文中的模型(目前在尝试的是轻量级的SqueezeNet)三步走.不求深度,但求详细.因为说实话caffe-windows的配置当初花了挺多时间的,目前貌似还真没有从头开始一步步讲起的教程,所以博主就争取试着每一步都讲清楚吧. 这里说些题外话:之所以选择Sque

Tensorflow MNIST 数据集測试代码入门

本系列文章由 @yhl_leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/50614444 測试代码已上传至GitHub:yhlleo/mnist 将MNIST数据集,下载后复制到目录Mnist_data中,假设已经配置好tensorflow环境,基本的四个測试代码文件,都能够直接编译执行: mnist_softmax.py: MNIST机器学习入门 mnist_deep.py: 深入MNIST fully_co

python用K近邻（KNN）算法分类MNIST数据集和Fashion MNIST数据集

一.KNN算法的介绍 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法之一,理论上比较成熟.KNN算法首先将待分类样本表达成和训练样本一致的特征向量:然后根据距离计算待测试样本和每个训练样本的距离,选择距离最小的K个样本作为近邻样本:最后根据K个近邻样本判断待分类样本的类别.KNN算法的正确选取是分类正确的关键因素之一,而近邻样本是通过计算测试样本与每个训练集样本的距离来选定的,故定义合适的距离是KNN正确分类的前提. 本文中在上述研究的基础上,将特征属性值

Python读取MNIST数据集

MNIST数据集获取 MNIST数据集是入门机器学习/模式识别的最经典数据集之一.最早于1998年Yan Lecun在论文: Gradient-based learning applied to document recognition. 中提出.经典的LeNet-5 CNN网络也是在该论文中提出的. 数据集包含了0-9共10类手写数字图片,每张图片都做了尺寸归一化,都是28x28大小的灰度图.每张图片中像素值大小在0-255之间,其中0是黑色背景,255是白色前景.如下图所示: MNIST共包

mnist的格式说明，以及在python3.x和python 2.x读取mnist数据集的不同

#!/usr/bin/env python # -*- coding: UTF-8 -*- import struct # from bp import * from datetime import datetime # 数据加载器基类 class Loader(object): def __init__(self, path, count): ''' 初始化加载器 path: 数据文件路径 count: 文件中的样本个数 ''' self.path = path self.count = co

Ubuntu14.04+caffe+cuda7.5 环境搭建以及MNIST数据集的训练与测试

Ubuntu14.04+caffe+cuda 环境搭建以及MNIST数据集的训练与测试一.ubuntu14.04的安装: ubuntu的安装是一件十分简单的事情,这里给出一个参考教程: http://jingyan.baidu.com/article/76a7e409bea83efc3b6e1507.html 二.cuda的安装: 1.首先下载nvidia cuda的仓库安装包(我的是ubuntu 14.04 64位,所以下载的是ubuntu14.04的安装包,如果你是32位的可以参看具体的地

windows下的cafee训练和测试mnist数据集

一.mnist数据集 mnist是一个手写数字数据库,由Google实验室的Corinna Cortes和纽约大学柯朗研究院的Yann LeCun等人建立,它有60000个训练样本集和10000个测试样本集.mnist数据库官方网址为:http://yann.lecun.com/exdb/mnist/ .可直接下载四个解压文件,分别对应:训练集样本.训练集标签.测试集样本和测试集标签.解压缩之后发现,其是在一个文件中包含了所有图像. 二.caffe支持的数据格式:Lmdb和Leveldb 它们都

MFC基于对话框手写数字识别 SVM+MNIST数据集

完整项目下载地址: http://download.csdn.net/detail/hi_dahaihai/9892004 本项目即拿MFC做了一个画板,画一个数字后可自行识别数字.此外还有保存图片.清空画板功能,简单实用. 识别方法为SVM调用已经训练好的MNIST数据集"SVM_DATA.xml" MNIST数据集训练方法自行百度,一大堆. 本项目基于OpenCv 2.4.6,下载的朋友自行修改配置为自己使用的OpenCv版本即可.