sklearn数据获取与预处理

sklearn

Key_Word

sklearn, datasets, DataFrame, load_*

preprocessing, MinMaxScaler, scaler, fit, transform, data, target

sklearn数据获取

# In[1]:
import sklearn

# In[2]:
sklearn.__version__

# In[6]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
get_ipython().run_line_magic(‘matplotlib‘, ‘inline‘)
#在jupyter中可视化的展示图形
from sklearn import datasets    #从sklearn导入数据集

iris = datasets.load_iris()

# In[10]:
iris
iris.data
iris[‘target‘]

# In[17]:
# 利用dataframe做简单的可视化分析
df = pd.DataFrame(iris.data, columns = iris.feature_names)    # 是一个表格
df[‘target‘] = iris.target    # 表头字段就是key
df.plot(figsize = (12, 8))

数据的预处理

数据的标准化: 将每一个数值调整到某一个数量级下

from sklearn import preprocessing
# sklearn的数据标准化都在preprocessing下

数据的归一化

数据的二值化

非线性转换

数据特征编码

处理缺失值

数据标准化

Key_Word

preprocessing, MinMaxScaler, scaler, fit, transform, data, target

from sklearn import preprocessing
scaler = preprocessing.MinMaxScaler()    # scaler: 定标器
# MinMaxScaler将样本特征值线性缩放到0,1之间
scaler.fit(iris.data)    # 先fit
data = scaler.transform(iris.data)    # 再transform    也可以二合一写成fit_transform
target = iris.target

原文地址：https://www.cnblogs.com/draven123/p/11408086.html

时间： 2024-10-09 17:42:42

sklearn数据获取与预处理的相关文章

关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

一.标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行. 将数据按期属性(按列进行)减去其均值,并处以其方差.得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1. 实现时,有两种不同的方式: 使用sklearn.preprocessing.scale()函数,可以直接将给定数据进行标准化. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 >>> from skle

使用sklearn进行数据预处理 —— 归一化/标准化/正则化

sklearn简介

sklearn 机器学习的工具箱 sklearn功能模块分类: 识别某个对象属于哪个类别------垃圾邮件监测, 图像识别回归: 预测与对象相关联的连续值属性------>股价聚类: 将相似对象自动分组------>客户细分, 分组实验结果降维: 减少要考虑的随机变量的数量------>可视化模型选择: 比较, 验证, 选择参数和模型------>通过参数调整提高精度预处理: 特征提取和归一化------>把输入数据转换为机器学习算法可用的数据 sklearn统

用scikit-learn和pandas学习Ridge回归

本文将用一个例子来讲述怎么用scikit-learn和pandas来学习Ridge回归. 1. Ridge回归的损失函数在我的另外一遍讲线性回归的文章中,对Ridge回归做了一些介绍,以及什么时候适合用 Ridge回归.如果对什么是Ridge回归还完全不清楚的建议阅读我这篇文章. 线性回归原理小结 Ridge回归的损失函数表达形式是: \(J(\mathbf\theta) = \frac{1}{2}(\mathbf{X\theta} - \mathbf{Y})^T(\mathbf{X\thet

1-1模式识别基本概念

模式识别研究的目的是利用计算机对物理对象进行分类,在错误概率最小的条件下,使识别的结果尽量与客观物体相符合.机器辨别事物最基本的方法是计算,原则上是对计算机要分析的事物与标准模板的相似程度进行计算.因此首先要从度量中看出不同事物之间的差异,才能分辨当前要识别的事物. 1.模式的描述方法在模式识别技术中,被观测的每个对象成为样品.对于每个样品来说,必须确定一些与识别有关的因素,作为研究的根据,每一个因素成为一个特征.模式就是样品所具有的特征的描述.模式的特征集又可用于同一个特征空间的特征向量表示

kaggle Titanic心得

Titanic是kaggle上一个练手的比赛,kaggle平台提供一部分人的特征,以及是否遇难,目的是预测另一部分人是否遇难.目前抽工作之余,断断续续弄了点,成绩为0.79426.在这个比赛过程中,接触并了解了一些数据挖掘比赛的基本流程,现记录一下. 1. 分析数据因为数据量比较小,train有800多条数据,test有400多条数据,因此这里用了execl的数据透视表分析. 同时python提供pandas库,可以很好的分析数据. 2. 缺失值填充关于Age,Fare,Embarked三个

三维重建基础

三维重建技术通过深度数据获取.预处理.点云配准与融合.生成表面等过程,把真实场景刻画成符合计算机逻辑表达的数学模型.这种模型可以对如文物保护.游戏开发.建筑设计.临床医学等研究起到辅助的作用. 1.1 研究背景及意义人类通过双眼来探索与发现世界.人类接收外部信息的方式中,有不到三成来自于听觉.触觉.嗅觉等感受器官,而超过七成.最丰富.最复杂的信息则通过视觉[1]进行感知的.计算机视觉便是一种探索给计算机装备眼睛(摄像头)与大脑(算法)的技术,以使计算机能够自主独立的控制行为.解决问题,同时感知

关于特征工程的一些学习、思考与错误的纠正

特征工程的整体思路: 1. 对于特征的理解.评估 2. 特征处理: 2.1 特征处理 2.1.1 特征清洗清洗异常.采样 2.1.2 预处理单特征情况:归一化.离散化.哑变量编码.缺失值填充等.数据变换例如log服从正态分布. 多特征情况: 降维:PCA.LDA(这个不太了解.待学习) 特征选择:三种大方法,Filter--x与y之间的关联,Wrapper--目标函数检验(MSE),Embedded--机器学习方法,正则化.决策树.深度学习. 3. 特征监控有效性分析和监控. Python

决策树应用（一）

上一篇讲了ID3决策树原理,现在开始拿一个例子进行实战一.python机器学习库 scikit-learn.sklearn是一个Python第三方提供的非常强力的机器学习库,它包含了从数据预处理到训练模型的各个方面.在实战使用scikit-learn中可以极大的节省我们编写代码的时间以及减少我们的代码量,使我们有更多的精力去分析数据分布,调整模型和修改超参.sklearn基本包含了所有机器学习的方式,如 Classification 分类,如SVM Regression 回归 ,如LR Clu