Python数据挖掘—特征工程—数据处理

概念：

特征工程：本质上是一项工程活动，他目的是最大限度地从原始数据中提取特征以供算法和模型使用

特征工程的重要性：特征越好，灵活性越强、模型越简单、性能越出色。

特征工程包括：数据处理、特征选择、维度压缩

量纲不一:

就是单位，特征的单位不一致，不能放在一起比较

通过：0-1标准化、Z标准化、Normalizer归一化

数据处理-归一化：

 1 import pandas
 2
 3 data=pandas.read_csv(
 4             "C:\\Users\\Jw\\Desktop\\python_work\\Python数据挖掘实战课程课件\\6.1\\data1.csv")
 5
 6 #Min-Max标准化
 7 from sklearn.preprocessing import MinMaxScaler
 8
 9 scaler=MinMaxScaler()
10
11 data["标准化累计票房"]=scaler.fit_transform(data[["累计票房"]])
12 data["标准化豆瓣得分"]=scaler.fit_transform(data[["豆瓣评分"]])
13
14 #Z-Score标准化
15 from sklearn.preprocessing import scale
16
17 data["标准化累计票房"]=scale(data["累计票房"])
18 data["标准化豆瓣评分"]=scale(data["豆瓣评分"])
19
20
21 #Normalizer归一化
22 from sklearn.preprocessing import Normalizer
23
24 scaler = Normalizer()
25
26 data[‘归一化累计票房‘] = scaler.fit_transform(
27     data[‘累计票房‘]
28 )[0]
29 data[‘归一化豆瓣评分‘] = scaler.fit_transform(
30     data[‘豆瓣评分‘]
31 )[0]

数据处理-虚拟变量：

虚拟变量也叫哑变量和离散特征编码，可用来表示分类变量、非数量因素可能产生的影响

使用get_dummies获取虚拟变量

如果新数据分类较少，要获取前面的category类，可以用categories=data["列名"].cat.categories来得到之前的分类，与之前的列一一对应

 1 import pandas
 2
 3 data=pandas.read_csv(
 4         "C:\\Users\\Jw\\Desktop\\python_work\\Python数据挖掘实战课程课件\\6.1\\data2.csv")
 5
 6 data["症状"]=data["症状"].astype("category")
 7
 8 dummiesData = pandas.get_dummies(
 9     data,
10     columns=[‘症状‘],
11     prefix=[‘症状‘],
12     prefix_sep="_"
13 )
14
15
16 newData=pandas.read_csv(
17         "C:\\Users\\Jw\\Desktop\\python_work\\Python数据挖掘实战课程课件\\6.1\\data2New.csv")
18
19
20 newData["症状"]=newData["症状"].astype(
21     "category",
22     categories=data["症状"].cat.categories)
23
24 dummiesNewData=pandas.get_dummies(
25     newData,
26     columns=["症状"],
27     prefix=["症状"],
28     prefix_sep="_")

数据处理—缺失值

缺失值产生原因：有些信息暂时无法获取、有些信息被遗漏或者错误的处理了

缺失值处理方法：数据补齐、删除缺失行、不处理

导入Imputer类，该类有三个备选项：mean、median、most_frequent

 1 import pandas
 2
 3 data=pandas.read_csv("C:\\Users\\Jw\\Desktop\\python_work\\Python数据挖掘实战课程课件\\6.1\\data3.csv")
 4
 5 from sklearn.preprocessing import Imputer
 6
 7 #mean,median,most_frequent
 8
 9 imputer=Imputer(strategy="mean")
10
11 data["累计票房"]=imputer.fit_transform(data[["累计票房"]])

原文地址：https://www.cnblogs.com/U940634/p/9748200.html

时间： 2024-10-15 10:22:14

Python数据挖掘—特征工程—数据处理的相关文章

Python数据挖掘—特征工程—特征选择

如何选择特征根据是否发散及是否相关来选择方差选择法先计算各个特征的方差,根据阈值,选择方差大于阈值的特征方差过滤使用到的是VarianceThreshold类,该类有个参数threshold,该值为最小方差的阈值,然后使用fit_transform进行特征值过滤相关系数法先计算各个特征对目标值的相关系数,选择更加相关的特征递归特征消除法使用一个基模型来进行多轮训练,经过多轮训练后,保留指定的特征数通过estimator将基模型设置为线性模型(可以设置为其他类型),通过n_fea

数据挖掘——特征工程

特征工程(Feature Engineering) 特征工程其本质上是一项工程活动,它的目的是最大限度地从原始数据中提取特征以供算法和模型使用. 特征工程的重要性: 特征越好,灵活性越强特征越好,模型越简单特征越好,性能越出色数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.特征工程的最终目的就是提升模型的性能. 特征工程包括:数据处理.特征选择.维度压缩三大方面的内容. 1.数据处理:量纲不一.虚拟变量.缺失值填充 1.1.量纲不一量纲就是单位,特征的单位不一致就不能放在一

使用Python做单机特征工程

目录 1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 无量纲化与正则化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法 3.1.2 相关系数法 3.1.3 卡方检验 3.1.4 互信息法 3.2 Wrapper 3.2.1 递归特征消除法 3.3 Embedded 3.3.1 基于惩罚项的特征选择法 3.3.2 基于

python数据挖掘领域工具包 - wentingtu - 博客园

python数据挖掘领域工具包 - wentingtu - 博客园 python数据挖掘领域工具包原文:http://qxde01.blog.163.com/blog/static/67335744201368101922991/ Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy.其中Numpy是一个用python实现的科学计算包.包括: 一个强大的N维数组对象Array: 比较成熟的(广播)函数库: 用于整合C/C++和Fortran代码的工具包: 实用的线性代数.傅

【Python数据挖掘课程】五.线性回归知识及预测糖尿病实例

今天主要讲述的内容是关于一元线性回归的知识,Python实现,包括以下内容: 1.机器学习常用数据集介绍 2.什么是线性回顾 3.LinearRegression使用方法 4.线性回归判断糖尿病前文推荐: [Python数据挖掘课程]一.安装Python及爬虫入门介绍 [Python数据挖掘课程]二.Kmeans聚类数据分析及Anaconda介绍 [Python数据挖掘课程]三.Kmean

评分卡系列（二）：特征工程

文章很长,理论和实现都讲的很细,大家可以先收藏,有时间再看. 在上一篇文章中,我们对LendingClub的数据有了一个大致的了解,这次我将带大家把10万多条.145个字段的原始数据一步一步处理成建模所需输入的数据. 我们先按照上次一样导入数据,这里我将逾期15天以上的都当作正类 import pandas as pd import numpy as np import reportgen as rpt import matplotlib.pyplot as plt import seaborn

特征工程基本流程

前言特征是数据中抽取出来的对结果预测有用的信息,可以是文本或者数据.特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程.过程包含了特征提取.特征构建.特征选择等模块. 特征工程的目的是筛选出更好的特征,获取更好的训练数据.因为好的特征具有更强的灵活性,可以用简单的模型做训练,更可以得到优秀的结果."工欲善其事,必先利其器",特征工程可以理解为利其器的过程.互联网公司里大部分复杂的模型都是极少数的数据科学家在做,大多数工程师们做的事情基本是在数据仓

【推荐系统篇】--推荐系统之之特征工程部分---构建训练集流程

一.前述根据前文中架构,本文我们讨论线下部分构建训练集部分.因为我们离线部分模型的选择是逻辑回归,所以我们数据必须有x和y. 二.具体流程 1.从数据库中分离出我们需要的数据. 用户行为表(日志) 用户历史下载表商品词表(商品的基本特征) 2.构建训练集中的关联特征流程: 2.构建训练集中的基本特征总结:注意特征名离散化因为如果特征不离散化会造成数据之间有关系. 三.具体构建过程 1.hive建表真实的生产场景涉及到大概五十张表的字段,这里全部简化流程,直接给出最终的三张表: 应用词表

sklearn特征工程

目录一. 特征工程是什么? 2 ①特征使用方案 3 ②特征获取方案 4 ③特征处理 4 1. 特征清洗 4 2. 数据预处理 4 3. 特征监控 4 二. 数据预处理 5 1. 无量纲化 5 1.1标准化 5 1.2区间缩放法 7 1.3归一化方法有两种 7 2. 对定量特征二值化 8 1. 为什么要对定量特征二值化? 8 2. 对定量特征二值化的方法