特征工程-EDA（Exploratory Data Analysis）

定义

　　探索性数据分析（Exploratory Data Analysis，EDA）是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。一般有以下几个目的：

弄清楚数据的含义
发现数据的结构
锁定一些重要的特征
异常值以及离群数据的检测（类别极致不平衡以及方差很小）
结合行业背景选择合适的模型

常用方法

绘图方法

　　　　1. 对原始数据绘图

　　　　2. 绘制原始数据的一些统计学图（箱型图、小提琴图、直方图等）

　　　　3. 多特征对比性绘图（查看不同的特征之间的关系）

量化方法

　　　　1. 计算偏度和锋度

　　　　2. 区间估计

　　　　3. 分类类型

绘图方法

量化方法：

相关性分析

　　　　先定义三类变量:

　　　　 1. 定类变量: 通过该变量可以进行分类，但是该变量没有实际的数值意义（例如性别，城市）。

　　　　 2. 定序变量: 不仅可以用来分类，还按某种规律排序，不同的定序变量可以比较大小，有排序的能力，但是之间的差值没有意义（例如消费能力，教育程度）。

　　　　 3. 定距变量: 可以比较大小，差值具有意义。（常见的连续变量，例如价格、购买数量）

　　　　不同类型的方法相关性检测的方法是不同的：

独立性分析

　　　　利用MVtest检验两个变量是否相关。

　　（mv test 待补）

原文地址：https://www.cnblogs.com/z1141000271/p/12594775.html

时间： 2024-08-01 08:27:34

特征工程-EDA（Exploratory Data Analysis）的相关文章

探索性数据分析（Exploratory Data Analysis，EDA）

探索性数据分析(Exploratory Data Analysis,EDA)主要的工作是:对数据进行清洗,对数据进行描述(描述统计量,图表),查看数据的分布,比较数据之间的关系,培养对数据的直觉,对数据进行总结等. 探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别: 传统的统计分析方法通常是先假设样本服从某种分布,然后把数据套入假设模型再做分析.但由于多数数据并不能满足假设的分布,因此,传统统计分析结果常常不能让人满意. 探索性数据分析方法注重数据的真实分布,

Python 探索性数据分析(Exploratory Data Analysis,EDA)

此脚本读取的是 SQL Server ,只需给定表名或视图名称,如果有数据,将输出每个字段符合要求的每张数据分布图. # -*- coding: UTF-8 -*- # python 3.5.0 # 探索性数据分析(Exploratory Data Analysis,EDA) __author__ = 'HZC' import math import sqlalchemy import numpy as np import pandas as pd import matplotlib.pyplo

Exploratory data analysis and feature extraction with Python

此图片是学习kaggle中某篇kernel时的思维导图,总结了python进行探索性数据分析和特征提取的基本方法和步骤,有可借鉴内容. 暂时无法找到全篇kernel的链接,若重新找到再附上. 原文地址:https://www.cnblogs.com/balabalaeight/p/10127557.html

机器学习之（四）特征工程以及特征选择的工程方法

关于特征工程(Feature Engineering),已经是很古老很常见的话题了,坊间常说:"数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已".由此可见,特征工程在机器学习中占有相当重要的地位.在实际应用当中,可以说特征工程是机器学习成功的关键.纵观Kaggle.KDD等国内外大大小小的比赛,每个竞赛的冠军其实并没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作,然后使用一些常见的算法,比如LR,就能得到出色的性能.遗憾的是,在很多的书籍中并没有直接

评分卡系列（二）：特征工程

文章很长,理论和实现都讲的很细,大家可以先收藏,有时间再看. 在上一篇文章中,我们对LendingClub的数据有了一个大致的了解,这次我将带大家把10万多条.145个字段的原始数据一步一步处理成建模所需输入的数据. 我们先按照上次一样导入数据,这里我将逾期15天以上的都当作正类 import pandas as pd import numpy as np import reportgen as rpt import matplotlib.pyplot as plt import seaborn

【特征工程】特征选择与特征学习

http://www.jianshu.com/p/ab697790090f 特征选择与特征学习在机器学习的具体实践任务中,选择一组具有代表性的特征用于构建模型是非常重要的问题.特征选择通常选择与类别相关性强.且特征彼此间相关性弱的特征子集,具体特征选择算法通过定义合适的子集评价函数来体现.在现实世界中,数据通常是复杂冗余,富有变化的,有必要从原始数据发现有用的特性.人工选取出来的特征依赖人力和专业知识,不利于推广.于是我们需要通过机器来学习和抽取特征,促进特征工程的工作更加快速.有效. 特征选

使用Python做单机特征工程

目录 1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 无量纲化与正则化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法 3.1.2 相关系数法 3.1.3 卡方检验 3.1.4 互信息法 3.2 Wrapper 3.2.1 递归特征消除法 3.3 Embedded 3.3.1 基于惩罚项的特征选择法 3.3.2 基于

使用sklearn做单机特征工程

目录 1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法 3.1.2 相关系数法 3.1.3 卡方检验 3.1.4 互信息法 3.2 Wrapper 3.2.1 递归特征消除法 3.3 Embedded 3.3.1 基于惩罚项的特征选择法 3.3.2 基于树

【特征工程】特征工程技术与方法

引言在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特征来建模. 特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的. 特征工程的重要意义数据特征会直接影响你使用的预测模型和实现的预测结果.准备和选择的特征越好,则实现的结果越好. 影响预测结果好坏的因素:模型的选择.可用的数据.特征的提取. 优质的特征往往描述了数据的固有结构. 大多数模型都可