二数据探索

1 数据质量分析

数据质量分析是数据预处理的前提，也是数据挖掘分析结论有效性和准确性的基础。其主要任务是检查原始数据中是否存在脏数据：

（1）缺失值

（2）异常值（outliers）

（3）不一致的值

（4）重复数据及含有特殊符号的数据

1.1 缺失值分析

1.2 异常值分析

异常值是指样本中数值明显偏离其余观测值的个别值，也称为离群点。

（1）简单统计量分析

先对变量做描述性统计，检查数据是否合理。常用的统计量是最大、最小值。

（2）3σ 原则

（3）箱型图分析

1.3 一致性分析

数据不一致是指数据中存在矛盾、不相容。

2 数据特征分析

2.1 分布分析

定量数据：频率分布表、频路分布直方图、茎叶图

定性分类数据：饼图、条形图

定量数据的分布分析
选择“组数”和“组宽”

（1）求极差

（2）确定组距与组数

（3）确定分点

（4）列出频率分布表

（5）绘制频率分布直方图

主要原则：

（1）各组间互斥

（2）各组必须包含所有数据

（3）各组组宽相等

定性数据分布分析

对于定性变量，常根据变量的分类类型进行分组，可以采用饼图和条形图描述定性变量的分布。

2.2 对比分析

对比分析是指比较两个相互联系的指标，从数量上展示、说明研究对象规模、水平、速度，以及各种关系是否协调，适用于指标间的横纵向比较、时间序列比较分析。对比分析主要形式有：

（1）绝对数值比较：通过绝对数对比，寻找差异；

（2）相对数值比较：两个相关指标对比计算，以反映客观现象间数量联系程度的综合指标，其数值表现为相对数值。

相对数值分为：

结构相对数：计算同一总体内部分数值与全部数值间的比值，以说明事物的性质、结构或质量。

比例相对数：计算同一总体内不同部分间数值比值，表明总体内各部分的比例关系。

比较相对数：计算同一时期两个性质相同指标间的数值比值，说明同类现象在不同空间条件下数量对比关系。

强度相对数：计算两个性质不同但有相关性的总量指标间的比值，以说明现象的强度、密度和普遍程度。

计划完成程度相对数：某时期内实际完成数与计划完成数的比值，以说明计划完成程度

动态相对数：同一现象在不同时期的指标间的数值比值，以说明发展方向和变化速度。

2.3 统计量分析

用统计指标对定量数据进行统计描述，常从集中趋势和离中趋势两个方面进行分析。

平均水平指标是对个体集中趋势的度量，主要有均值和中位数

反映变异程度的指标是对个体离开平均水平的度量，主要有标准差（方差）、四分位间距。

离中趋势度量
（1）极差

极差 = 最大值 - 最小值

极差对数据集的极端值非常敏感，且忽略了最大值与最小值之间的数据分布。

（2）标准差

标准差度量数据偏离均值的程度

（4）四分位数间距

四分位数包括上四分位数和下四分位数。将所有数据排序并按数量分成四等份，位于第一分割点的数值为下四分位数，第二个分割点（中间位置）的数值为中位数，第三个分割点的数值为上四分位数。

2.4 周期性分析

周期性分析是探索某个变量是否随着时间变化而呈现周期性变化趋势。

时间尺度相对较长的周期性趋势有年度周期性趋势、季节性周期趋势；相对较短的有月度周期性趋势、周度周期性趋势；甚至更短的天、小时周期性趋势

2.5 贡献度分析

贡献度分折又称帕累托分析，其原理为帕累托法则，又称20/80定律。同样的投入放在不同地方会产生不同的效益。

2.6 相关性分析

相关分析：分析连续变量间线性相关程度，并用适当的统计指标表示的的过程

绘制散点图

判断两个变量是否相关最直观的方法是绘制散点图。

绘制散点图矩阵

需要同时考察多个变量间的相关性时，可采用散点图矩阵同时绘制各变量间的散点图，其在多元线性回归问题中尤为重要。

计算相关系数

通过计算相关系数，能够准确描述变量间的线性相关程度。二元变量相关性分析中常用Pearson相关系数、Spearman秩相关系数和判定系数。

3 Python数据探索数数

3.1 基本统计特征函数

统计量函数用于计算数据的均值、方差、标准差、分位数、相关系数、协方差……等，这些统计量能反映出数据的整体分布。

3.2 拓展统计特征函数

3.3 统计作图函数

箱形图可以表示多个样本的均值；误差条形图能同时显示下限误差和上限误差：最小二乘拟合曲线图能分析两变量间的关系。

原文地址：https://www.cnblogs.com/persist0701/p/11415779.html

时间： 2024-10-09 19:52:21

二数据探索的相关文章

智慧中国杯算法赛解读 | 精准资助数据探索(一)

智慧中国杯是由DataCastle(数据城堡)主办的全国大数据创新应用大赛,提供了百万的竞赛奖金,数据城堡的创始人周涛是<大数据时代>的中文翻译者,在业内享有很高的名气. OpenFEA将对此次大赛进行持续关注和报道,以推进大数据在国内的发展,让更多的人参与到大数据的应用创新当中来,为社会培养大数据人才出一份自己的力量. 此次大赛分为三个环节,第一是算法赛,任何个人和组织团体都可以参加,无资格限制,提交比赛结果即可.算法赛最后截止时间为2017年2月20日,在此之前提交结果都有效,现在报名还来

.Net Core/Framework之Nginx反向代理后获取客户端IP等数据探索

原文:.Net Core/Framework之Nginx反向代理后获取客户端IP等数据探索公司项目最近出现获取访问域名.端口.IP错误现象,通过排查发现, 之前项目一直通过Nginx自定义Headers信息来获取,但最近运维人员失误操作造成自定义Header信息丢失,造成项目拿不到对应的数据.思前想后,想找找官方有没有关于此类问题通用标准化的解决方案. 一.Nginx配置如下: proxy_redirect off; proxy_set_header Host $host; proxy_set

ExtJS 4.2 业务开发(二)数据展示和查询

本篇开始模拟一个船舶管理系统,提供查询.添加.修改船舶的功能,这里介绍其中的数据展示和查询功能. 目录 1. 数据展示 2. 数据查询 3. 在线演示 1. 数据展示在这里我们将模拟一个船舶管理系统,并提供查询.添加.修改的功能. 大致的目录结构如下: ShipMgrTab.js :船舶业务的入口. controller 目录:存放船舶业务的逻辑控制文件. model 目录:存放船舶业务的model文件. store 目录 :存放船舶业务的store文件. view 目录 :存放船舶业务的组件

SQL语句汇总(二)——数据修改、数据查询

首先创建一张表如下,创建表的方法在上篇介绍过了,这里就不再赘述. 添加新数据: INSERT INTO <表名> (<列名列表>) VALUES (<值列表>) 如: INSERT INTO t_student (student_id,student_name,student_age,student_sex) VALUES (1,'大毛',18,'男'); 其中列名可以省略,省略之后要求插入的值必须与列一一对应: INSERT INTO t_student VALUE

利用python进行泰坦尼克生存预测——数据探索分析

最近一直断断续续的做这个泰坦尼克生存预测模型的练习,这个kaggle的竞赛题,网上有很多人都分享过,而且都很成熟,也有些写的非常详细,我主要是在牛人们的基础上,按照数据挖掘流程梳理思路,然后通过练习每一步来熟悉应用python进行数据挖掘的方式. 数据挖掘的一般过程是:数据预览-->数据预处理(缺失值.离散值等)-->变量转换(构造新的衍生变量)-->数据探索(提取特征)-->训练-->调优-->验证 1 数据预览 1.1 head() 预览数据集的前面几条数据可以大致

数据挖掘方法系列（一）数据探索

为什么要做数据探索?了解数据的类型和人与人沟通过程中了解对方的性别一样重要,人与人沟通知道对方的性别才能用不同的方式与其沟通,不同的数据类型能做的操作也不一样.探索数据探索哪些?数据的类型和数据的质量.数据类型分为定性和定量的.定性也可以说是分类的,包括标称和序数.标称很好理解,用户ID.用户的名称也属于标称,虽然也可以重复,但大致还是能代表一个个体:序数有类型{好,非常好,超级好},可以比较大小的,比如"超级好好"比"好"在好的程度要高,{高,较高,非常高}也属于

Python机器学习之数据探索可视化库yellowbrick

背景介绍从学sklearn时,除了算法的坎要过,还得学习matplotlib可视化,对我的实践应用而言,可视化更重要一些,然而matplotlib的易用性和美观性确实不敢恭维.陆续使用过plotly.seaborn,最终定格在了Bokeh,因为它可以与Flask完美的结合,数据看板的开发难度降低了很多. 前阵子看到这个库可以较为便捷的实现数据探索,今天得空打算学习一下.原本访问的是英文文档,结果发现已经有人在做汉化,虽然看起来也像是谷歌翻译的,本着拿来主义,少费点精力的精神,就半抄半学,还是发

Python机器学习之数据探索可视化库yellowbrick-tutorial

机器学习之数据探索——数据质量分析

数据探索是对样本数据进行解释性的分析工作,它是数据挖掘和机器学习较为前期的部分,更偏重于研究数据的本质.描述数据的形态特征并解释数据的相关性. 换句话说,透过数据探索,我们应该可以回答如下问题: 样本数据的分布怎样?有什么特点?数据之间有何种关系?数据是否满足建模要求? 问题驱动发展,对以上问题进行解答,涉及到数据探索的两个方面工作: 数据质量分析数据特征分析需要提及的是,数据探索与数据预处理紧密相连的,二者在数据挖掘的中没有绝对的先后次序.比如,在数据质量分析中,就牵涉到数据预处理中的数据

二 数据探索