机器学习之数据探索——数据特征分析(分布分析)

数据特征分析与数据质量分析一道构成数据探索的两方面工作,在前文中介绍过关于数据质量分析的概况,本文将对数据特征分析作简介,并着重于分布分析的角度,相比于数据质量分析,数据特征分析更注重于找寻数据间的关系。

数据特征分析包括以下几个分析角度:
1、分布分析
2、对比分析
3、统计量分析
4、帕累托分析
5、正态性检验
6、相关性分析
其上每一个分析角度都有丰富的内容。

分布分析

顾名思义,分布分析研究数据的分布特征和分布类型。对于定量数据,需要了解分布形式,发现某些特大特小的异常值,通常用到散点图,频率分布直方图,茎叶图等;对于定性数据,可用饼图或和条形图显示分布情况。

1 定量数据

对于定量数据列,可以从以下步骤获取其分布形式
1 求极差
2 求适当的分组区间
3 计算各组频率
4 绘制频率分布直方图

当然对于python而言,可以使用内置方法直接将输入的数据转换为直方图:
将数据转为dataframe形式,对其中某一列使用hist()方法,该函数的参数为需要的分组数,可以手动调至合适的分组数。

2 定性数据

对于定性数据,一般可以使用饼图展示其分布状况:

注意:输入上图中函数的数据是统计频数后整理好的,如例中一样,将三个类别的数量统计之后的结果列表作为输入数据。

3 counter函数

上面提到绘制饼图的数据是需要频数统计处理的,那么就需要了解python库函数counter,可以用它方便地进行频数统计:

原文地址:https://www.cnblogs.com/pythonfl/p/12436731.html

时间: 2024-10-09 19:52:17

机器学习之数据探索——数据特征分析(分布分析)的相关文章

机器学习之数据探索——数据质量分析

数据探索是对样本数据进行解释性的分析工作,它是数据挖掘和机器学习较为前期的部分,更偏重于研究数据的本质.描述数据的形态特征并解释数据的相关性. 换句话说,透过数据探索,我们应该可以回答如下问题: 样本数据的分布怎样?有什么特点?数据之间有何种关系?数据是否满足建模要求? 问题驱动发展,对以上问题进行解答,涉及到数据探索的两个方面工作: 数据质量分析 数据特征分析 需要提及的是,数据探索与数据预处理紧密相连的,二者在数据挖掘的中没有绝对的先后次序.比如,在数据质量分析中,就牵涉到数据预处理中的数据

数据特征分析:1.分布分析

几个基础分析思路: 分布分析.对比分析.统计分析.帕累托分析.正态性检测.相关性分析 分布分析 分布分析是研究数据的分布特征和分布类型,分定量数据.定性数据区分基本统计量. import numpy as np import pandas as pd import matplotlib.pyplot as plt % matplotlib inline #读取数据 data = pd.read_csv(r'C:\Users\Administrator\Desktop\python数据分析\深圳罗

Python机器学习之数据探索可视化库yellowbrick

背景介绍 从学sklearn时,除了算法的坎要过,还得学习matplotlib可视化,对我的实践应用而言,可视化更重要一些,然而matplotlib的易用性和美观性确实不敢恭维.陆续使用过plotly.seaborn,最终定格在了Bokeh,因为它可以与Flask完美的结合,数据看板的开发难度降低了很多. 前阵子看到这个库可以较为便捷的实现数据探索,今天得空打算学习一下.原本访问的是英文文档,结果发现已经有人在做汉化,虽然看起来也像是谷歌翻译的,本着拿来主义,少费点精力的精神,就半抄半学,还是发

Python机器学习之数据探索可视化库yellowbrick-tutorial

背景介绍 从学sklearn时,除了算法的坎要过,还得学习matplotlib可视化,对我的实践应用而言,可视化更重要一些,然而matplotlib的易用性和美观性确实不敢恭维.陆续使用过plotly.seaborn,最终定格在了Bokeh,因为它可以与Flask完美的结合,数据看板的开发难度降低了很多. 前阵子看到这个库可以较为便捷的实现数据探索,今天得空打算学习一下.原本访问的是英文文档,结果发现已经有人在做汉化,虽然看起来也像是谷歌翻译的,本着拿来主义,少费点精力的精神,就半抄半学,还是发

「数据挖掘入门系列」数据探索之数据特征分析

对数据质量进行简单的分析后,我们就可以开始来分析数据的特征分析了.数据的特征分析可以从以下几个方面开展: 分布分析 对比分析 统计量分析 周期性分析 相关性分析 通过以上5种方式,可以找到数据中存在的某种特征. 分布分析 分布分析很容易理解,就是理解数据的分布情况.例如:在0-100区间有多少数据.100-1000有多少数据等等.我们一般可以使用直方图.饼图来展示数据的分布情况. 分布分析可以分为两种类型: 定量数据分布分析 定性数据分布分析 定量数据分布分析就是把数据分成一个个固定的区间,然后

利用python进行泰坦尼克生存预测——数据探索分析

最近一直断断续续的做这个泰坦尼克生存预测模型的练习,这个kaggle的竞赛题,网上有很多人都分享过,而且都很成熟,也有些写的非常详细,我主要是在牛人们的基础上,按照数据挖掘流程梳理思路,然后通过练习每一步来熟悉应用python进行数据挖掘的方式. 数据挖掘的一般过程是:数据预览-->数据预处理(缺失值.离散值等)-->变量转换(构造新的衍生变量)-->数据探索(提取特征)-->训练-->调优-->验证 1 数据预览 1.1 head() 预览数据集的前面几条数据可以大致

机器学习技术在达观数据的实践

大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测.支付平台的欺诈交易监测等等.达观数据技术团队长期以来一直致力于钻研和积累各种大数据技术,曾获得cikm2014数据挖掘竞赛冠军,也开发过智能文本内容审核系统.作弊监测系统.用户建模系统等多个基于大数据技术的应用系统.机器学习是大数据挖掘的一大基础,本文以机器学习为切入点,将达观在大数据技术实践时的一些经验与大家分享(达观数据联合创始人 纪传俊) CIK

二 数据探索

1 数据质量分析 数据质量分析是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础.其主要任务是检查原始数据中是否存在脏数据: (1)缺失值 (2)异常值(outliers) (3)不一致的值 (4)重复数据及含有特殊符号的数据 1.1 缺失值分析 1.2 异常值分析 异常值是指样本中数值明显偏离其余观测值的个别值,也称为离群点. (1)简单统计量分析 先对变量做描述性统计,检查数据是否合理.常用的统计量是最大.最小值. (2)3σ 原则 (3)箱型图分析 1.3 一致性分析 数据不一致

数据探索综合指南EDA 转发

数据探索综合指南 苏尼尔·雷(SUNIL RAY) 2016年1月10日 总览 有关数据探索(EDA)的完整教程 我们涵盖了数据探索的几个方面,包括缺失值估算,异常值去除和特征工程的技巧 介绍 没有数据浏览的捷径.如果您处于一种状态,那么机器学习可以使您摆脱每次数据风暴,相信我,事实并非如此.经过一段时间后,您将意识到自己正在努力提高模型的准确性.在这种情况下,数据探索技术将助您一臂之力. 我可以自信地说,因为我经历过很多这样的情况. 我从事业务分析专业近三年了.在我最初的日子里,我的一位导师建