「数据挖掘入门系列」数据探索之数据特征分析

对数据质量进行简单的分析后,我们就可以开始来分析数据的特征分析了。数据的特征分析可以从以下几个方面开展:

  1. 分布分析
  2. 对比分析
  3. 统计量分析
  4. 周期性分析
  5. 相关性分析

通过以上5种方式,可以找到数据中存在的某种特征。

分布分析

分布分析很容易理解,就是理解数据的分布情况。例如:在0-100区间有多少数据、100-1000有多少数据等等。我们一般可以使用直方图饼图来展示数据的分布情况。

分布分析可以分为两种类型:

  • 定量数据分布分析
  • 定性数据分布分析

定量数据分布分析就是把数据分成一个个固定的区间,然后统计不同区间的分布数值。

定量数据分析的步骤为如下:

  1. 求极差(最大值 - 最小值)
  2. 决定组距和组数
  3. 决定分点
  4. 列出频率分布表
  5. 绘制频率分布直方图

定性数据分布分析比较简单,就是按照指定的分类来统计不同类别的分布数值。

对比分析

对比分析是指选择具备有一定联系的指标来进行比较,从而发现数据的变化特征。对比分析的关键在于确定对比的标准,才能进行有效的评价。

对比分析主要分为两类:

  • 绝对数比较
  • 相对数比较

绝对数比较容易理解,就是用指标和一个固定的值来进行比较,寻找数据的差异。

相对数比较是找到几个有联系的指标来进行比较分析,可以发现不同类别指标之间的差异。相对数比较又分为以下几类:

  • 结构相对数:用一个分类的指标和总体的指标值对比求得比重,用来说明事物的组成结构。
  • 比较相对数:不同分类的指标之间的对比,例如:男女比例、不同区域指标的对比。
  • 计划完成程度相对数:和计划数进行比较
  • 动态相对数:不同时期的指标进行比较

统计量分析

统计量分析是用统计指标来对定量数据进行分析,一般从集中趋势和离中趋势两个方面来开展分析。

反应集中趋势的度量通常使用均值中位数。反应异常的指标通常使用的是标准差(方差)、四分位间距。

1、平均数:一组数据,用这组数据的总和除以总分数,得出的数就是这组数据的平均数。平均数的大小与一组数据里的每个数据都有关系,任何一个数据的变动都会引起平均数的变动,即平均数受较大数和较小数的影响。
2. 中位数:将一组数据按大小依次排列,把处在最中间位置的一个数(或最中间位置的两个数的平均数)叫做这组数据的中位数。中位数的大小仅与数据的排列位置有关。因此中位数不受偏大和偏小数的影响,当一组数据中的个别数据变动较大时,常用它来描述这组数据的集中趋势

以下来说明上述集中度量值的计算方法。

集中趋势分析

均值

均值是所有数据的平均值。

均值对极端值(异常值)很敏感。如果数据中存在某些数据是偏态分布的,那么均值是不能很好地度量数据的集中趋势。为了消除少数异常值的影响,可以使用截断均值或者中位数来度量数据的集中趋势。

阶段均值是指去掉高、低极端值之后的平均数

中位数

中位数是将一组观察值按从小到大的顺序排列,位于中间的那个数。

众数

众数是指数据集中出现最频繁的值。众数一般用于定性变量。

离中趋势分析

极差

极差 = 最大值 - 最小值

标准差

标准差度量数据偏离均值的程度。计算公式为:

变异系数

变异系数度量是标准差相对于均值的离中趋势。计算公式为:

四分位数间距

四分位数间距是上四分位数Qu与下四分位数Ql的差值。间距越大说明变异程度越大;反之,说明变异程度越小。

周期性分析

周期性分析是统计某个指标是否随着时间变化而变化。相对较长的周期性趋势分析有:年度周期性趋势、季度周期性趋势。相对较短的有月度周期性趋势、周度周期性趋势、甚至还有天、小时等周期性趋势。

相关性分析

分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。我们可以通过:直接绘制散点图或者绘制散点图矩阵来开展分析。计算相关性系数有以下几种方法:

  1. Pearson(皮尔逊系数):一般用于分析两个连续性变量之间的关系,它要求连续变量的取值服从正态分布。
  2. Speraman(斯皮尔曼相关系数):不服从正态分布的变量、分类或等级变量之间的关联性可以采取Speraman相关系数来描述。
  3. 判定系数:判断系数是相关系数的平方,判定系数越接近1,表示相关性越强,越接近于0,表名两个变量之间几乎没有相关关系。

原文地址:https://www.cnblogs.com/ilovezihan/p/12242342.html

时间: 2024-11-07 07:13:43

「数据挖掘入门系列」数据探索之数据特征分析的相关文章

「数据挖掘入门系列」Python快速入门

Python环境搭建 本次入门系列将使用Python作为开发语言.要使用Python语言,我们先来搭建Python开发平台.我们将基于Python 2.7版本.以及Python的开发发行版本Anaconda版本来开发. Anaconda指的是一个开源的Python发行版本,其包含了conda.Python等180多个科学包及其依赖项. 下载地址: https://www.anaconda.com/distribution/,注意要下载2.7版本 下载好Anaconda安装包后,即可安装,安装好后

「数据挖掘入门系列」挖掘建模之分类与预测–逻辑回归

拿电商行业举例,经常会遇到以下问题: 如果基于商品的历史销售情况,以及节假日.气候.竞争对手等影响因素,对商品的销量进行趋势预测? 如何预测未来一段时间哪些客户会流失,哪些客户可能会成为VIP用户? 如果预测一种新商品的销售量,以及哪种类型的客户会比较喜欢? 除此之外,运营部门需要通过数据分析来了解具有某些特征的客户的消费习惯,管理人员希望了解下一个月的销售收入等,这些都是分类与预测的日志. 分类和预测是预测问题的两种主要类型. 分类主要是预测分类标号(离散值) 预测主要是建立连续值函数模型 挖

「数据挖掘入门系列」数据挖掘模型之分类与预测 - 决策树

决策树在分类.预测.规则提取等领域有着广泛的应用. 决策树是一种树状结果,它的每一个叶节点对应一个分类.构造决策树的核心问题是:在每一步如何选择适当的属性对样本做拆分.对于分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程. 常见的决策树算法如下: ID3算法 C4.5算法 CART算法 其中ID3是最经典的决策树分类算法. ID3算法 ID3算法基于信息熵来选择最佳测试属性.它选择当前样本集中具有最大信息增益值的属性作为测试属性. 总的信息熵计算方式如下: 设S

数据挖掘入门系列教程(一)之亲和性分析

数据挖掘入门系列教程(一)之亲和性分析 教程系列简介 系列地址:https://www.cnblogs.com/xiaohuiduan/category/1661541.html 该教程为入门教程,为博主学习数据挖掘的学习路径步骤.教程为入门教程,从最简单的开始.使用的编程语言为Python3.8.1,使用JupyterNotebook作为开发环境(使不使用JupyterNotebook都没有关系). 在学习本教程之前,你需要: 有一点python编程基础 会用百度 or 谷歌 数学知识还是要一

数据挖掘入门系列教程(八)之使用神经网络(基于pybrain)识别数字手写集MNIST

目录 数据挖掘入门系列教程(八)之使用神经网络(基于pybrain)识别数字手写集MNIST 下载数据集 加载数据集 构建神经网络 反向传播(BP)算法 进行预测 F1验证 总结 参考 数据挖掘入门系列教程(八)之使用神经网络(基于pybrain)识别数字手写集MNIST 在本章节中,并不会对神经网络进行介绍,因此如果不了解神经网络的话,强烈推荐先去看<西瓜书>,或者看一下我的上一篇博客:数据挖掘入门系列教程(七点五)之神经网络介绍 本来是打算按照<Python数据挖掘入门与实践>

Java入门系列:处理Json格式数据

本节主要讲解: 1)json格式数据处理方法 2)第三方工具包的使用方法 3)java集合数据类型 [项目任务] 编写一个程序,显示未来的天气信息. [知识点解析] 为了方便后面代码的分析,先需要掌握几个相关的知识. 1.什么是json格式数据 从结构上看,我们所见到的所有的数据(data)最终都可以分解成三种类型: 第一种类型是标量(scalar),也就是一个单独的字符串(string)或数字(numbers),比如"北京"这个单独的词. 第二种类型是序列(sequence),也就是

【 D3.js 入门系列 --- 2 】 如何使用数据和选择元素

接着上一讲的内容,这次讨论如何选择元素和使用数据.    现在页面中有三行文字,代码为: [html] view plain copy <p>Hello World 1</p> <p>Hello World 2</p> <p>Hello World 3</p> 定义一个集合set,里面有三个元素: [html] view plain copy var set = ["I like dog","I like

数据挖掘入门系列教程(八点五)之SVM介绍以及从零开始推导公式

目录 SVM介绍 线性分类 间隔 最大间隔分类器 拉格朗日乘子法(Lagrange multipliers) 拉格朗日乘子法推导 KKT条件(Karush-Kuhn-Tucker Conditions) 拉格朗日乘子法对偶问题 Slater 条件 最大间隔分类器与拉格朗日乘子法 核技巧 核函数 软间隔 软间隔支持向量机推导 SMO算法 SMO变量的选择方法 总结 参考 还是老规矩,这一篇博客是对SVM进行介绍,下一篇博客就是使用SVM进行具体的使用. SVM介绍 首先介绍SVM是什么,SVM(s

R语言数据挖掘实战系列(1)

R语言数据挖掘实战(1) 一.数据挖掘基础 数据挖掘:从数据中"淘金",从大量数据(包括文本)中挖掘出隐含的.未知的.对决策有潜在价值的关系.模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法.工具和过程. 数据挖掘的任务 利用分类与预测.聚类分析.关联规则.时序模式.偏差检测.智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力. 数据挖掘建模过程 定义挖掘目标,即决定到底想干什么? 数据取样.抽取一个与挖掘目标相关的样本数据子集.抽取数据的