分析思维 第四篇:数据分析入门阶段——描述性统计分析和相关分析

数据分析的入门思维,首先要认识数据,然后对数据进行简单的分析,比如描述性统计分析和相关性分析等。

一,认识变量和数据

变量和数据是数据分析中常用的概念,用变量来描述事物的特征,而数据是变量的具体值,把变量的值也叫做观测值。

1,变量

变量是用来描述总体中成员的某一个特性,例如,性别、年龄、身高、收入等。

变量可以分为:

  • 定性变量:用于分类,一般是文本,例如,性别、颜色
  • 定序变量:用于表示等级或次序的变量,例如,学历,职位,排名等,变量的值可以把事务排列为高低或大小,但是各个变量值之间没有确切的间隔距离,无法确定两个定序变量之间相差多少。
  • 定量变量:是数量变量,能够比较大小。分为两类:离散变量和连续变量。

2,数据

数据是变量的具体值,按照变量的类型,可以把数据分为:分类数据、顺序数据和数值型数据。

按照数据分析的目的,可以把数据分为实验组(Treatment)和参照组(Control)。

按照数据的类型,可以把数据分为:文本数据、数值型数据和日期时间数据。

3,缺失值

不是所有的数据都是完整的,有些观测值可能会缺失,对于缺失值,通常的处理方式是:删除缺失值所在的数据行,填充缺失值、插补缺失值。

4,观测值的重编码

数据分析中,通常需要把连续型变量转换为定序变量,例如,把学生的成绩划分为优秀、良好、合格和差4个等级,这种操作也称作离散化。

当观测数据所用的单位可能影响数据分析时,还需要对数据进行规范化,常用的规范化方法是:最小-最大规范化,标准化变换等。

观测值的重编码,后续会有详细的介绍。

二,描述性统计分析

描述性统计量分为:集中趋势、离散程度(离中趋势)和分布形态。

1,集中趋势的描述性统计量

  • 均值:是指一组数据的算术平均数,描述一组数据的平均水平,是集中趋势中波动最小、最可靠的指标,但是均值容易受到极端值(极小值或极大值)的影响。
  • 中位数:是指当一组数据按照顺序排列后,位于中间位置的数,不受极端值的影响,对于定序型变量,中位数是最适合的表征集中趋势的指标。
  • 众数:是指一组数据中出现次数最多的观测值,不受极端值的影响,常用于描述定性数据的集中趋势。

2,离散程度的描述性统计量

  • 最大值和最小值:是一组数据中的最大观测值和最小观测值
  • 极差:又称全距,是一组数据中的最大观测值和最小观测值之差,记作R,一般情况下,极差越大,离散程度越大,其值容易受到极端值的影响。
  • 方差和标准差:是描述一组数据离散程度的最常用、最适用的指标,值越大,表明数据的离散程度越大。

3,分布形态的描述性统计量

偏度:用来评估一组数据的分布呈先的对称程度,当偏度=0时,分布是对称的;当偏度>0时,分布呈正偏态;当偏度<0时,分布呈负偏态。

峰度:用来评估一组数据的分布形状的高低程度的指标,当峰度=0时,分布和正态分布基本一直;当峰度>0时,分布形态高狭;当峰度<0时,分布形态低阔。

4,频率分析

频数分布分析(又称频率分析)主要通过频数分布表、条形图和直方图、百分位值等来描述数据的分布特征。

在做频数分布分析时,通常按照定性数据(即分类的类别),统计各个分类的频数,计算各个分类所占的百分比,进而得到频率分布表,最后根据频率分布表来绘制频率分布图。

5,按照时间递增的趋势分析

特殊情况下,当X轴是日期数据,Y轴是统计量(比如均值、总数量)时,可以绘制出统计量按照时间递增的趋势图,从图中可以看到统计量按照时间增加的趋势(无变化、递增或递减)和周期性。

例如,下图的X轴是日期,Y轴的统计量是总数量,两条折线分别是湖北确诊病例人数和湖北新增确诊病例人数:

三,相关性分析

相关性分析是研究事务之间是否存在某种依存关系,并对具有依存关系的现象进行相关方向和相关程度的分析。

相关程度用相关系数r表示,|r|<=1,r=0表示不相关,通常情况下,0 < | r | <1表示变量之间存在不同程度的线性相关,根据约定的规则:

  • | r | <=0.3 :为弱线性相关或不存在线性相关;
  • 0.3 < | r | <=0.5 :低度线性相关,认为存在线性相关,但是相关性不明显
  • 0.5 < | r | <=0.8 :显著线性相关,认为存在强线性相关,存在明显的相关性
  • | r | >0.8 :高度相关,认为存在极强的线性相关

参考文档:

原文地址:https://www.cnblogs.com/ljhdo/p/11501415.html

时间: 2024-10-08 19:14:17

分析思维 第四篇:数据分析入门阶段——描述性统计分析和相关分析的相关文章

第十四篇 数据分析案例

经过前面的学习,下面来看?些真实世界的数据集.对于每个数据集,我们会?之前介绍的?法,从原始数据中提取有意义的内容.展示的?法适?于其它数据集,也包括你的.本篇包含了?些各种各样的案例数据集,可以?来练习. 案例数据集可以在Github仓库找到. 一.来?Bitly的USA.gov数据 2011年,URL缩短服务Bitly跟美国政府?站USA.gov合作,提供了?份从?成.gov或.mil短链接的?户那?收集来的匿名数据.在2011年,除实时数据之外,还可以下载?本?件形式的每?时快照.这项服务

冬至听雪分享——数据分析入门

本文关键词:数据分析基础,数据分析入门 数据分析是数据挖掘的基础,数据挖掘是数据分析的高级阶段! 数据分析,数据来源要客观,数据分析的过程要符合业务的规则,符合科学的方法. 数据分析是一个结构导向,业务解释性要好! # 数据分析的注意事项 1.所有数据分析要从结果出发,没有结论的数字罗列并不是分析 2.数据分析要建立在业务模型的基础上 3.数据分析是基于数据严谨的分析过程 1.什么是数据分析? 定义:使用统计方法对收集的大量数据进行分析.理解.达到业务分析的目的,获取有用的信息和结论而对数据进行

ArcGIS for Desktop入门教程_第四章_入门案例分析 - ArcGIS知乎-新一代ArcGIS问答社区

原文:ArcGIS for Desktop入门教程_第四章_入门案例分析 - ArcGIS知乎-新一代ArcGIS问答社区 1 入门案例分析 在第一章里,我们已经对ArcGIS系列软件的体系结构有了一个全面的了解,接下来在本章中,将通过一个案例来熟悉ArcGIS for Desktop的使用,从解决问题的过程中,逐渐适应ArcGIS桌面的界面和操作方式. 本章的练习数据是一个住宅小区的简单平面示意图,需要在已有的基础上把楼房的轮廓补充完整,并加以整饰,完成一幅地图. 1.1 打开地图文档并浏览

【第四篇】ASP.NET MVC快速入门之完整示例(MVC5+EF6)

目录 [第一篇]ASP.NET MVC快速入门之数据库操作(MVC5+EF6) [第二篇]ASP.NET MVC快速入门之数据注解(MVC5+EF6) [第三篇]ASP.NET MVC快速入门之安全策略(MVC5+EF6) [第四篇]ASP.NET MVC快速入门之完整示例(MVC5+EF6) [番外篇]ASP.NET MVC快速入门之免费jQuery控件库(MVC5+EF6) 请关注三石的博客:http://cnblogs.com/sanshi 完善数据注解 到目前为止的表格页面效果: 我们需

【OpenCV入门指南】第四篇 图像的二值化

[OpenCV入门指南]第四篇 图像的二值化 在上一篇<[OpenCV入门指南]第三篇Canny边缘检测>中介绍了使用Canny算子对图像进行边缘检测.与边缘检测相比,轮廓检测有时能更好的反映图像的内容.而要对图像进行轮廓检测,则必须要先对图像进行二值化,图像的二值化就是将图像上的像素点的灰度值设置为0或255,这样将使整个图像呈现出明显的黑白效果.在数字图像处理中,二值图像占有非常重要的地位,图像的二值化使图像中数据量大为减少,从而能凸显出目标的轮廓. <OpenCV入门指南>系

Egret入门学习日记 --- 第二十四篇(书中 9.12~9.15 节 内容)

第二十四篇(书中 9.12~9.15 节 内容) 开始 9.12节 内容. 重点: 1.TextInput的使用,以及如何设置加密属性. 操作: 1.TextInput的使用,以及如何设置加密属性. 创建exml文件,拖入组件,设置好id. 这是显示密码星号处理的属性. 创建绑定类. 实例化,并运行. 但是焦点在密码输入框时,密码是显示的. 暂时不知道怎么设置 “焦点在密码框上时,还是显示为 * 号” 的方法. 至此,9.12节 内容结束. 开始 9.13节 . 这个,和TextInput的使用

Egret入门学习日记 --- 第六十四篇(书中 19.4 节 内容)

第六十四篇(书中 19.4 节 内容) 昨天的问题,是 images 库自己本身的问题. 我单独使用都报错. 这是main.js文件代码: let images = require("images"); console.log(images); 这是cmd运行命令历史: Microsoft Windows [版本 10.0.16299.15] (c) 2017 Microsoft Corporation.保留所有权利. C:\Users\Administrator\Desktop\a&

Excel催化剂开源第50波-Excel与PowerBIDeskTop互通互联之第四篇

答应过的全盘分享,也必承诺到底,此篇PowerBI功能分享的最后一篇,讲述如何导出数据模型的元数据,笔者定义其为模型的数据字典. 此篇对应功能实现出自:第6波-导出PowerbiDesktop模型数据字典https://www.jianshu.com/p/bc26a8dcdfce 关系型数据库有数据字典,分析型数据库更加要有数据字典,DAX建模过程中,若模型的关系复杂,引用的表过多,生成的度量值.计算列过多,单单从PowerBIDeskTop去查看模型关系非常低效. 当然最好的查看方式,在全宇宙

shell第四篇(上)

第四篇了解Shell 命令执行顺序分析 Shell 从标准输入或脚本中读取的每一行称为管道(pipeline);它包含了一个或多个命令(command),这些命令被一个或多个管道字符(|)隔开 事实上还有很多特殊符号可用来分隔单个的命令:分号(;).管道(|).&.逻辑AND (&&),还有逻辑OR (||).对于每一个读取的管道,Shell都回将命令分割,为管道设置I/O,并且对每一个命令依次执行下面的操作: 整个步骤顺序如上图所示,看起来有些复杂. 当命令行被处理时,每一个步骤