拿到数据之后,我们应该怎么做?
直接套用各种图表公式进行分析并不是一个好做法。因为众多分析思路和公式都是基于数据服从一定分布的前提,如果不了解数据质量和分布情况,做推断分析是事倍功半的。
正确的处理方法是先使用描述统计。
描述统计学
描述统计学是一种概括数据集的方式,包括数据的加工和显示,数据集的分布特征等。它与推断统计相呼应。
首先把数据分为分类数据和数值数据。二者最显著的区分在于分类数据不可做加减,而数值数据可以。
分类数据主要应用频数统计,对各分类数据进行计数。
数值数据则是描述统计的重点。
数据的度量
1. 平均数:平均数容易受到极值的影响,进而“被平均”
2. 中位数:处于数据排序后最中间的数值
3. 众数:众数使用的频次较低,更多用于分类数据中
4. 四分位数:将数据排序后划分为四等分,能辅助衡量数据的分布状态。其中第二四分位数(Q2)即中位数
5. 方差:描述数据的离散程度
方差越大,说明数据的波动越大,数据集的离散程度越大。
Excel中,总体方差:VARP(), 样本方差VAR()
6. 标准差:方差的开平方
标准差同方差衡量的意义一致,但标准差更容易与平均数等指标进行度量。
Excel 中,总体标准差为:stdevp(),样本标准差为stdev()
7. 数据标准化 Z-Score
Z-Score是数据标准化的一种,它将一组数据转化为均值为0标准差为1的标准正态分布。
标准化有助于不同量纲间的数据进行比较,和助于清晰展现一组数据间的变化
8. 切比雪夫定理
至少有75%的数据,位于[μ-2σ, μ+2σ]内
至少有89%的数据,位于[μ-3σ, μ+3σ]内
至少有96%的数据,位于[μ-5σ, μ+5σ]内
七周成为数据分析师的课程,还有最后一周属于 Python 相关基础知识。因为个人已经有 Python 基础知识,也已经使用 Python 这门语言一段时间了,就不对它再做一些笔记。
相关的文字资料可以查看:
如何七周成为数据分析师21:Python分析之numpy和pandas入门
原文地址:https://www.cnblogs.com/xingyucn/p/10404290.html