数据分析必须想清楚的两个概念:指标和维度(转)

指标与维度是数据分析中最常用到的术语,它们是非常基础的,但是又很重要,经常有朋友没有搞清楚它们之间的关系,只有掌握理解了,我们的数据分析工作开展就就容易多了。现在就来说说指标与维度的那些事。

1、指标

指标,用于衡量事物发展程度的单位或方法,它还有个IT上常用的名字,也就是度量。例如:人口数、GDP、收入、用户数、利润率、留存率、覆盖率等。很多公司都有自己的KPI指标体系,就是通过几个关键指标来衡量公司业务运营情况的好坏。

指标需要经过加和、平均等汇总计算方式得到,并且是需要在一定的前提条件进行汇总计算,如时间、地点、范围,也就是我们常说的统计口径与范围。

指标可以分为绝对数指标和相对数指标,绝对数指标反映的是规模大小的指标,如人口数、GDP、收入、用户数,而相对数指标主要用来反映质量好坏的指标,如利润率、留存率、覆盖率等。我们分析一个事物发展程度就可以从数量跟质量两个角度入手分析,以全面衡量事物发展程度。

刚才说过,指标用于衡量事物发展程度,那这个程度是好还是坏,这就需要通过不同维度来对比,才能知道是好还是坏。

2、维度

维度:是事物或现象的某种特征,如性别、地区、时间等都是维度。其中时间是一种常用、特殊的维度,通过时间前后的对比,就可以知道事物的发展是好了还是坏了,如用户数环比上月增长10%、同比去年同期增长20%,这就是时间上的对比,也称为纵比;

另一个比较就是横比,如不同国家人口数、GDP的比较,不同省份收入、用户数的比较、不同公司、不同部门之间的比较,这些都是同级单位之间的比较,简称横比;

维度可以分为定性维度跟定量维度,也就是根据数据类型来划分,数据类型为字符型(文本型)数据,就是定性维度,如地区、性别都是定性维度;数据类型 为数值型数据的,就为定量维度,如收入、年龄、消费等,一般我们对定量维度需要做数值分组处理,也就是数值型数据离散化,这样做的目的是为了使规律更加明 显,因为分组越细,规律就越不明显,最后细到成最原始的流水数据,那就无规律可循。

最后强调一点,只有通过事物发展的数量、质量两大方面,从横比、纵比角度进行全方位的比较,我们才能够全面的了解事物发展的好坏。

进一步拓展思考,我理解为指标拆分和维度对比。

其实在实际产品数据分析的过程中也可参照以上思想。

通过大量的数据分析软件工具应用可以发现,主要包括以下内容:

  • 整体情况的分析和汇总:全局数据的概况、变化趋势、占比等
  • 多个维度的分析:如果是日志数据,已经存在多个数据项,以某一个数据项作为主关键词汇总分析,同比、环比变化,占总数的变化。如果没有日志数据,则需要想清楚解决这个问题原因是什么?需要采集哪些数据项?
  • 重要场景问题的分析:根据分析的重要问题、用户关心的问题进行分析
  • 软硬件性能管理、告警管理、报表管理、基础参数配置和用户管理等等

在多维度分析、告警、报表,数据图表可视化设计呈现方面也存在许多共性,总结如下:

  1. 数据的呈现方式是表格还是图表?若是时间范围,时间统计粒度是多少?
  2. 表格需要呈现哪些数据?数据的单位?保留几位小数?数据计算的方法?排序依据?
  3. 图表采用哪一种?呈现的范围是多少?
  4. 常见的数据项操作:新增、删除、修改、查询
  • 新增哪些是必填数据项?校验重复性和有效性?
  • 删除是否需要提醒?是否具有权限删除?
  • 修改可修改的数据项有哪些?修改后是否要进行校验有效性和重复项?是否有修改的权限?
  • 查询是精准查询还是模糊查询?是单一查询还是支持批量查询?批量查询输入方式的讲究?查询的内容输入什么是否支持大小写 空格等?数据区间的查询是自定义还是给出范围划分?

人们总认为与大数据分析沾点边的技术都要花大价钱才能得到。但事实上,大数据分析的思想才是最贵的,技术可以实现数据批量清洗,处理,呈现地更快、更美。但却不知道要哪些数据算有效,哪些数据才是重点需要分析得出有价值的信息。

时间: 2024-12-14 18:04:56

数据分析必须想清楚的两个概念:指标和维度(转)的相关文章

文件编码和文件内的字符串字面值编码是两个概念

我们知道,CALabel的字符串使用的是UTF8编码,通常在xcode下,直接CALabel *p = ...; p->setText("汉字"),显示汉字是没有任何问题的,但是,在VS2013中却显示的是乱码.很多人在群里面问了,我都答:请使用UTF8编码.他说,我的文件是UTF8格式的啊.呵呵,没那么简单好吗,文件编码和字符串字面值编码是两个概念. VS2013的一条预编译指令#pragma execution_character_set("utf-8")

The "get" method should be used when the form is idempotent---正交的两个概念---

https://www.w3.org/TR/REC-html40/interact/forms.html#h-17.13.1 17.13.1 Form submission method The method attribute of the FORM element specifies the HTTP method used to send the form to the processing agent. This attribute may take two values: get:Wi

「数据结构」和「数据类型」两个概念的本质是什么,区别与联系是什么?

数据结构:相互之间存在一种或多种特定关系的数据元素的集合. 数据类型:是指一组性质相同的值得集合及定义在此集合上的一些操作的总称. 网友观点:数据类型是数据的一种分类,是按照数据结构来分类的.数据类型的出现是为了把数据分成所需内存大小不同的数据. 数据结构强调结构,即元素间的关系:数据类型强调类型,即作用于元素的合法操作. 「数据结构」和「数据类型」两个概念的本质是什么,区别与联系是什么?

事件的独立和事件互不相容两个概念的区别

实在是对这个感冒了,随从网上拉了一篇资料,免得下次又忘了. 要真正的解决这个问题,必须首先牢牢记住他们的定义. 什么事件的独立? 事件A,B独立是指这两个事件之间的概率满足一个等式:P(AB)=P(A)P(B) 事件A,B互不相容是指这两个事件之间的运算满足一个等式:AB=空集. 也就是说,实际上这两个概念是从不同的角度进行定义的.独立是从概率的角度,互不相容是从事件的关系运算上. 另外这两个概念的理解上,还有一点 如果说"事件A,B独立"这是一个物体的汉语描述,那么"P(A

进程的两大概念

目录 进程的两大概念 一.进程的并行与并发 二.同步异步阻塞非阻塞 进程的两大概念 一.进程的并行与并发 并行:是指两者同时执行,比如赛跑,两个人都在不停的往前跑 并发:是指资源有限的情况下,两者交替轮流使用资源,比如一段路同时只能过一个人,A走一段后,让给B,B用完继续给A,交替使用,目的是提高效率 区别 并行是同时运行,只有具备多个CPU才能实现并行 并发是伪并行,看起来是同时运行,单个CPU+多道技术就可以实现并发 二.同步异步阻塞非阻塞 阻塞与非阻塞 阻塞(等待),凡是遇到I/O都会阻塞

“会”和 "好”纯粹是两个概念

你会吗? 如果我现在问下大家你会OOP 吗?你会OOD吗? 你知道SOLID吗?你会在实际工作中运用这些原则吗? 你知道模式吗,你会在实际项目中适时引入合理的设计模式来解决项目中的代码坏味吗? 你知道ORM框架吗?你会使用EF吗? 你知道WebAPI吗?你会设计合理的API吗? 你知道MVC吗?你会用MVC写一个权限系统吗?   你真的会吗? 事实上好多人只是停留在"知道"这个层面,实际工作中总是会用各种理由来让自己的代码充满的"坏味"和"坑".

axel 原来求中点我想复杂了 两个结果一样

#include <stdio.h>#include <iostream>#include<math.h>using namespace std; int main(){ double a,b; double r1,r2; scanf("%lf%lf",&a,&b); r1=fabs(a-b)/2+min(a,b); r2=(a+b)/2; printf("%lf%lf",r1,r2); system("

大数据开发实战:维度建模1-相关概念

1.维度建模相关概念 1.1.度量和环境 维度建模支持对因为过程的支持,这是通过对业务过程度量进行建模来实现的. 那么,什么是度量呢?实际上,通过和业务方.需求方交谈.或者阅读报表.图表等,可以很容易地识别度量. 考虑如下因为需求: a.店铺上个月的销售额如何? b.店铺库存趋势如何? c.店铺的访问情况如何(pv page view 访问量, 即页面浏览量或点击量,衡量网站用户访问的网页数量:在一定统计周期内用户每打开或刷新一个页面就记录1次,多次打开或刷新同一页面则浏览量累计. uv: Un

机器学习基础:(Python)训练集测试集分割与交叉验证

在上一篇关于Python中的线性回归的文章之后,我想再写一篇关于训练测试分割和交叉验证的文章.在数据科学和数据分析领域中,这两个概念经常被用作防止或最小化过度拟合的工具.我会解释当使用统计模型时,通常将模型拟合在训练集上,以便对未被训练的数据进行预测. 在统计学和机器学习领域中,我们通常把数据分成两个子集:训练数据和测试数据,并且把模型拟合到训练数据上,以便对测试数据进行预测.当做到这一点时,可能会发生两种情况:模型的过度拟合或欠拟合.我们不希望出现这两种情况,因为这会影响模型的可预测性.我们有