统计与分布的相关知识

变量

变量按变量值是否连续可分为连续变量与离散变量两种。 连续变量(continuous variable)与离散变量(discrete variable)

连续变量

在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。

离散变量

离散变量是指其数值只能用自然数或整数单位计算的则为离散变量.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得.

数据分布

数据分布的特征

集中趋势(位置)

离中趋势(分散程度)

偏态和峰态(形态)

一、集中趋势的度量

分类数据:众数

顺序数据:众数、中位数、分位数

数值型数据:众数、中位数、分位数、平均数

概念:

众数(mode):一组数据中出现次数最多的值;数据中重复次数最多的那个数据。 如评选”最佳“,”最受欢迎“等都与众数有关。Mo

中位数(median):排序后处于中间位置上的值。如有5个数,排序后第3个数为中位数,如果为6个数,则对中间两个数求平均结果为中位数。Me 

四分位数(quartile): 排序后处于25%和75%位置上的值。

平均数(mean): 也称为期望

简单算数平均:

加权平均:

几何平均:

     

 几何平均主要用于计算平均增长率;

特点:

1. 众数
  不受极端值影响
  具有不惟一性
  数据分布偏斜程度较大时应用
2. 中位数
  不受极端值影响
  数据分布偏斜程度较大时应用
3. 平均数
  易受极端值影响
  数学性质优良
  数据对称分布或接近对称分布时应用

关系:  

均值在中位数左边为左偏,均值在中位数右边为右偏。

二、离散程度的度量

反映各变量值远离其中心值的程度(离散程度)

分类数据:异众比率
顺序数据:四分位差
数值型数据:极差、平均差、方差和标准差
相对位置的度量:标准分数
相对离散程度:离散系数

概念:

异众比率(variation ratio): 非众数组的频数占总频数的比例。

例子:

四分位差(quartile deviation):上四分位数与下四分位数之差。反应了中间50%数据的离散程度。

例子:

  

极差(range):数据中最大值与最小值之差。

方差(variance): 是各个数据分别与其平均数之差的平方的和的平均数; 反映了各变量值与均值的平均差异.

    E{x}表示平均数

样本方差:

在统计学中样本的均差多是除以自由度(n-1),它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。

标准差(standard deviation): 是各个数据分别与其平均数之差的平方的和的平均数的平方根;反映了各变量值与均值的平均差异. 反应了数据集的离散程度.

   对方差进行开方

标准分数(standard score):也叫z分数(z-score) 是一个分数与平均数的差再除以标准差的过程。用公式表示为z=(x-μ)/σ。其中x为某一具体分数,分数即为值。

例子:

  

离散系数:又称为变异系数,常用的是标准差系数,用CV(Coefficient of Variance)表示。标准差与均值的比率。 用公式表示为:CV=σ/μ

  离散系数反映单位均值上的离散程度,常用在两个总体均值不等的离散程度的比较上。若两个总体的均值相等,则比较标准差系数与比较标准差是等价的。在对比情况下,离散系数较大的其分布情况差异也大。

分布

连续变量的分布

1.两点分布

2.二项分布

3.泊松分布

离散变量的分布

1.均匀分布

2.指数分布

3.正态分布

4.标准正态分布

时间: 2024-08-06 15:38:32

统计与分布的相关知识的相关文章

BI 主要环节 ETL 相关知识

BI架构-BI 主要环节 ETL 相关知识 主要功能  :将源系统的数据加载到数据仓库 及数据集市层中: 主要问题体现:  复杂的源数据环境,包括繁多的数据种类.巨大的加载数据量.错综复杂的数据关系和参差不齐的数据质量 常见术语  ETL:数据抽取.转换.加载(Extract/Transform/Load)  EXF:抽取的文件(Extract File)  CIF:共用接口文件(Common Interface File)  PLF:预加载文件(Preload File)  LDF:

python的list相关知识

关于list的相关知识 list01 = ['alex',12,65,'xiaodong',100,'chen',5] list02 = [67,7,'jinjiao_dawang','relax1949',53] #打印list01.list02 print(list01) print(list02) #列表截取.切片 print(list01[1]) print(list01[-2]) print(list01[1:3]) #列表重复 print(list01 * 3) #列表组合 prin

深入浅出安卓学习相关知识,如何从零学好移动开发

原文发表自我的个人主页,欢迎大家访问 http://purplesword.info/mobile-develop 由于近几年来互联网的飞速发展,安卓和iOS平台的大量普及推广,移动开发在当前是非常热门的一个方向. 有不少同学问我如何学习安卓,要学些什么,难不难学.之前一直没有想好应该怎么回答这个问题,只是简单的说安卓自身门槛不高,并不难学.因为我觉得准确回答一个类似这样的问题往往需要灵感.现在根据我的学习体验,做个大概的总结. 1.我为什么学安卓 我从刚开始接触安卓开发到现在也有两三年的时间了

(整理)ubuntu 的 相关知识(来自 鸟哥的私房菜)

1. Linux 文件权限概念 $ ls 察看文件的指令 $ ls -al 出所有的文件详细的权限与属性 (包含隐藏档,就是文件名第一个字符为『 . 』的文件) 在你第一次以root身份登入Linux时, 如果你输入上述指令后,应该有上列的几个东西,先解释一下上面七个字段个别的意思: 图2.1.1.文件属性的示意图 第一栏代表这个文件的类型与权限(permission): 这个地方最需要注意了!仔细看的话,你应该可以发现这一栏其实共有十个字符:(图2.1.1及图2.1.2内的权限并无关系) 图2

数据挖掘相关知识

因为最近在复习数据挖掘...故百度了解数据挖掘的相关知识... 什么是数据挖掘?? 数据挖掘(英语:Data mining),又译为资料探勘.数据采矿.它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤.数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程.数据挖掘通常与计算机科学有关,并通过统计.在线分析处理.情报检索.机器学习.专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标. 为什么要进行数据挖掘

oracle等待事件的相关知识

一. 等待事件的相关知识: 1.1 等待事件主要可以分为两类,即空闲(IDLE)等待事件和非空闲(NON-IDLE)等待事件. 1). 空闲等待事件指ORACLE正等待某种工作,在诊断和优化数据库的时候,不用过多注意这部分事件. 2). 非空闲等待事件专门针对ORACLE的活动,指数据库任务或应用运行过程中发生的等待,这些等待事件是在调整数据库的时候需要关注与研究的. 在Oracle 10g中的等待事件有872个,11g中等待事件1116个. 我们可以通过v$event_name 视图来查看等待

数据库原理相关知识

数据库原理相关知识 made by @杨领well([email protected]) 一.基础知识 1. 简述数据库系统的特点. 数据结构化 : 这是数据库系统与文件系统的本质区别. 数据的共享性高.冗余度低且易扩充 : 数据共享可以大大减少数据冗余, 节约存储空间.数据共享还能够避免数据之间的不相容性和不一致性. 数据的独立性高 : 数据独立性包括物理独立性和逻辑独立性. 数据由数据库管理系统统一管理和控制 : 数据的安全性保护(保护数据以防止不合法使用造成的数据泄密和破坏).数据的完整性

FastDFS的介绍与相关知识,以及集群搭建

FastDFS相关知识 什么是FastDFS? FastDFS是一个开源的轻量级分布式文件系统.它解决了大数据量存储和负载均衡等问题.特别适合以中小文件(建议范围:4KB < file_size <500MB)为载体的在线服务,如相册网站.视频网站等等. FastDFS的角色: Tracker server:Tracker server作为中心结点,其主要作用是负载均衡和调度.Tracker server在内存中记录分组和Storage server的状态等信息,不记录文件索引信息,占用的内存

无线性能测试相关知识

几个容易混淆的概念: 备注:灰度测试,小部分的投放市场,大部分用户采用原来的应用,小部分的采用新版本. 性能测试和负载测试等的主要区别是目的不同 负载测试是通过改变系统负载方式.增加负载等来发现系统中所存在的性能问题.负载测试是一种测试方法,可以为性能测试. 压力测试所采用.负载测试的加载方式也有很多种,可以根据测试需要来选择. 性能测试是为获取或验证系统性能指标而进行测试(特定负载).多数情况下,性能测试会在不同负载情况下进行. ·压力测试通常是在高负载情况下来对系统的稳定性进行测试,更有效地