数据类型与数据分布

1.离解数据与离散分布

离解数据通常是那些只能用整数表现的数据。比如某省的人口数,宇宙中单位体积内的星球个数等。

1.1统计中常见的描述离散型数据的离散分布:

1.退化分布:一个随机变量X以概率1取某一常数,即 P{X=a}=1,则称X服从a处的退化分布。确定分布。

2.两点分布:一个随机变量只有两个可能取值, 设其分布为 P{X=x1}=p, P{X=x2}=1-p, 0<p<1,则称X服从x1, x2处参数为p的两点分布。

当如果X只取0, 1两个值, 其概率分布为P{X=1}=p, P{X=0}=1-p, 0<p<1。则称X服从参数为p的0-1分布, 也称X是参数为p的伯努利随机变量. 此时EX=p, DX=p(1-p)。【抛一枚硬币】

3.n个点上的均匀分布:

设随机变量X取n个没不同的值,且其概率分布为 P{X=xi}=1/n,(i=1,2,3,...,n),则称X服从n个点{x1,x2,...,xn}上的均匀分布。【抛一枚骰子】

古典概型中经常出现此类分布情形。

4.二项分布:n重伯努利试验,成功k次的概率分布。

【判断是否为伯努利试验的关键是每次试验事件A的概率不变,并且每次试验的结果同其他各次试验的结果无关,重复是指试验为一系列的试验,并非一次试验,而是多次,但要注意重复事件发生的概率相互之间没有影响。】

5.几何分布:n次伯努利实验中,A为发生事件,设X为直到发生事件A为止所进行的实验次数。【在袋子中直到摸到一个红球的所摸的次数】

6.超几何分布:一个袋子中共装有N个球, 其中N1个白球, N2个黑球, 从中不放回地抽取n个球, X表示取到白球的数目, 那么X的分布为

7.泊松分布:

电话交换台在一给定时间内收到用户的呼叫次数,售票口到达的顾客人数,保险公司在一给定时期内被索赔的次数,某一服务设施在一定时间内到达的人数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等均可近似地用泊松分布来描述。

事件以固定的概率λ【平均瞬时速率λ(或称密度)】随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布。

泊松分布是二项分布的条件放宽,对中n趋近无穷时的推导出来的!对泊松分布的理解参见阮一峰对泊松分布的理解。

1.2离散分布之间的联系

二项分布,几何分布和帕斯卡分布(负二项分布)都是基于独立的伯努利试验。

二项分布:描述在给定的n次试验中成功x次的概率 

几何分布:描述第一次成功发生在第x次的概率

帕斯卡分布:负二项分布的正整数形式,描述已知一个事件在伯努利试验中每次的出现概率是p,在一连串伯努利试验中,一件事件刚好在第r + k次试验出现第r次的概率,因此几何分布是n=1的帕斯卡分布特例

超几何分布:描述的是总体有限的无放回抽样问题。总体有N个个体,其中具有某一特点的个体有M个,如果从中抽取n个,其中带有这一特点的样本为x个的概率。超几何分布中我们常常希望推断的是N(已知M)或者M(已知N)。例如要知道河里有多少鱼,可以打捞M条做标记,过段时间认为这些做了标记的鱼都均匀分散在水中以后,再打捞n条,其中具有带有标记的鱼为m条,推断鱼的总数N。



超几何分布 V.S. 二项分布:        两者都是抽样,只不过超几何分布是无放回抽样,二项分布是有放回抽样。当超几何分布中N很大,而n很小时,无放回抽样可以近似得看成有放回抽样,也就是超几何分布可以用二项分布近似。

泊松分布 V.S. 二项分布:

泊松分布可以用来近似二项分布,当二项分布中,n很大,而p很小,np又是一个大小合适的数时,可以用Poisson(np)来近似二项分布。binomial(x;n,p)=poisson(x,np)

例如,一个城市有10万人,在一个小时之内,每个人来到某个车站的概率均为0.001,那么在一个小时之内,这个车站会有多少人到来呢?

这是一个二项分布,n=10万,p=0.001,显然期望等于np=100人。如果让求在一个小时之内有150人到来的概率,当然可以用二项分布,但里面的组合数不好计算,这时就可以用泊松分布近似:认为在一个小时内,这个车站到来的人数服从lambda=np=100的泊松分布。也就是说泊松分布常常用来描述总体很大,对于总体中每个个体来说事件发生的概率很小(但总体中发生事件的概率=np,就不是一个小数字),在一段时间内总体中发生事件的次数为x的概率。显然发生的次数与时间的长度以及lambda=np有关。

若x服从Poisson 分布,那么x应当满足泊松过程的三个条件:平稳性,独立性和普通性。(概率论基础,复旦大学,李贤平,第99页)

所谓平稳性就是在一段时间内发生的次数与计时的起点无关,只与时间的长度有关;

所谓独立性就是互不相交的时间区间内过程进行的互相独立性;

所谓普通性就是同一时间不可能有两个或两个以上的事件发生。

显然,这三点在现实中可能是不满足的。例如一段时间内到来的呼叫次数,完全有可能出现两个呼叫同时发生的情况(占线),也有可能不平稳,例如白天的呼叫次数多于夜间。

几何分布具有无记忆性,这是由于每次试验都是独立的试验,不受之前试验结果的影响。注意到连续分布中的指数分布也具有无记忆性


2.连续数据与连续分布

连续数据是在一定区间内可以任意取值的数据,其数值是连续不断的,相邻两个数值可作无限分割后仍然有意义,即可取无限个数值。

统计中提到最多的就是正态分布。它很重要!

2.1统计中常见的连续型分布:

1.均匀分布

2. 正态分布-标准正态分布

3. χ2(卡方)分布

  4.F分布

  5.T分布

  6.指数分布——注意到与幂律分布的区别

  7.γ(伽玛)分布

  8.weibull分布

  9.β(贝塔)分布

2.2连续分布之间的联系

正态分布是统计学中分布的核心。根据大数定律和中心极限定理,二项分布、泊松分布都能在n趋近无穷时,趋近于正态分布。

连续型分布中,χ2(卡方)分布、T分布、F分布都是由正态分布(标准正态分布)推导出来的。

指数分布和幂律分布图形很像,http://blog.sina.com.cn/s/blog_8f48f45301015ofs.html  指出幂律分布的下降速度比指数分布快的现象,幂律下降时两端更高,中间更低,在前半段变化比指数更快。

时间: 2024-12-25 18:17:07

数据类型与数据分布的相关文章

HIVE RCFile高效存储结构

本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色. Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive.Hive存储海量数据在Hadoop系统中,提供了一套类数据库的数据存储和处理机制.它采用类 SQL语言对数据进行自动化管理和处理,经过语句解析和转换,最终生成基于H

hive中rcfile格式(收藏文)

首先声明,此文是属于纯粹收藏文,感觉讲的很不错. 本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在MapReduce环境下的大规模数据分析中扮演重要角色. Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive.Hive存储海量数据在Hadoop系统中,提供了一套类数据库的数据存储和处理机制.它采用类SQL语言对数据进行自动化

《数据挖掘导论》 - 读书笔记(2) - 绪论 [2016-8-8]

第1章 绪论 数据挖掘是一种技术,将传统的数据分析方法和处理大量数据的复杂算法相结合.数据挖掘为探查和分析新的数据类型以及用新方法分析旧有数据类型提供了令人振奋的机会.我们概述数据挖掘,并列举所涵盖的关键主题. 介绍数据挖掘分析技术的一些应用: 商务:借助POS数据收集技术[条码扫描器.射频识别和智能卡技术],零售商可以在其商店的首映太收集顾客购物的最新数据.零售商可以利用这些信息,加上电子商务网站的日志.电购中心的顾客服务记录等其他的重要商务数据,更好地理解顾客的需求,做出明智的商务决策. 数

hadoop的数据存储

行存储 如图2所示,基于Hadoop系统行存储结构的优点在于快速数据加载和动态负载的高适应能力,这是因为行存储保证了相同记录的所有域都在同一个集群节点,即同一个HDFS块.不过,行存储的缺点也是显而易见的,例如它不能支持快速查询处理,因为当查询仅仅针对多列表中的少数几列时,它不能跳过不必要的列读取:此外,由于混合着不同数据值的列,行存储不易获得一个极高的压缩比,即空间利用率不易大幅提高.尽管通过熵编码和利用列相关性能够获得一个较好的压缩比,但是复杂数据存储实现会导致解压开销增大. 图2 HDFS

Excel-箱线图(数据分布)分析

http://blog.csdn.net/zhanghongju/article/details/18446131 本文摘自作者<网站数据分析:数据驱动的网站管理.优化和运营 >:http://item.jd.com/11295690.html 箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值.第一四分位数.中位数.第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性.通过将多组数据的箱线图画在同一坐标上,则可

MATLAB常用数据类型的转换

一直以来,在使用MATLAB进行运算的过程中,经常会用到对图像的各种处理,因此需要对图像进行数据转换,因此对经常用到的转换进行整理,方便查看. 1.uint8转化为double用来方便图像的运算: double函数只是将读入图像的uint8数据转换为double类型,一般不使用. 常用的是im2double函数,将uint8图像转为double类型,范围为0-1,如果是255的图像,那么255转为1,0还是0,中间的做相应改变.MATLAB中读入图像的数据类型是uint8,而在矩阵中使用的数据类

MariaDB(MySQL)创建、删除、选择及数据类型使用详解

一.MariaDB简介(MySQL简介略过) MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区在维护,采用GPL授权许可 MariaDB的目的是完全兼容MySQL,包括API和命令行,使之能轻松成为MySQL的代替品.在存储引擎方面,使用XtraDB(英语:XtraDB)来代替MySQL的InnoDB. MariaDB由MySQL的创始人Michael Widenius(英语:Michael Widenius)主导开发,他早前曾以10亿美元的价格,将自己创建的公司MySQL A

JavaScript数据类型检测

一.JavaScript 数据类型 1.基本数据类型(6种) Undefined Null Boolean Number String Symbol (ES6新增) 2.引用数据类型: Object 二.数据类型检测 1. typeof 可以检测除null 外的基本类型.null 和所有对象的typeof都是"object", 不能用于检测用户自定义类型. 比如Date, RegExp, Array, DOM Element的类型都是"object". var s

【个人笔记】《知了堂》MySQL中的数据类型

MySQL中的数据类型 1.整型 MySQL数据类型 含义(有符号) tinyint(m) 1个字节  范围(-128~127) smallint(m) 2个字节  范围(-32768~32767) mediumint(m) 3个字节  范围(-8388608~8388607) int(m) 4个字节  范围(-2147483648~2147483647) bigint(m) 8个字节  范围(+-9.22*10的18次方) 取值范围如果加了unsigned,则最大值翻倍,如tinyint un