(六)正太分布

概率密度函数

在正态分布中,通过查看某个值在 x 轴上的位置,即标准偏差,我们能够确定小于或大于任何值的百分比,接下来将学习如何计算这些百分比。请注意,我们使用的是理论曲线来绘制数据模型,该曲线下的面积是 1,因为它是用分布数据的相对频率(即比例)来绘制数据模型,该曲线叫做概率密度函数,通常缩写为 PDF。

为何叫做概率密度函数呢?假设我们研究下优达学城学员的随机样本,下图是表示优达学城学员年龄的直方图,样本量是 7,901 这是实际数据。我们用该概率密度函数来绘制模型,请注意,当我们绘制模型时

我们用该概率密度函数来绘制模型,请注意,当我们绘制模型时绝对频率变成相对频率,下图绿色区域输入的是概率,根据我们的样本,大约 70% 的优达学城学员年龄等于或小于 30 岁,现在假设随机选择任何一名优达学城学员 为其分配一个唯一编号,然后我们随机选择一个编号,那么我们选择的学员的年龄等于或小于 30 岁的概率是多少?

根据上图我们知道 70% 的优达学城学员年龄等于或小于 30 岁,这就表示随机选择一名等于或小于 30 岁的学员的概率是 70%,即 0.7,这就是为何这个叫做概率密度函数,该曲线下的面积表示概率。

正态分布也可以这么操作,它是用特殊的概率密度函数表示的,对于该理论曲线,我们可以用方程式来表示,根据该方程式我们可以通过微积分算出曲线下的面积,但是我们不需要使用微积分,因为已经有人这么做了,他们创建了特殊表格,这样我们始终都能知道任何两个值之间的曲线下的面积。

正态概率密度函数和曲线下的面积,曲线末端实际上不会接触到 x 轴,只是越来越接近 x 轴,x 是水平渐近线,该理论模型的曲线末端不会接触到 x 轴是因为我们永远都不能 100% 确定某件事,换句话说,可以在最远处有个值 距离平均值非常的远,例如 5 个标准偏差那么远,但是达到该值或更低值的概率非常的小,等于该曲线下的面积,放大的话,会看到该末端越来越接近 x 轴,但是永远不会接触到,该末端和 x 轴之间的面积一直快接近负无穷,也就是达到该值或更低值的概率。

注意,正态分布多种多样,可以是宽扁型或瘦高型,但是密度曲线下的总面积始终为 1,对于正态分布 在平均值周围 1 个标准偏差范围内的面积约为 68%,平均值周围 2 个标准偏差范围内的面积约为 95%。

Facebook 好友数分布示例

假设该分布是正态分布,平均每个人有 190 个 Facebook 好友,标准偏差是 36 个 Facebook 好友,那么,多少比例的人的 Facebook 好友数少于 154?

比例是 0.16

Z表格

之前说过,如果我们拥有概率密度函数方程式,我们可以使用微积分计算出任何两个值之间或负无穷与任何值之间曲线下的面积,数学家将这些值放入了一个表格中,下图是该表格的前部分内容 右上角有个小图表,表示如果给出 z 值,该表格中的数值会告诉你在标准正态曲线中,小于该 z 值的比例是多少,该表格是针对标准正态分布的,也就是平均值为 0,标准偏差是 1。下面是Z表格的连接

https://s3.amazonaws.com/udacity-hosted-downloads/ZTable.jpg

使用 z 表格得出少于 240 个 Facebook 好友的大概比例

91.77%

我们首先需要将 240 转换为 z 值,也就是我们要算出 240 距离平均值190 有多少个标准偏差,应该等于一点几,首先算出 190 和 240 之间的距离,然后除以标准偏差,算出该距离等于多少个标准偏差,结果大概是 1.39,我们需要四舍五入到百分位,因为 z 表格最多只精确到百分位,所以我们的 z 值是 1.39,拿出 z 表格,首先找到 1.3,然后找到 0.09 是最后一列,得出小于 1.39 个标准偏差的面积是 0.9177,意味着大约 91.77% 的人 Facebook 好友数不到 240 个,注意,整个过程都是假设这是正态分布 平均值为 190,标准偏差是 36

时间: 2024-10-13 17:13:31

(六)正太分布的相关文章

R:正太分布dnorm

> x=seq(-6,6, by=0.1) > y = dnorm(x, mean=0, sd=1) > plot(x,y)

R语言数据分析系列六

R语言数据分析系列六 -- by comaple.zhang 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候怎样下手分析,数据分析的第一步.探索性数据分析. 统计量,即统计学里面关注的数据集的几个指标.经常使用的例如以下:最小值,最大值,四分位数,均值,中位数,众数,方差,标准差.极差,偏度,峰度 先来解释一下各个量得含义,浅显就不说了,这里主要说一下不常见的 众数:出现次数最多的 方差:每一个样本值与均值的差得平方和的平均数 标准差:又称均方差,是方差的二次方根.用来衡量一个数据集的

【基于rssi室内定位报告】rssi分布情况标识位置

import matplotlib matplotlib.use('Agg') import numpy as np from numpy import array from matplotlib import pyplot from scipy import integrate import math import time from sys import path path.append('D:\pymine\clean\Gauss_rssi_model\import_function')

SPSS 分布类型的检验

假设检验的标准步骤: 1.建立假设:根据问题的需要提出原假设H0,以及其对立面备择假设H1. 2.确立检验水准:即设立小概率事件的界值α. 3.进行试验:得到用于统计分析的样本,以该试验的结果作为假设检验的根据. 4.选定检验方法,计算检验统计量. 5.确定P值. 原假设也称为零假设,备择假设也称为对立假设.对立假设就是对立于原假设,备择假设的意思是,一旦你决定不采纳原假设,则这假设可备你选择. 根据统计学观点,接受原假设和否定原假设,二者的意义并非对等.接受原假设只是意味着,按所获数据来看,并

拉普拉斯分布(Laplace distribution)

拉普拉斯分布的定义与基本性质 其分布函数为 分布函数图 其概率密度函数为 密度函数图 拉普拉斯分布与正太分布的比较 从图中可以直观的发现拉普拉斯分布跟正太分布很相似,但是拉普拉斯分布比正太分布有尖的峰和轻微的厚尾. 原文地址:https://www.cnblogs.com/yifdu25/p/8146446.html

概率论——随机变量及其分布

[随机变量] 设随机实验的样本空间是 S=|e| ,X = X(e) 是定义在样本空间S上的实值单值函数,称 X = X(e) 为随机变量. [概率分布率] 设随机变量 X ,其所有可能去的不同值为: 取各个值的可能的概率分别为: 即: 若该公式满足以下条件,则称为随机变量X的概率分布率,简称分布率.   , [概率直方图] 概率直方图:直方图中面积之和为1. [伯努利试验] 假设实验 E 只有两个可能的结果:成功与失败,则称 E 为伯努利试验. 将 E (0<p<1)独立重复进行 n 次,则

TensorFlow函数(六)初始值生成函数

1.常量生成函数 tf.constant(value, dtype) 生成一个初始值为常量value的数组 value:指定的常量 dtype:数据类型 tf.zeros(shape, dtype) 生成一个形状为shape.初始值全为0的数组 tf.ones(shape, dtype) 生成一个形状为shape.初始值全为1的数组 2.初始化为正太分布 tf.random_normal(shape, mean, stddev, seed, dtype) 生成一组符合标准正态分布的数组 shap

抽样分布(2) t分布

定义 t分布 设X ~ N(0,1),Y ~ χ2(n),且X,Y相互独立,则称随机变量 服从自由度为n的t分布(学生氏分布) 记为 t~t(n),其概率密度为 由于tn(x)是偶函数,其图形关于y轴对称.当n趋于无穷大时,t分布以标准正态分布N(0,1)为极限分布.也就是说t分布当n~∞时,tn(x)趋近于标准正态分布的表达式.而当n比较小的时候,t分布和标准正太分布的差距就比较大. t分布的应用 t分布的分位点 对于一个数α(<0α<1),怎么求数c使得概率 P{t>c}=α?这个点

深度学习基础系列(六)| 权重初始化的选择

深层网络需要一个优良的权重初始化方案,目的是降低发生梯度爆炸和梯度消失的风险.先解释下梯度爆炸和梯度消失的原因,假设我们有如下前向传播路径: a1 = w1x + b1 z1 = σ(a1) a2 = w2z1 + b2 z2 = σ(a2) ... an = wnzn-1 + bn zn = σ(an) 简化起见,令所有的b都为0,那么可得: zn =  σ(wnσ(Wn-1σ(...σ(w1x))), 若进一步简化,令z = σ(a) = a,那么可得: zn = wn * Wn-1 * W