概率密度函数
在正态分布中,通过查看某个值在 x 轴上的位置,即标准偏差,我们能够确定小于或大于任何值的百分比,接下来将学习如何计算这些百分比。请注意,我们使用的是理论曲线来绘制数据模型,该曲线下的面积是 1,因为它是用分布数据的相对频率(即比例)来绘制数据模型,该曲线叫做概率密度函数,通常缩写为 PDF。
为何叫做概率密度函数呢?假设我们研究下优达学城学员的随机样本,下图是表示优达学城学员年龄的直方图,样本量是 7,901 这是实际数据。我们用该概率密度函数来绘制模型,请注意,当我们绘制模型时
我们用该概率密度函数来绘制模型,请注意,当我们绘制模型时绝对频率变成相对频率,下图绿色区域输入的是概率,根据我们的样本,大约 70% 的优达学城学员年龄等于或小于 30 岁,现在假设随机选择任何一名优达学城学员 为其分配一个唯一编号,然后我们随机选择一个编号,那么我们选择的学员的年龄等于或小于 30 岁的概率是多少?
根据上图我们知道 70% 的优达学城学员年龄等于或小于 30 岁,这就表示随机选择一名等于或小于 30 岁的学员的概率是 70%,即 0.7,这就是为何这个叫做概率密度函数,该曲线下的面积表示概率。
正态分布也可以这么操作,它是用特殊的概率密度函数表示的,对于该理论曲线,我们可以用方程式来表示,根据该方程式我们可以通过微积分算出曲线下的面积,但是我们不需要使用微积分,因为已经有人这么做了,他们创建了特殊表格,这样我们始终都能知道任何两个值之间的曲线下的面积。
正态概率密度函数和曲线下的面积,曲线末端实际上不会接触到 x 轴,只是越来越接近 x 轴,x 是水平渐近线,该理论模型的曲线末端不会接触到 x 轴是因为我们永远都不能 100% 确定某件事,换句话说,可以在最远处有个值 距离平均值非常的远,例如 5 个标准偏差那么远,但是达到该值或更低值的概率非常的小,等于该曲线下的面积,放大的话,会看到该末端越来越接近 x 轴,但是永远不会接触到,该末端和 x 轴之间的面积一直快接近负无穷,也就是达到该值或更低值的概率。
注意,正态分布多种多样,可以是宽扁型或瘦高型,但是密度曲线下的总面积始终为 1,对于正态分布 在平均值周围 1 个标准偏差范围内的面积约为 68%,平均值周围 2 个标准偏差范围内的面积约为 95%。
Facebook 好友数分布示例
假设该分布是正态分布,平均每个人有 190 个 Facebook 好友,标准偏差是 36 个 Facebook 好友,那么,多少比例的人的 Facebook 好友数少于 154?
比例是 0.16
Z表格
之前说过,如果我们拥有概率密度函数方程式,我们可以使用微积分计算出任何两个值之间或负无穷与任何值之间曲线下的面积,数学家将这些值放入了一个表格中,下图是该表格的前部分内容 右上角有个小图表,表示如果给出 z 值,该表格中的数值会告诉你在标准正态曲线中,小于该 z 值的比例是多少,该表格是针对标准正态分布的,也就是平均值为 0,标准偏差是 1。下面是Z表格的连接
https://s3.amazonaws.com/udacity-hosted-downloads/ZTable.jpg
使用 z 表格得出少于 240 个 Facebook 好友的大概比例
91.77% 我们首先需要将 240 转换为 z 值,也就是我们要算出 240 距离平均值190 有多少个标准偏差,应该等于一点几,首先算出 190 和 240 之间的距离,然后除以标准偏差,算出该距离等于多少个标准偏差,结果大概是 1.39,我们需要四舍五入到百分位,因为 z 表格最多只精确到百分位,所以我们的 z 值是 1.39,拿出 z 表格,首先找到 1.3,然后找到 0.09 是最后一列,得出小于 1.39 个标准偏差的面积是 0.9177,意味着大约 91.77% 的人 Facebook 好友数不到 240 个,注意,整个过程都是假设这是正态分布 平均值为 190,标准偏差是 36