CFA杂谈丨数据科学家都钟情于最常见的正态分布的原因是什么?

 

  大数据文摘出品

  编译:JonyKai、元元、云舟

  对于深度学习和机器学习工程师们来说,正态分布是世界上所有概率模型中最重要的一个。即使你没有参与过任何人工智能项目,也一定遇到过高斯模型,今天就让我们来看看高斯过程为什么这么受欢迎。

  高斯分布(Gaussian distribution),也称正态分布,最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

  正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。

  若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

 >>>CFA金融英语词典点我下载<<<

  高斯概率分布的数学表达式

  在自然现象中随处可见

  所有模型都是错的,但有些是有用的

  —George Box

  正在扩散的粒子的位置可以用正态分布来描述

  正态分布有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。

  一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布。从理论上看,正态分布具有很多良好的性质,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。

  数学原因:中心极限定理

 

  二维空间上进行200万步的随机游走之后得到的图案

  中心极限定理的内容为:大量独立随机变量的和经过适当标准化之后趋近于正态分布,与这些变量原本的分布无关。比如,随机游走的总距离就趋近于正态分布。下面我们介绍三种形式的中心极限定理:

  独立同分布的中心极限定理

  设随机变量X1,X2,......Xn,......独立同分布,并且具有有限的数学期望和方差:E(Xi)=μ,D(Xi)=σ^2 (i=1,2....),则对任意x,分布函数为

 

  满足

  该定理说明,当n很大时,随机变量近似地服从标准正态分布N(0,1)。因此,当n很大时,近似地服从正态分布N(nμ,nσ^2).该定理是中心极限定理最简单又最常用的一种形式,在实际工作中,只要n足够大,便可以把独立同分布的随机变量之和当作正态变量。这种方法在数理统计中用得很普遍,当处理大样本时,它是重要工具。

  棣莫佛-拉普拉斯定理

  设随机变量X(n=1,2,...,)服从参数为n,p(0

 

  该定理表明,正态分布是二项分布的极限分布,当数充分大时,我们可以利用上式来计算二项分布的概率。

  不同分布的中心极限定理

  设随机变量X1,X2,......Xn,......独立同分布,它们的概率密度分别为fxk(x),并有E(Xk)=μk,D(Xk)= σk^2,(k=1,2......)

  若对任意正数τ,有:

  

  对任意x,随机变量Yn的分布函数Fn(x),满足:

  

  该定理说明:所研究的随机变量如果是有大量独立的而且均匀的随机变量相加而成,那么它的分布将近似于正态分布。

  万变不离其宗

  与其他很多分布不同,正态分布进行适当的变换之后,仍是正态分布。

  两个正态分布之积仍是正态分布

  两个独立的服从正态分布的随机变量之和服从正态分布

  对一个正态分布进行高斯卷积还是正态分布

  正态分布经过傅立叶变换之后仍是正态分布

  简洁

  奥卡姆剃刀强调一个哲学原则:在其他条件都相同下,最简单的解就是最好的解。

  对于任何一个用正态分布拟合的随机分布,都可能存在一个多参数,更复杂,更准确的解法。但是我们仍然会倾向于选用正态分布,因为它在数学上很简洁。

  它的均值(mean)、中值(median)和众数(mode)都相同

  只需要用两个参数就可以确定整个分布

  图形特性:

  集中性:正态曲线的高峰位于正中央,即均数所在的位置。

  对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。

  均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。

  曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无穷到负无穷积分的概率为1。即频率的总和为100%。

>>>CFA免费资料点我领取<<<


原文地址:http://blog.51cto.com/13842393/2134259

时间: 2024-10-03 01:31:00

CFA杂谈丨数据科学家都钟情于最常见的正态分布的原因是什么?的相关文章

数据科学家:神话 &amp;amp; 超能力持有者

一个打破神话的季节,正在降临. 我将坦诚地揭穿人们关于数据科学家所持有的惯有看法.在下文中,我将一个一个展示这些观点,宛如将一个又一个的玻璃瓶子摔碎在墙壁上一样. 关于数据科学家的神话主要是这些:        神话#1: 数据科学家们本身就是一种神奇生物,就像独角兽一样神奇叵測. 数据科学家实际上是很真实的.从人们開始进行多元统计分析.时间序列分析和运用其它核心分析方法时,他们就已经存在了.在某种程度上,假设你建立模型,并使用各种分析工具来找寻那些不显著的数据模型,那么你也许也是一位数据科学家

数据科学家:神话 &amp; 超能力持有者

一个打破神话的季节,正在降临. 我将坦诚地揭穿人们关于数据科学家所持有的惯有看法.在下文中,我将一个一个展示这些观点,犹如将一个又一个的玻璃瓶子摔碎在墙壁上一样. 关于数据科学家的神话主要是这些:        神话#1: 数据科学家们本身就是一种神秘生物,就像独角兽一样神秘叵测. 数据科学家实际上是非常真实的.从人们开始进行多元统计分析.时间序列分析和运用其他核心分析方法时,他们就已经存在了.在某种程度上,如果你建立模型,并使用各种分析工具来找寻那些不显著的数据模型,那么你或许也是一位数据科学

数据科学家应该掌握的12种机器学习算法

算法已经成为我们日常生活的一个重要组成部分,它们几乎出现在商业的任何领域.调查公司 Gartner 称这种现象为「算法化商业」,算法化商业正在改变我们经营和管理公司(应有的)的方式.现在,你可以在「算法市场」上买到这些适用于各个商业领域的多种算法.算法市场为开发者提供了包括声音和视觉处理.机器学习以及计算机视觉等领域在内的超过800种算法,这些成熟的算法帮助开发者节省宝贵的时间与金钱. 然而,算法市场上可用的算法可能并不符合你的特定需求.毕竟,你需要不同的算法来应付不同的情况,而相同的算法在不同

42步进阶学习—让你成为优秀的Java大数据科学家!

作者 灯塔大数据 本文转自公众号灯塔大数据(DTbigdata),转载需授权 如果你对各种数据类的科学课题感兴趣,你就来对地方了.本文将给大家介绍让你成为优秀数据科学家的42个步骤.深入掌握数据准备,机器学习,SQL数据科学等. 本文将这42步骤分为六个部分, 前三个部分主要讲述从数据准备到初步完成机器学习的学习过程,其中包括对理论知识的掌握和Python库的实现. 第四部分主要是从如何理解的角度讲解深入学习的方法.最后两部分则是关于SQL数据科学和NoSQL数据库. 接下来让我们走进这42步进

自学成才的数据科学家告诉你5个学习大数据的正确姿势!

对于数据科学来说,现在是发展的黄金时期.这是个新领域,但增长迅速,同时数据科学家的缺口也很大,据说他们的平均年薪可以达到10万美元.哪里有高薪,哪里就吸引人们,但是数据科学技能的差距意味着许多人需要努力学习.      第一步当然是询问“我怎么学习数据科学”,这个问题的答案往往是一长串的课程和书籍阅读,从线性代数到统计数据,这几年我也是这样学习过来的.我没有编程背景,但我知道我喜欢处理数据. 我比较不能理解在完全没有理解别人的背景时就给他一份长长的书单或者技能表.这就类似于一个老师给你一堆教科书

数据科学家应该掌握的5个工具

本文转自:http://www.36dsj.com/archives/34020 当谈及到分析你编纂的数据时,有大量的工具可以帮助你更好的理解数据,本文总结出了一个包括5个数据科学工具的列表,同时这也是你在当今的社会形势下人们应该掌握的5个数据科学工具. 即使是知识渊博的数据科学家也能提升他们的技术水平.当谈及到分析你编纂的数据时,有大量的工具可以帮助你更好的理解数据.我们与我们的数据科学指导者探讨了很久,最后总结出了一个包括5个数据科学工具的列表,同时这也是你在当今的社会形势下应该掌握的5个数

为什么数据科学家们选择了Python语言?

本文由 伯乐在线 - HanSir 翻译,toolate 校稿 英文出处:Quora [伯乐在线导读]:这个问题来自 Quora,题主还补充说,“似乎很多搞数据的程序员都挺擅长 Python 的,这是为什么呢?”下面是 Jeff Hammerbacher 的回复.(693 赞) Python是一种解释型.动态语言,具有明确而高效的语法.Python具有良好的REPL(Read-Eval-Print Loop ,‘读取-求值-输出’循环),还可以通过dir()和文档字符串从REPL中开发新模块.这

几个新角色:数据科学家、数据分析师、数据(算法)工程师

大数据分析的几个新角色:数据科学家.数据分析师.数据(算法)工程师 数学科学家:(发明算法) 运用统计分析.机器学习.分布式处理等技术,从大量数据中提取出对业务有意义的信息,以易懂的形式传达给决策者,并创造出新的数据应用服务的人才. 对享有的模型进行优化.改进,所以涉及到对具体算法的精通和理解,并不断通过AB Test进行验证. 例如:Google的搜索PageRank算法的创始人拉里佩奇Larry Page,他是博士而且在读书期间创造的此算法. 李开复也应该算一个,解决中文搜索及尝试了语音识别

成为数据科学家并不难

几个菜鸟程序员在Coursera上免费注册学习了几天"机器学习"课程后,赢下了Kaggle预测模型建模大赛. 企业界在IT业制造的大数据人才恐慌(麦肯锡是始作俑者)中纷纷提高了对大数据和高级分析人才的期待和要求,数据科学家也一夜之间成为最性感的职业,其光环直追体育明星.数据科学家被描绘成神一般的人物,他们通晓数学.计算.社会学.物理学等各学科知识,同时又洞察世事,深谙企业运作之道,存世数量堪比特级珍稀保护动物.这些都让有志从事大数据分析的IT从业人员高山仰止,望而止步. 但越来越多的证