将不服从正态分布的资料转化为非正态分布或近似正态分布

可以应用变量变换的方法,将不服从正态分布的资料转化为非正态分布或近似正态分布。常用的变量变换方法有对数变换、平方根变换、倒数变换、平方根反正玄变换等,应根据资料性质选择适当的变量变换方法。
1、对数变换 即将原始数据X的对数值作为新的分布数据:
X’=lgX
当原始数据中有小值及零时,亦可取X’=lg(X+1)
还可根据需要选用X’=lg(X+k)或X’=lg(k-X)
对数变换常用于(1)使服从对数正态分布的数据正态化。如环境中某些污染物的分布,人体中某些微量元素的分布等,可用对数正态分布改善其正态性。(2)使数据达到方差齐性,特别是各样本的标准差与均数成比例或变异系数CV接近于一个常数时。
2、平方根变换 即将原始数据X的平方根作为新的分布数据。
X’=sqrt(X)
平方根变换常用于:1)使服从Poission分布的计数资料或轻度偏态资料正态化,可用平方根变换使其正态化。2)当各样本的方差与均数呈正相关时,可使资料达到方差齐性。
3、倒数变换 即将原始数据X的倒数作为新的分析数据。
X’=1/X
常用于资料两端波动较大的资料,可使极端值的影响减小。
4、平方根反正旋变换 即将原始数据X的平方根反正玄值做为新的分析数据。
X’=sin-1sqrt(X)
常用于服从二项分布的率或百分比的资料。一般认为等总体率较小如<30%时或较大(如>70%时),偏离正态较为明显,通过样本率的平方根反正玄变换,可使资料接近正态分布,达到方差齐性的要求。

你可以根据自己的资料适当转化。另外,可以考虑其他分析方法,比如秩和检验。

时间: 2024-11-05 22:03:09

将不服从正态分布的资料转化为非正态分布或近似正态分布的相关文章

手写栈(递归转化为非递归)

递归的本质是通过栈来保存状态,然后再次调用自己进入新的状态,然后函数返回的时候回到上次保存的状态. 如果一个函数中所有递归形式的调用都出现在函数的末尾,我们称这个递归函数是尾递归的.当递归调用是整个函数体中最后执行的语句且它的返回值不属于表达式的一部分时,这个递归调用就是尾递归.尾递归函数的特点是在回归过程中不用做任何操作,就是没有回溯过程,所以我们可以直接将尾递归写成循环 更一般的递归,想要转化为非递归,就需要模拟栈(手写栈)的行为. 遍历的递归和非递归实现: #include<cstdio>

将非正态分布的数据集转化为正态分布的数据集

在统一的试验条件下,有时会得到一个数据集,如果需要分析这类数据的分布特性,而这一数据集又不符合正态分布,则需要将该组数据做以下变换: 这里取'1'的原因是,此地的r的绝对值是小于等于1的.

Javascript 随机数函数 学习之二:产生服从正态分布随机数

一.为什么需要服从正态分布的随机函数 一般我们经常使用的随机数函数 Math.random() 产生的是服从均匀分布的随机数,能够模拟等概率出现的情况,例如 扔一个骰子,1到6点的概率应该相等,但现实生活中更多的随机现象是符合正态分布的,例如20岁成年人的体重分布等. 假如我们在制作一个游戏,要随机设定许许多多 NPC 的身高,如果还用Math.random(),生成从140 到 220 之间的数字,就会发现每个身高段的人数是一样多的,这是比较无趣的,这样的世界也与我们习惯不同,现实应该是特别高

正态分布的前世今生(下)

http://songshuhui.net/archives/77386 作 者: rickjin(靳志辉??) 校 对: 汤涛,香港浸会大学数学讲座教授 正态分布的前世今生(上) 六.开疆扩土,正态分布的进一步发展 19世纪初,随着拉普拉斯中心极限定理的建立与高斯正态误差理论的问世,正态分布开始崭露头角,逐步在近代概率论和数理统计学中大放异彩.在概率论中,由于拉普拉斯的推动,中心极限定理发展成为现代概率论的一块基石.而在数理统计学中,在高斯的大力提倡之下,正态分布开始逐步畅行于天下. 6.1

正态分布与正态分布检验

一.正态分布 正态分布是最常见也是最重要的一种连续型数据分布,标准正态分布是正态分布的一种, 当 μ=0,σ=1时的正态分布为标准正态分布,为了应用方便,常将正态分布通过Z分数转换为标准正态分布,这种转换后的分布也称为u分布或z分布. 正态分布的主要特征: 1.集中性:正态曲线的高峰位于正中央,即均数所在的位置,正态分布的均值.中位数.众数都相等 2.对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交. 3.均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降. 4.正

CFA杂谈丨数据科学家都钟情于最常见的正态分布的原因是什么?

大数据文摘出品 编译:JonyKai.元元.云舟 对于深度学习和机器学习工程师们来说,正态分布是世界上所有概率模型中最重要的一个.即使你没有参与过任何人工智能项目,也一定遇到过高斯模型,今天就让我们来看看高斯过程为什么这么受欢迎. 高斯分布(Gaussian distribution),也称正态分布,最早由A.棣莫弗在求二项分布的渐近公式中得到.C.F.高斯在研究测量误差时从另一个角度导出了它.P.S.拉普拉斯和高斯研究了它的性质.是一个在数学.物理及工程等领域都非常重要的概率分布,在统计学的许

【程序员眼中的统计学(7)】正态分布的运用:正态之美

正态分布的运用:正态之美 作者 白宁超 2015年10月15日18:30:07 摘要:程序员眼中的统计学系列是作者和团队共同学习笔记的整理.首先提到统计学,很多人认为是经济学或者数学的专利,与计算机并没有交集.诚然在传统学科中,其在以上学科发挥作用很大.然而随着科学技术的发展和机器智能的普及,统计学在机器智能中的作用越来越重要.本系列统计学的学习基于<深入浅出统计学>一书(偏向代码实现,需要读者有一定基础,可以参见后面PPT学习).正如(吴军)先生在<数学之美>一书中阐述的,基于统

漫谈正态分布的生成

本文作者简介:王夜笙,就读于郑州大学信息工程学院,感兴趣的方向为逆向工程和机器学习,长期从事数据抓取工作(长期与反爬虫技术作斗争~),涉猎较广(技艺不精……),详情请见我的个人博客~ 个人博客地址:http://bindog.github.io/blog/ 邮箱:[email protected] 感谢怡轩同学的悉心指导~ 之前拜读了靳志辉(@rickjin)老师写的<正态分布的前世今生>,一直对正态分布怀着一颗敬畏之心,刚好最近偶然看到python标准库中如何生成服从正态分布随机数的源码,觉

正态分布的前世今生(上)

神说,要有正态分布,就有了正态分布.神看正态分布是好的,就让随机误差服从了正态分布.创世纪—数理统计 1. 正态分布,熟悉的陌生人 学过基础统计学的同学大都对正态分布非常熟悉.这个钟形的分布曲线不但形状优雅,它对应的密度函数写成数学表达式 f(x)=12π−−√σe−(x−μ)22σ2 也非常具有数学的美感.其标准化后的概率密度函数 f(x)=12π−−√e−x22 更加的简洁漂亮,两个最重要的数学常量 π.e 都出现在这公式之中.在我个人的审美之中,它也属于 top-N 的最美丽的数学公式之一