Applied Nonparametric Statistics-lec4

Ref:

https://onlinecourses.science.psu.edu/stat464/print/book/export/html/5



Two sample test

  • 直接使用R的t-test

t.test(n, t, alternative="two.sided", var.equal=T)

  • permutation test

当我们判断两个样本的均值或者中值是否相等时,如果样本数量足够大,可以使用t-test。

但是,当两个样本的数量都很小时,它们的分布可能是有偏的,所以考虑permutation test。

原理:假设样本X1有m个数据,均值为mean(X1);X2有n个数据,均值为mean(X2)。定义:Dobs=mean(X1)-mean(X2)

那么我们可以把m+n个数据放在一起,从中挑m个放到X1里,剩下的放到X2中。这样挑的方法共有k种:

计算Di=mean(X1)-mean(X2) for i = 1...k

这样再与α比较,就可以判断要不要拒绝原假设。

当然,不止可以比较均值和中值,还可以比较trimmed mean.这三种方法的选择标准是:

数据接近正态分布,使用均值的差;

数据分布对称,但有离群值,使用trimmed mean(去掉极端值)的差;

数据分布不对称,使用中值的差。

那么,当m+n比较大时,遍历所有的Di(i=1...k)就变成一件很耗时的事情。因此,我们希望可以估计这个p值,而不是计数然后计算。

同时,当k很大时,如果我们指定一个遍历次数,如999,那么这样计算出的p值和真实的p值之间的误差是很小的,因此,我们通过

指定k值,来减少耗时。其他步骤与前面一直,只是循环的次数是指定的而已。

  • Wilcoxon Rank Sum Test

两样本非参数检验。我们首先将两个样本的数据合在一起,进行排序。然后计算样本1的rank的和,使用上面的方法,做permutation

当然,也可以使用样本2的rank sum。

另外,如果m和n小的话,可以使用表格。对于相等的数,排序时,我们使用均值。

此处参考University of Auckland的讲义:

  • 相比t-test,Wilcoxon test对离群值更不敏感;
  • Wilcoxon test更适合于检查两个样本分布的位置(图上可以用均值,中值描述),而非形状等其他方面的区别;
  • Mann-Whitney test与Wilcoxon是等价的,虽然test statistic不一样。

不管原理的话,直接用R就好了啊~

wilcox.test(m, w, alternative="greater", exact=T)

时间: 2024-08-27 05:56:52

Applied Nonparametric Statistics-lec4的相关文章

Applied Nonparametric Statistics

参考网址: https://onlinecourses.science.psu.edu/stat464/node/2 Binomial Distribution Normal Distribution 将正态分布标准化.这也就是Z-score Confidence Interval 在上面的前提下,假设σ^2已知,现在构造μ的置信区间: 利用上面Z-score的公式,且 套入公式,解出μ.注意此处的标准差用的是σ/根号n.最终解出: 当σ^2=Var(X)不知道时,我们可以用样本的标准差,计算Z

Applied Nonparametric Statistics-lec8

Ref:https://onlinecourses.science.psu.edu/stat464/print/book/export/html/11 additive model value = typical value + row effect + column effect + residual predicate value = typical value + row effect + column effect 其中value是我们关注的值,typical value是overall

Applied Nonparametric Statistics-lec9

Ref:https://onlinecourses.science.psu.edu/stat464/print/book/export/html/12 前面我们考虑的情况是:response是连续的,variable是离散的.举例:如果打算检查GPA的中位数是否与学生坐在教室的位置有关, 那么GPA的中位数是连续的,是响应变量:学生坐的位置(前中后)是离散的,是解释变量. 现在考虑解释变量也是连续的情况,即检查两个连续变量之间的因果关系.其中,我们最关心的是关系的强弱和方向. 首先,我们考虑线性

Applied Nonparametric Statistics-lec6

Ref: https://onlinecourses.science.psu.edu/stat464/print/book/export/html/8 前面都是对一两个样本的检查,现在考虑k个样本的情况,我们的假设是: Analysis of Variance (ANOVA) assumptions are: Groups are independent Distributions are Normally distributed Groups have equal variances 那么我们

Applied Nonparametric Statistics-lec2

Ref: https://onlinecourses.science.psu.edu/stat464/print/book/export/html/3 The Binomial Distribution in R: # return PMF. prob is the probability of success . x can be a list dbinom(x, size, prob) # CDF pbinom(x, size, prob) # returns a value for a p

Applied Nonparametric Statistics-lec3

Ref: https://onlinecourses.science.psu.edu/stat464/print/book/export/html/4 使用非参数方法的优势: 1. 对总体分布做的假设少,所以总体分布未知也可以: 2. 容易做: 3. 一般对离群值更具鲁棒性robust: 4. 适用于数据中包含ranks, ordinal or categorical的. In a skewed distribution, the population median, η, is a bette

psu online course

https://onlinecourses.science.psu.edu/statprogram/programs Graduate Online Course Overviews Printer-friendly versionPrinter-friendly version Picture of Thomas Building where the Eberly College of Science and the Department of Statistics resides.The D

Machine and Deep Learning with Python

Machine and Deep Learning with Python Education Tutorials and courses Supervised learning superstitions cheat sheet Introduction to Deep Learning with Python How to implement a neural network How to build and run your first deep learning network Neur

数学类杂志SCI2013-2014影响因子

ISSN Abbreviated Journal Title Full Title Category Subcategory Country total Cites IF        2013-2014 IF 2012-2013 IF 2011-2012 IF 2010-2011 IF 2009-2010 IF 2008-2009 IF 2007-2008 5-Year Impact Factor Immediacy Index Articles Cited Half-Life Eigenfa