R in action读书笔记(13)第十章 功效分析

功效分析

功效分析可以帮助在给定置信度的情况下,判断检测到给定效应值时所需的样本量。反过来,它也可以帮助你在给定置信度水平情况下,计算在某样本量内能检测到给定效应值的概率。如果概率低得难以接受,修改或者放弃这个实验将是一个明智的选择。

10.1假设检验速览

在研究过程时,研究者通常关注四个量:样本大小、显著性水平、功效和效应值。样本大小指的是实验设计中每种条件/组中观测的数目。显著性水平(也称为alpha)由I型错误的概率来定义。也可以把它看做是发现效应不发生的概率。功效通过1减去II型错误的概率来定义。我们可以把它看做是真实效应发生的概率。效应值指的是在备择或研究假设下效应的量。效应值的表达式依赖于假设检验中使用的统计方法。

10.2 用pwr 包做功效分析


函 数 功效计算的对象


pwr.2p.test() 两比例(n相等)


pwr.2p2n.test() 两比例(n不相等)


pwr.anova.test() 平衡的单因素ANOVA


pwr.chisq.test() 卡方检验


pwr.f2.test() 广义线性模型


pwr.p.test() 比例(单样本)


pwr.r.test() 相关系数


pwr.t.test() t检验(单样本、两样本、配对)


pwr.t2n.test() t检验(n不相等的两样本)

10.2.1 t 检验

对于t检验,pwr.t.test()函数提供了许多有用的功效分析选项,格式为:

function (n = NULL, d = NULL, sig.level = 0.05, power = NULL,

type = c("two.sample","one.sample", "paired"), alternative =c("two.sided", "less", "greater"))

n为样本大小。

d为效应值,即标准化的均值之差。d =(m1-m2)/s

sig.level表示显著性水平(默认为0.05)。

power为功效水平。

type指检验类型:双样本t检验(two.sample)、单样本t检验(one.sample)或相依样本t检验(paired)。默认为双样本t检验。

alternative指统计检验是双侧检验(two.sided)还是单侧检验(less或greater)。默认为双侧检验。

>library(pwr)

>pwr.t.test(d=.8,sig.level=.05,power=.9,type="two.sample",alternative="two.sided")

Two-samplet test power calculation

n =33.82554

d =0.8

sig.level =0.05

power=0.9

alternative = two.sided

NOTE: n is number in*each* group

10.2.2 方差分析

pwr.anova.test()函数可以对平衡单因素方差分析进行功效分析。格式为:

function (k = NULL, n = NULL, f = NULL, sig.level =0.05, power = NULL)其中,k是组的个数,n是各组中的样本大小

对于单因素方差分析,效应值可通过f来衡量:

其中,pi = ni/N,

ni = 组i的观测数目

N = 总观测数目

μi

= 组i均值

μ= 总体均值

σ2 = 组内误差方差

> pwr.anova.test(k=5,f=.25,sig.level=.05,power=.8)

Balancedone-way analysis of variance power calculation

k= 5 #结果表明,总样本大小为5 × 39,即195

n= 39.1534

f= 0.25

sig.level= 0.05

power= 0.8

NOTE: n is number in each group

10.2.3 相关性

pwr.r.test()函数可以对相关性分析进行功效分析

function (n = NULL, r = NULL, sig.level = 0.05, power = NULL, 
alternative = c("two.sided", "less", "greater")) 

n是观测数目,r是效应值(通过线性相关系数衡量),sig.level是显著性水平,power是功

效水平,alternative指定显著性检验是双边检验(tow.sided)还是单边检验(less或greater)。

>pwr.r.test(r=.25,sig.level=.05,power=.90,alternative="greater")

approximate correlation power calculation (arctangh transformation)

n= 133.2803

r= 0.25

sig.level= 0.05

power= 0.9

alternative= greater

10.2.4 线性模型

对于线性模型(比如多元回归),pwr.f2.test()函数可以完成相应的功效分析,格式为:

function (u = NULL, v = NULL, f2 = NULL, sig.level = 0.05, power = NULL) ,u和v分别是分子自由度和分母自由度,f2是效应值。

当要评价一组预测变量对结果的影响程度时,适宜用第一个公式来计算f2;当要评价一组预测变量对结果的影响超过第二组变量(协变量)多少时,适宜用第二个公式。

> pwr.f2.test(u=3,f2=.0769,sig.level=.05,power=.90)
     Multiple regression power calculation 
              u = 3
              v = 184.2426
             f2 = 0.0769
      sig.level = 0.05
          power = 0.9

在多元回归中,分母的自由度等于N - k - 1,N是总观测数,k是预测变量数。本例中,N - 7

- 1 = 185,即需要样本大小N = 185 + 7 + 1 = 193。

10.2.5 比例检验

当比较两个比例时,可使用pwr.2p.test()函数进行功效分析。格式为:

function (h = NULL, n = NULL, sig.level = 0.05, power = NULL, 
    alternative = c("two.sided", "less", "greater")) 

其中,h是效应值,n是各组相同的样本量。效应值h定义如下:

可用ES.h(p1, p2)函数进行计算。

当各组中n不相同时,则使用函数:

function (h = NULL, n1 = NULL, n2 = NULL, sig.level = 0.05, power = NULL, alternative = c("two.sided", "less", "greater")) 
> pwr.2p.test(h=ES.h(.65,.6),sig.level=.05,power=.9,alternative="greater")
     Difference of proportion power calculation for binomial distribution (arcsine transformation) 
              h = 0.1033347
              n = 1604.007
      sig.level = 0.05
          power = 0.9
    alternative = greater
NOTE: same sample sizes

10.2.6 卡方检验

pwr.chisq.test()函数可以评估卡方检验的功效、效应值和所需的样本大小。格式为:

function (w = NULL, N = NULL, df = NULL, sig.level = 0.05, power = NULL) 

其中,w是效应值,N是总样本大小,df是自由度。此处,效应值w如下定义:

p0i = H0时第i单元格中的概率

p1i = H1时第i单元格中的概率

> prob<-matrix(c(.42,.28,.03,.07,.10,.10),byrow=TRUE,nrow=3)
> ES.w2(prob)
[1] 0.1853198
> pwr.chisq.test(w=.1853198,df=2,sig.level=.05,power=.9)
     Chi squared power calculation 
              w = 0.1853198
              N = 368.4529
             df = 2
      sig.level = 0.05
          power = 0.9
NOTE: N is the number of observations

10.2.7 在新情况中选择合适的效应值

功效分析中,预期效应值是最难决定的参数。

单因素ANOVA中检测显著效应所需的样本大小

> library(pwr)
> es<-seq(.1,.5,.01)
> nes<-length(es)
> samsize<-NULL
> for(i in 1:nes){
+ result<-pwr.anova.test(k=5,f=es[i],sig.level=.05,power=.9)
+ samsize[i]<-ceiling(result$n)
+ }
> plot(samsize,es,type="l",lwd=2,col="red",
+ ylab="effect size",
+ xlab="sample size (per cell)",
+ main="one way anova with power=.90 and alpha=.05")

10.3 绘制功效分析图形

假设对于相关系数统计显著性的检验,计算一系列效应值和功效水平下所需的样本量,此时可用pwr.r.test()函数和for循环来完成任务检验各种效应值下的相关性所需的样本量曲线

library(pwr)

r<-seq(.1,.5,.01)

nr<-length(r)

p<-seq(.4,.9,.1)

np<-length(p)

samsize<-array(numeric(nr*np),dim=c(nr,np))

for(i in 1:np){

for(j in 1:nr){

result<-pwr.r.test(n=NULL,r=r[j],

sig.level=.05,power=p[i],

alternative="two.sided")

samsize[j,i]<-ceiling(result$n)

}

xrange<-range(r)

yrange<-round(range(samsize))

colors<-rainbow(length(p))

plot(xrange,yrange,type="n",

xlab="correlationcoefficient (r)",

ylab="sample size(n)")

for(i in 1:np){

lines(r,samsize[,1],type="l",lwd=2,col=colors[i])

}

abline(v=0,h=seq(0,yrange[2],50),lty=2,col="grey89")

abline(h=0,v=seq(xrange[1],xrange[2],.02),lty=2,col="grey89")

title("sanple size ")

legend("topright",title="power",as.character(p),fill=colors)

10.4 其他软件包

asypow 通过渐进似然比方法计算功效

PwrGSD 组序列设计的功效分析

pamm 混合模型中随机效应的功效分析

powerSurvEpi 流行病研究的生存分析中功效和样本量的计算

powerpkg 患病同胞配对法和TDT(TransmissionDisequilibrium Test,传送不均衡检验)设

计的功效分析

powerGWASinteractionGWAS交互作用的功效计算

pedantics 一些有助于种群基因研究功效分析的函数

gap 一些病例队列研究设计中计算功效和样本量的函数

ssize.fdr 微阵列实验中样本量的计算

时间: 2024-10-06 07:56:15

R in action读书笔记(13)第十章 功效分析的相关文章

R in action读书笔记(19)第十四章 主成分和因子分析

第十四章:主成分和因子分析 本章内容 主成分分析 探索性因子分析 其他潜变量模型 主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分.探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法.它通过寻找一组更小的.潜在的或隐藏的结构来解释已观测到的.显式的变量间的关系. PCA与EFA模型间的区别 主成分(PC1和PC2)是观测变量(X1到X5)的线性组合.形成线性组合的权重都是通过最大化各主成分所解释的方差来获得,同时还要保证个

R in action读书笔记(5)-第七章:基本统计分析

7.1描述性统计分析 > vars<-c("mpg","hp","wt") > head(mtcars[vars])                    mpg  hp    wt Mazda RX4         21.0 110 2.620 Mazda RX4 Wag     21.0 110 2.875 Datsun 710        22.8  93 2.320 Hornet 4 Drive    21.4 11

R in action读书笔记(6)-第七章:基本统计分析(中)

7.2 频数表和列联表 > library(vcd) > head(Arthritis) ID Treatment Sex Age Improved 1 57 Treated Male 27 Some 2 46 Treated Male 29 None 3 77 Treated Male 30 None 4 17 Treated Male 32 Marked 5 36 Treated Male 46 Marked 6 23 Treated Male 58 Marked 7.2.1 生成频数表

R in action读书笔记(22)第十六章 高级图形进阶(下)

16.2.4 图形参数 在lattice图形中,lattice函数默认的图形参数包含在一个很大的列表对象中,你可通过trellis.par.get()函数来获取,并用trellis.par.set()函数来修改.show.settings()函数可展示当前的图形参数设置情况.查看当前的默认设置,并将它们存储到一个mysettings列表中: > show.settings() > mysettings<-trellis.par.get() 查看叠加点的默认设置值: > mysett

R in action读书笔记(17)第十二章 重抽样与自助法

12.4 置换检验点评 除coin和lmPerm包外,R还提供了其他可做置换检验的包.perm包能实现coin包中的部分功能,因此可作为coin包所得结果的验证.corrperm包提供了有重复测量的相关性的置换检验. logregperm包提供了Logistic回归的置换检验.另外一个非常重要的包是glmperm,它涵盖了广义线性模型的置换检验依靠基础的抽样分布理论知识,置换检验提供了另外一个十分强大的可选检验思路.对于上面描述的每一种置换检验,我们完全可以在做统计假设检验时不理会正态分布.t分

R in action读书笔记(16)第十二章 重抽样与自助法之 置换检验

第十二章:重抽样与自助法 本章,我们将探究两种应用广泛的依据随机化思想的统计方法:置换检验和自助法 12.1 置换检验 置换检验,也称随机化检验或重随机化检验. 有两种处理条件的实验,十个受试者已经被随机分配到其中一种条件(A或B)中,相应的结果变量(score)也已经被记录.实验结果如下: 如果两种处理方式真的等价,那么分配给观测得分的标签(A处理或B处理)便是任意的.为检验两种处理方式的差异,我们可遵循如下步骤: (1) 与参数方法类似,计算观测数据的t统计量,称为t0: (2) 将10个得

R in action读书笔记(6)-第七章:基本统计分析(下)

7.3相关 相关系数可以用来描述定量变量之间的关系.相关系数的符号(±)表明关系的方向(正相关或负相关),其值的大小表示关系的强弱程度(完全不相关时为0,完全相关时为1).除了基础安装以外,我们还将使用psych和ggm包. 7.3.1 相关的类型 1.Pearson.Spearman和Kendall相关 Pearson积差相关系数衡量了两个定量变量之间的线性相关程度.Spearman等级相关系数则衡 量分级定序变量之间的相关程度.Kendall’s Tau相关系数也是一种非参数的等级相关度量.

R in action读书笔记(21)第十六章 高级图形进阶(上)

16.1 R 中的四种图形系统 基础图形函数可自动调用,而grid和lattice函数的调用必须要加载相应的包(如library(lattice)).要调用ggplot2函数需下载并安装该包(install.packages("ggplot2")),第一次使用前还要进行加载(library(ggplot2)). 16.2 lattice 包 lattice包为单变量和多变量数据的可视化提供了一个全面的图形系统.在一个或多个其他变量的条件下,栅栏图形展示某个变量的分布或与其他变量间的关系

R in action读书笔记(8)-第八章:回归(上)

8.1回归的多面性 8.2 OLS回归 OLS回归拟合模型形式: 为了能够恰当地解释oLs模型的系数,数据必须满足以下统计假设. 口正态性对于固定的自变量值,因变量值成正态分布. 口独立性Yi值之间相互独立. 口线性因变量与自变量之间为线性相关. 口同方差性因变量的方差不随自变量的水平不同而变化.也可称作不变方差,但是说同方差性感觉上更犀利. 8.2.1用lm()拟合回归模型 myfit<-lm(formula,data) formula指要拟合的模型形式,data是一个数据框,包含了用于拟合模