RNA降解是影响芯片质量的一个很重要的因素,因为RNA是从5’开始降解的,所以理论5’的荧光强度要低于3’。RNA降解曲线可以表现这种趋势。
以样品GSM286756.CEL和GSM286757.CEL为例:
library(affy)
rawData<-ReadAffy("GSM286756.CEL","GSM286757.CEL")
deg<-AffyRNAdeg(rawData)
plotAffyRNAdeg(deg)
结果:
RNA降解图是只用PM探针进行计算。从图中可以看出,探针的相对位置从0~10即从1号~11号,但是其实很多探针组并不是11个PM。运行下面的代码:
pmdata <- pm(rawData, LIST = TRUE)
probe.set.size <- function(x) {
size <- dim(x)[1]
return(size)
}
max.num <- sapply(pmdata, probe.set.size)
tab <- (table(max.num))
> tab
max.num
8 9 10 11 13 14 15 16 20 69
5 1 6 54130 4 4 2 482 40 1
5个探针组只有8个PM,1个探针组有9个PM,……,54130个探针组有11个PM……
频数最大的54130对应11个PM,意思是大多数的探针组拥有11个PM,那么就选取包含11个PM的探针组来进行计算。原本共有5+1+6+54130+……+1=54675个探针组,筛选过后,用于计算的探针组数目变为了54130。
下面是RNA讲解曲线的计算方法:
样品1=GSM286756.CEL
样品2=GSM286757.CEL
n_K=11
N=54130
1号探针 2号探针 …… n_K号探针
探针组1 8.308339 9.710806 …… 10.521600
探针组2 8.761551 8.791163 …… 10.514714
样品1 …… …… …… …… ……
探针组N 13.07129 13.88054 …… 13.09902
平均值 6.872147 6.887466 …… 7.031115
方差 1.207499 1.226234 …… 1.444140
探针组1 8.459432 9.590587 …… 10.567005
探针组2 8.479780 8.942515 …… 10.340963
样品2 …… …… …… …… ……
探针组N 13.29735 14.10411 …… 13.44837
平均值 6.818737 6.835684 …… 6.993071
方差 1.255631 1.275068 …… 1.505525
平均值:
[,1] [,2] …… [,11]
[1,] 6.872147 6.887466 …… 7.031115
[2,] 6.818737 6.835684 …… 6.993071
方差:
[,1] [,2] …… [,11]
[1,] 1.207499 1.226234 …… 1.444140
[2,] 1.255631 1.275068 …… 1.505525
平均值在原来的基础上减去第一列的值作为 A:
[,1] [,2] …… [,11]
[1,] 0 0.01531892 …… 0.1589683
[2,] 0 0.01694627 …… 0.1743337
方差在原来的基础上除以N的开方作为 B:
[,1] [,2] …… [,11]
[1,] 0.005190005 0.005270531 …… 0.006207122
[2,] 0.005396884 0.005480424 …… 0.006470962
A除以B的结果:
[,1] [,2] …… [,11]
[1,] 0 2.906522 …… 25.61063
[2,] 0 3.092145 …… 26.94093
第一个样品的数据即第一行加上1,第二个样品的数据即第二行加上2,……,第n个样品的数据即第n行加上n ……,以此类推(这是为了拉开折线的距离):
[,1] [,2] …… [,11]
[1,] 1 3.906522 …… 26.61063
[2,] 2 5.092145 …… 28.94093
把这些数据绘制成折线就是RNA折线图了