基因芯片主要分为双通道cDNA芯片和高密度寡核苷酸芯片。
双通道cDNA芯片:每个微阵列产生两个探针水平的数据集(红色通道和绿色通道)。
高密度寡核苷酸芯片:每个微阵列产生一个探针水平的数据集。一些探针是匹配探针(Perfect match,PM),一些探针是错配探针(Mismatch,MM。不过有些芯片无MM探针)。
本博客主要介绍高密度寡核苷酸芯片,以Affymetrix芯片为例。这些芯片有多种型号,如常见的Affymetrix 3’ -biased Arrays 有HG_U95Av2、HG-U133A_2、HG-U133_Plus_2等型号,Affymetrix Exon ST Arrays则有HuGene-1_0-st-v1等型号。通常Affymetrix 3’ -biased Arrays有PM、MM探针,而Affymetrix Exon ST Arrays只有PM探针。很多时候可以根据芯片型号判断出该芯片所属物种,如:HG、HuGene是人类,Mouse是鼠,Zebrafish是斑马鱼。常见的芯片数据库有GEO、ArrayExpress。若想在GEO获得指定型号芯片的有关信息,访问http://www.ncbi.nlm.nih.gov/gds?term=affymetrix%20AND%20GPL%5BETYP%5D。如点击[HG-U133_Plus_2]Affymetrix Human U133 Plus 2.0 Array,可在Web link找到该型号芯片的Affymetrix产品页面链接(该页面可下载产品说明,注释文件等,不过下载需要先注册一个账号)。
所有的芯片用Affymetrix扫描仪进行扫描,用Affymetrix软件初始量化特征,该软件涉及到一些文件格式,它们是:
[EXP]包含实验的基本信息
[DAT]芯片的扫描图像
[CEL]特征的初始量化(每个探针的荧光强度)
[CDF]探针在芯片中的定位信息,探针到探针组的映射
[CHP]包含基因表达水平(用affy软件评估)
通常由DAT扫描图像得到CEL文件,在后续的计算中,我们只需要CEL文件和CDF文件。在这里不讨论EXP和CHP文件。
本博客有关于基因芯片的设计,文件格式及计算,涉及到编程,数学,生物领域。