基本概念
基因表达数据反映的是直接或间接测量得到的基因转录产物 mRNA在细胞中的丰度,这些数据可以用于分析哪些基因的表达发生了改变,基因之间有何相关性,在不同条件下基因的活动是如何受影响的。它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。
目前,高通量检测基因组 mRNA 丰度的方法主要是 cDNA 微阵列、寡核苷酸芯片,随着 cDNA 微阵列和寡核苷酸芯片等高通量检测技术的发展,我们可以从全基因组水平定量或定性检测基因转录产物 mRNA。由于生物体中的细胞种类繁多,同时基因表达具有时空特异性,因此,基因表达数据与基因组数据相比,要更为复杂,数据量更大,数据的增长速度更快。
基因表达数据中蕴含着基因活动的信息,可以反映细胞当前的生理状态,例如细胞是处于正常还是恶化状态、药物对肿瘤细胞是否有效等。对基因表达数据的分析可以获取基因功能和基因表达调控信息,这是生物信息学的重大挑战之一,也是 DNA 微阵列能够在生物医学领域中广泛应用的关键原因之一。
特点
基因表达数据分析的对象是在不同条件下,全部或部分基因的表达数据所构成的数据矩阵。通过对该数据矩阵的分析,可以回答一些生物学问题。对这些问题的回答,结合其它生物学知识和数据有助于阐明基因的表达调控路径和调控网络。揭示基因调控路径和网络是生物学和生物信息学共同关注的目标,是系统生物学研究的核心内容。
研究方向
1、分析单个基因的表达水平
根据在不同实验条件下,基因表达水平的变化,来判断它的功能,例如,可以根据表达差异的显著性来确定与肿瘤分型相关的特异基因。采用的分析方法有统计学中的假设检验等。
2、考虑基因组合
将基因分组,研究基因的共同功能、相互作用以及协同调控等。多采用聚类分析等方法。
3、尝试推断潜在的基因调控网络
从机理上解释观察到的基因表达数据。多采用反向工程的方法。
基因表达数据通常利用矩阵形式表示,称为基因表达矩阵。基因表达矩阵的行代表一个基因在不同环境条件下或不同时间点的表达,列代表不同条件或样本下(如组织、实验条件、处理因素等)所有基因的表达情况,每个格子的数据表示特定的基因在特定的样本中的表达水平。
大量基于 DNA 微阵列实验的基因表达数据是公开发布在 Internet 网上的,尤其是学术机构在发表论文时所用的实验数据都可以免费提供给全世界的研究人员下载使用。作为学术论文的补充资料在网上发布的数据主要是文本文件或 Excel 格式的文件,这些数据往往都是经过归一化处理后的 Ratio 值或 log 2 (Ratio) ,对于寡核苷酸芯片数据有的是 P/A/M 表示,有的是荧光强度值。因为这些数据文件没有包含原始的实验方案、实验材料、原始扫描图像、图像处理方法和数据归一化方法等信息,对于要比较或整合分析来自不同研究小组的基因表达数据是非常困难的。主要原因是 DNA 微阵列并不是在任何客观的个体上测量基因表达水平,大多数测量值仅仅是基因表达的相对变化,而且使用的并不是一个标准化的对照样本。同时,基因表达数据比基因组序列数据要复杂的多,这些数据仅仅在有具体的关于实验条件的描述时才是有意义的,对于不同的细胞类型,在不同的条件下都有一套转录本。因此,基于 DNA 微阵列的基因表达数据存储量是非常大的,对于具有 20000 个探针的微阵列实验,以 10um 的分辨率扫描,产生 3 千万个离散的数据点,如果以 tiff 文件贮存,将占用约 60Mb 的硬盘空间。
一方面由于基因表达数据量非常庞大,而且数据中蕴含着丰富的生物学知识,另一方面由于这些数据没有注释,迫切需要一种标准来描述和存贮 DNA 微阵列基因表达数据,同时建立公共的 DNA 微阵列数据仓库。目前,收集、存贮微阵列基因表达数据的最有影响的数据库和网站是 GEO 、 ArrayExpress 和 SMD 。
基因表达数据