基因表达数据

基本概念

基因表达数据反映的是直接或间接测量得到的基因转录产物 mRNA在细胞中的丰度,这些数据可以用于分析哪些基因的表达发生了改变,基因之间有何相关性,在不同条件下基因的活动是如何受影响的。它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。

目前,高通量检测基因组 mRNA 丰度的方法主要是 cDNA 微阵列、寡核苷酸芯片,随着 cDNA 微阵列和寡核苷酸芯片等高通量检测技术的发展,我们可以从全基因组水平定量或定性检测基因转录产物 mRNA。由于生物体中的细胞种类繁多,同时基因表达具有时空特异性,因此,基因表达数据与基因组数据相比,要更为复杂,数据量更大,数据的增长速度更快。

基因表达数据中蕴含着基因活动的信息,可以反映细胞当前的生理状态,例如细胞是处于正常还是恶化状态、药物对肿瘤细胞是否有效等。对基因表达数据的分析可以获取基因功能和基因表达调控信息,这是生物信息学的重大挑战之一,也是 DNA 微阵列能够在生物医学领域中广泛应用的关键原因之一。

特点

基因表达数据分析的对象是在不同条件下,全部或部分基因的表达数据所构成的数据矩阵。通过对该数据矩阵的分析,可以回答一些生物学问题。对这些问题的回答,结合其它生物学知识和数据有助于阐明基因的表达调控路径和调控网络。揭示基因调控路径和网络是生物学和生物信息学共同关注的目标,是系统生物学研究的核心内容。

研究方向

1、分析单个基因的表达水平

根据在不同实验条件下,基因表达水平的变化,来判断它的功能,例如,可以根据表达差异的显著性来确定与肿瘤分型相关的特异基因。采用的分析方法有统计学中的假设检验等。

2、考虑基因组合

将基因分组,研究基因的共同功能、相互作用以及协同调控等。多采用聚类分析等方法。

3、尝试推断潜在的基因调控网络

从机理上解释观察到的基因表达数据。多采用反向工程的方法。

基因表达数据通常利用矩阵形式表示,称为基因表达矩阵。基因表达矩阵的行代表一个基因在不同环境条件下或不同时间点的表达,列代表不同条件或样本下(如组织、实验条件、处理因素等)所有基因的表达情况,每个格子的数据表示特定的基因在特定的样本中的表达水平。

大量基于 DNA 微阵列实验的基因表达数据是公开发布在 Internet 网上的,尤其是学术机构在发表论文时所用的实验数据都可以免费提供给全世界的研究人员下载使用。作为学术论文的补充资料在网上发布的数据主要是文本文件或 Excel 格式的文件,这些数据往往都是经过归一化处理后的 Ratio 值或 log 2 (Ratio) ,对于寡核苷酸芯片数据有的是 P/A/M 表示,有的是荧光强度值。因为这些数据文件没有包含原始的实验方案、实验材料、原始扫描图像、图像处理方法和数据归一化方法等信息,对于要比较或整合分析来自不同研究小组的基因表达数据是非常困难的。主要原因是 DNA 微阵列并不是在任何客观的个体上测量基因表达水平,大多数测量值仅仅是基因表达的相对变化,而且使用的并不是一个标准化的对照样本。同时,基因表达数据比基因组序列数据要复杂的多,这些数据仅仅在有具体的关于实验条件的描述时才是有意义的,对于不同的细胞类型,在不同的条件下都有一套转录本。因此,基于 DNA 微阵列的基因表达数据存储量是非常大的,对于具有 20000 个探针的微阵列实验,以 10um 的分辨率扫描,产生 3 千万个离散的数据点,如果以 tiff 文件贮存,将占用约 60Mb 的硬盘空间。

一方面由于基因表达数据量非常庞大,而且数据中蕴含着丰富的生物学知识,另一方面由于这些数据没有注释,迫切需要一种标准来描述和存贮 DNA 微阵列基因表达数据,同时建立公共的 DNA 微阵列数据仓库。目前,收集、存贮微阵列基因表达数据的最有影响的数据库和网站是 GEO 、 ArrayExpress 和 SMD 。

基因表达数据

时间: 2024-09-29 07:52:28

基因表达数据的相关文章

大数据:70多个网站让你免费获取大数据存储库

你是否需要大量的数据来检验你的APP性能?最简单的方法是从网上免费数据存储库下载数据样本.但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果.以下是70多家可以获得免费大数据存储库的网站. Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本.可以得到多种语言的数据.内容连同图片可以下载. Common crawl 建立并维护一个所有人都可以访问的开放的网络.这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它. Common cr

大数据存储库

国内:数据堂 你是否需要大量的数据来检验你的APP性能?最简单的方法是从网上免费数据存储库下载数据样本.但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果.以下是70多家可以获得免费大数据存储库的网站. Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本.可以得到多种语言的数据.内容连同图片可以下载. Common crawl 建立并维护一个所有人都可以访问的开放的网络.这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它. Co

实战--利用HierarchicalClustering 进行基因表达聚类分析

利用建立分级树对酵母基因表达数据进行聚类分析 一.原理 根据基因表达数据,得出距离矩阵 ↓ 最初,每个点都是一个集合 每次选取距离最小的两个集合,将他们合并,然后更新这个新集合与其它点的距离 新集合与别的集合距离的计算方法 ①两个集合之间的最短距离 ②两个集合所有点之间求距离求平均   → 把这个新集合加入距离矩阵中,原来的两个小集合就被替换掉 如此循环,直到剩下一个集合,那就建立了一棵树 在树的某一处横断,就可以得到6类 230个酵母基因表达数据 http://bioinformaticsal

机器学习相关数据库

KDD杯的中心,所有的数据,任务和结果. UCI机器学习和知识发现研究中使用的大型数据集KDD数据库存储库. UCI机器学习数据库. AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集. 生物测定数据,在 虚拟筛选,生物测定数据,对化学信息学,J.由阿曼达Schierz的,有21个生物测定数据集(有效/无效的化合物)可供下载. 加拿大开放数据,许多政府和地理空间数据集的试点项目. 因果关系工作平台的数据存储库. 数据源手册,指南公开数据,

最大信息系数(MIC)——Detecting Novel Associations in Large Data Sets

本文介绍了一种发现两个随机变量之间依赖关系强度的度量MIC(最大信息系数,类似于相关系数的作用).MIC具有以下性质和优势: MIC度量具有普适性.其不仅可以发现变量间的线性函数关系,还能发现非线性函数关系(指数的,周期的):不仅能发现函数关系,还能发现非函数关系(比如函数关系的叠加,或者有趣的图形模式). MIC度量具有均衡性.对于相同噪声水平的函数关系或者非函数关系,MIC度量具有近似的值.所以MIC度量不仅可以用来纵向比较同一相关关系的强度,还可以用来横向比较不同关系的强度. MIC度量计

《数据挖掘导论》 - 读书笔记(2) - 绪论 [2016-8-8]

第1章 绪论 数据挖掘是一种技术,将传统的数据分析方法和处理大量数据的复杂算法相结合.数据挖掘为探查和分析新的数据类型以及用新方法分析旧有数据类型提供了令人振奋的机会.我们概述数据挖掘,并列举所涵盖的关键主题. 介绍数据挖掘分析技术的一些应用: 商务:借助POS数据收集技术[条码扫描器.射频识别和智能卡技术],零售商可以在其商店的首映太收集顾客购物的最新数据.零售商可以利用这些信息,加上电子商务网站的日志.电购中心的顾客服务记录等其他的重要商务数据,更好地理解顾客的需求,做出明智的商务决策. 数

机器学习相关数据集

from:http://www.cppblog.com/cdy20/archive/2012/10/10/193134.html KDD杯的中心,所有的数据,任务和结果. UCI机器学习和知识发现研究中使用的大型数据集KDD数据库存储库. UCI机器学习数据库. AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集. 生物测定数据,在 虚拟筛选,生物测定数据,对化学信息学,J.由阿曼达Schierz的,有21个生物测定数据集(有效/无效的化

机器学习在生物信息领域可以做些什么?

用"machine learning genomics"在 biorxiv 中检索(限定一下Bioinformatics领域),查看最新文章的标题和摘要,看看机器学习都能做些什么实际的项目. 1.Machine-learning annotation of human splicing branchpoints(RNA剪切体位点预测) 使用机器学习来注释人类剪切体的分支点 需要有 RNA splicing 的知识,首先得搞懂 branchpoint.lariat formation的概

2014年哈工大计算机硕士研究生复试考试大纲

2014年哈工大计算机硕士研究生复试考试大纲 考试科目名称:计算机科学与技术     考试科目代码:[    ] 复试科目除C 语言外均为选择题,每题2分. (1)集合论与图论,占30分. (2)计算机体系结构,占30分. (3)编译原理,占30分 (4)数据库系统,占30分 (5)C语言程序设计,占50分 (6)软件工程,占30分 注1:生物信息技术专业学生不考计算机体系结构.编译原理,考生物信息学引论(30分).生物统计与基因组信息学(30分). 集合论与图论部分(30分) 一. 考试要求