GWAS

遗传流行病学上,全基因组关联研究(Genome Wide Association Studies,GWAS)是一种检测特定物种中不同个体间的全部或大部分基因,从而了解不同个体间的基因变化有多大的一种方法。不同的变化带来不同的性状,如各种疾病的不同。

这些研究通常比较两组参与者的DNA:有疾病的人(病例)和相同条件的无该疾病的人(对照)。每个人都提供些作为样本的细胞,如从口腔内侧擦下的表皮细胞,可以从这些细胞中提取DNA,并涂布在基因芯片上,该芯片上可以读取上百万个DNA序列。这些芯片被读入计算机,在那里通过生物信息学技术对其进行分析,而不是阅读的全部DNA序列,这些系统通常读的是各个SNP,这些SNP便是成组的DNA变异(单倍型)的标记。

如果在患者中某基因型的变异很频繁,那么就说该变异与该疾病“相关”。相关的遗传变异所在的人类基因组区域被视为标示点,基因组的该区域可能是致病原因的所在。有两种方法用来寻找疾病相关的突变:假说驱动和非假设驱动的方法。假设驱动的方法为一开始假设一个特殊的基因可能与某种疾病有关,并试图找出关联。非假设驱动的研究用蛮力的方法来扫描整个基因组,看哪些基因与该病有关联。GWAS一般采用非假说驱动。

令人惊讶的是,与疾病相关的SNP变异大多不是在编码蛋白质的DNA区域。相反,他们通常位于染色体上编码基因间的大型非编码区域上,或者位于编码基因的内含子上,该内含子通常在蛋白质的表达过程中被剪切掉。这些是有控制其他基因能力的可能的DNA序列。但通常,他们的蛋白质功能是不知道的。

GWAS为人们打开了一扇通往研究复杂疾病的大门,将在患者全基因组范围内检测出的SNP位点与对照组进行比较,找出所有的变异等位基因频率,从而避免了像候选基因策略一样需要预先假设致病基因。同时,GWAS研究让我们找到了许多从前未曾发现的基因以及染色体区域,为复杂疾病的发病机制提供了更多的线索。

分析原理

基于无关个体的关联分析

病例对照研究设计:主要用来研究质量性状,即是否患病。

基于随机人群的关联分析:主要用来研究数量性状。

基于家系的关联研究

在研究基于家系的样本时,采用传递不平衡检验(TDT)分析遗传标记与疾病数量表型和质量表型的关联可以排除人群混杂对于关联分析的影响,但其在发现阳性关联的检验方面不如相同样本量的病例对照研究有效。

FBAT是运用十分广泛的基于家系的统计分析工具,能够分析质量性状及数量性状、调整混杂因素、分析基因-环境相互作用、分析单倍型、调整多重比较等。

单倍型分析研究的必要性:多位点单倍型分析能够发现单倍型-疾病表型之间的关联,这种关联要明显强于单个位点-疾病表型之间的关联。

单倍型分析能够发现非TagSNPs与疾病之间的因果关系。

表型选择

选择遗传度较高的疾病或者表型进行检测能够提升遗传学关联研究的把握度。

由于有时病症很难测量或是多种病症混杂在一起造成疾病状态的分辨困难,研究疾病相关的数量表型要优于研究疾病状态。

由于测量数量表型的难易程度和该表型的遗传度相关,通过控制测量误差、噪音和总体变异能够加强数量表型变异与遗传因素的比例关系,因此一般选择测量简单准确并且遗传度相对较高的数量表型。

设计类型

单个阶段研究

单个阶段研究即在有了足够大的病例和对照样本数量后,一次性地对其所有选中的SNP进行基因分型,然后分析每个SNP与基本的关联,计算其关联强度和OR值。由于样本数量需求量大,单阶段研究基因分型一般耗资巨大。

两个或多个阶段研究

采用小样本数量进行第一阶段的全基因组范围SNP基因分型,统计分析过后一般能够筛选少量阳性SNPs,之后的第二阶段再在更大数量的样本中对这些阳性SNPs进行基因分型,最后整合两个阶段的结果进行分析。研究证明DNA pool和微阵列试剂盒均能够降低基因分型的工作量,能够进行低成本高效益的SNP筛选。

多重假设

Bonferroni校正法

递减调整法(Step-Down Adjustment)

模拟运算法(Permutation)

控制错误发现率法(False discovery rate)

GWAS

时间: 2024-11-07 13:56:55

GWAS的相关文章

GWAS Simulation

comvert hmp to ped1, ped2, map fileSB1.ped, SB2.ped, SB.map 1, choose 20 markers for 30 times(WD: /share/bioinfo/miaochenyong/GWAS/SB/20Markers-1To5Effect)python ../choose_multi-markers.py SB.imputed.916.filtered.hmp 20 30 marker pheno 2, combine phe

GWAS 分析常用文件格式总结

一, Hapmap Format 前11列是SNP的attributes, 其余列是 nucleotides observed at each SNP for each individuals.tab 分隔. 第一行是header 每一行代表一个SNP. Genotypic data 可以是double bit 也可以是single bit(IUPAC code). missing data 用NN for double bit 或者N for single bit. 二, Numeric fo

【GWAS文献】基于GWAS与群体进化分析挖掘大豆相关基因

Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean 中文名:基于GWAS与群体进化分析挖掘大豆驯化及改良相关基因 发表期刊杂志:nature biotechnology影响因子:41.514发表时间:2015年2月发表单位:中科院遗传与发育生物学研究所 一.      研究取材62株野生大豆.130株地方种和110个

Google云平台使用方法 | Hail | GWAS

参考: Hail Hail - Tutorial  windows也可以安装:Spark在Windows下的环境搭建 spark-2.2.0-bin-hadoop2.7 - Hail依赖的平台,并行处理 google cloud platform - 云平台 Broad's data cluster set-up tool 对Google cloud SDK的一个简单的wrap,方便操作. cloudtools is a small collection of command line tool

GWAS基因芯片数据预处理:质量控制(quality control)

一.数据为什么要做质量控制 比起表观学研究,GWAS研究很少有引起偏差的来源,一般来说,一个人的基因型终其一生几乎不会改变的,因此很少存在同时影响表型又影响基因型的变异.但即便这样,我们在做GWAS时也要去除一些可能引起偏差的因素. 这种因素主要有:群体结构.个体间存在血缘关系.技术性操作. 二.怎么看数据是否需要进行质量控制 下面分别为样本和SNP位点在数据中的直方图,当数据不在绝大多数的分布当中时,我们会倾向于认为那是测序.人工操作等其他方面造成的误差,而非该个体的真实情况,因此是需要将这些

一行命令学会全基因组关联分析(GWAS)的meta分析

为什么需要做meta分析 群体分层是GWAS研究中一个比较常见的假阳性来源. 也就是说,如果数据存在群体分层,却不加以控制,那么很容易得到一堆假阳性位点. 当群体出现分层时,常规手段就是将分层的群体独立分析,最后再做meta分析. 1.如何判断群体是否分层 先用plink计算PCA,具体方法详见链接:GWAS群体分层 (Population stratification):利用plink对基因型进行PCA 随后画出PC1和PC2在不同群体的散点图,观察群体之间是否明显分开,如果明显分开,说明群体

GWAS Catalog数据库简介

GWAS Catalog The NHGRI-EBI Catalog of published genome-wide association studies EBI负责维护的一个收集已发表的GWAS研究的数据库 Catalog stats Last data release on 2019-09-24 4220 publications 107486 SNPs 157336 associations Genome assembly GRCh38.p12 dbSNP Build 151 Ense

全基因组关联分析(Genome-Wide Association Study,GWAS)流程

全基因组关联分析流程: 一.准备plink文件 1.准备PED文件 PED文件有六列,六列内容如下: Family ID Individual ID Paternal ID Maternal ID Sex (1=male; 2=female; other=unknown) Phenotype PED文件是空格(空格或制表符)分隔的文件. PED文件长这个样: 2.准备MAP文件 MAP文件有四列,四列内容如下: chromosome (1-22, X, Y or 0 if unplaced) r

人工智能预测精神病

认知,精神疾病和人工智能算法研究 精神疾病从严格意义上讲是由于大脑功能失常引起的疾病.引起大脑功能失常的原因有很多,如基因突变.缺失或重叠.大脑外伤等,都可引起多方面的大脑功能紊乱,导致患者在感知.思维.情感和行为等方面出现异常,产生多种精神疾病,如精神分裂症.抑郁症.情感性精神障碍.器质性精神障碍等. 精神疾病基因组揭示的奥秘 基因突变和缺失一直被视为精神疾病的重要生物学原因.成立于2007年的精神疾病基因组协会(PGC)决定对人类主要精神疾病进行大规模基因采样调查和全基因组分析,以便全面地筛