全基因组关联分析(Genome-Wide Association Study,GWAS)流程


全基因组关联分析流程:


一、准备plink文件


1、准备PED文件


PED文件有六列,六列内容如下:


Family ID


Individual ID


Paternal ID


Maternal ID


Sex (1=male; 2=female; other=unknown)


Phenotype

PED文件是空格(空格或制表符)分隔的文件。


PED文件长这个样:




2、准备MAP文件


MAP文件有四列,四列内容如下:


chromosome (1-22, X, Y or 0 if unplaced)


rs# or snp identifier


Genetic distance (morgans)


Base-pair position (bp units)


MAP文件长这个样:



3、生成bed、fam、bim、文件


输入命令

plink --file mydata --out mydata --make-bed

注:plink指的是plink软件,如果软件安装在某个指定的路径的话,前面还要加上路径,比如安装在路径为/your/pathway/的文件夹下,则命令应该为“/your/pathway/plink --file mydata --out mydata --make-bed”


mydata指的是1和2生成的PED和MAP文件名,不需要写.ped和.map后缀


二、准备表型文件(Alternate phenotype files)


一般表型文件为txt格式,表型文件有三列,分别为:


Family ID


Individual ID


Phenotype


假如有多种表型,第一列和第二列还是Family ID、Individual ID,第三列及以后的每列都是表型,例如以下:


Family ID


Individual ID


Phenotype A


Phenotype B


Phenotype C


Phenotype D


Phenotype E


……


表型文件长这样:




三、准备协变量文件(Covariate files)


协变量文件同表型文件类似,第一列和第二列是Family ID、Individual ID,第三列及以后的每列都是协变量


Family ID


Individual ID


Covariate A


Covariate B


Covariate C


Covariate D


Covariate E


……


协变量文件长这个样(这里有三个协变量,分别为Sex,Age,temperature):




四、plink进行表型和基因型以及协变量的关联分析


命令如下:

plink --bfile mydata --linear --pheno pheno.txt --mpheno 1 --covar covar.txt --covar-number 1,2,3 --out mydata –noweb

生成的文件为mydata.assoc.linear


注:“mydata”mydata文件不需要后缀,“--mpheno 1”指的是表型文件的第三列(即第一个表型)


“--covar-number 1,2,3”指的是协变量文件的第三列、第四列、第五列(即第一个、第二个、第三个协变量)


“--linear”指的是用的连续型线性回归,如果表型为二项式(即0、1)类型,则用“--logistic”



五、画曼哈顿图


安装R语言的CpGassoc包,其中的manhattan(),即可画曼哈顿图,或者参照本文R语言画全基因组关联分析中的曼哈顿图(manhattan plot)

 
时间: 2024-10-10 06:47:27

全基因组关联分析(Genome-Wide Association Study,GWAS)流程的相关文章

一行命令学会全基因组关联分析(GWAS)的meta分析

为什么需要做meta分析 群体分层是GWAS研究中一个比较常见的假阳性来源. 也就是说,如果数据存在群体分层,却不加以控制,那么很容易得到一堆假阳性位点. 当群体出现分层时,常规手段就是将分层的群体独立分析,最后再做meta分析. 1.如何判断群体是否分层 先用plink计算PCA,具体方法详见链接:GWAS群体分层 (Population stratification):利用plink对基因型进行PCA 随后画出PC1和PC2在不同群体的散点图,观察群体之间是否明显分开,如果明显分开,说明群体

R语言画全基因组关联分析中的曼哈顿图(manhattan plot)

1.在linux中安装好R 2.准备好画曼哈顿图的R脚本即manhattan.r,manhattan.r内容如下: #!/usr/bin/Rscript #example : Rscript plot_manhatom.r XXX.assoc XXX.pdf argv <- commandArgs() #define the function to plot the manhatton and quantitle-quantitle plot plot_manhatton<-function(

全基因组重测序基础及高级分析知识汇总

全基因组重测序基础及高级分析知识汇总 oddxix 已关注 2018.09.20 17:04 字数 11355 阅读 212评论 0喜欢 6 转自:http://www.360doc.com/content/18/0208/11/19913717_728563847.shtml 全基因组重测序是通过对已有参考序列(Reference Sequence)的物种的不同个体进行基因组测序,并以此为基础进行个体或群体水平的遗传差异性分析.通过全基因组重测序,研究者可以找到大量的单核苷酸多态性位点(SNP

Genome-wide Complex Trait Analysis(GCTA)-全基因组复杂性状分析

GCTA(全基因组复杂性状分析)工具开发目的是针对复杂性状的全基因组关联分析,评估SNP解释的表型方差所占的比例(该网站地址:http://cnsgenomics.com/software/gcta/).目前GCTA工具可实现以下功能: 1 评估全基因组SNP的亲缘关系(遗传关系) 2 评估全基因组SNP的近交系数 3 评估所有的常染色体SNP对于变异的解释度 4 评估遗传方差与X-染色体的关联 5 检测遗传方差对X-染色体的剂量补偿效应 6 预测单个个体和单个SNP的全基因组加性遗传效应 7

Science重磅 | 新技术Slide-seq能以高空间分辨率测量全基因组的表达情况

原文地址:https://science.sciencemag.org/content/363/6434/1463.full Slide-seq: A scalable technology for measuring genome-wide expresssion at high spatial resolution 摘要 细胞在组织中的空间位置强烈影响者它们的功能,然而,目前缺乏可高通量且全基因组范围内在单细胞水平对基因表达进行准确捕获的技术.原文作者开发了Slide-seq技术,这是一种将

一个全基因组重测序分析实战

Original 2017-06-08 曾健明 生信技能树 这里选取的是 GATK best practice 是目前认可度最高的全基因组重测序分析流程,尤其适用于 人类研究. PS:其实本文应该属于直播我的基因组系列,有两个原因把它单独拿出来, 首先,直播我的基因组阅读量太低了,可能是大家觉得错过了前面的,后面的看起来没有必要,这里我可以肯定的告诉大家,这一讲是独立的,而且是全流程,你学好了这个,整个直播我的基因组就可以不用看了. 其次,最近有一些朋友写了一些GATK的教程,但是大多不合我意,

PacBio全基因组测序和组装

PacBio公司的业务范围也就5个(官网): Whole Genome Sequencing Targeted Sequencing Complex Populations RNA Sequencing Epigenetics 其中全基因组测序应该是PacBio的拿手好戏,因为它这么贵(貌似是二代的10倍),但它的核心优势就是长,还有无偏向性:这在科研上可就立马变成香饽饽了,现在用纯二代技术根本就发不了基因组的文章了,稍微高端点的分析都会用上三代的技术. Fully characterize g

关联分析简要介绍

关联分析 概念: 关联分析该方法是以长期重组后保留下来的基因(位点)间连锁不平衡(LD)为基础,在获得群体表型数据和基因型数据之后,采用统计方法检测遗传多态性和性状可遗传变异之间的关联,目标是寻找性状变异的基因组功能型变异(基因位点和标记位点) 关联分析是基于无亲缘关系的病例组和对照组在某一个遗传位点上会出现不同频率而设计的. 关联分析的基础----连锁不平衡 某一群体,不同基因座的的两个基因同时遗传的频率高于预期随机频率的现象. 当位于某一座位上的某个特定基因与另一个座位上的某个基因同时遗传的

2.关联分析

序言 你可能早早就听说过这个故事: 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售.但是这个奇怪的举措却使尿布和啤酒的销量双双增加了.这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道.沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些.沃尔玛数据仓库里集中了其各门店的详细原始交易数据.在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和