Annovar注释说明【转载自http://blog.csdn.net/u013816205/article/details/51262289】

ANNOVAR是一个perl编写的命令行工具,能在安装了perl解释器的多种操作系统上 执行。允许多种输入文件格式,包括最常被使用的VCF格式。输出文件也有多种格式,包括注释过的VCF文件、用tab或者逗号分隔的text文件。 ANNOVAR能快速注释遗传变异并预测其功能。类似的variants注释软件还有 VEP, snpEff, VAAST, AnnTools等等.

ANNOVAR支持三种不同形式的注释: gene-based, region-based 和filter-based.
这三种注释分别针对于每一个variant的不同方面:基于基因的注释(gene-based
annotation)揭示variant与已知基因直接的关系以及对其产生的功能性影响;基于区域的注释(region-based
annotation)揭示variant 与不同基因组特定段的关系,例如:它是否落在已知的保守基因组区域;基于过滤子的注释(
filter-based annotation
)则给出这个variant的一系列信息,如: population frequency in different populations
和various types of variant-deleteriousness prediction scores,
这些可被用来过滤掉一些公共的及 probably(大概,肯定的成分较大,是most
likely) nondeleterious variants.

(A) 用ANNOVAR注释人类基因组variants信息

(i)填写登记表,下载ANNOVAR软件(http://annovar.openbio informatics.org/), ‘annovar.latest.tar.gz’ file,解压文件

[html] view plain copy

  1. tar xvfz annovar.latest.tar.gz

关键:也可将 目录路径添加到操作系统的环境变量中去,这样就可以通过输出命令名直接运行 ANNOVAR脚本。

(ii)下载所有需要的注释信息库,对于基因注释的已经在下好的 ANNOVAR package中了。如果要进行其他注释,需要按以下命令下载数据库到 ‘humandb/’ 目录里:

[html] view plain copy

  1. perl annotate_variation.pl --downdb --buildver hg19 cytoBand humandb/
  2. perl annotate_variation.pl --downdb --webfrom annovar --buildver hg19 1000g2014oct humandb/
  3. perl annotate_variation.pl --downdb --webfrom annovar --buildver hg19 exac03 humandb/
  4. perl annotate_variation.pl --downdb --webfrom annovar --buildver hg19 ljb26_all humandb/
  5. perl annotate_variation.pl --downdb --webfrom annovar --buildver hg19 clinvar_20140929 humandb/
  6. perl annotate_variation.pl --downdb --webfrom annovar --buildver hg19 snp138 humandb/

这里下载的是几个通常用到的数据库

1、‘cytoBand’ 是每个细胞间band(cytogenetic band)的染色体坐标信息 ,

2、 ‘1000g2014oct’ for alternative allele frequency in the 1000 Genomes Project (version October 2014),

是2014年10版,1000基因组项目(和ExAV 外显子集合联合一样,是公开、开放的数据库)里面供选择的等位基因频率信息

3、‘exac03’for the variants reported in the Exome Aggregation Consortium (version 0.3),

是0.3版外显子集合联合中报道过的variants.

4、 ‘ljb26_all’ for various functional deleteriousness prediction scores from the dbNSFP database (version 2.6),

dbNSFP:
A Lightweight Database of Human NonsynonymousSNPs
and TheirFunctionalPredictions on
ResearchGate

5、 ‘clinvar_20140929’ for the variants reported in the ClinVar database (version 20140929)

ClinVar是美国国家生物技术信息中心(NCBI)于2012年11月宣布、2013年4月正式启动的公共、免费数据库。作为核心数据
库,ClinVar数据库整合了十多个不同类型数据库、通过标准的命名法来描述疾病,同时支持科研人员将数据下载到本地中,开展更为个性化的研究。在遗传
变异和临床表型方面,NCBI和不同的研究组已经建立了各种各样的数据库,数据信息相对比较分散,ClinVar数据库的目的在于整合这些分散的数据、将
变异、临床表型、实证数据以及功能注解与分析等四个方面的信息,通过专家评审,逐步形成一个标准的、可信的、稳定的遗传变异-临床表型相关的数据库。

6、‘snp138’ for the dbSNP database (version 138).

注意:1、第一个命令中不包含 ‘--webfrom annovar’ 选项, 因此是从the UCSC Genome Browser annotation database下载文件的;

2、 ‘--buildver hg19’ 选项是针对hg19这一版的基因组的;

3、运行上面命令后,在 ‘humandb/’ 目录下会多几个以 ‘hg19’为前缀的文件。

(iii)  用the ‘table_annovar.pl’ 来注释variants。允许在同一命令中用输出的特定顺序来对多个注释类型进行 自定义选择(custom selection)。

输入下列命令,用之前下载好的注释数据库来注释vcf格式文件中的variants

[html] view plain copy

  1. perl table_annovar.pl <variant.vcf> humandb/ --outfile final --buildver hg19 --protocol refGene,cytoBand,1000g2014oct_eur,1000g2014oct_afr,exac03,ljb26_all,clinvar_20140929,snp138 --operation g,r,f,f,f,f,f,f --vcfinput

<variant.vcf> 参考(refers to )输入的vcf文件的名称

‘--protocol’ 选项后跟注释来源数据库的准确名称

‘--operation’ 选项后跟注释的类型: ‘g’ 表示基于基因的注释(gene-based annotation)、‘r’
表示基于区域的注释(region-based annotation) 、‘f’ 表示基于筛选子的注释( filter-based
annotation).

‘--outfile’ 选项是指定输出文件的前缀

关键步骤( CR ITICAL STEP): 1、确保注释数据库的名称正确并且是按你想要在输出文件中显示的顺序排列的;

2、确保 ‘--operation’指定的注释类型顺序和‘--protocol’指定的数据库顺序是一致的;

3、确保每个protocal名称或注释类型之间只有一个逗号,并且没有空白。

(iv)  ‘final.hg19_multianno.vcf’.输出文件应该是以个VCF格式文件,INFO那列以 ‘key=value’
形式、 ‘;’分割成几个小区域. eg:‘Func.refGene=intronic;Gene.refGene=SAMD11’.
 每个键值对代表一个ANNOVAR注释信息。输出文件可以用为VCF格式文件设计的基因分析软件进一步处理。

(v)  ‘final.hg19_multianno.txt’. 每一行代表一个variant 。用tab分隔,多余列为加上的注释信息,顺序按  ‘--protocol’ 选项所设定的注释类型argument。

(B)  用 ANNOVAR 对非人类的物种进行基于基因的注释(Gene-based annotation)

 CR ITICAL STEP关键: 以注释大猩猩基因组(with the genome build identifier as panTro2.)为例。ANNOVAR的安装同A(i).

对于gene-based annotation, ANNOVAR需要genePred format的gene definition file和 FASTA format 的transcript sequence file;

(i).  输入以下命令,下载大猩猩基因组定义文件( gene definition file)及序列的 FASTA 文件到‘chimpdb/’目录

[html] view plain copy

  1. perl annotate_variation.pl --downdb --buildver panTro2 gene chimpdb/
  2. perl annotate_variation.pl --downdb --buildver panTro2 seq chimpdb/panTro2_seq

(ii) 注意ANNOVAR数据库中只包含人类基因组已建好的转录本,不包含其他物种的。故需要按以下命令自行建立对应物种的transcript FASTA file

[html] view plain copy

  1. perl retrieve_seq_from_fasta.pl chimpdb/panTro2_refGene.txt --seqdir chimpdb/panTro2_seq --format refGene --outfile chimpdb/panTro2_refGeneMrna.fa

1、 ‘--seqdir’说明下载的序列文件的所在目录;

2、‘--format’ 说明 gene definition file的格式.;

3、 ‘--outfile’ 指定输出mRNA 序列文件的名称;

关键:跟在‘--outfile’后的输出文件名应该是 ‘<buildver>_refGeneMrna.fa’这种形式,否则下一步找不到正确的 transcript FASTA sequence file.

(iii) 注释variants,with the chimpanzee gene annotation:

[html] view plain copy

  1. perl table_annovar.pl <variant.vcf> chimpdb/ --vcfinput --outfile final --buildver panTro2 --protocol refGene --operation g

Here <variant.vcf> is the input VCF file, ‘chimpdb/’ is the directory of the downloaded data

(iv) 输出结果文件核对。 ‘final.panTro2_multianno.txt’ file. The gene annotation for chimpanzee is added after the input variants.

关键:如果没有现成可用的gene definition file ,可以将基因预测工具产生的 GFF3 or GTF 文件转换成 gene definition file.

以构建拟南芥(Arabidopsis thaliana)的注释所需文件为例

#1. 在http://plants.ensembl.org/info/website/ftp/index.html 下载Arabidopsis
的 GTF file 和 genome FASTA file,到  ‘atdb’目录下.

[html] view plain copy

  1. mkdir atdb                                                                                                                                                cd atdb                                                                                                                                                   wget ftp://ftp.ensemblgenomes.org/pub/release-27/plants/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.27.dna.genome.fa.gz

[html] view plain copy

  1. wget ftp://ftp.ensemblgenomes.org/pub/release-27/plants/gtf/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.27.gtf.gz

#2.
解压文件

[html] view plain copy

  1. gunzip Arabidopsis_thaliana.TAIR10.27.dna.genome.fa.gz                                                                                                    gunzip Arabidopsis_thaliana.TAIR10.27.gtf.gz

#3、下载gff3ToGenePred’ 或gtfToGenePred 工具(http://hgdown load.soe.ucsc.edu/admin/exe/Linux.x86_64/),推荐使用GTF格式,因为有些GFF3格式文件转换可能不正确

#4. 用 gtfToGenePred 工具将 GTF file 转换 GenePred file:

[html] view plain copy

  1. gtfToGenePred -genePredExt Arabidopsis_thaliana.TAIR10.27.gtf AT_refGene.txt

#5. 用retrieve_seq_from_fasta.pl生成 transcript
FASTA file

[html] view plain copy

  1. perl ../retrieve_seq_from_fasta.pl --format refGene --seqfile Arabidopsis_thaliana.TAIR10.27.dna.genome.fa AT_refGene.txt AT_refGeneMrna.fa

#After this step, the annotation database files needed for gene-based
annotation are ready. Now you can annotate a given VCF file using the
procedure starting from B(iii). Please note that the ‘--buildver’
argument should be set to ‘AT’.

参考http://annovar.openbioinformatics.org/en/latest/user-guide/gene/
for more details.bases and other arguments are the same as in the human
genome annotation.

时间: 2024-08-28 22:23:16

Annovar注释说明【转载自http://blog.csdn.net/u013816205/article/details/51262289】的相关文章

推荐一些C#相关的网站、资源和书籍 (转载自http://blog.csdn.net/chinacsharper/article/details/17514923)

一.网站 1.http://msdn.microsoft.com/zh-CN/ 微软的官方网站,C#程序员必去的地方.那里有API开发文档,还有各种代码.资源下载. 2.http://social.msdn.microsoft.com/Forums/zh-CN/home 微软msdn论坛.定位于微软技术的传播和技术问题的解决,是学习微软技术的好去处. 3.http://www.codeproject.com/ 国外著名的社区网站,面向世界的程序员.有很多不错的程序都可以从那里下载到. 4.htt

Oracle RAC 全局等待事件 gc current block busy 和 gc cr multi block request 说明--转载(http://blog.csdn.net/tianlesoftware/article/details/7777511)

一.RAC 全局等待事件说明 在RAC环境中,和全局调整缓存相关的最常见的等待事件是global cache cr request,global cache busy和equeue. 当一个进程访问需要一个或者多个块时,Oracle会首先检查自己的Cache是否存在该块,如果发现没有,就会先通过global cache赋予这些块共享访问的权限,然后再访问.假如,通过global cache发现这些块已经在另一个实例的Cache里面,那么这些块就会通过Cache Fusion,在节点之间直接传递,

分享一篇文章C语言字节对齐问题(适用于C++)转载至http://blog.csdn.net/21aspnet/article/details/6729724

文章最后本人做了一幅图,一看就明白了,这个问题网上讲的不少,但是都没有把问题说透. 一.概念    对齐跟数据在内存中的位置有关.如果一个变量的内存地址正好位于它长度的整数倍,他就被称做自然对齐.比如在32位cpu下,假设一个整型变量的地址为0x00000004,那它就是自然对齐的.   二.为什么要字节对齐   需要字节对齐的根本原因在于CPU访问数据的效率问题.假设上面整型变量的地址不是自然对齐,比如为0x00000002,则CPU如果取它的值的话需要访问两次内存,第一次取从0x000000

C++ 运算符的重载(转载自http://blog.csdn.net/insistgogo/article/details/6626952)

(转载自http://blog.csdn.net/insistgogo/article/details/6626952) 什么是运算符的重载? 运算符与类结合,产生新的含义. 为什么要引入运算符重载? 作用:为了实现类的多态性(多态是指一个函数名有多种含义) 怎么实现运算符的重载? 方式:类的成员函数 或 友元函数(类外的普通函数) 规则:不能重载的运算符有 .  和 .* 和 ?: 和 ::  和 sizeof 友元函数和成员函数的使用场合:一般情况下,建议一元运算符使用成员函数,二元运算符使

xcode5.1.1安装iOS6.1模拟器 -----转载自http://blog.csdn.net/forestml2008/article/details/21714259

Xcode5.1默认不支持iOS5版本的模拟器开发调试,在OS X Mavericks(10.9.x)下默认只能支持iOS6.1及以上版本的模拟器,在OS X Mountain Lion(10.8.x)下默认只能支持iOS6.0及以上版本的模拟器进行开发和调试,在此条件之下的版本只能使用硬件设备进行开发调试.虽然现在低版本的iOS设备越来越少了,但是有时客户的需求可能会要求我们一定要兼容iOS5(或更低版本)及以上版本,如果我们手头找不到低版本硬件设备用于调试或者完全使用硬件设备而没有对应的模拟

matlab 降维工具 转载【https://blog.csdn.net/tarim/article/details/51253536】

降维工具箱drtool 这个工具箱的主页如下,现在的最新版本是2013.3.21更新,版本v0.8.1b http://homepage.tudelft.nl/19j49/Matlab_Toolbox_for_Dimensionality_Reduction.html 这里有两个这个工具箱的简单介绍: [Matlab]数据降维工具箱drtoolbox http://blog.csdn.net/xiaowei_cqu/article/details/7515077 [Dimensionality

Win32消息循环机制等【转载】http://blog.csdn.net/u013777351/article/details/49522219

Dos的过程驱动与Windows的事件驱动 在讲本程序的消息循环之前,我想先谈一下Dos与Windows驱动机制的区别: DOS程序主要使用顺序的,过程驱动的程序设计方法.顺序的,过程驱动的程序有一个明显的开始,明显的过程及一个明显的结束,因此程序能直接控制程序事件或过程的顺序.虽然在顺序的过程驱动的程序中也有很多处理异常的方法,但这样的异常处理也仍然是顺序的,过程驱动的结构. 而Windows的驱动方式是事件驱动,就是不由事件的顺序来控制,而是由事件的发生来控制,所有的事件是无序的,所为一个程

Linux下socket编程(转载自http://blog.csdn.net/hguisu/article/details/7445768/)

Linux的SOCKET编程详解 1. 网络中进程之间如何通信 进 程通信的概念最初来源于单机系统.由于每个进程都在自己的地址范围内运行,为保证两个相互通信的进 程之间既互不干扰又协调一致工作,操作系统为进程通信提供了相应设施,如 UNIX BSD有:管道(pipe).命名管道(named pipe)软中断信号(signal) UNIX system V有:消息(message).共享存储区(shared memory)和信号量(semaphore)等. 他们都仅限于用在本机进程之间通信.网间进

SSM框架——详细整合教程(Spring+SpringMVC+MyBatis)转载(http://blog.csdn.net/zhshulin/article/details/23912615)

这两天需要用到MyBatis的代码自动生成的功能,由于MyBatis属于一种半自动的ORM框架,所以主要的工作就是配置Mapping映射文件,但是由于手写映射文件很容易出错,所以可利用MyBatis生成器自动生成实体类.DAO接口和Mapping映射文件.这样可以省去很多的功夫,将生成的代码copy到项目工程中即可. 使用自动生成有很多方式,可以在eclipse中安装插件,但是以下将要介绍的这种方式我认为很轻松,最简单,不需要装插件,只需要下几个jar包即可,把它们放在一个目录下面. 生成代码需