ANNOVAR

第一步：下载Annovar

上Annovar官网下载（http://annovar.openbioinformatics.org/en/latest/user-guide/download/），现在要邮件注册后才能下载。邮件注册后会给你最新版软件下载地址，

下载后文件为annovar.latest.tar.gz。

第二步：安装Annovar

linux系统下用该命令解压

tar zxvf annovar.latest.tar.gz

解压后生成annovar文件夹，里面有6个perl脚本程序和两个文件夹，其中一个是example文件夹，另一个是已经建立好的hg19或者GRCh37的humandb的数据库文件夹，可用于人的注释。

第三步：使用Annovar

人的注释方法，官网介绍的很详细，但仅仅有人的数据库肯定是满足不了大家的需求。

下面以小鼠mm9为例子，介绍如何自己构建一个mousedb数据库。

先在annovar文件夹里面创建mousedb文件夹（名字可自取），命令

mkdir mousedb

然后使用annovar文件夹下的perl程序annotate_variation.pl

perl annotate_variation.pl -downdb -buildver mm9 -webfrom annovar refGene mousedb/

这个命令能实现的是帮忙下载mm9的refGene的文件，保存在mousedb文件下，自动解压后文件名为mm9_refGene.txt。

然后程序会提示使用以下两个命令继续建库

annotate_variation.pl --buildver mm9 --downdb seq mousedb/mm9_seq

retrieve_seq_from_fasta.pl mousedb/mm9_refGene.txt -seqdir mousedb/mm9_seq -format refGene -outfile mousedb/mm9_refGeneMrna.fa

同样在annovar文件下运行这两个perl程序

perl annotate_variation.pl --buildver mm9 --downdb seq mousedb/mm9_seq

通过这个命令，会在mousedb下创建文件夹mm9_seq，并且在里面下载mm9的基因组文件chromFa.tar.gz，perl程序帮忙解压后是按染色体分开的fasta格式文件。

然后继续运行perl程序

perl retrieve_seq_from_fasta.pl mousedb/mm9_refGene.txt -seqdir mousedb/mm9_seq -format refGene -outfile mousedb/mm9_refGeneMrna.fa

该程序会会在mousedb下创建mm9_refGeneMrna.fa文件，是根据mm9_refGene.txt的信息，重新构建成的老鼠转录表达基因fasta格式文件。

这样老鼠mm9 annovar gene based注释库就弄好了

以文本文件test.input为案例进行测试

生成test.input的txt格式文件，根据annovar官网介绍，只要这最基本的五列信息就可以进行注释，五列分别染色体名称，染色体上的位置，染色体上的位置，参考基因组碱基，变异碱基。

1    19215217       19215217       T    C
1    33803084       33803084       A    G
1    33803198       33803198       A    G
1    37499237       37499237       T    C
1    37499238       37499238       T    C
1    37500003       37500003       T    C
1    43826936       43826936       T    C
1    58853960       58853960       A    G
1    58854487       58854487       A    G
1    60436865       60436865       T    C

然后使用perl程序进行gene based的注释

perl annotate_variation.pl -out test -build mm9 test.input mousedb

注释后会生成test.variant_function，test.exonic_variant_function和test.log文件，前两个即为所需要的文件。用这个例子输出test.exonic_variant_function文件输出为空

文件，因为这些位点没有在exonic区域的，所以没有结果。如果有位点在exonic中，则在test.exonic_variant_function中会更具体的描述为同义突变还是非同义突变

intronic       Tfap2b  1    19215217       19215217       T    C
UTR3 Bag2 1    33803084       33803084       A    G
UTR3 Bag2 1    33803198       33803198       A    G
UTR3 Mgat4a  1    37499237       37499237       T    C
UTR3 Mgat4a  1    37499238       37499238       T    C
UTR3 Mgat4a  1    37500003       37500003       T    C
intronic       Uxs1 1    43826936       43826936       T    C
intronic       Casp8 1    58853960       58853960       A    G
intronic       Casp8 1    58854487       58854487       A    G
intronic       Cyp20a1 1    60436865       60436865       T    C

Annovar 软件注释流程介绍
http://www.omicshare.com/forum/thread-1782-1-180.html
(出处: OmicShare Forum)

原文地址：https://www.cnblogs.com/liucong12345/p/9385418.html

时间： 2024-11-01 10:22:31

ANNOVAR的相关文章

unmapbam to fastq和自己的annovar格式~~~

#!perl use warnings; use strict; die "perl $0 <unmaped.bam> <outprefix>\n" if @ARGV != 2; my %hash; open BAM, "samtools view $ARGV[0] |" or die $!; while(<BAM>) { chomp; my @tmp = split; push @{$hash{$tmp[0]}}, "

Annovar注释说明【转载自http://blog.csdn.net/u013816205/article/details/51262289】

ANNOVAR是一个perl编写的命令行工具,能在安装了perl解释器的多种操作系统上执行.允许多种输入文件格式,包括最常被使用的VCF格式.输出文件也有多种格式,包括注释过的VCF文件.用tab或者逗号分隔的text文件. ANNOVAR能快速注释遗传变异并预测其功能.类似的variants注释软件还有 VEP, snpEff, VAAST, AnnTools等等. ANNOVAR支持三种不同形式的注释: gene-based, region-based 和filter-based. 这三种

annovar对人类基因组和非人类基因组variants注释流程

部分翻译:Hui Y, Kai W. Genomic variant annotation and prioritization with ANNOVAR and wANNOVAR[J]. Nature Protocols, 2015, 10(10). 此文只是用于作者和所有初接触annovar软件者分享交流.更深入学习请仔细阅读全文.转载请注明. ANNOVAR是一个perl编写的命令行工具,能在安装了perl解释器得多种操作系统上执行.允许多种输入文件格式,包括最常被使用的VCF格式.输出文

ANNOVAR工具

annovar软件组件介绍之一——table_annovar.pl(译) 对于初学者,使用ANNOVAr的最简单方法是使用table_annovar.pl程序,该程序采用输入突变文件(例如,VCF文件)并生成带有多个制表符分隔的输出文件,每个列表示一组注释.另外,如果输入是VCF文件,则程序还生成新的VCF输出文件,其中INFO字段填充有注释信息. 假设我们已经下载了ANNOVAR包并使用tar zxvf annovar.latest.tar.gz解压缩包.您将看到bin/目录包含有多个.pl后

annovar积累

20170222

制作annovar注释依赖的cosmic数据库

1. 文件准备 COSMIC相关文件下载 COSMIC更新了下载规则.以前直接用ftp可以下载,现在麻烦一些,要根据它们提供的指导规则下载. 以GRCh37/cosmic/v90/VCF/CosmicNonCodingVariants.vcf.gz的下载为例: 获得授权字符 echo "[email protected]:mycosmicpassword" | base64 ZW1haWxAZXhhbXBsZS5jb206bXljb3NtaWNwYXNzd29yZAo= 获得下载链接

生信常用网站

一在线分析 GeneMania Phenolyzer NCBI http://www.ncbi.nlm.nih.gov EBI http://www.ebi.ac.uk/ UCSC https://genome.ucsc.edu/index.html Ensemble http://asia.ensembl.org/index.html 二数据库 HGMD ExAC ACMG 有害性分类 ClinVar 临床数据库 dbSNP https://www.ncbi.nlm.nih.gov/pro

【GWAS文献】基于GWAS与群体进化分析挖掘大豆相关基因

Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean 中文名:基于GWAS与群体进化分析挖掘大豆驯化及改良相关基因发表期刊杂志:nature biotechnology影响因子:41.514发表时间:2015年2月发表单位:中科院遗传与发育生物学研究所一. 研究取材62株野生大豆.130株地方种和110个

IDP-ASE(haplotyping and quantifying allele-specific expression at the gene and gene isoform level by hybrid sequencing)VCF File GPD File in Extended Format.

学习来源地址: 1,https://github.com/bdeonovic/IDPASE.jl 2, https://www.healthcare.uiowa.edu/labs/au/ Prepare necessary input files (http://www.cnblogs.com/renping/p/7488170.html)(http://www.cnblogs.com/renping/p/7391028.html ) VCF File GPD File in Extended