ANNOVAR

第一步:下载Annovar

上Annovar官网下载(http://annovar.openbioinformatics.org/en/latest/user-guide/download/),现在要邮件注册后才能下载。邮件注册后会给你最新版软件下载地址,

下载后文件为annovar.latest.tar.gz。

第二步:安装Annovar

linux系统下用该命令解压

tar zxvf annovar.latest.tar.gz

解压后生成annovar文件夹,里面有6个perl脚本程序和两个文件夹,其中一个是example文件夹,另一个是已经建立好的hg19或者GRCh37的humandb的数据库文件夹,可用于人的注释。

第三步:使用Annovar

人的注释方法,官网介绍的很详细,但仅仅有人的数据库肯定是满足不了大家的需求。

下面以小鼠mm9为例子,介绍如何自己构建一个mousedb数据库。

先在annovar文件夹里面创建mousedb文件夹(名字可自取),命令

mkdir mousedb

然后使用annovar文件夹下的perl程序annotate_variation.pl

perl annotate_variation.pl -downdb -buildver mm9 -webfrom annovar refGene mousedb/

这个命令能实现的是帮忙下载mm9的refGene的文件,保存在mousedb文件下,自动解压后文件名为mm9_refGene.txt。

然后程序会提示使用以下两个命令继续建库

annotate_variation.pl --buildver mm9 --downdb seq mousedb/mm9_seq

retrieve_seq_from_fasta.pl mousedb/mm9_refGene.txt -seqdir mousedb/mm9_seq -format refGene -outfile mousedb/mm9_refGeneMrna.fa

同样在annovar文件下运行这两个perl程序

perl annotate_variation.pl --buildver mm9 --downdb seq mousedb/mm9_seq

通过这个命令,会在mousedb下创建文件夹mm9_seq,并且在里面下载mm9的基因组文件chromFa.tar.gz,perl程序帮忙解压后是按染色体分开的fasta格式文件。

然后继续运行perl程序

perl retrieve_seq_from_fasta.pl mousedb/mm9_refGene.txt -seqdir mousedb/mm9_seq -format refGene -outfile mousedb/mm9_refGeneMrna.fa

该程序会会在mousedb下创建mm9_refGeneMrna.fa文件,是根据mm9_refGene.txt的信息,重新构建成的老鼠转录表达基因fasta格式文件。

这样老鼠mm9 annovar gene based注释库就弄好了

以文本文件test.input为案例进行测试

生成test.input的txt格式文件,根据annovar官网介绍,只要这最基本的五列信息就可以进行注释,五列分别染色体名称,染色体上的位置,染色体上的位置,参考基因组碱基,变异碱基。

1       19215217        19215217        T       C
1       33803084        33803084        A       G
1       33803198        33803198        A       G
1       37499237        37499237        T       C
1       37499238        37499238        T       C
1       37500003        37500003        T       C
1       43826936        43826936        T       C
1       58853960        58853960        A       G
1       58854487        58854487        A       G
1       60436865        60436865        T       C

然后使用perl程序进行gene based的注释

perl annotate_variation.pl -out test -build mm9 test.input mousedb

注释后会生成test.variant_function,test.exonic_variant_function和test.log文件,前两个即为所需要的文件。用这个例子输出test.exonic_variant_function文件输出为空

文件,因为这些位点没有在exonic区域的,所以没有结果。如果有位点在exonic中,则在test.exonic_variant_function中会更具体的描述为同义突变还是非同义突变

intronic        Tfap2b  1       19215217        19215217        T       C
UTR3            Bag2    1       33803084        33803084        A       G
UTR3            Bag2    1       33803198        33803198        A       G
UTR3           Mgat4a  1       37499237        37499237        T       C
UTR3           Mgat4a  1       37499238        37499238        T       C
UTR3           Mgat4a  1       37500003        37500003        T       C
intronic        Uxs1    1       43826936        43826936        T       C
intronic        Casp8   1       58853960        58853960        A       G
intronic        Casp8   1       58854487        58854487        A       G
intronic        Cyp20a1 1       60436865        60436865        T       C

Annovar 软件注释流程介绍
http://www.omicshare.com/forum/thread-1782-1-180.html
(出处: OmicShare Forum)

原文地址:https://www.cnblogs.com/liucong12345/p/9385418.html

时间: 2024-11-01 10:22:31

ANNOVAR的相关文章

unmapbam to fastq和自己的annovar格式~~~

#!perl use warnings; use strict; die "perl $0 <unmaped.bam> <outprefix>\n" if @ARGV != 2; my %hash; open BAM, "samtools view $ARGV[0] |" or die $!; while(<BAM>) { chomp; my @tmp = split; push @{$hash{$tmp[0]}}, "

Annovar注释说明【转载自http://blog.csdn.net/u013816205/article/details/51262289】

ANNOVAR是一个perl编写的命令行工具,能在安装了perl解释器的多种操作系统上 执行.允许多种输入文件格式,包括最常被使用的VCF格式.输出文件也有多种格式,包括注释过的VCF文件.用tab或者逗号分隔的text文件. ANNOVAR能快速注释遗传变异并预测其功能.类似的variants注释软件还有 VEP, snpEff, VAAST, AnnTools等等. ANNOVAR支持三种不同形式的注释: gene-based, region-based 和filter-based. 这三种

annovar对人类基因组和非人类基因组variants注释流程

部分翻译:Hui Y, Kai W. Genomic variant annotation and prioritization with ANNOVAR and wANNOVAR[J]. Nature Protocols, 2015, 10(10). 此文只是用于作者和所有初接触annovar软件者分享交流.更深入学习请仔细阅读全文.转载请注明. ANNOVAR是一个perl编写的命令行工具,能在安装了perl解释器得多种操作系统上执行.允许多种输入文件格式,包括最常被使用的VCF格式.输出文

ANNOVAR工具

annovar软件组件介绍之一——table_annovar.pl(译) 对于初学者,使用ANNOVAr的最简单方法是使用table_annovar.pl程序,该程序采用输入突变文件(例如,VCF文件)并生成带有多个制表符分隔的输出文件,每个列表示一组注释.另外,如果输入是VCF文件,则程序还生成新的VCF输出文件,其中INFO字段填充有注释信息. 假设我们已经下载了ANNOVAR包并使用tar zxvf annovar.latest.tar.gz解压缩包.您将看到bin/目录包含有多个.pl后

annovar积累

20170222

制作annovar注释依赖的cosmic数据库

1. 文件准备 COSMIC相关文件下载 COSMIC更新了下载规则.以前直接用ftp可以下载,现在麻烦一些,要根据它们提供的指导规则下载. 以GRCh37/cosmic/v90/VCF/CosmicNonCodingVariants.vcf.gz的下载为例: 获得授权字符 echo "[email protected]:mycosmicpassword" | base64 ZW1haWxAZXhhbXBsZS5jb206bXljb3NtaWNwYXNzd29yZAo= 获得下载链接

生信常用网站

一 在线分析 GeneMania Phenolyzer NCBI http://www.ncbi.nlm.nih.gov EBI http://www.ebi.ac.uk/ UCSC https://genome.ucsc.edu/index.html Ensemble http://asia.ensembl.org/index.html 二 数据库 HGMD ExAC ACMG 有害性分类 ClinVar 临床数据库 dbSNP https://www.ncbi.nlm.nih.gov/pro

【GWAS文献】基于GWAS与群体进化分析挖掘大豆相关基因

Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean 中文名:基于GWAS与群体进化分析挖掘大豆驯化及改良相关基因 发表期刊杂志:nature biotechnology影响因子:41.514发表时间:2015年2月发表单位:中科院遗传与发育生物学研究所 一.      研究取材62株野生大豆.130株地方种和110个

IDP-ASE(haplotyping and quantifying allele-specific expression at the gene and gene isoform level by hybrid sequencing)VCF File GPD File in Extended Format.

学习来源地址: 1,https://github.com/bdeonovic/IDPASE.jl 2, https://www.healthcare.uiowa.edu/labs/au/ Prepare necessary input files (http://www.cnblogs.com/renping/p/7488170.html)(http://www.cnblogs.com/renping/p/7391028.html ) VCF File GPD File in Extended