基因组注释工具ANNOVAR是一款非常好用的注释软件,功能强大,输出数据简单美中不足就是对于非人类物种来说UI不够完善,因此总结一下整个注释的过程,帮助别人快乐自己。
首先我们需要明确我们需要的数据和软件:
数据包括:
all.gff3 #MSU的v7.0版本组装的注释文件 all.con #基因组序列
这样就是所有的输入文件了,现在我们列举一下需要用到的软件:
gffread #gff3 to gtf gtfToGenePred #gtf to genePred (建库需要的文件) annovar #注释主程序,只能通过发邮件获取
有了这些我们就可开始做注释了、
一、建库
如果是给人类的基因组注释,网上有非常多的教程,我在这里就不赘述了,请大家自行百度,我要介绍的主要是水稻及其他非人类的生物注释。
首先我们需要在获得ANNOVAR之后在目录下解压,在软件主目录下新建文件夹:
[email protected]:~/BioPlatform/annovar$ ls -l 总用量 508 -rwxr-xr-x 1 genomics genomics 221481 4月 17 2018 annotate_variation.pl -rwxr-xr-x 1 genomics genomics 27582 4月 17 2018 coding_change.pl -rwxr-xr-x 1 genomics genomics 170158 4月 17 2018 convert2annovar.pl drwxr-xr-x 2 genomics genomics 4096 4月 17 2018 example drwxr-xr-x 3 genomics genomics 4096 4月 17 2018 humandb -rwxr-xr-x 1 genomics genomics 19407 4月 17 2018 retrieve_seq_from_fasta.pl -rwxr-xr-x 1 genomics genomics 39223 4月 17 2018 table_annovar.pl -rwxr-xr-x 1 genomics genomics 21774 4月 17 2018 variants_reduction.pl [email protected]-70DGA01QCN:~/BioPlatform/annovar$ mkdir ricedb
ricedb就是我们需要建库的文件夹了,和同目录下的humandb是一样的,在这个文件夹中需要有两个文件
[email protected]:~/BioPlatform/annovar/ricedb$ ls -l 总用量 529324 -rw-rw-r-- 1 genomics genomics 380710511 10月 31 2011 AsianRice_MSU.fasta -rw-rw-r-- 1 genomics genomics 81498659 2月 7 2012 AsianRiice_MSU.gff3
gff文件会报错所以第一步要转换成gtf文件
[email protected]:~/BioPlatform/annovar/ricedb$ gffread AsianRiice_MSU.gff3 -T -o AsianRice_MSU.gtf
gtf文件转换成GenePred文件,利用GtfToGenePred工具,这里注意“-genePredExt”这个参数一定要加上
[email protected]:~/BioPlatform/annovar/ricedb$ gtfToGenePred -genePredExt AsianRice_MSU.gtf Os_refGene.txt
结合基因组数据获得另外一个重要数据,通过上边获得的GenePred文件:
perl ../retrieve_seq_from_fasta.pl --format refGene --seqfle all.fa Os_refGene.txt --out Os_refGeneMrna.fa
这样我们建库工作就完成了,下次再对相同物种数据进行注释的时候就不用进行这些操作了,库的两个文件组成如下:
[email protected]:~/BioPlatform/annovar/ricedb$ ls -l -rw-rw-r-- 1 genomics genomics 127436949 1月 12 12:24 Os_refGeneMrna.fa -rw-rw-r-- 1 genomics genomics 12334559 1月 12 12:23 Os_refGene.txt
二、非人类物种注释
相比与人类的注释,其他物种的注释如果完成了建库的步骤剩下的就很相似。区别在于其他物种并没有人类那么多相关的注释库,一般我们就进行基于基因的注释就可以获得我们想要的数据:
perl table_annovar.pl <variant.vcf> ricedb/ --vcfnput --outfle fnal --buildver Os --protocol refGene --operation g
剩下的事情交给马克思和处理器就好了!
输出格式以及后续的处理在随后的博文中会有详细的介绍。
原文地址:https://www.cnblogs.com/muuyouzhi/p/10260963.html
时间: 2024-10-06 20:03:17