【annotation】非人类物种基因组注释(MSU为例)

基因组注释工具ANNOVAR是一款非常好用的注释软件,功能强大,输出数据简单美中不足就是对于非人类物种来说UI不够完善,因此总结一下整个注释的过程,帮助别人快乐自己。

首先我们需要明确我们需要的数据和软件:

数据包括:

all.gff3 #MSU的v7.0版本组装的注释文件
all.con #基因组序列

这样就是所有的输入文件了,现在我们列举一下需要用到的软件:

gffread  #gff3 to gtf
gtfToGenePred  #gtf to genePred (建库需要的文件)
annovar  #注释主程序,只能通过发邮件获取

有了这些我们就可开始做注释了、

一、建库

如果是给人类的基因组注释,网上有非常多的教程,我在这里就不赘述了,请大家自行百度,我要介绍的主要是水稻及其他非人类的生物注释。

首先我们需要在获得ANNOVAR之后在目录下解压,在软件主目录下新建文件夹:

[email protected]:~/BioPlatform/annovar$ ls -l
总用量 508
-rwxr-xr-x 1 genomics genomics 221481 4月  17  2018 annotate_variation.pl
-rwxr-xr-x 1 genomics genomics  27582 4月  17  2018 coding_change.pl
-rwxr-xr-x 1 genomics genomics 170158 4月  17  2018 convert2annovar.pl
drwxr-xr-x 2 genomics genomics   4096 4月  17  2018 example
drwxr-xr-x 3 genomics genomics   4096 4月  17  2018 humandb
-rwxr-xr-x 1 genomics genomics  19407 4月  17  2018 retrieve_seq_from_fasta.pl
-rwxr-xr-x 1 genomics genomics  39223 4月  17  2018 table_annovar.pl
-rwxr-xr-x 1 genomics genomics  21774 4月  17  2018 variants_reduction.pl

[email protected]-70DGA01QCN:~/BioPlatform/annovar$ mkdir ricedb

ricedb就是我们需要建库的文件夹了,和同目录下的humandb是一样的,在这个文件夹中需要有两个文件

[email protected]:~/BioPlatform/annovar/ricedb$ ls -l
总用量 529324
-rw-rw-r-- 1 genomics genomics 380710511 10月 31  2011 AsianRice_MSU.fasta
-rw-rw-r-- 1 genomics genomics  81498659 2月   7  2012 AsianRiice_MSU.gff3

gff文件会报错所以第一步要转换成gtf文件

[email protected]:~/BioPlatform/annovar/ricedb$ gffread AsianRiice_MSU.gff3 -T -o AsianRice_MSU.gtf

gtf文件转换成GenePred文件,利用GtfToGenePred工具,这里注意“-genePredExt”这个参数一定要加上

[email protected]:~/BioPlatform/annovar/ricedb$ gtfToGenePred -genePredExt AsianRice_MSU.gtf Os_refGene.txt

结合基因组数据获得另外一个重要数据,通过上边获得的GenePred文件:

perl ../retrieve_seq_from_fasta.pl --format refGene --seqfle all.fa  Os_refGene.txt --out Os_refGeneMrna.fa

这样我们建库工作就完成了,下次再对相同物种数据进行注释的时候就不用进行这些操作了,库的两个文件组成如下:

[email protected]:~/BioPlatform/annovar/ricedb$ ls -l
-rw-rw-r-- 1 genomics genomics 127436949 1月  12 12:24 Os_refGeneMrna.fa
-rw-rw-r-- 1 genomics genomics  12334559 1月  12 12:23 Os_refGene.txt

二、非人类物种注释

  相比与人类的注释,其他物种的注释如果完成了建库的步骤剩下的就很相似。区别在于其他物种并没有人类那么多相关的注释库,一般我们就进行基于基因的注释就可以获得我们想要的数据:

perl table_annovar.pl <variant.vcf> ricedb/ --vcfnput --outfle fnal --buildver Os --protocol refGene --operation g

  剩下的事情交给马克思和处理器就好了!

  输出格式以及后续的处理在随后的博文中会有详细的介绍。

原文地址:https://www.cnblogs.com/muuyouzhi/p/10260963.html

时间: 2024-08-02 23:22:46

【annotation】非人类物种基因组注释(MSU为例)的相关文章

非模式物种的注释

一句话:我们经常会面对非模式物种的GO或者KEGG富集与注释. 1.载入我们所需要的包 if("clusterProfiler" %in% rownames(installed.packages()) == FALSE) {source("http://bioconductor.org/biocLite.R");biocLite("clusterProfiler")} biocLite("colorspace") suppre

基因组注释

基因组注释主要包括四个研究方向:重复序列的识别:非编码RNA的预测:基因结构预测和基因功能注释.我们将分别对这四个领域进行阐述. 1 重复序列的识别. 1.1  重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类.其中串联重复序列包括有微卫星序列,小卫星序列等等:散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子(retrotransposon).常见的反转录转座子类别有

使用BRAKER2进行基因组注释

来自:https://www.jianshu.com/p/e6a5e1f85dda 使用BRAKER2进行基因组注释 BRAKER2是一个基因组注释流程,能够组合GeneMark,AUGUSTUS和转录组数据. 在使用软件之前,有几点需要注意下 尽量提供高质量的基因组.目前随着三代测序价格下降,这一点问题不大. 基因组命名应该简单,最好就是">contig1"或">tig000001" 基因组需要屏蔽重复序列 默认参数通常表现效果就很好,但是也要根据物种

人类线粒体基因组简介

线粒体基因组是一个环状的双链DNA分子,包括轻链 L  和 重链 H, 其基因结构在哺乳动物中保守, 以human 线粒体为例, 人类线粒体基因组全长  16,596 bp , 共有13个编码蛋白的基因,根据编码的蛋白可以分成3类: 共有22种tRNA的基因 2种 rRNA 基因: 在人类的线粒体基因组中,轻链共有9个基因,其中8个基因都是编码tRNA; 重链共有28个基因 除了基因区域外,在线粒体基因组中,还有一个调控区域,叫做D-loop 区 在线粒体基因组中,基因排列十分紧密,基因间隔区只

基因组注释之软件使用

1.RepeatMasker 1.1.输入 输入格式为fasta序列,不接受其它 GenBank, Staden,等格式.它既可以处理一个批文件(一个文件包含许多条序列),也可以批处理许多文件(每个文件含有一条序列). RepeatMasker *.fasta 该命令将mask当前目录下所有的以.fasta文件结尾,并为每个文件提供单独的报告.虽然处理批文件更快,但是处理单个文件更精准. This command will mask all files that end with .fasta

物种基因组发表网址ftp

1挪威云杉Norway spruce Nystedt B, Street N R, Wetterbom A, et al. The Norway spruce genome sequence and conifer genome evolution.[J]. Nature, 2013, 497(7451):579. http://congenie.org/ftp://plantgenie.org/Data/ConGenIE/Picea_abies/v1.0/FASTA/GenePredictio

物种基因组发表网址ftp汇总 截至2017.2

1挪威云杉Norway spruce Nystedt B, Street N R, Wetterbom A, et al. The Norway spruce genome sequence and conifer genome evolution.[J]. Nature, 2013, 497(7451):579. http://congenie.org/ftp://plantgenie.org/Data/ConGenIE/Picea_abies/v1.0/FASTA/GenePredictio

基因组注释之基因功能注释

1.下载所需的数据库及软件 nr数据库已经有了,这里不做介绍 2.pfam数据库 wget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.gzwget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.dat.gzwget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release

annovar对人类基因组和非人类基因组variants注释流程

部分翻译:Hui Y, Kai W. Genomic variant annotation and prioritization with ANNOVAR and wANNOVAR[J]. Nature Protocols, 2015, 10(10). 此文只是用于作者和所有初接触annovar软件者分享交流.更深入学习请仔细阅读全文.转载请注明. ANNOVAR是一个perl编写的命令行工具,能在安装了perl解释器得多种操作系统上执行.允许多种输入文件格式,包括最常被使用的VCF格式.输出文