使用BRAKER2进行基因组注释

来自:https://www.jianshu.com/p/e6a5e1f85dda

使用BRAKER2进行基因组注释

BRAKER2是一个基因组注释流程,能够组合GeneMark,AUGUSTUS和转录组数据。

在使用软件之前,有几点需要注意下

  • 尽量提供高质量的基因组。目前随着三代测序价格下降,这一点问题不大。
  • 基因组命名应该简单,最好就是">contig1"或">tig000001"
  • 基因组需要屏蔽重复序列
  • 默认参数通常表现效果就很好,但是也要根据物种来
  • 一定要对注释结果进行检查,别直接使用

软件安装

BRAKER的依赖软件不少,且Perl需要安装的模块也很多,我们用conda能解决这些问题(需要添加bioconda频道)

安装结束后会输出一些提示信息,汇总以下就是

  • 保证AUGUSTUS的config目录能够有可写权限(自己用conda安装不需要考虑这个问题)
  • GeneMark和GenomeThreader还需要额外下载安装

我们一定要安装的就是GeneMark,需要从 http://exon.gatech.edu/GeneMark/license_download.cgi 下载安装,然后添加环境变量

此外还有一些BRAKER2建议的软件,conda没有安装,需要自己按需安装

  • DIAMOND 0.9.24: 替代NCBI-BLAST+
  • cdbfasta 0.99: 纠正AUGUSTUS预测的开放阅读框内内含有终止密码子的基因
  • cdbyank 0.981: 纠正AUGUSTUS预测的开放阅读框内内含有终止密码子的基因
  • GenomeThreader: 仅在你需要用蛋白数据进行注释时,才需要

关于这些conda未安装的软件参考https://github.com/Gaius-Augustus/BRAKER#optional-tools

cdbfastacdbyank为例

之后可以添加到环境变量

也可以复制到conda建立的braker2的环境中,其中~/miniconda3是我conda的路径

安装完成之后,建议现运行下面这一步检查软件依赖

软件运行

BRAKER根据数据类型,有不同的运行模式,但根据现状其实最常见的情况是测了一个基因组,并且还测了二代的转录组,或许还有一些近缘物种的蛋白序列。因此假设你手头有下面这些数据

  • 基因组序列: genome.fasta
  • 转录组数据: XX_1.fq.gz, XX_2.fq.gz
  • 蛋白序列: proteins.fa

第一步: 屏蔽基因组中的重复序列,这一步参考使用RepeatModeler和RepeatMasker注释基因组重复序列

这一步输出的genome.fasta.masked将是后续注释的输入

第二步: 使用STAR将FastQ比对到参考基因组,STAR使用说明参考「RNA-seq分析软件」RNA-seq比对工具STAR学习笔记

输入结果为 xx.bam 如果测了多个组装的转录组,为每个样本运行一次比对生成多个BAM文件。

第三步: 运行BRAKER2

braker.pl最多支持48个线程。

最终会输出蛋白序列和CDS序列以及GFF文件

可能问题

使用conda安装时可能会出现的问题

原因是因为faToTwoBit程序出错

这是因为conda没能正确处理依赖关系,openssl版本过高,解决方法如下

运行时出现如下警告

无视掉

参考资料

原文地址:https://www.cnblogs.com/zhanmaomao/p/11671000.html

时间: 2024-08-29 09:54:40

使用BRAKER2进行基因组注释的相关文章

基因组注释

基因组注释主要包括四个研究方向:重复序列的识别:非编码RNA的预测:基因结构预测和基因功能注释.我们将分别对这四个领域进行阐述. 1 重复序列的识别. 1.1  重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类.其中串联重复序列包括有微卫星序列,小卫星序列等等:散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子(retrotransposon).常见的反转录转座子类别有

【annotation】非人类物种基因组注释(MSU为例)

基因组注释工具ANNOVAR是一款非常好用的注释软件,功能强大,输出数据简单美中不足就是对于非人类物种来说UI不够完善,因此总结一下整个注释的过程,帮助别人快乐自己. 首先我们需要明确我们需要的数据和软件: 数据包括: all.gff3 #MSU的v7.0版本组装的注释文件 all.con #基因组序列 这样就是所有的输入文件了,现在我们列举一下需要用到的软件: gffread #gff3 to gtf gtfToGenePred #gtf to genePred (建库需要的文件) annov

基因组注释之软件使用

1.RepeatMasker 1.1.输入 输入格式为fasta序列,不接受其它 GenBank, Staden,等格式.它既可以处理一个批文件(一个文件包含许多条序列),也可以批处理许多文件(每个文件含有一条序列). RepeatMasker *.fasta 该命令将mask当前目录下所有的以.fasta文件结尾,并为每个文件提供单独的报告.虽然处理批文件更快,但是处理单个文件更精准. This command will mask all files that end with .fasta

基因组注释之基因功能注释

1.下载所需的数据库及软件 nr数据库已经有了,这里不做介绍 2.pfam数据库 wget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.gzwget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.dat.gzwget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release

R语言基因组数据分析可能会用到的data.table函数整理

R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数是使用C写的,大大加快数据运行速度.因此,在对大数据处理上,使用data.table无疑具有极高的效率.这里主要介绍在基因组数据分析中可能会用到的函数. fread 做基因组数据分析时,常常需要读入处理大文件,这个时候我们就可以舍弃read.ta

antiSMASH数据库:微生物次生代谢物合成基因组簇查询和预测

2017年4月28日,核酸研究(Nucleic Acids Research)杂志上,在线公布了一个可搜索微生物次生代谢物合成基因组簇的综合性数据库antiSMASH数据库 4.0版,前3版年均引用250次,累计引物1600+:可实现基因组与基因组之间的相关天然产物合成基因簇的查询和预测. 临床上使用的大部分抗生素和药物均来自植物或微生物的天然产物.结合基因组挖掘的经典分离与分析法使得能鉴定和描述基于宏基因组的天然产物途径,该过程与研究结果是天然产物研究领域中在近二十年来较为创新的技术.为使该技

基于eXpress对转录组和基因组进行量化

; color:rgb(51,51,51); font-family:Arial,Console,Verdana,'Courier New'"> NGS 目录(?)[+] General workflow eXpress是一个通用的丰度估计工具,它可以应用于任意靶序列和高通量测序reads. 靶序列可以是任意基因组区域,例如RNA-seq中的转录本.因此,一般的流程应该是这样的: 1. 选择你要分析的数据 2. 产生靶序列的集合 3.将目的片段比对到靶序列上 4. eXpress需要的参数

测序数据质量控制

基于边合成边测序(Sequencing By Synthesis,SBS)技术,Illumina HiSeq2500高通量测序平台对cDNA文库进行测序,能够产出大量的高质量Reads,测序平台产出的这些Reads或碱基称为原始数据(Raw Data),其大部分碱基质量打分能达到或超过Q30.Raw Data通常以FASTQ格式提供,每个测序样品的Raw Data包括两个FASTQ文件,分别包含所有cDNA片段两端测定的Reads. FASTQ格式文件示意图如下: FASTQ格式文件示意图 注:

项目二:使用机器学习(SVM)进行基因预测

参考链接: LIBSVM -- A Library for Support Vector Machines(本项目所用到的SVM包)   SVM SVM - 知乎精华 支持向量机请通俗介绍 高中文化 请看Coursera的ML视频,里面有SVM     基因注释 基因组注释介绍  注释四部分:重复序列:非编码RNA:基因结构:功能注释. 真核基因组注释方法与流程的文章 : A beginner's guide to eukaryotic genome annotation 基因组注释分析主要包括