基因组序列注释 (基因结构预测)

基因组组装完后需要对基因组序列进行注释。注释前首先得构建基因模型,有三种策略:

从头注释(de novo prediction):通过已有的概率模型来预测基因结构,在预测剪切位点和UTR区准确性较低

同源预测(homology-based prediction):有一些基因蛋白在相近物种间的保守型高,所以可以使用已有的高质量近缘物种注释信息通过序列联配的方式确定外显子边界和剪切位点

基于转录组预测(transcriptome-based prediction):通过物种的RNA-seq数据辅助注释,能够较为准确的确定剪切位点和外显子区域

每一种方法都有自己的优缺点,所以最后需要用EvidenceModeler(EVM)和GLEAN工具进行整合,合并成完整的基因结构。基于可靠的基因结构,后续可才是功能注释,蛋白功能域注释,基因本体论注释,通路注释等。

参考来源:

https://blog.csdn.net/u012110870/article/details/82500684

原文地址:https://www.cnblogs.com/bio-mary/p/12077582.html

时间: 2024-08-30 01:00:40

基因组序列注释 (基因结构预测)的相关文章

基因组注释

基因组注释主要包括四个研究方向:重复序列的识别:非编码RNA的预测:基因结构预测和基因功能注释.我们将分别对这四个领域进行阐述. 1 重复序列的识别. 1.1  重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类.其中串联重复序列包括有微卫星序列,小卫星序列等等:散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子(retrotransposon).常见的反转录转座子类别有

【annotation】非人类物种基因组注释(MSU为例)

基因组注释工具ANNOVAR是一款非常好用的注释软件,功能强大,输出数据简单美中不足就是对于非人类物种来说UI不够完善,因此总结一下整个注释的过程,帮助别人快乐自己. 首先我们需要明确我们需要的数据和软件: 数据包括: all.gff3 #MSU的v7.0版本组装的注释文件 all.con #基因组序列 这样就是所有的输入文件了,现在我们列举一下需要用到的软件: gffread #gff3 to gtf gtfToGenePred #gtf to genePred (建库需要的文件) annov

使用BRAKER2进行基因组注释

来自:https://www.jianshu.com/p/e6a5e1f85dda 使用BRAKER2进行基因组注释 BRAKER2是一个基因组注释流程,能够组合GeneMark,AUGUSTUS和转录组数据. 在使用软件之前,有几点需要注意下 尽量提供高质量的基因组.目前随着三代测序价格下降,这一点问题不大. 基因组命名应该简单,最好就是">contig1"或">tig000001" 基因组需要屏蔽重复序列 默认参数通常表现效果就很好,但是也要根据物种

Python基础-生物信息:找出基因,生物学家使用字母A、C、T和G构成的字符串建模一个基因组。

生物信息:找出基因,生物学家使用字母A.C.T和G构成的字符串建模一个基因组.一个基因是基因组的子串,它从三元组ATG后开始在三元组TAG.TAA或TGA之前结束.此外,基因字符串的长度是3的倍数,而且基因不包含三元组ATG.TAG.TAA和TGA.编写程序提示用户输入一个基因组,然后显示基因组里的所有基因.如果在输入序列中没有找到基因,那么程序显示“no gene is found” s=input('Please input the Gene String:\r\n') endsplit=[

antiSMASH数据库:微生物次生代谢物合成基因组簇查询和预测

2017年4月28日,核酸研究(Nucleic Acids Research)杂志上,在线公布了一个可搜索微生物次生代谢物合成基因组簇的综合性数据库antiSMASH数据库 4.0版,前3版年均引用250次,累计引物1600+:可实现基因组与基因组之间的相关天然产物合成基因簇的查询和预测. 临床上使用的大部分抗生素和药物均来自植物或微生物的天然产物.结合基因组挖掘的经典分离与分析法使得能鉴定和描述基于宏基因组的天然产物途径,该过程与研究结果是天然产物研究领域中在近二十年来较为创新的技术.为使该技

基因数据分析主流软件与基因预测方法步骤-搬运工

源自:http://www.bbioo.com/lifesciences/40-114214-1.html 1. 基因数目预测的主流软件 GENSCAN就是一个经典的基因预测软件.1996年由MIT的Chris Burge开始编写这个软件程序.当时,Burge的许多同事主张采用比较的方法,他们随机选取一个最新测序基因组中基因的DNA序列,与数据库中已存在的基因进行联配.但是Chris Burge认为:"利用人类基因组所获知的信息,可能不能发现某些新的基因." 他还积极吸取了加州大学计算

全基因组重测序基础及高级分析知识汇总

全基因组重测序基础及高级分析知识汇总 oddxix 已关注 2018.09.20 17:04 字数 11355 阅读 212评论 0喜欢 6 转自:http://www.360doc.com/content/18/0208/11/19913717_728563847.shtml 全基因组重测序是通过对已有参考序列(Reference Sequence)的物种的不同个体进行基因组测序,并以此为基础进行个体或群体水平的遗传差异性分析.通过全基因组重测序,研究者可以找到大量的单核苷酸多态性位点(SNP

用隐马尔可夫模型做基因预测

什么是隐马尔可夫模型 隐马尔可夫模型(Hidden Markov Model,HMM) 是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程.其难点是从可观察的参数中确定该过程的隐含参数.然后利用这些参数来作进一步的分析,例如模式识别,特别是我们今天要讲的基因预测.是在被建模的系统被认为是一个马尔可夫过程[一段组装好的序列]与未观测到的(隐藏的)的状态[哪些是编码区哪些不是]的统计马尔可夫模型. 下面用一个简单的例子来阐述: 假设我手里有两个颜色不同的骰子,一个是橘色(Coding,C)的另

转录组入门(5):序列比对

任务列表 比对软件 hisat2的用法 下载index文件 比对.排序.索引 质量控制 载入IGV,截图几个基因 hisat2的用法 本作业是比对到基因组,所以使用gapped or splices mapper,此流程已经更新.TopHat首次被发表已经是7年前,STAR的比对速度是TopHat的50倍,HISAT更是STAR的1.2倍.HISAT2是TopHat2/Bowti2的继任者,使用改进的BWT算法,实现了更快的速度和更少的资源占用,作者推荐TopHat2/Bowti2和HISAT的