基因组组装完后需要对基因组序列进行注释。注释前首先得构建基因模型,有三种策略:
从头注释(de novo prediction):通过已有的概率模型来预测基因结构,在预测剪切位点和UTR区准确性较低
同源预测(homology-based prediction):有一些基因蛋白在相近物种间的保守型高,所以可以使用已有的高质量近缘物种注释信息通过序列联配的方式确定外显子边界和剪切位点
基于转录组预测(transcriptome-based prediction):通过物种的RNA-seq数据辅助注释,能够较为准确的确定剪切位点和外显子区域。
每一种方法都有自己的优缺点,所以最后需要用EvidenceModeler(EVM)和GLEAN工具进行整合,合并成完整的基因结构。基于可靠的基因结构,后续可才是功能注释,蛋白功能域注释,基因本体论注释,通路注释等。
参考来源:
https://blog.csdn.net/u012110870/article/details/82500684
原文地址:https://www.cnblogs.com/bio-mary/p/12077582.html
时间: 2024-11-11 02:32:13