基因组注释

基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。

1 重复序列的识别。

1.1  重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类。其中串联重复序列包括有微卫星序列,小卫星序列等等;散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子(retrotransposon)。常见的反转录转座子类别有LTR,LINE和SINE等。

1.2  重复序列识别的发展现状:目前,识别重复序列和转座子的方法为序列比对和从头预测两类。序列比对方法一般采用Repeatmasker软件,识别与已知重复序列相似的序列,并对其进行分类。常用Repbase重复序列数据库。从头预测方法则是利用重复序列或转座子自身的序列或结构特征构建从头预测算法或软件对序列进行识别。从头预测方法的优点在于能够根据转座子元件自身的结构特征进行预测,不依赖于已有的转座子数据库,能够发现未知的转座子元件。常见的从头预测方法有Recon,Piler,Repeatscout,LTR-finder,ReAS等等。

1.3  重复序列识别的研究内容:获得组装好的基因组序列后,我们首先预测基因组中的重复序列和转座子元件。一方面,我们采用RepeatScout、LTR-finder、Tendem Repeat Finder、Repeatmoderler、Piler等从头预测软件预测重复序列。为了获得从头预测方法得到的重复序列的类别信息,我们把这些序列与Repbase数据库比对,将能够归类的重复序列进行分类。另一方面,我们利用Repeatmasker识别与已知重复序列相似的重复序列或蛋白质序列。通过构建Repbase数据库在DNA水平和蛋白质水平的重复序列,Repeatmasker能够分别识别在DNA水平和蛋白质水平重复的序列,提高了识别率。

1.4  重复序列识别的关键技术难点:

(1):第二代测序技术测基因组,有成本低、速度快等优点。但是由于目前产生的读长(reads)较短。由于基因组序列采用kmer算法进行组装,高度相似的重复序列可能会被压缩到一起,影响对后续的重复序列识别。

(2):某些高度重复的序列用现有的组装方法难以组装出来,成为未组装reads(unassembled reads)。有必要同时分析未组装reads以得到更为完整的重复序列分布图。之前,华大已开发了ReAS软件,专门用于识别未组装reads中的重复序列。但该软件目前只能处理传统测序技术(如sanger测序)生成的较长片段的reads,需要进一步改进方可用于分析第二代测序技术得到的reads。同时,未组装的短片段reads重复度更高,识别其重复区域具有较大难度。

1.5  重复序列识别的研究方向:

(1):整合现有的重复序列预测方法,对组装好的基因组序列进行分析。

(2):综合考虑并结合短序列组装策略,校正重复序列识别的结果。

(3):开发识别未组装reads重复序列的算法和流程并构建一致性序列。

2  非编码RNA序列的预测。

1.1  非编码RNA预测的研究背景和意义

非编码RNA,指的是不被翻译成蛋白质的RNA,如tRNA, rRNA等,这些RNA不被翻译成蛋白质,但是具有重要的生物学功能。miRNA结合其靶向基因的mRNA序列结合,将mRNA降解或抑制其翻译成蛋白质,具有沉默基因的功能。tRNA (转运RNA)携带氨基酸进入核糖体,使之在mRNA指导下合成蛋白质。rRNA(核糖体RNA)与蛋白质结合形成核糖体,其功能是作为mRNA的支架,提供mRNA翻译成蛋白质的场所。snRNA(小核RNA)主要参与RNA前体的加工过程,是RNA剪切体的主要成分。

1.2  非编码RNA预测的发展现状

由于ncRNA种类繁多,特征各异,缺少编码蛋白质的基因所具有的典型特征,现有的ncRNA预测软件一般专注于搜索单一种类的ncRNA,如tRNAScan-SE 搜索tRNA、snoScan 搜索带C/D盒的snoRNAs、SnoGps 搜索带H/ACA 盒的snoRNAs、mirScan 搜索microRNA等等。Sanger实验室开发了Infernal软件,建立了1600多个RNA家族,并对每个家族建立了一致性二级结构和协方差模型,形成了Rfam数据库。采用Rfam数据库中的每个RNA的协方差模型,结合Infernal软件可以预测出已有RNA家族的新成员。Rfam/Infernal方法应用广泛,可以预测各种RNA家族成员,但是特异性较差。我们建议:如果有更好的专门预测某一类非编码RNA的软件,那么采用该软件进行预测;否则,使用Rfam/Infernal流程。

1.3  非编码RNA预测的研究内容

利用Rfam家族的协方差模型,我们采用Rfam自带的Infernal软件预测miRNA和snRNA序列。由于rRNA的保守性很强,为此我们用序列比对已知的rRNA序列,识别基因组中的rRNA序列。tRNAscan-SE工具中综合了多个识别和分析程序,通过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程,据称能识别99%的真tRNA基因。

1.4  非编码RNA预测中拟解决的关键技术难点

识别非编码RNA的假基因:基因组中很多序列由非编码RNA基因复制而来,与非编码RNA基因序列相似,但不具有非编码RNA的功能。目前我们采用的非编码RNA序列的预测方法都是基于序列比对和结构预测,不能够很好的去除这类非编码RNA的假基因。针对这个问题,我们考虑结合RNA表达信息如RNA-seq数据进行筛选。

1.5  非编码RNA预测的研究方向

(1):专门检测小片段RNA序列的方法现在已经得到广泛应用,利用小片段RNA序列数据进行非编码RNA的预测是我们的重要研究方向。

(2):开发miRNA靶向基因预测流程:miRNA通过调控其靶向基因的mRNA稳定性或翻译来控制生命活动的进程。预测miRNA靶向基因能够给我们研究miRNA功能带来提示。由于miRNA在动物和植物中对靶向基因的调控机制差别较大,我们建议对动物和植物分别建立靶向基因预测流程,提高预测准确度。

3  基因结构预测

3.1  基因结构预测的研究背景和意义

通过基因结构预测,我们能够获得基因组详细的基因分布和结构信息,也将为功能注释和进化分析工作提供重要的原料。基因结构预测包括预测基因组中的基因位点、开放性阅读框架(ORF)、翻译起始位点和终止位点、内含子和外显子区域、启动子、可变剪切位点以及蛋白质编码序列等等。

3.2  基因结构预测的发展现状

原核生物基因的各种信号位点(如启动子和终止子信号位点)特异性较强且容易识别,因此相应的基因预测方法已经基本成熟。Glimmer是应用最为广泛的原核生物基因结构预测软件,准确度高。而真核生物的基因预测工作的难度则大为增加。首先,真核生物中的启动子和终止子等信号位点更为复杂,难以识别。其次,真核生物中广泛存在可变剪切现象,使外显子和内含子的定位更为困难。因此,预测真核生物的基因结构需要运用更为复杂的算法,常用的有隐马尔科夫模型等。常用的软件有Genscan、SNAP、GeneMark、Twinscan等。

3.3  基因结构预测的研究内容

基因结构预测主要通过序列比对结合从头预测方法进行。序列比对方法采用blat和pasa等比对方法,将基因组序列与外部数据进行比对,以找到可能的基因位置信息。常用的数据包括物种自身或其近缘物种的蛋白质序列、EST序列、全长cDNA序列、unigene序列等等。这种方法对数据的依赖性很高,并且在选择数据的同时要充分考虑到物种之间的亲缘关系和进化距离。基因从头预测方法则是通过搜索基因组中的重要信号位点进行的。常用的软件有Genscan、SNAP、Augustus、Glimmer、GlimmerHMM等等。同时采用多种方法进行基因预测将产生众多结果,因此最后需要对结果进行整合以得到基因的一致性序列。常用软件有Glean,EVM等。

3.4  基因结构预测中拟解决的关键技术难点

目前,真核生物的基因结构预测方法仍有较大改进空间,主要面临以下的技术难点。

(1):如何利用现有的数据和算法,更好地识别基因的可变性剪切位点。

(2):随着测序工作的进展,许多目前研究较少的物种也将提上测序日程。大多基因结构的从头预测算法需要预先训练预测参数。现有资源和数据稀缺的物种将很难获得预测参数。

(3):克服组装错误对基因结果预测的影响

3.5  建立基因结构预测的评价系统

可变性剪切位点的预测较为困难。如何结合RNA-seq数据进行可变剪切预测将是重要的工作方向和难点。

3.6  基因结构预测的研究方向:

(1):利用RNA-seq、EST等数据校正基因结构预测结果,识别可变剪切位点。

(2):对于研究较少的物种,建议利用近缘物种的同源基因数据以训练基因结构预测软件。

(3):利用同源基因组之间的共线性信息,辅助基因结构预测。

4  基因功能注释。

4.1  基因功能注释的研究背景和意义

获得基因结构信息后,我们希望能够进一步获得基因的功能信息。基因功能注释方向包括预测基因中的模序和结构域、蛋白质的功能和所在的生物学通路等。

4.2  基因功能注释的发展现状

全基因组测序将产生大量数据,而实验方法由于成本较高,不适用于全基因组测序的后续功能分析。为此,目前普遍采用比对方法对全基因组测序的基因功能进行注释。KEGG和Gene Ontology是目前使用最为广泛的蛋白质功能数据库,分别对蛋白质的生物学通路和功能进行注释。Interpro通过整合多个记录蛋白质特征的数据库,根据蛋白质序列或结构中的特征对蛋白质进行分类。

4.3  基因功能注释的研究内容

目前,我们利用四个常用的数据库进行基因功能注释。使用的数据库有Uniprot蛋白质序列数据库、KEGG生物学通路数据库、Interpro蛋白质家族数据库和Gene Ontology基因功能注释数据库。

(1):与Uniprot蛋白质序列数据库比对,获得序列的初步信息。

(2):与KEGG数据库比对,预测蛋白质可能具有的生物学通路信息。

(3):与Interpro数据库比对将获得蛋白质的保守性序列,模序和结构域等。

(4):预测蛋白质的功能。Interpro进一步建立了与Gene Ontology的交互系统:Interpro2GO。该系统记录了每个蛋白质家族与Gene Ontology中的功能节点的对应关系,我们通过此系统便能预测蛋白质执行的生物学功能。

4.4  基因功能注释中拟解决的关键技术难点

目前我们的功能注释工作是建立在比对的基础上,这将会带来两个比较大的问题。首先,此方法严重依赖于外部数据,对某些研究较少的物种限制很大。其次,序列相似并不表示实际生物学功能相似,考虑引入序列比对之外的方法,进一步完善基因功能注释工作。

4.5  基因功能注释的研究方向

考虑引入序列比对之外的数据(如蛋白质互作网络、基因表达谱等),利用概率模型算法进行整合,完善基因功能注释工作。

参考:http://blog.sina.com.cn/s/blog_8698533a0101fxq5.html

时间: 2024-10-02 11:29:55

基因组注释的相关文章

【annotation】非人类物种基因组注释(MSU为例)

基因组注释工具ANNOVAR是一款非常好用的注释软件,功能强大,输出数据简单美中不足就是对于非人类物种来说UI不够完善,因此总结一下整个注释的过程,帮助别人快乐自己. 首先我们需要明确我们需要的数据和软件: 数据包括: all.gff3 #MSU的v7.0版本组装的注释文件 all.con #基因组序列 这样就是所有的输入文件了,现在我们列举一下需要用到的软件: gffread #gff3 to gtf gtfToGenePred #gtf to genePred (建库需要的文件) annov

使用BRAKER2进行基因组注释

来自:https://www.jianshu.com/p/e6a5e1f85dda 使用BRAKER2进行基因组注释 BRAKER2是一个基因组注释流程,能够组合GeneMark,AUGUSTUS和转录组数据. 在使用软件之前,有几点需要注意下 尽量提供高质量的基因组.目前随着三代测序价格下降,这一点问题不大. 基因组命名应该简单,最好就是">contig1"或">tig000001" 基因组需要屏蔽重复序列 默认参数通常表现效果就很好,但是也要根据物种

基因组注释之软件使用

1.RepeatMasker 1.1.输入 输入格式为fasta序列,不接受其它 GenBank, Staden,等格式.它既可以处理一个批文件(一个文件包含许多条序列),也可以批处理许多文件(每个文件含有一条序列). RepeatMasker *.fasta 该命令将mask当前目录下所有的以.fasta文件结尾,并为每个文件提供单独的报告.虽然处理批文件更快,但是处理单个文件更精准. This command will mask all files that end with .fasta

基因组注释之基因功能注释

1.下载所需的数据库及软件 nr数据库已经有了,这里不做介绍 2.pfam数据库 wget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.gzwget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.dat.gzwget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release

R语言基因组数据分析可能会用到的data.table函数整理

R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数是使用C写的,大大加快数据运行速度.因此,在对大数据处理上,使用data.table无疑具有极高的效率.这里主要介绍在基因组数据分析中可能会用到的函数. fread 做基因组数据分析时,常常需要读入处理大文件,这个时候我们就可以舍弃read.ta

antiSMASH数据库:微生物次生代谢物合成基因组簇查询和预测

2017年4月28日,核酸研究(Nucleic Acids Research)杂志上,在线公布了一个可搜索微生物次生代谢物合成基因组簇的综合性数据库antiSMASH数据库 4.0版,前3版年均引用250次,累计引物1600+:可实现基因组与基因组之间的相关天然产物合成基因簇的查询和预测. 临床上使用的大部分抗生素和药物均来自植物或微生物的天然产物.结合基因组挖掘的经典分离与分析法使得能鉴定和描述基于宏基因组的天然产物途径,该过程与研究结果是天然产物研究领域中在近二十年来较为创新的技术.为使该技

基于eXpress对转录组和基因组进行量化

; color:rgb(51,51,51); font-family:Arial,Console,Verdana,'Courier New'"> NGS 目录(?)[+] General workflow eXpress是一个通用的丰度估计工具,它可以应用于任意靶序列和高通量测序reads. 靶序列可以是任意基因组区域,例如RNA-seq中的转录本.因此,一般的流程应该是这样的: 1. 选择你要分析的数据 2. 产生靶序列的集合 3.将目的片段比对到靶序列上 4. eXpress需要的参数

测序数据质量控制

基于边合成边测序(Sequencing By Synthesis,SBS)技术,Illumina HiSeq2500高通量测序平台对cDNA文库进行测序,能够产出大量的高质量Reads,测序平台产出的这些Reads或碱基称为原始数据(Raw Data),其大部分碱基质量打分能达到或超过Q30.Raw Data通常以FASTQ格式提供,每个测序样品的Raw Data包括两个FASTQ文件,分别包含所有cDNA片段两端测定的Reads. FASTQ格式文件示意图如下: FASTQ格式文件示意图 注:

项目二:使用机器学习(SVM)进行基因预测

参考链接: LIBSVM -- A Library for Support Vector Machines(本项目所用到的SVM包)   SVM SVM - 知乎精华 支持向量机请通俗介绍 高中文化 请看Coursera的ML视频,里面有SVM     基因注释 基因组注释介绍  注释四部分:重复序列:非编码RNA:基因结构:功能注释. 真核基因组注释方法与流程的文章 : A beginner's guide to eukaryotic genome annotation 基因组注释分析主要包括