三代组装小基因组研究综述

三代组装小基因组研究综述

三代组装各种原理和方法都有。

近日illumina发布了新的测序仪NovaSeq系列,这个测序是相当的便宜,这个可能对于打开100美元人类基因组时代的大门有巨大的帮助。不过本篇文章小编不讲NovaSeq,感兴趣的自行百度就可以了。

小编目前主要是三代动植物基因组方向,今天高铁上跨了个界读了14年的一篇三代在小基因中的应用的综述文章。今天看来这篇文章确实分析的对,可以认为是所谓的领路人吧。

今天分享给大家我的阅读理解,希望大家能有所收获。

One chromosome, one contig: complete microbial genomes from long-read sequencing and assembly

众所周知基因组组装类似将一幅画撕碎,然后再拼接起来,所以很容易理解这样一个道理--撕碎的片段越大越容易拼接起来。虽然现在二代测序价格越来越便宜,但是二代的短片段对于拼接可以说作用非常有限,尤其是对GC富集区、重复区等。相反,长片段测序可以产生Kb以上的片段这些对于小基因组的组装意义巨大。对于研究来说首先可以得到高质量的参考基因组,另外还可以做精度较高的变异检测。接下来我们简单介绍下所谓的长片段测序。

一、背景介绍

根据07年到11年的基因组数据表明0gap和每个碱基准确性都在99.99%以上的基因组所占比例不到35%,这样看来整体的基因组的质量都比较低。这种现状的出现更多的原因在于曾经我们利用的测序手段,短片段组装。另外短片段组装用来研究结构变异作用也很受限,尤其是对大尺度的结构变异。当然这里也不是否认小片段的作用,小片段在于菌株分型、疫情追踪、泛基因组研究上还是有很明显的精度和价格的优势。

针对短片段基因组组装而言,最大的障碍和挑战就是重复序列。重复序列在基因组上有两种类型,第一种就是全基因组分布的序列,另一种就是串联重复序列,这两种重复序列在利用传统图论方法组装的时候会引起较大的问题,很容易导致最后什么都没有组装出来。但是长的read可以简化组装,解决好这些重复区域,甚至直接跨过这些重复区域,因此这样就不存在重复序列干扰组装的问题。

如果这个重复序列太长超过了长片段read的长度,同样还是解决不了基因组中高重复的问题,同样组装还是会有问题,这里大家不用担心,对于微生物的重复序列中rDNA operon 占比最高,大概在77%左右,但是其长度在5-7Kb。以pacbio测序片段为例其平均读长在10kb以上,解决这些重复没有任何压力。数据表明利用三代可以解决80%的微生物基因组。

二、现有的三代测序平台介绍

(1)PacBio

14年还没有sequel,重点介绍RS,RS和sequel除了通量上不一样,其他的小编认为都差不多。

RS测序的准确性平均在82%左右(2011年数据)刚开始RS由于其错误率较高,不能单独使用,只能和其他的数据结合相互补充进行使用。后来经过化学工艺和文库制备的提升,目前准确性在87%左右。另外由于其没有GC偏好,因此利用较高的深度通过统计学模型来提升测序深度是非常有效的,纠正之后准确性在99.99%以上。这些进步使得利用RS直接组装一个小基因组成为可能。

(2)IIumina synthetic long reads ,Moleculo

这个小编不是很了解,虽然其测序片段较长,但是其存在和二代测序同样的的问题------严重的GC偏好,所以基本不用于denovo assembly。

(3)Oxford Nanopore MinION

如果说传统的测序仪类似传统互联网,那么Nanopore就是今天的移动互联网。他开发的便携式的便宜的小测序仪真正的开启了移动测序、便携式测序的时代。虽然目前它的准确性较低,没有普及开。小编认为以后走进千家万户的测序仪就应该是这个样子的。到那个时候,测序就是很大众的事情啦。

三、组装算法

组装这里其实有很多种方法,整体来说有如下几种情况。

1、直接利用OLG(重叠法)通过overlap进行组装的,代表软件是Celera Assembler,这种方法对原始的read的质量要求较高。

2、混合拼接,基本思路是利用二代数据对质量不是很高的read进行纠错提升其质量,然后再利用OLG进行组装。代表软件PBcR、LSC、ECTools等。

3、不借助其他数据进行纠错,通过三代自身进行纠错,然后再利用OLG进行组装。代表软件HGAP、Sprai等。

4、组装提升,组装提升部分分为补洞和重新对scaffold进行连接,排序等。

这里软件前者主要是PBjelly 后者主要是AHA。还有就是利用长片段对二代组装的de Bruijn graph的优化,主要的代表就是二代组装神器Allpaths-LG。

当然以上的方法和软件都有其好的一面和不好的一面,最重要的是要理解什么时候利用哪一个软件。

四、讨论

建议在小基因组测序的时候三代测100x以上,这样对于得到一个高质量的小基因组最为保险,当然如果想利用RS进行甲基化检测另说。还有就是对于三代而言DNA提取和文库制备超级超级重要,一定要多加注意。最后不想说,但是文献中提及到了,数据的分析问题可以利用在线的一些商用的云系统,比如Amazon Web Service,价格5美元以下,WHY??

五、参考文献

One chromosome, one contig: complete microbial genomes from long-read sequencing and assembly.

原文地址:https://www.cnblogs.com/wangprince2017/p/9819631.html

时间: 2024-10-08 10:42:27

三代组装小基因组研究综述的相关文章

利用 pacbio 数据组装真菌基因组

最近在做组装稻瘟病的基因组. 估计的基因组大小为40M. 由于没有参考基因组,进行de novo assembly. 用HGAP策略.需要的有用的pacbio数据量应为400M左右, 选用的seed read 最小长度为6K, seed的覆盖度应在20倍左右. 拼接流程为:1,filtering. 2, assembly. 3, mapping. 4, consensus.选用的cutoff如下图: 所有的操作都在网页上进行. piobio 的数据以cell 为单位.每个cell中有很多ZMWS

LOSF 海量小文件问题综述

1.LOSF问题概述 在互联网(尤其是移动互联网).物联网.云计算.大数据等高速发展的大背景下,数据呈现爆炸式地增长.根据IDC的预测,到2020年产生的数据量 将达到40ZB,而之前2011年6月的预测是35ZB.然而,社会化网络.移动通信.网络视频音频.电子商务.传感器网络.科学实验等各种应用产生的数 据,不仅存储容量巨大,而且还具有数据类型繁多.数据大小变化大.流动快等显著特点,往往能够产生千万级.亿级甚至十亿.百亿级的海量小文件,而且更多地 是海量大小文件混合存储.由于在元数据管理.访问

使用DBG2OLC对二、三代数据进行基因组混装

使用DBG2OLC软件利用二代和三代数据混合的基因组组装: 使用DBG2OLC找Contigs序列和Pacbio reads的Overlap并进行Layout DBG2OLC通过比较contigs和Pacbio reads之间的overlap,将contigs序列定位到Pacbio reads上,将DBG的contigs结果运用到OLC算法中. 主要参数: LD 是否载入compressed reads information.第一次运行DBG2OLC命令的时候,该参数的值必须是0:若为了得到更

Erlang语言研究综述

摘 要: 本文前半部分主要是关于Erlang编程语言相关的内容:着重就一般学习编程语言的一般的关注点来阐述了Erlang编程语言的基本语法点,主要包括:Erlang的变量.Erlang的数据类型.Erlang的语句和Erlang编程语言的函数与模块四个方面:本文的后半部分主要就Erlang语言的并行化编程的实践:Erlang的并行化编程与Erlang并行化编程在矩阵乘积的实际应用,通过实践,可以发现,Erlang语言确实在并行化编程方面表现得很优秀. 关键词:并行计算:Erlang:编程语言:矩

这里想经过一个小程序研究标准库为 vector 对象提供的内存分配策,因为vector容器比list和deque容器用的很多,而且它的存储方式是连续的

我写一个简单的程序来区分vector容器size()和capacity()函数,这里capacity函数就是为vector容器预留了空间,不需要每次增添元素就要重新分配内存,这样效率上提高了很多,我通过一个间的小程序来研究,下面是程序和运行结果,比较简明可以看出capacity的大小都会比size大,因为size 指容器当前拥有的元素个数:而 capacity 则指容 器在必须分配新存储空间之前可以存储的元素总数.废话不多说,附上代码和运行结果:#include"stdafx.h" #

(转)知识图谱研究综述: 表示学习、知识获取与应用

摘要 人类知识提供了对世界的认知理解.表征实体间结构关系的知识图谱已经成为认知和人类智能研究的一个日益流行的方向.在本次综述论文中,我们对知识图谱进行了全面的综述,涵盖了知识图谱表示学习.知识获取与补全.时序知识图谱.知识感知应用等方面的研究课题,并总结了最近的突破和未来的研究方向.我们提出对这些主题进行全视角分类和新的分类法.知识图谱嵌入从表示空间.得分函数.编码模型和辅助信息四个方面进行组织.对知识获取,特别是知识图谱的补全.嵌入方法.路径推理和逻辑规则推理进行了综述.我们进一步探讨了几个新

集群调度技术研究综述

1  引言 什么是调度?个人理解最初的调度是和时间有关的.时间作为唯一的不可逆转的资源,一般是划分为多个时间片来使用(如下图所示).就计算机而言,由于CPU的速度快的多,所以就有了针对CPU时间片的调度,让多个任务在同一个CPU上运行起来.这是一个假象,某一时刻CPU还是单任务运行的. 后来为了在同一时间进行更多的任务,需要在同一时间内干多件事情.如果多个人或者多个处理器为了完成一个任务目标一起工作,就需要一个协调者.这就是一个分布式系统,就单个数据中心或者小范围来说,就是集群.如果让一个分布式

我对说话人识别/声纹识别的研究综述

GMM-UBM系统框架 最初用的特征是声学特征MFCC,这个东西我不太熟,只知道它是从wav或者其它格式语音文件直接提出. 有了特征就可以建立模型了,这里我们的模型叫做"高斯混合模型".不同说话人的差异主要表现在其短时语音谱的差异,而这又可以用每个说话人的短时谱特征所具有的概率密度函数来衡量.高斯混合模型GMM将空间分布的概率密度用多个高斯概率密度函数的加权和来拟合,可以平滑地逼近任意形状的概率密度函数,并且是一个易于处理的参数模型.在具体表示上,这个模型实际上就是把高斯混合模型的每个

人脸识别研究综述

摘要:在过去的20年里,研究者提出很多人脸识别的方法.大多数研究者运用了整张人脸来做识别,基本技术路线都是提取人脸特征然后并对.然而在实际的场景中,人脸可能被障碍物遮挡,那么我们就必须识别人的部分脸,部分脸识别大多基于脸部关键点进行识别.本文意在总结基于人脸关键点的全脸和部分脸的识别方法. 1.引言 近20年,大量的人脸识别方法被提出,在一些可控制的条件下,这些方法在一些公开的数据库上都取得了非常好的结果.这些方法大多以整张脸做为识别对象.之前数年,研究者利用LBP,Gabor,PCA,NN,H