三代组装小基因组研究综述

三代组装各种原理和方法都有。

近日illumina发布了新的测序仪NovaSeq系列，这个测序是相当的便宜，这个可能对于打开100美元人类基因组时代的大门有巨大的帮助。不过本篇文章小编不讲NovaSeq，感兴趣的自行百度就可以了。

小编目前主要是三代动植物基因组方向，今天高铁上跨了个界读了14年的一篇三代在小基因中的应用的综述文章。今天看来这篇文章确实分析的对，可以认为是所谓的领路人吧。

今天分享给大家我的阅读理解，希望大家能有所收获。

One chromosome, one contig: complete microbial genomes from long-read sequencing and assembly

众所周知基因组组装类似将一幅画撕碎，然后再拼接起来，所以很容易理解这样一个道理--撕碎的片段越大越容易拼接起来。虽然现在二代测序价格越来越便宜，但是二代的短片段对于拼接可以说作用非常有限，尤其是对GC富集区、重复区等。相反，长片段测序可以产生Kb以上的片段这些对于小基因组的组装意义巨大。对于研究来说首先可以得到高质量的参考基因组，另外还可以做精度较高的变异检测。接下来我们简单介绍下所谓的长片段测序。

一、背景介绍

根据07年到11年的基因组数据表明0gap和每个碱基准确性都在99.99%以上的基因组所占比例不到35%，这样看来整体的基因组的质量都比较低。这种现状的出现更多的原因在于曾经我们利用的测序手段，短片段组装。另外短片段组装用来研究结构变异作用也很受限，尤其是对大尺度的结构变异。当然这里也不是否认小片段的作用，小片段在于菌株分型、疫情追踪、泛基因组研究上还是有很明显的精度和价格的优势。

针对短片段基因组组装而言，最大的障碍和挑战就是重复序列。重复序列在基因组上有两种类型，第一种就是全基因组分布的序列，另一种就是串联重复序列，这两种重复序列在利用传统图论方法组装的时候会引起较大的问题，很容易导致最后什么都没有组装出来。但是长的read可以简化组装，解决好这些重复区域，甚至直接跨过这些重复区域，因此这样就不存在重复序列干扰组装的问题。

如果这个重复序列太长超过了长片段read的长度，同样还是解决不了基因组中高重复的问题，同样组装还是会有问题，这里大家不用担心，对于微生物的重复序列中rDNA operon 占比最高，大概在77%左右，但是其长度在5-7Kb。以pacbio测序片段为例其平均读长在１０ｋｂ以上，解决这些重复没有任何压力。数据表明利用三代可以解决８０％的微生物基因组。

二、现有的三代测序平台介绍

（1）PacBio

14年还没有sequel，重点介绍RS，RS和sequel除了通量上不一样，其他的小编认为都差不多。

RS测序的准确性平均在82%左右（2011年数据）刚开始RS由于其错误率较高，不能单独使用，只能和其他的数据结合相互补充进行使用。后来经过化学工艺和文库制备的提升，目前准确性在87%左右。另外由于其没有GC偏好，因此利用较高的深度通过统计学模型来提升测序深度是非常有效的，纠正之后准确性在99.99%以上。这些进步使得利用RS直接组装一个小基因组成为可能。

（2）IIumina synthetic long reads ，Moleculo

这个小编不是很了解，虽然其测序片段较长，但是其存在和二代测序同样的的问题------严重的GC偏好，所以基本不用于denovo assembly。

（3）Oxford Nanopore MinION

如果说传统的测序仪类似传统互联网，那么Nanopore就是今天的移动互联网。他开发的便携式的便宜的小测序仪真正的开启了移动测序、便携式测序的时代。虽然目前它的准确性较低，没有普及开。小编认为以后走进千家万户的测序仪就应该是这个样子的。到那个时候，测序就是很大众的事情啦。

三、组装算法

组装这里其实有很多种方法，整体来说有如下几种情况。

1、直接利用OLG（重叠法）通过overlap进行组装的，代表软件是Celera Assembler，这种方法对原始的read的质量要求较高。

2、混合拼接，基本思路是利用二代数据对质量不是很高的read进行纠错提升其质量，然后再利用OLG进行组装。代表软件PBcR、LSC、ECTools等。

3、不借助其他数据进行纠错，通过三代自身进行纠错，然后再利用OLG进行组装。代表软件HGAP、Sprai等。

4、组装提升，组装提升部分分为补洞和重新对scaffold进行连接，排序等。

这里软件前者主要是PBjelly 后者主要是AHA。还有就是利用长片段对二代组装的de Bruijn graph的优化，主要的代表就是二代组装神器Allpaths-LG。

当然以上的方法和软件都有其好的一面和不好的一面，最重要的是要理解什么时候利用哪一个软件。

四、讨论

建议在小基因组测序的时候三代测100x以上，这样对于得到一个高质量的小基因组最为保险，当然如果想利用RS进行甲基化检测另说。还有就是对于三代而言DNA提取和文库制备超级超级重要，一定要多加注意。最后不想说，但是文献中提及到了，数据的分析问题可以利用在线的一些商用的云系统，比如Amazon Web Service，价格5美元以下，WHY？？

五、参考文献

One chromosome, one contig: complete microbial genomes from long-read sequencing and assembly.

原文地址：https://www.cnblogs.com/wangprince2017/p/9819631.html

时间： 2024-10-08 10:42:27

三代组装小基因组研究综述

三代组装小基因组研究综述

三代组装小基因组研究综述的相关文章

利用 pacbio 数据组装真菌基因组

LOSF 海量小文件问题综述

使用DBG2OLC对二、三代数据进行基因组混装

Erlang语言研究综述

这里想经过一个小程序研究标准库为 vector 对象提供的内存分配策，因为vector容器比list和deque容器用的很多，而且它的存储方式是连续的

（转）知识图谱研究综述: 表示学习、知识获取与应用

集群调度技术研究综述

我对说话人识别/声纹识别的研究综述

人脸识别研究综述