纠错工具之 - proovread

主要是来解读 proovread 发表的文章,搞清楚它内在的原理。

原文:proovread: large-scale high-accuracy PacBio correction through iterative short read consensus

摘要


动机:目前边合成边测序的二代技术占主导,虽然准,但太短,导致分析困难。近期,SMRT可以解决这个问题,它生产超长的reads。但是高错误率阻碍了SMRT的应用,因此,混合利用SR和LR的方法已经开发出来了,但是目前的实现方法都太依赖硬件,不好。这限制了它的应用。

结果:我们开发了一个混合纠错流程,能灵活地运行与普通台式机和大型集群,在基因组和转录组的测试中,准确度高达99.9%,胜过现有的所有混合纠错软件,而且更长量多。

引言


过去十年,二代改写了测序的历史,Today, a single run of a HiSeq2500 can generate as much as 600Gb high-quality output data, which covers a human genome 200. 但是,太短,不好组装,尤其是重复区域。因此,大量的SR组装软件出现了,Allpath-LG (Gnerre et al., 2011), the Celera Assembler (Miller et al., 2008; Myers et al., 2000) and SOAPdenovo (Li et al., 2010).

比SR长的重复不能被解决,目前的好的组装方案是,联合short reads和long insert libraries和额外的fosmid测序。

但是,SMRT出现了,With the latest chemistry, this approach delivers reads44 kb. 而且无偏向性,Their third-generation sequencer, PacBio RS II, generates to date up to 400Mb per sequencing run.

LR 的准确度太低,二代99%,而三代只有80%-85%,而且错误分布模型也不同,Although Illumina reads mainly contain miscalled bases with increasing frequency toward read ends, SMRT generates primarily insertions (10%) and deletions (5%) in a random pattern (Ross et al., 2013).  SMRT可以CCS,但这同时也减少了reads的长度,从而失去了三代的优势。

目前有两种方法用于SMRT的校正:

(i) The hierarchical genome-assembly process (HGAP) uses shorter SMRT reads contained within longer reads to generate pre-assemblies and to calculate consensus sequences (Chin et al., 2013). (缺陷:coverage of 80 to 100)

(ii) PacBioToCA (Koren et al., 2012) and LSC (Au et al., 2012) use Illumina SRs in a hybrid approach to correct SMRT reads. These approaches result in higher quality LRs.(需要大量计算资源,PacBioToCA lost >40%数据,LCS只能转录组,WGS集成,不好调用)

本方法优点:

(i) run on standard computers as well as computer grids and

(ii) can be easily adapted to different use cases.

Obviously, these objectives should not be at the cost of accuracy, length of corrected reads or throughput.

实现


时间: 2024-10-24 08:54:19

纠错工具之 - proovread的相关文章

mysql主从数据一致性校验及纠错工具

目录 1.概述 2.percona-tooldit工具的安装 3.新建用户 4.pt-table-checksum使用 5.pt-table-sync使用 6.个人总结 1.概述 假如你是一位运维人员,假如你生产环境上部署了mysql系统,再假如你线上的mysql是基于主从复制的架构,那恭喜你,它将可能会带给你主从数据不一致的"恶运". 由于mysql复制架构原生特性,主从服务器上的数据不可能做"同步"复制,所以延时是必然会有的,即使是不那么繁忙的服务器上,在业务不

我的学习方法(二)

今天下午上了(物理)专业英语阅读课,在课上老师谈到怎么学英语语法,听了以后发现可以借此完善我的学习方法.首先,整理一下这节课记录的东西. 课题内容纪录: 翻译:他老了. 在逻辑上只需要He.old这两个单词就够了,当你看到这两个单词或者说听到,你的第一反应很可能是:他老了.但是,语言不止要逻辑,因为语言是用来交流的,既然要交流,就意外着要让别人理解你的意思,换句话说,逻辑决定你自己要表达的意思,而语法的作用,则是把你的意思无歧义的告知别人,这时,单单靠He.old这两个词是不够的,加上语法后就变

过去十年,编程语言领域有什么重要进展

如果把当前TIOBE编程语言排行榜的前十拿出来,与十年前的前十做以比对,就会发现这两份名单完全相同! 唯一的不同在于:其中Visual Basic.PHP和Perl与同为十大热门却更现代的C#.Python和JavaScript交换了位置.在这十年间Objective-C确曾进入过十大热门语言,甚至还攀升到了前三的位置,不过在苹果宣布用Swift代替Objective-C之后,它便很快销声匿迹了. 根据这些情况,我们可以得出结论:编程语言并无实质性变化,而且未来十年也不会出现什么新的大型编程语言

你应该知道的16个Linux服务器监控命令

在不同的Linux发行版中,会有不同的GUI程序可以显示各种系统信息,比如SUSE Linux发行版中,就有非常棒的图形化的配置和管理工具YaST,KDE桌面环境里的KDE System Guard也很不错. AD: 在不同的Linux发行版中,会有不同的GUI程序可以显示各种系统信息,比如SUSE Linux发行版中,就有非常棒的图形化的配置和管理工具YaST,KDE桌面环境里的KDE System Guard也很不错. 然而,对于一名Linux系统管理员来说,除非迫不得已,否则不会在Linu

以后可以研究的49个开源软件

音频工具 1. Audacity 这个跨平台的录音.音频编辑器由于其运行的速度快.操作简单易用而得了高分,主要的功能包括封装编辑.混音.还有内置的特效,支持的格式有WAV, AIFF, Ogg, MP3. 2. Linux MultiMedia Studio 想想你用什么成为一个音乐创作者?LMMS让你在自己电脑上制作音乐,包括音频信号耦合,混响和合成,改编样本等等. 3. Jajuk 如果你在网上down了很多音乐,拥有一个庞大音乐库但是忘记了分类怎么办?Jajuk就是为你设计的,这个软件提供

WHM使用手册by lin

WebHost Manager 11使用手册(WHM使用手册) 本手册翻译自cpanel官方文档. 本翻译中文版本版权归美国主机侦探所有,未经允许,禁止复制. Overview(概述) 本用户手册主要目的是让新用户熟悉WebHost Manager Interface(WebHost Manager界面):并给老用户补充点额外的知识.本手册将着重介绍如何使用WebHost Manager来安装,配置和管理你的服务器以满足虚拟主机的需要. 如果你是刚刚接触服务器管理和虚拟主机,那么本手册中出现的很

过去十年,编程语言领域的重要进展

摘要:十年来,尽管软件行业发展迅速,热门编程语言的发展似乎却成了例外,始终未有太大改变.不过事实并不尽然,编程语言的真正变化在于:为了竞争存活,前十大热门编程语言都借鉴了其他语言的功能,作为新功能引入.究竟哪几方面变化明显? 如果把当前TIOBE编程语言排行榜的前十拿出来,与十年前的前十做以比对,就会发现这两份名单完全相同! 唯一的不同在于:其中Visual Basic.PHP和Perl与同为十大热门却更现代的C#.Python和JavaScript交换了位置.在这十年间Objective-C确

[开源]C#二维码生成解析工具,可添加自定义Logo (转)

二维码又称 QR Code,QR 全称 Quick Response,是一个近几年来移动设备上超流行的一种编码方式,它比传统的 Bar Code 条形码能存更多的信息,也能表示更多的数据类型:比如:字符,数字,中文等等.今天就来跟大家分享一下我的二维码生成解析工具,主要功能就是生成二维码,并且可以添加自定义的Logo.当然,网络上面生成二维码的工具多如牛毛,生成二维码早已不再新鲜.这个工具的一个亮点就是可以识别二维码,下面就来具体看看吧,不过首先要补充一点二维码的知识. 一.二维码基础知识 一.

[开源]C#二维码生成解析工具,可添加自定义Logo

二维码又称 QR Code,QR 全称 Quick Response,是一个近几年来移动设备上超流行的一种编码方式,它比传统的 Bar Code 条形码能存更多的信息,也能表示更多的数据类型:比如:字符,数字,中文等等.今天就来跟大家分享一下我的二维码生成解析工具,主要功能就是生成二维码,并且可以添加自定义的Logo.当然,网络上面生成二维码的工具多如牛毛,生成二维码早已不再新鲜.这个工具的一个亮点就是可以识别二维码,下面就来具体看看吧,不过首先要补充一点二维码的知识.  一.二维码基础知识 一