基因组 de novo 组装原理

Falcon软件的组装流程

  1. 为了错误校正,将原始子reads进行overlap
  2. 预组装和错误校正
  3. 错误校正后reads的overlap检测
  4. overlap的过滤
  5. 从overlap构建图
  6. 从图构建contigs

几个解释:

sub-reads是啥?为什么要进行错误校正?校正的原理是什么?length_cutoff和length_cutoff_pre分别是什么意思,为什么要设置这两个参数?

sub-reads就是机器出来的reads经过处理后的子reads,方便软件处理;

因为第三代测序是单分子测序,读长大,reads长,错误率高,单条reads的正确率只有85%,必须进行校正。

如果测序深度足够,那么就可以构建overlap,根据概率学原理,可以进行校正。

cutoff就是扔掉长度不足的reads(例如:扔掉10K以下的reads),因为reads太短没有多大意义,增加计算量,校正时,不能切掉太多的reads,所以其cutoff值较小;预组装时,短reads该利用的信息已经利用完了,可以扔掉了,所以其cutoff可以设置得稍微大些,减少计算量。

为什么错误校正后还要进行overlap? 参数 -e.96 和 -e.70 分别是什么意思?

因为错误校正后的reads变化非常之大,必须重新进行overlap,-e是一致性参数,就是精度的意思,组装之前,因为错误率较高,可以容忍较低的一致性0.70;组装时,reads已经校正好了,所以对一致性较高,调到了0.96.

为什么要将overlap进行过滤?

为了砍掉一些没有必要的计算,减少计算量,只选择最好的n个overlap进行组装,过滤掉重复序列。

构建图构建contigs大致是个什么意思?

就是根据overlap一个一个的把reads连起来,从前到后,因为重复序列的原因,必然会组成图(图会有各种形态)

然后根据一定的原则,去掉图中一些没有必要的边,选择一条最优的路径,就可以组成我们想要的最终的contigs。

时间: 2024-10-01 09:46:33

基因组 de novo 组装原理的相关文章

chromosome interaction mapping|cis- and trans-regulation|de novo|SRS|LRS|Haplotype blocks|linkage disequilibrium

Dissecting evolution and disease using comparative vertebrate genomics-The sequencing revolution   short-read sequencing (SRS) (因大规模基因组数据需要,采用Illumina paired-end,短序列)->genome assembly and long-read sequencing (LRS) (因长序列的需要)   Sequencing 和assembly两个模

混合纠错PBcR--Hybrid error correction and de novo assembly of single-molecule sequencing reads

原文链接:Hybrid error correction and de novo assembly of single-molecule sequencing reads 单分子测序reads(PB)的混合纠错和denovo组装 我们广泛使用的PBcR的原始文章就是这一篇 摘要: PB技术可以产生极长的reads,可以显著提高基因组和转录组的组装. 然而,单分子测序的reads的error rate非常高,这限制了它们在重测序方面的应用. 为了解决这个问题,我们创造了PBcR这个纠错算法和组装策

DISCOVAR de novo

海宝建议用这个拼接软件 http://www.broadinstitute.org/software/discovar/blog/?page_id=98 DISCOVAR – variant caller 适合于call variant 和拼接小基因组 DISCOVAR de novo 适合拼接大基因组 下载: ftp://ftp.broadinstitute.org/pub/crd/DiscovarDeNovo/latest_source_code/LATEST_VERSION.tar.gz

MCP/解读人:邹婉婷,Precision de novo peptide sequencing using mirror proteases of Ac-LysargiNase and trypsin for large-scale proteomics(基于Ac-LysargiNase和胰蛋白酶的蛋白组镜像de novo测序)

一.概述 由于难以获得100%的蛋白氨基酸序列覆盖率,蛋白组de novo测序成为了蛋白测序的难点,由Ac-LysargiNase(N端蛋白酶)和胰蛋白酶构成的镜像酶组合可以解决这个问题并具有稳定性,这2种消化位点互补的酶能够产生目标蛋白的镜像b,y离子,基于镜像原理设计的算法pNovoM可用于蛋白组de novo测序. 二.研究背景 De novo测序是基于二级质谱谱图解析未知蛋白.翻译后修饰及蛋白突变位点的测序方法,这项技术适用于没有氨基酸序列信息的蛋白及蛋白组解析.De novo测序的难点

PacBio全基因组测序和组装

PacBio公司的业务范围也就5个(官网): Whole Genome Sequencing Targeted Sequencing Complex Populations RNA Sequencing Epigenetics 其中全基因组测序应该是PacBio的拿手好戏,因为它这么贵(貌似是二代的10倍),但它的核心优势就是长,还有无偏向性:这在科研上可就立马变成香饽饽了,现在用纯二代技术根本就发不了基因组的文章了,稍微高端点的分析都会用上三代的技术. Fully characterize g

IP数据报的分片和组装原理

一份数据从一个主机通过路由器发送给另一个主机时,要经过很多路由层转发的.过程比较复杂,那么IP在路由层到底是以怎样的形式转发和目的主机这份数据报的时候又是如何处理的? 首先我们需要了解数据报的格式: IP的转发和控制都是由IP数据报的头部决定 4位首部长度的数值是以 4字节为单位的,最小值为 5,也就是说首部长度最小是 4x5=20字节 , 也就是不带任何选项的 IP首部 ,4位能表表示的最大值是 15,也就是说首部长度最大是 60字 节 8位TOS字段有 3个位用来指定IP数据报的优先级 (目

The sequence and de novo assembly of the giant panda genome.ppt

sequencing:使用二代测序原因:高通量,短序列 不用长序列原因: 1.算法错误率高 2.长序列测序将嵌合体基因错误积累.嵌合体基因:通过重组由来源与功能不同的基因序列剪接而形成的杂合基因 sequencing: 增多的total length>N>gap>missing in genome The reads with a frequency > 1 were called duplicated reads, and we defined the duplication r

基因组拼接中常见的名词解释

Read:高通量测序平台产生的序列就称为reads. Contig:拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群). Scaffold:基因组de novo测序, 通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb.6Kb.10Kb.20Kb)两端的序列.基于这些序列,可以确定一些Contig之间的顺序关 系,这些先后顺序已知的Contigs组成Scaf

中科院生物信息学题目整理

1.什么是生物信息学,如何理解其含义? 答:生物信息学有三个方面的含义: 1)         生物信息学是一个学科领域,包含着基因组信息的获取.处理.存储.分配 .分析和解释的所有方面. 2)         生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质:同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测:其本质是识别基因信号. 3)         生物信息学的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律"