Contig|scaffold|N50|L50|NG50|贪心算法|de bruiji graph|

生物信息学

Contig是reads拼成的连续的DNA片段,连续表达一个gene。通过双端测序的contig可确定contig之间的关系得到scaffold,Scaffold是reads拼成的有gap的DNA片段。理想情况下,一条染色体用同一个scaffold的表达。整个genome存在很多零碎片段,可舍弃。因为duplication产生很多overlap。

N50,L50和NG50是评价genome assembly的quality的标准,评价长度时使用N50,N50是一个contig的长度。不选用genome size的50%是因为1.这是估计的size值不一定准;2.sequence 仅覆盖80%。评价数量使用L50,L50数量越小越好。NG50表达测到genome 覆盖度。

取材方法很重要,得到目标数据。

Assembly算法有可能带来更多误差,通常二代测序和三代测序相结合。

贪心算法原理是每一步都在找最优解,最后得到最好的结果,优点是快,缺点是不是全局最优解,出现重复序列便走不下去。

de bruiji graph来自桥问题:

比如:

k-mer当k=4时

000添0,成为0000,0000取000,若下一步添0 成为0000

000添1,成为0001,0001取001,若下一步添0 成为0010,0010取010

000添1,成为0001,0001取001,若下一步添1 成为0011,0011取011

在序列拼接时:

Qualities取决于二代测序的质量;coverage&read length取决于建库方法和sequence方法。

生物信息学处理关键是考虑研究的物种的特性,eg:某物种的duplication多,或者生物学问题的侧重点,eg:重测序。

Genome网站:UCSC

例子:

植物类,希望通过“拟南芥vs抗逆抗旱植物”,清楚看到抗逆抗旱植物的相关特性,或者说希望看到的特性,做之前要估算genome size,可以看的现象是扩增基因,于是分析扩增基因的具体情况,比如对于常规部分的不同功能、通路及转录因子等,对于miRNA的探讨,分析出现的原因。

以前的研究多重于分析生物学特征,比如某物种所有基因的罗列,现在基因组数量变大之后多研究.进化特征,比如某一个基因,eg:所有种类黄瓜的苦味,这种主观感觉定量分析的研究。

原文地址:https://www.cnblogs.com/yuanjingnan/p/11725496.html

时间: 2024-10-21 08:05:39

Contig|scaffold|N50|L50|NG50|贪心算法|de bruiji graph|的相关文章

POJ1017 Packets(贪心算法训练)

Time Limit: 1000MS          Memory Limit: 10000K          Total Submissions: 51306          Accepted: 17391 Description A factory produces products packed in square packets of the same height h and of the sizes 1*1, 2*2, 3*3, 4*4, 5*5, 6*6. These pro

贪心算法的简述与示例

贪心算法采用自顶向下,以迭代的方法做出相继的贪心选择,每做一次贪心选择就将所求问题简化为一个规模更小的子问题,通过每一步贪心选择,可得到问题的一个最优解,虽然每一步上都要保证能获得局部最优解,但由此产生的全局解有时不一定是最优的,所以贪婪法不要回溯.能够用贪心算法求解的问题一般具有两个重要特性:贪心选择性质和最优子结构性质. 参考:http://babybandf.blog.163.com/blog/static/61993532010112923767/ [例1]删数问题[B][/B] 试题描

算法导论——lec 13 贪心算法与图上算法

之前我们介绍了用动态规划的方法来解决一些最优化的问题.但对于有些最优化问题来说,用动态规划就是"高射炮打蚊子",采用一些更加简单有效的方法就可以解决.贪心算法就是其中之一.贪心算法是使所做的选择看起来是当前最佳的,期望通过所做的局部最优选择来产生一个全局最优解. 一. 活动选择问题 [问题]对几个互相竞争的活动进行调度:活动集合S = {a1, a2, ..., an},它们都要求以独占的方式使用某一公共资源(如教室),每个活动ai有一个开始时间si和结束时间fi ,且0 ≤ si &

五大常用算法之三贪心算法

贪心算法 贪心算法简介: 贪心算法是指:在每一步求解的步骤中,它要求"贪婪"的选择最佳操作,并希望通过一系列的最优选择,能够产生一个问题的(全局的)最优解. 贪心算法每一步必须满足一下条件: 1.可行的:即它必须满足问题的约束. 2.局部最优:他是当前步骤中所有可行选择中最佳的局部选择. 3.不可取消:即选择一旦做出,在算法的后面步骤就不可改变了. 贪心算法案例: 1.活动选择问题  这是<算法导论>上的例子,也是一个非常经典的问题.有n个需要在同一天使用同一个教室的活动a

零基础学贪心算法

本文在写作过程中参考了大量资料,不能一一列举,还请见谅.贪心算法的定义:贪心算法是指在对问题求解时,总是做出在当前看来是最好的选择.也就是说,不从整体最优上加以考虑,只做出在某种意义上的局部最优解.贪心算法不是对所有问题都能得到整体最优解,关键是贪心策略的选择,选择的贪心策略必须具备无后效性,即某个状态以前的过程不会影响以后的状态,只与当前状态有关.解题的一般步骤是:1.建立数学模型来描述问题:2.把求解的问题分成若干个子问题:3.对每一子问题求解,得到子问题的局部最优解:4.把子问题的局部最优

贪心算法

一,贪心算法的设计思想 ? 从问题的某一个初始解出发逐步逼近给定的目标,每一步都作一个不可回溯的决策,尽可能地求得最好的解.当达到某算法中的某一步不需要再继续前进时,算法停止. 二,贪心算法的基本性质 1)贪心选择性质 所谓贪心选择性质是指所求问题的整体最优解可以通过一系列局部最优的选择,即贪心选择来达到.这是贪心算法可行的第一个基本要素,也是贪心法与动态规划法的主要区别. 2) 最优子结构性质 该问题解的整体最优性依赖于其局部子问题解的最优性.这种性质是可以采用贪心算法解决问题的关键特征.例如

算法导论----贪心算法,删除k个数,使剩下的数字最小

先贴问题: 1个n位正整数a,删去其中的k位,得到一个新的正整数b,设计一个贪心算法,对给定的a和k得到最小的b: 一.我的想法:先看例子:a=5476579228:去掉4位,则位数n=10,k=4,要求的最小数字b是n-k=6位的: 1.先找最高位的数,因为是6位数字,所以最高位不可能在后5位上取到(因为数字的相对顺序是不能改变的,假设如果取了后五位中倒数第5位的7,则所求的b就不可能是6位的了,最多也就是4位的79228)理解这点很重要!所以问题变成从第1位到第k+1(n-(n-k-1))取

高级算法——贪心算法(找零问题)

function makeChange(origAmt, coins) {//贪心算法——找零问题 var remainAmt ; if (origAmt % .25 < origAmt) { coins[3] = parseInt(origAmt / .25); remainAmt = origAmt % .25; origAmt = remainAmt; } if (origAmt % .1 < origAmt) { coins[2] = parseInt(origAmt / .1); r

高级算法——贪心算法(背包问题)

贪心算法不能用来解决离散物品问题的原因是我们无法将“ 半台电视” 放入背包. 规则是按照物品价值高低顺序放入背包. function ksack(values, weights, capacity) { var load = 0; var i = 0; var v = 0; while (load < capacity && i < weights.length) { if (weights[i] <= (capacity - load)) { v += values[i