reads k-mer scaffold 【知乎】

基因簇,一群合在一起能干活的基因。基因家族,干相同活的基因们。
acaffold,脚手架的结构。motif,一个分子中一段貌似重要的部分。

作者:刘金韬
链接:https://www.zhihu.com/question/37596636/answer/206516478
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

简单回答一下什么是scaffold。上边华中农大那个说的不算错,但是很模糊。read指的是直接测序得到的,目前普遍的二代测序是PE150,也就是双端各测150个碱基。这150个碱基是连续的,但是两个150之间的距离是不知道的,因为现在二代测序普遍建350bp的插入片段文库,所以测不通。由于350只是跑胶的时候的一个大概的范围,所以不能认为这两个150之间就一定是50个碱基,可能是48,也可能是52.这对重测序来说没有影响,但是denovo组装的时候,这个距离就比较麻烦了。

利用read之间的重叠区域,可以拼装出contig。具体算法确实很复杂,简单说,就是把这150bp的短read继续打断,叫K-mer。K是个数字,比如19。19-mer就是一个19个碱基的小的DNA片段。具体在组装的时候要用19-mer下的各个小片段去“碰”,看看哪两个小片段之间有18个碱基是重叠的,这样就拼成了一个20碱基的片段。(斜体部分我不太确定是不是这样,大概是,欢迎指正)。以此类推,各个小片段互相之间就可以再组装的更长一些。一般来说,组装的时候要试验不同的K值,看哪个K值下组装的效果最好。需要注意的是,contig是依靠片段之间序列重叠的部分来组装的

scaffold直接翻译过来是脚手架。这个概念和“测末端”有关。简单地说,你测序的时候筛选到了20kb长的片段,但是一代和二代都测不通,只能测两端很短的序列。这时候你有了这个20kb的片段两端的序列,以及这两段序列之间的距离(20k)。利用这种位置关系,可以将这两端序列所在的contig联系起来,确定这俩contig之间的顺序和距离。利用这种组装方法得到的更高级别的(或者说更长)的片段,就是scaffold。scaffold是利用各种手段确定contig之间顺序和距离之后得到的组装结果。这些手段包括但不限于mate-pair文库、fosmid文库、遗传图谱、光学图谱、Hi-C。scaffold内部是有洞的(gap),原因是,测末端的时候中间测不到(如果测到了,就直接装成contig了。重复区域例外,测到了你也不知道重复了多少次,除非直接测通)。

纯三代测序应该是没有scaffold这个概念的,只有contig。

时间: 2024-11-03 21:56:01

reads k-mer scaffold 【知乎】的相关文章

机器学习随笔01 - k近邻算法

算法名称: k近邻算法 (kNN: k-Nearest Neighbor) 问题提出: 根据已有对象的归类数据,给新对象(事物)归类. 核心思想: 将对象分解为特征,因为对象的特征决定了事对象的分类. 度量每个特征的程度,将其数字化. 所有特征值构成元组,作为该对象的坐标. 计算待检测对象和所有已知对象的距离,选择距离最接近的k个已知对象 (k近邻中的k来源于此). 这k个对象中出现次数最多的分类就是待检测对象的分类. 重要前提: 需要有一批已经正确归类了的对象存在.也就是通常说的训练数据. 重

机器学习算法:k近邻

前言: 最近在研究机器学习,过程中的心得体会会记录到blog里,文章与代码均为原创.会不定期龟速更新.注意这不是教程,但是估计能帮到一些刚入门的同学. ------------------------ 我是分割线 ------------------------ k近邻(k-Nearest Neighbor,KNN)算法,应该是机器学习里最基础的算法,其核心思想是:给定一个未知分类的样本,如果与它最相似的k个已知样本中的多数属于某一个分类,那么这个未知样本也属于这个分类. 所谓相似,是指两个样本

[uva11997]k个最小和

一个k*k的矩阵,每行选取一个数相加则得到一个和,求最小的前k个和. k<=750 已知前m行最小的前k个和d[1]-d[k],则前m+1行最小的前k个和都必定是d[i](i<=k)+a[m+1][x].排序,枚举x,用优先队列处理. 学会了个小技巧: node形式的优先队列,想直接插入元素组成node struct node里加一句node (int sum,int b):sum(sum),b(b) {} 实际调用:q.push(node(sum,b)); 1 #include<cst

AWR Report 关键参数详细分析

WORKLOAD REPOSITORY report for DB Name DB Id Instance Inst num Startup Time Release RAC CALLDB 1251068085 calldb1 1 07-Dec-12 21:12 11.2.0.3.0 YES Host Name Platform CPUs Cores Sockets Memory (GB) calldb01 AIX-Based Systems (64-bit) 128 32   250.25  

基于R语言的数据分析和挖掘方法总结——均值检验

2.1 单组样本均值t检验(One-sample t-test) 2.1.1 方法简介 t检验,又称学生t(student t)检验,是由英国统计学家戈斯特(William Sealy Gosset, 1876-1937)所提出,student则是他的笔名.t检验是一种检验总体均值的统计方法,当数据中仅含单组样本且样本数较大时(通常样本个数≧30的样本可视为样本数较大),可用这种方法来检验总体均值是否大于.小于或等于某一特定数值.当数据中仅含单组样本但样本数较小时(通常样本个数<30的样本可视为

(转载)Oracle AWR报告指标全解析

Oracle AWR报告指标全解析 2014-10-16 14:48:04 分类: Oracle [性能调优]Oracle AWR报告指标全解析 2013/08/31 BY MACLEAN LIU 26条评论 [性能调优]Oracle AWR报告指标全解析 开Oracle调优鹰眼,深入理解AWR性能报告:http://www.askmaclean.com/archives/awr-hawk-eyes-training.html 开Oracle调优鹰眼,深入理解AWR性能报告 第二讲: http:

阿贝尔分布求和法的应用(一)

1. (和差变换公式)设$m<n$.则$$\sum_{k=m}^{n}(A_{k}-A_{k-1})b_{k}=A_{n}b_{n}-A_{m-1}b_{m}+\sum_{k=m}^{n-1}A_{k}(b_{k}-b_{k+1})$$证明:直接计算即可.\begin{align*}\sum_{k=m}^{n}(A_{k}-A_{k-1})b_{k}&=\sum_{k=m}^{n}A_{k}b_{k}-\sum_{k=m}^{n}A_{k-1}b_{k}\\&=\sum_{k=m}^

ZOJ 3822 Domination 概率DP

题意:在一个n*m的棋盘上放棋子,一个棋子可覆盖一行一列,若n行m列全被覆盖则停止放棋子,求棋子的期望 思路:期望DP, dp[i][j][k]表示放了i个棋子覆盖了j行k列 已知dp[0][0][0]=1,求dp[1~n*m][n][m] 四种情况: 1.再放一个棋子,行列都不增加 dp[i+1][j][k]+=dp[i][j][k]*(j*k-i)*1.0/(m*n-i); 2.只增加一行 dp[i+1][j+1][k]+=dp[i][j][k]*(n-j)*k*1.0/(m*n-i); 3

剑指offer 数字在排序数组中出现的次数

因为有序 所以用二分法,分别找到第一个k和最后一个k的下标.时间O(logN) class Solution { public: int GetNumberOfK(vector<int> data ,int k) { int num=0; int size=data.size(); if(size>0){ int num1=getfk(data,0,size-1,k); int num2=getsk(data,0,size-1,k); if(num1!=-1 &&num2

最邻近规则分类

1. 综述 1.1 Cover和Hart在1968年提出了最初的邻近算法 1.2 分类(classification)算法 1.3 输入基于实例的学习(instance-based learning), 懒惰学习(lazy learning) 2. 例子: 未知电影属于什么类型? 3. 算法详述 3.1 步骤: 为了判断未知实例的类别,以所有已知类别的实例作为参照 选择参数K 计算未知实例与所有已知实例的距离 选择最近K个已知实例 根据少数服从多数的投票法则(majority-voting),让