高通量测序中,reads、contigs、scaffold之间的联系

read:测序时,产生的较短的原始序列叫read

contigs:有多个reads通过片段的重叠,组装成一个更大的read,称为contigs

scaffold:多个contigs通过片段的重叠拼接成更长的scaffold;

从上面的解释来看,可以发现这些命名应该比价常出现在de novo拼接当中。

一个contigs组装之后,鉴定发现是编码蛋白的基因,就叫做singleton

scaffold,经鉴定发现它是编码蛋白的基因,就叫做unigene

时间: 2024-07-28 18:28:56

高通量测序中,reads、contigs、scaffold之间的联系的相关文章

测序总结,高通量测序名词

主要来自 :http://mp.weixin.qq.com/s/iTnsYajtHsbieGILGpUYgQ 测序的黄金标准:一代测序了,故称之为黄金测序. 高通量测序最近这几年很火越来越火,但是世界上更多的还是一帮天天做分子克隆.养细胞.养细菌.杂蛋白的生物学家,究其原因Sanger测序还是测序届的金标准,由于精确度高于2.3代测序且保持大白菜价格使之地位稳固. 应用范围:De Novo测序.重测序: 如突变检测.SNPs.插入.缺失克隆产物验证.比较基因组.分型: 如微生物和真菌鉴定.HLA

NGS基础 - 高通量测序原理

NGS基础 - 高通量测序原理 原创: 赑屃 生信宝典 2017-07-23 NGS系列文章包括NGS基础.转录组分析.ChIP-seq分析.DNA甲基化分析.重测序分析五部分内容. NGS基础系列文章包括高通量测序原理,测序数据获取和质量评估,常见文件格式解释和转换4部分. 本文 (高通量测序原理) 涉及测序文库构建原理.连特异性文库的构建方式和识别方法.测序簇生成过程.双端测序过程.测序接头产生.PCR duplicate.测序通量选择标准等. 原文地址:https://www.cnblog

用FastQC检查高通量测序原始数据的质量

本篇文章,主要参考了阳光1986的博文(http://www.dxy.cn/bbs/topic/31324367),自己测序的分析结果作为对比,加在其中了. 1.简介 当二代测序的原始数据拿到手之后,第一步要做的就是看一看原始reads的质量.常用的工具就是fastqc (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/). fastqc的详细使用说明:http://www.bioinformatics.babraham.ac.u

用于自动处理高通量测序(RNA-seq)数据的R脚本

反馈方式: 本文的任何错误,请在留言中指正:也可发邮件至[email protected],欢迎交流: 对于任何关于新功能的建议,也可按上一步交流: 本程序待改进地方: 想着,在运行程序的同时,程序会将自身复制一份到输出文件夹用于备份(current_file_path_getter):但是该函数的可移植性很差,暂时无法识别以R CMD方式运行该脚本,但是通过source("")和“R --file=”方式运行时没有问题的:也请有更好方法的牛人不吝赐教,谢谢先: 期望在每一步完成后,脚

fastq_quality_filter过滤高通量测序数据。

$fastq_quality_filter -q 29 -p 80 -i inputfile -o outfile -v -Q 33/64 [-q N]       = 最小的需要留下的质量值[-p N]       = 每个reads中最少有百分之多少的碱基需要有-q的质量值 [-z]          =压缩输出 [-v]         =详细-报告 -Q           =告诉程序选用哪种质量标准.(sanger -33 :illumina -64) 低质量序列的定义:reads中小

高通量基因组测序中,什么是测序深度和覆盖度?

在搜索资料时看到的这个名词(http://www.bioask.net/question/1552),好奇心来了,搜索一番,解释如下 高通量基因组测序中,什么是测序深度和覆盖度? 测序深度是指测序得到的总碱基数与待测基因组大小的比值.假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M. 覆盖度是指测序获得的序列占整个基因组的比例.由于基因组中的高GC.重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap.例如一个细菌基因组

Bioconductor高通量数据基本类的操作和构建

Bioconductor的两个基础类:ExpressionSet类和SummarizedExpression类 ExpressionSet类和SummarizedExpression类是储存高通量数据的两个基础类.ExpressionSet主要用于基于array的研究,它的row是feature,而SummarizedExpression主要用于基于测序的研究,它的row是genomic ranges(GRanges). ExpressionSet和SummarizedExpression的操作

reads k-mer scaffold 【知乎】

基因簇,一群合在一起能干活的基因.基因家族,干相同活的基因们.acaffold,脚手架的结构.motif,一个分子中一段貌似重要的部分. 作者:刘金韬链接:https://www.zhihu.com/question/37596636/answer/206516478来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 简单回答一下什么是scaffold.上边华中农大那个说的不算错,但是很模糊.read指的是直接测序得到的,目前普遍的二代测序是PE150,也就是双端各测

面向对象中多个对象之间的关系

http://www.cnblogs.com/wing011203/archive/2012/06/23/2559223.html 当谈到面向对象的设计时,我们经常说面向对象是符合人们对现实世界的思维模式,即人们采用针对非程序设计领域存在的复杂问题的解决方式,来解决软件设计过程中各种错综复杂的关系.利用面向对象设计,特别是采用各种设计模式来解决问题时,会设计多个类,然后创建多个对象,这些对象,有些主要是数据模型,有些则是行为描述占主体.一个设计良好的类,应该是兼顾信息和行为,并且是高内聚.而不同