基因组拼接中常见的名词解释

Read:高通量测序平台产生的序列就称为reads。

Contig:拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。

Scaffold:基因组de novo测序, 通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关 系,这些先后顺序已知的Contigs组成Scaffold。

Contig N50:Reads 拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行 排序,如获得Contig 1,Contig 2,Contig 3...………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。

Scaffold N50:Scaffold N50与Contig N50的 定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将 所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为 Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

测序深度和覆盖度

测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。

 覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。

转载自:http://www.majorbio.com/Tech/Htseq/403

时间: 2024-08-02 02:49:21

基因组拼接中常见的名词解释的相关文章

AD域中常见属性名词解释

AD域中常见属性名词解释 Active Directory(AD)活动目录 schema对象模型 Organizational Unit(OU)组织单位 Distinguished name(DN)识别名 Canonical Name(CN)正式名称 Domain Controllers(DC)域控制器 displayname显示名称 homephone住宅电话 家庭电话(M) givenname名(F) samaccounttype账号类型 mobile手机 primarygroupid分组I

随笔11 J2EE中常用的名词解释

J2EE中常用的名词解释 ① web容器:给处于其中的应用程序组件(JSP,SERVLET)提供一个环境,使JSP,SERVLET直接和容器中的环境变量接口交互,不必关注其它系统问题.主要由WEB服务器来实现.例如:TOMCAT,WEBLOGIC,WEBSPHERE等.该容器提供的接口严格遵守J2EE规范中的WEB APPLICATION 标准.我们把遵守以上标准的WEB服务器就叫做J2EE中的WEB容器. ② Web container:实现J2EE体系结构中Web组件协议的容器.这个协议规定

常见互联网名词解释

职称 CEO:Chief Executive Officer「首席执行官」 CTO:Chief Technology Officer「首席技术官」 COO:Chief Operations Officer「首席运营官」 PM:Product Manager「产品经理」或 Project Manager 「项目经理」 OD:Operations Director「运营总监」 OP:Operations 「技术运维」 DE:Developmental Enginer「开发工程师」 HE:Hardwa

内存中常见异常值的解释(比如0xcccccccc、0xcdcdcdcd和 0xfeeefeee 异常值 )

* 0xcccccccc : Used by Microsoft's C++ debugging runtime library to mark uninitialised stack memory * 0xcdcdcdcd : Used by Microsoft's C++ debugging runtime library to mark uninitialised heap memory * 0xfeeefeee : Used by Microsoft's HeapFree() to ma

JAVA中的常用名词解释

IDE 集成开发环境(IDE,Integrated Development Environment ) 是用于提供程序开发环境的应用程序,一般包括代码编辑器.编译器.调试器和图形用户界面等工具.集成了代码编写功能.分析功能.编译功能.调试功能等一体化的开发软件服务套.所有具备这一特性的软件或者软件套(组)都可以叫集成开发环境.如微软的Visual Studio系列,Borland的C++ Builder.Delphi系列等.该程序可以独立运行,也可以和其它程序并用.IDE多被用于开发HTML应用

hadoop中常见元素的解释

secondarynamenode 图: secondarynamenode根据文件的的大小对namenode的编辑日志和镜像日志 进行合并. 光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程.其 实不是.snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间.对于ha

xml配置文件中常见的命名空间解释

1.1schema文档即xml schema document,schema文件的格式是.xsd(xml schema document的缩写xsd). 简单来说:schema就是对xml的进一步约束.一旦确定了web.xml schema的引用,就表示要参考该引用所在位置的schema定义和约束的规则,这些规则指定了该xml里: 1)只能出现约束里指定的元素和指定的属性2)某些元素的顺序的也就不可改变的3)谁有子元素,有多少个,顺序是怎样的4)元素和属性的类型,元素是否为空,是否包含文本,数据

aop中的名词解释

aop中的名词解释 aop spring Joinpoint(连接点) 目标对象中所有可以增强的方法叫做连接点 Pointcut(切入点) 目标对象中要增强的的方法 Advice(通知/增强) 增强的代码 Target(目标对象) 被代理对象 Weaving(织入) 将通知应用到连接点的过程 Proxy(代理) 生成的代理对象 Aspect(切面) 切入点+通知就形成了切面

转OSGchina中,array老大的名词解释

转OSGchina中,array老大的名词解释 转自:http://ydwcowboy.blog.163.com/blog/static/25849015200983518395/ osg:: ClearNode:颜色清除节点:用于设置清除颜色缓存的相关选项,它的子节点将在场景中首先渲染,以确保正确执行颜色缓存的设置:osghangglide osg:: ClipNode:剪切平面节点:定义场景中的剪切平面并剪切所有可剪切的子节点.注意,ClipNode能够剪切的节点不一定是它的子节点,详见第七