MSA:多重比对序列的格式及其应用

多重比对序列的格式及其应用

这里对多重序列比对格式(Multiple sequence alignment – MSA)进行总结。在做系统演化分析、序列功能分析、基因预测等,都需要涉及到多重序列比对。特别是当需要用不同软件对多重比对序列进行批量操作时,会遇到各种的格式,而这些格式是如何产生的,有什么区别,格式之间如何转换,从哪里可以下载到相关的格式序列,不同的格式又有什么特殊的用途等,本篇文章将就这些问题进行总结与讨论。因为涉及内容较多,不足之处,欢迎大家补充或者批判。

生物信息学的基础是基于这样的一个假设:序列相似,结构相似,功能相似。所以相似的一组序列,就可能同属于一个基因家族,而这样的一组序列相似的部分,就可能使其功能之所在,称其为结构域。这是对于基因家族分类的一种方式,将结构与功能进行联系,从而实现从结构预测功能(序列称为一级结构)。

进行多重比对、多重序列的编辑、多重序列注释、存储与展示、系统演化分析等,不同的软件、不同的系统,除了要兼容现有的格式,还会根据自身的需要,都定义新的格式。所以这些本身可以进行部分的格式转换,同时许多脚本模块比如bioperl等也提供了一些格式之间转换的脚本。这些格式同发布其软件平台有着密切的联系,随着软件的流行而流行。

下表是目前主流的格式:

名称 后缀 描述 Unique file Feature 详细定义地址
FASTA .fasta, fa Pearson or FASTA sequence format >SequenceNameTHISISASEQENCE FASTA (Pearson)
GCG/MSF format .msf, .gcg GCG Multiple Sequence File (MSF) alignment format !! AA_MULTIPLE_ALIGNMENT 1.0..// GCG/MSF
Aligned FASTA (UCSC a2m) format .a2m UCSC    
Stockholm format .txt used by Pfam and Rfam to disseminate protein and RNA sequence alignments. 可以添加丰富的注释信息,适合多序列比对结果的注释。 # STOCKHOLM 1.0<seqname> <aligned sequence>

//
链接wiki链接
PHYLIP .phy, .phylip, .phylip2 PHYLIP software   链接
NBR/PIR .pir NBRF or PIR sequence format >P1; 链接
CLUSTAL .aln, .an, .aln2 ClustalW alignment format CLUSTAL 链接
GDE .gde GDE format is a tagged-field format similar to ASN.l that is used for storing all available information about a sequence, including residue color.   链接
NEXUS .nxs, .nexus Nexus file formatis widely used in Bioinformatics. Several popular phylogenetic programs such as Paup, MrBayes, Mesquite, and MacClade use this format.   链接
BLC .blc   >Seq1>Seq2  
PFAM .pfam   SequenceName THISISASEQENCE 链接
MEGA .meg MEGA software    
SELEX .      
IG .ig      
Internet (NCBI) XML format .xml      
NBRF format .nbrf      

主要软件平台对于格式的要求

  • Clustal
    输入:NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
    输出:CLUSTAL, NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
  • MUSCLE(http://www.drive5.com/muscle/muscle.html)
    输入:FASTA, CLUSTAL, MSF
    输出:FASTA
  • hmmbuild
    ClustalW, GCG MSF, or SELEX
  • hmmalign
    输入:FASTA, GENBANK, EMBL, GCG, PIR, STOCKHOLM, SELEX, MSF, CLUSTAL, and PHYLIP.
    输出:Stockholm, SELEX, MSF, Clustal, Phylip, and A2M
  • Jalview java viewer (http://www.jalview.org/help.html)
    输入:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR (including MODELLER variant), Pfam/Stockholm
    输出:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR, Pfam/Stockholm
  • MEGA
    输入:CLUSTAL, NEXUS (PAUP, MacClade), PHYLIP, GCG, FASTA, PIR,  NBRF, MSF, IG, and XML formats.
    输出:MEGA, PAUP, FASTA
  • PFAM数据库
    Selex, Stockholm, MSF, FASTA
时间: 2024-12-15 17:50:54

MSA:多重比对序列的格式及其应用的相关文章

35、多重比对序列的格式及其应用

转载:http://boyun.sh.cn/bio/?p=1711 这里对多重序列比对格式(Multiple sequence alignment – MSA)进行总结.在做系统演化分析.序列功能分析.基因预测等,都需要涉及到多重序列比对.特别是当需要用不同软件对多重比对序列进行批量操作时,会遇到各种的格式,而这些格式是如何产生的,有什么区别,格式之间如何转换,从哪里可以下载到相关的格式序列,不同的格式又有什么特殊的用途等,本篇文章将就这些问题进行总结与讨论.因为涉及内容较多,不足之处,欢迎大家

Oracle --------序列

1.思考问题 在某张表中,存在一个id列(整数),用户希望在添加记录的时候,该列从1开始,自动的增长,如何处理? 2.介绍 Oracle通过序列处理自动增长列. (1) 可以为表中的列自动产生值 (2) 由用户创建数据库对象,并可由多个用户共享. (3) 一般用于主键或唯一列 (4) 序列也是一种数据对象 3.定义序列 2  格式: Create sequence 序列名 [Start with n1] [Increment by n2] [Minvalue n3 | nominvalue] [

基于最短路方法的生物序列比对问题研究

概述 作为生物信息学中的基本组成和重要基础,生物序列比对旨在找出两个或多个生物序列之间的相似性,发现生物序列中的功能.结构和进化信息. 生物序列比对在现实生活中有广泛的应用价值.从核酸和蛋白质序列出发,分析序列中表达结构和功能的生物信息:在序列分析中,将未知序列同已知序列进行相似性比较是一种强有力的研究手段,从序列的片段测定,拼接,基因的表达分析,到RNA和蛋白质的结构功能预测,物种亲缘树的构建都需要进行生物分子序列的相似性比较.本软件主要是对双序列的DNA序列进行比较,以确定两条序列的相似性.

Python序列应用知识回顾

Python序列应用 1.序列 序列是一块用于存放多个值的连续内存空间,并且按一定顺序排列.序列结构有列表.元组.集合.字典和字符串.Python对序列中列表.元组.字符串有索引.切片.相加和相乘操作,可以通过关键字in检查某个元素是否为序列的成员. (1)索引 序列中的每个元素都有一个编号被称为索引,通过索引可以访问序列中的任何元素.索引类似C语言数组中的下标从0开始表示第一个元素,依次递增,但索引可以为负数,例如:-1表示最后一个元素. (2)切片 切片是访问序列中元素的一种方法,可以访问一

hmmer 使用

hmmer 使用 » 转载文章请注明,转载自:博耘生物 » <hmmer的安装与使用> » 原文链接:http://boyun.sh.cn/bio/?p=1753 从功能基因研究的角度来讲,相关的搜索,比如从序列数据库中,找同源的序列,或者对一个对一个新的基因功能进行鉴定,使用hmmer比使用blast有着更高的灵敏度已经更高的搜索速度,但其应用还远没有blast普及,这里是一篇入门级的介绍文章. hmmer下载与安装 对于Mac OS/X, Linux, UNIX系统,用源代码编译安装: %

Hmmer安装与使用

Hmmer的安装与使用 从功能基因研究的角度来讲,相关的搜索,比如从序列数据库中,找同源的序列,或者对一个对一个新的基因功能进行鉴定,使用hmmer比使用blast有着更高的灵敏度已经更高的搜索速度,但其应用还远没有blast普及. hmmer下载与安装 对于Mac OS/X, Linux, UNIX系统,用源代码编译安装: % wget ftp://selab.janelia.org/pub/software/hmmer3/3.0/hmmer-3.0.tar.gz % tar zxf hmme

shell语句规则

一.if 条件语句 格式: if 条件表达式 then #当条件为真时执行以下语句 命令列表 else #为假时执行以下语句 命令列表 fi if 语句也可以嵌套使用 if 条件表达式 1 then if 条件表达式 2 then 命令列表 else if 条件表达式 3 then 命令列表 else 命令列表 fi fi else 命令列表 fi 你可以进行多层嵌套 一个 if 语句一定要跟一个 fi 表示该层条件结束 否则会造成语法错误 结合前面讲的 举例如下: 这里先讲一个条件语句中用到的

第六周课堂总结

第1章 操作符 1.1测试文件 格式 [ 操作符 文件或目录 ] 操作符: -d:测试是否为目录,是则为真(Directory) -e:测试目录或文件是否存在,存在则为真(Exist) -f:测试是否为文件,是则为真(file) -r:测试当前用户是否有权限读取,是则为真(read) -w:测试当前用户是否有权限写入,是这为真(write) -x:测试当前用户是否可执行该文件,可执行则为真(Excute) 1.2字符串比较 格式 : [ 字符串1 = 字符串2 ] [ 字符串1 != 字符串2

linux之shell脚本管理(一)

在Shell脚本中执行使用if语句的好处是:可以根据特定的条件(eg:判断备份目录是否存在)来决定是否执行某项操作,当满足不同的条件时执行 不同的操作(eg:备份目录不存在则创建该目录,否则跳过操作).该文将分别从条件测试操作,if语句结构,应用示例这三个方面讲解if语句在Shell 脚本中的应用. 1.条件测试操作: 需要在Shell脚本中有选择性地执行任务时,首先面临的问题就是,如何设置命令执行的条件? 在Shell环境中,可以根据命令执行后返回状态值来判断该命令是否成功执行,当返回值为0是