多序列比对

文章转载于 Original 2017-07-11 liuhui 生信百科

多序列比对（或多序列联配，multiple sequence alignment，MSA），是指把多条（3 条或以上）有系统进化关系的蛋白质或核酸序列进行比对，尽可能地把相同的碱基或氨基酸残基排在同一列上。这样做的意义是，对齐的碱基或氨基酸残基在进化上是同源的，即来自共同祖先（common ancestor）。下图是一个 MSA 的例子。

MSA 有许多用途，如构建系统发育树，选择压分析，基因家族的保守结构域分析，motif 分析等。

MSA 分析的软件有很多，如 mafft（http://mafft.cbrc.jp/alignment/software/），muscle（http://www.drive5.com/muscle/downloads.htm），probcons（http://probcons.stanford.edu/），T-coffee（http://tcoffee.crg.cat/），clustalw（http://clustalw.ddbj.nig.ac.jp/）等。

从软件的速度和准确性出发，mafft 和 muscle 是不错的选择。这里介绍 mafft 的使用方法。

mafft 安装（非 root）

下载
wget http://mafft.cbrc.jp/alignment/software/mafft-7.310-with-extensions-src.tgz
解压
tar -zxvf mafft-7.310-with-extensions-src.tgz
编辑 Makefile 文件的第一行
cd mafft-7.310-with-extensions/core/
vim Makefile (或用 nano 等进行编辑)

编辑：

PREFIX = /usr/local

为:

PREFIX = /home/your_home/somewhere

（如：PREFIX = /home/liuhui/bin/mafft-7.310
编译和安
make
make install
安装最后安装在 /home/liuhui/bin/mafft-7.310/bin 下，将这个路径放到 .bashrc 中即可
mafft 使用方法

mafft 的一般用法为：
mafft [arguments] input > output
input 可以是 fasta 格式的蛋白质或核苷酸序列。
对于 200 条序列以内且序列长度小于 2,000 bp 或 aa 的文件，可以使用 mafft-linsi
mafft-linsi input > output
文件较小时，也可以使用在线版：http://mafft.cbrc.jp/alignment/server/

时间： 2024-10-09 23:50:48

多序列比对

mafft 安装（非 root）

mafft 使用方法

多序列比对的相关文章

如何理解“字符串是一组由16位组成的不可变的有序序列”

BZOJ 3992 【SDOI2015】序列统计

k序列和

3、创建数据库、表空间、权限管理、表、约束、序列

数据结构（括号序列，线段树）：ZJOI 2007 捉迷藏

使用RNN解决NLP中序列标注问题的通用优化思路

BZOJ 1251 序列终结者（Splay）

验证给定序列是否是BST的preoder序列

小明系列问题――小明序列(LIS)

51nod round3# 序列分解（折半枚举+字典树）