利用MEGA-X选择模型及构建美化进化树

对于经常构建进化树的朋友来说,MEGA应该是个老朋友了。MEGA从1993年的第一个版本问世一直锤炼到去年刚刚发布的MEGA-X,已经经历了26年,在这期间,MEGA共更新八个版本,先后在Molecular Biology and Evolution、Bioinformatics、Computer Applications in the Biosciences等期刊上发表共十篇论文,总引用量已经超过11万。对于如此熟悉的一个老朋友,让我们今天一起来了解一下它的新版本MEGA-X,开发它更多的使用方法。 MEGA-X的官网网址是https://www.megasoftware.net/,它支持在Windows、MacOS 以及Linux 系统下运行,有图形界面和命令行两个版本可供选择,支持64 位和32 位,与之前的版本比较,MEGA-X 最大的特点是大数据运算能力增强,并且支持多种计算平台

今天主要介绍的是在MEGA-X图形界面下构建系统发育树并且对发育树进行美化。下载安装好MEGA-X后,首先打开软件。

此处我们以一株细菌的16S rRNA序列为目标序列,首先在NCBI中进行Blast比对,下载将要一起比对建树的菌株序列。在NCBI中输入序列或者上传文件,选择数据库时可以选择「Nucleotide collection(nr/nt)」或者「16S ribosomal RNA sequences」数据库,一般来说nr/nt库信息比较全面。

我们选择了10个不同种的16S rRNA序列进行下载。另外,此处还可以比对下载2-3条大肠杆菌(Escherichia coli)和沙门氏杆菌(Salmonella)的16S rRNA序列作为外类群(在Organism选项中进行物种限定),后面推断进化时间的时候可以用到。将所有下载的序列整理在一个文件中,为了方便后面的建树可以将菌株名称后面多余的信息在这里替换删除掉(只是名称上的信息,不要改动碱基序列),然后将文件的扩展名改为.fasta。在MEGA-X首页选择DATA,点击Open a File/Session,选择刚才的文件。

打开文件时询问「Analyze or Align File?」,此处点击Align。序列中可能会出现混合碱基符号,混合碱基符号指两种或多种碱基(核苷)混合物的表示符号,或未完全确定可能属于某两种或多种碱基(核苷)的符号:R表示A+G;Y表示C+T;M表示A+C;K表示G+T;S表示C+G;W表示A+T;H表示A+C+T;B表示C+G+T;V表示A+C+G;D表示A+G+T;N表示A+C+G+T。

接下来选择序列比对的方法:Muscle或者ClustalW。ClustalW的基本原理是首先做序列的两两比对,根据该两两比对计算两两距离矩阵,是一种经典的比对方法,使用范围也比较广泛。Muscle的功能仅限于多序列比对,它的最大优势是速度,比ClustalW的速度快几个数量级,而且序列数越多速度的差别越大。方法可以通过点击图中上方Alignment或者下方的图标「W」和「Muscle」来选择。如果你的序列是DNA编码序列,就一定要选择Align Codons,因为序列通过密码子比对比DNA序列的比对会更加真实,避免间隙对比对结果产生的影响。MEGA可以比较方便快速地将密码子排列比对,后续作为输入文件在软件PAML或DATAMONKEY中进行进化压力的分析时就会比较方便。

在这里我们选择Muscle进行序列排列,点击Align DNA,会出现一些参数选项,根据自己需要进行修改,在这里直接点击OK选择默认参数即可。

比对之后要去检查一下比对的情况,有的差异很大的或许是因为序列方向反了,这个时候要把它反转回来,右击这条序列,点击Reverse Complement,反转后一定要再次点击Muscle比对,检查是否大部分都对齐了。

这里我们可以将最后对比后的文件导出,可以导出保存为MEGA格式。

然后点击Data中的Phylogenetic Analysis直接进行系统发育分析。

分析后返回主页面,接下来我们要选择一个最优的模型,提高建树的精确度。如果想要快速建树可以省去这一步,直接选择默认的模型。点击MODELS中的Find Best DNA/Protein Models(ML) 软件就会根据你的数据帮你计算寻找最适合的模型。

分析时选择默认参数,开始进行分析计算。

不久就会显示分析计算结果。具有最低BIC分数(BayesianInformation Criterion)的模型被认为是最好地描述替代模式。对于每个模型,还给出了AICc值(Akaike Information Criterion, corrected,值越低拟合程度越好),以及用来计算上述两个分值的最大似然值(lnL)和参数数量(包括分支长度)。在这里就可以看到,BIC分数最低的模型是K2+G+I,K2+G+I在这里就是最好的模型。

但因为实际在后面的模型选择中,软件有时没有提供组合的模型来选择,所以我们继续看下面的BIC分数,可以找到单个模型中得分最小的,就是我们在这里要选择的最优模型。看到这里的BIC值最低的单个模型是TN93(Tamura-Nei)。

模型选好后,就可以点击PHYLOGENY进行方法的选择了。构建系统发育树有三种主要的建树方法,分别是距离法、最大节约法(maximumparsimony, MP)和最大似然法(maximum likelihood,ML)。最大似然法考察数据组中序列的多重比对结果,优化出拥有一定拓扑结构和树枝长度的进化树,这个进化树能够以最大的概率导致考察的多重比对结果;距离树考察数据组中所有序列的两两比对结果,通过序列两两之间的差异决定进化树的拓扑结构和树枝长度,基于距离的方法有UPGMA、ME(Minimum Evolution,最小进化法)和NJ(Neighbor-Joining,邻接法)等;最大节约法考察数据组中序列的多重比对结果,优化出的进化树能够利用最少的离散步骤去解释多重比对中的碱基差异。在这些方法中,如果模型合适,ML的效果较好。对于近缘序列,有人喜欢MP,因为用到的假设最少,远缘序列上一般用NJ或者ML,这两个方法都是需要选择模型的。对于相似性很低的序列,NJ往往出现Long-branch attraction(LBA,长枝吸引现象),这种现象有时候会严重干扰进化树的构建。其实当序列的相似性比较高时,各种方法都会得到不错的结果,模型之间的差别也不是很大。所以平时我们一般推荐用两种不同的方法进行建树,如果得到的进化树类似,则结果较为可靠。这里我们先选择Neighbor-Joining法建树。

点击方法后,选择自展值,即重复建树以进行检验的次数,一般选择1000以上才比较可靠。模型的话选择之前计算好的最优的模型,点击OK。

稍等片刻,就初步构建好了这个树,接下来我们对这棵树进行一些调整和美化。首先我们看到每棵树的前面都标有自展值,这主要是对进化树进行评估的一个百分比值。因为进化树的构建是一个统计学问题,我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的「进化树」。这里的数值表示我们将该树重复构建1000(之前设置的数值)次,得到相同结果的次数占重复次数的百分比值。一般Bootstrap的值>70%,则认为构建的进化树非常可靠,50%-70%认为基本可靠,小于50%认为不可靠(不同的人对于这个阈值有不同的划分)。如果Bootstrap值太低,则有可能进化树的拓扑结构有错误。当Bootstrap的值小于50%时,我们一般选择隐去。

点击左上的工具图标,隐去较低的自展值可以点击此处的Branches。

设置隐去50以下的数值。

这个工具栏里的其他选项还可以对字体和线条粗线长短等进行修改,并且将想要突出的菌株和分枝信息进行重点标注。

左边的工具栏里还可以对进化树进行修改,比如改变树根,调整分枝的上下位置,以及重点标记突出某个分枝信息。

最后美化结果。

在这里还可以点击树形图标将进化树修改成为圆圈型和松针型。

结果图展示如下。

为了数据更加可靠,大家可以再选择另外一种方法进行建树,和上一种方法构建出的进化树进行比对。然后最后导出储存图片,这里提供EMP、SVG (矢量图,可进一步通过绘图软件如AI编辑)、PDF、PNG和TIFF (位图)几种格式来导出。

记得将进化树的文本文件也保存一下。点击File中的Export Current Tree(Newick)保存Newick格式。

保存后的树文件格式如下,导出的树文件便于之后在iTOL、Evolview、Figtree等工具中进行更进一步的美化,比如添加分类颜色、标记以及热图和条形图等。

MEGA的使用非常方便,作为一个历史悠久并且极具创新精神的软件,它一直在提高自己的计算速度,丰富自己的计算平台。今天主要介绍了用图形界面MEGA-X建树的操作步骤,下次我们来介绍下根据MEGA-X构建的进化树来推断物种进化时间以及链接到DATAMOKEY等软件去计算进化压力等,期待一下吧。 参考文献:Kumar S, Stecher G, LiM, et al. MEGA-X: Molecular Evolutionary Genetics Analysis across computingplatforms[J]. Molecular Biology & Evolution, 2018.

原文地址:https://www.cnblogs.com/tsingke/p/12440571.html

时间: 2024-10-11 20:50:19

利用MEGA-X选择模型及构建美化进化树的相关文章

ExtJS表格——行号、复选框、选择模型

本篇的内容是为表格添加行号,和复选框,最后谈一下Ext的选择模型.内容比较简单,就直接上代码了.一. 设置行号   行号的设置主要问题在于删除某一行后需要重新计算行号  Ext.onReady(function() {         var cm = new Ext.grid.ColumnModel([                     new Ext.grid.RowNumberer(),           --在这里设置行号                    { header:

机器学习如何选择模型 & 机器学习与数据挖掘区别 & 深度学习科普

今天看到这篇文章里面提到如何选择模型,觉得非常好,单独写在这里. 更多的机器学习实战可以看这篇文章:http://www.cnblogs.com/charlesblc/p/6159187.html 另外关于机器学习与数据挖掘的区别, 参考这篇文章:https://www.zhihu.com/question/30557267 数据挖掘:也就是data mining,是一个很宽泛的概念.字面意思就是从成吨的数据里面挖掘有用的信息.这个工作BI(商业智能)可以做,数据分析可以做,甚至市场运营也可以做

Winsock—I/O模型之选择模型(一)

Winsock中提供了一些I/O模型帮助应用程序以异步方式在一个或多个套接字上管理I/O. 这样的I/O模型有六种:阻塞(blocking)模型,选择(select)模型,WSAAsyncSelect模型,WSAEventSelect模型,重叠(overlapped)模型,完成端口(completion port)模型. 选择模型: 目的:允许想要避免在套接字调用上阻塞的应用程序有能力管理多个套接字. 一.select函数             select函数可以确定一个或者多个套接字的状态

异步I/O:选择模型(select)

摘自:www.cctry.com 选择模型selectint select( __in int nfds, 参数nfds会被忽略.之所以仍然要提供这个参数,只是为了保持与Berkeley套接字兼容. __in_out fd_set* readfds, 用于检查可读性 __in_out fd_set* writefds, 用于检查可写性 __in_out fd_set* exceptfds, 用于检查例外数据 __in const struct timeval* timeout 时间结构); fd

javascript 制作的美化select,利用cookie保存选择

可以看一下动画 下面是代码 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <style> body{line-height: 40px;font-weight: bold} .container{height:40px;width: 230px;position: relative; margin-top:100px;margin-left: 100px; } .se

sklearn中的模型评估-构建评估函数

1.介绍 有三种不同的方法来评估一个模型的预测质量: estimator的score方法:sklearn中的estimator都具有一个score方法,它提供了一个缺省的评估法则来解决问题. Scoring参数:使用cross-validation的模型评估工具,依赖于内部的scoring策略.见下. Metric函数:metrics模块实现了一些函数,用来评估预测误差.见下. 2. scoring参数 模型选择和评估工具,例如: grid_search.GridSearchCV 和 cross

有容云:实战总结之 利用Docker、Docker Compose &amp;Rancher构建持续部署

前言: 本文由John Patterson . Chris Lunsford写于2016年4月4日,译者有容云张向波,转载请注明出处.(原文链接见文末) 作者John Patterson和Chris Lunsford 运营了一家提供运营和基础架构服务的公司,本文是他们给大家分享的内容:关于如何通过使用Docker.Docker-Compose和Rancher来实现容器部署落地. 我们想跟你一起从头开始体验整个过程,特别是之间遇到的一些痛点和所做的决策.目前,已经有许多的资源和工具可以与Docke

利用K2和Microsoft Dynamics CRM构建业务App的5大理由

Microsoft Dynamics CRM提供了一个绝佳的客户关系管理平台,使您能够创建各种以客户为中心的解决方案.然而,通过将K2的企业业务流程功能与Microsoft Dynamics CRM相结合,您有机会构建为企业量身定制的业务应用程序.以下仅列举K2与Microsoft Dynamics CRM结合可为您带来的五大优势. 一.企业流程 Microsoft Dynamics CRM包含了一些流程功能,这些功能对于短暂的(几秒钟)实体操作流程来说至关重要,比如发布新信息时创建电话跟进流程

类似 select 选择框效果及美化

网上有各种各样的关于 select 选择框的美化,找了很多,并没有好的样式效果.所以就找了一个利用 ul li 做的类似 select 选择框的效果,不废话了,先上图,效果如下: 对于上图的箭头效果,可以看看我上篇博客 点击这里 点击一个 test ,就会把列表显示出来,再次点击,列表隐藏,选择一个 li ,就会把 span 里的内容替换成 li 的内容,然后可以用 js 监控 span 的变化,然后执行你的代码.效果如下: html 代码如下: <div id="type" c