直系同源预测方法

直系同源预测方法

发表于2011 年 12 月 19 日

直系同源的基因通常具有相似的生物学功能,所以我们在进行一个未知序列的功能的鉴定的时候,其实质在找功能已知的同源基因。功能基因组的研究过程中,对于两个或者多个物种的同源基因进行鉴定,是功能基因鉴定、比较基因组、功能基因分类、pathway预测等待的基础。

基因相似性、一致性与同源性

  • 同源性是序列同源或者不同源的一种论断,而一致性和相似性是一种描述序列相关性的量;
  • 如果两条序列有一个共同的进化祖先,那么他们就是同源的,不存在同源性的程度问题,要么同源,要么不同源;
  • 同源蛋白总是在三维结构上有显著的相似性;
  • 两条蛋白即使没有统计上显著的一致性,其也可能是同源的;
  • 两条蛋白质是否同源的最强的证据来自于结构研究和进化分析;
  • 一致性(identity)表示了两个序列相同的程度;
  • 两条序列的相似性百分比(percent similarity)是相等于相似匹配之和;
  • 一般的一致性比相似性更有用些,因为相似性的衡量依赖于如何定义两个氨基酸残基是如何相似的;
  • 双序列的比对是排列两条序列以达到最大程度相同的过程,其目的是衡量两个分子的相似性和同源的可能性;

确定两个蛋白是否同源的问题检查单

  • 期望值是否显著?
  • 两个蛋白质是否有近似的大小?
  • 是否具有共同的模体或信号序列?
  • 多序列比对的融合性?
  • 是否具有相似的分子特性?
  • 是否具有相似的三维结构?
  • 双向blast比对结构是否一致?
  • 是否具有相似的生物学功能?

直系同源与旁系同源

  • 同源的蛋白质可以分为直系同源与旁系同源,当同源是基因复制的结果,两份拷贝在一个物种的历史上是平行演化的,这样的基因被称为旁系同源基因。当同源是物种形成的结果,基因的历史反映了物种的历史,被称为直系同源;
  • 直系同源是不同物种内的同源序列,他们是来自于物种形成时的共同祖先基因;
  • 通常认为直系同源的序列具有相似的生物学功能;

直系同源与旁系同源的区分

判断直系同源还是旁系同源主要依据最大似然法构建的基因系统发育树。 系统发育树可以显示出基因家族演化的历史,比如基因从一个共同的祖先中分化的。基因树同物种树进行比对,是否有内部的节点,将是区别复制事件与物种分化事件的依据。如果只是简单的只有唯一的直系同源基因,这样的验证非常容易区别。但是大多数情况都是一对多或者多对多的关系。比如斑马鱼与哺乳动物的同源基因比较中这种情况非常多,在果蝇与哺乳动物或者蠕虫与哺乳动物的同源基因预测中,这中情况更为明显。

鉴定直系同源基因的方法,分为7步:

  1. 从Ensemble下载要比对物种的所有基因的蛋白质序列,如果一个基因有多个转录本,只取最长的;
  2. 使用WUBlastp+SmithWaterman,每个基因同所有的基因进行比对,也就是将所有物种的基因当做一个库,用这个库和其本身进行比对;
  3. 基于BRH与BSR的值,为这些基因建立关系图;
  4. 将有关联的分为一组,相当于一个基因家族;
  5. 对于每一组,将蛋白质序列用MUSCLE进行多重比对;
  6. 对比好的每一组,使用多重比对结果中蛋白质对应的CDS序列,使用NJTREE构建系统发育树;
  7. 针对每个基因树,推断每两个基因是直系同源还是旁系同源:
Orthologues : 两个基因之间的根节点是一个物种形成事件
直系同源的几种情况
 ortholog_one2one 一对一
 ortholog_one2many 一对多
 ortholog_many2many 多对多
 apparent_ortholog_one2one (is a special case, see below) 明显的一对一

Paralogues : 祖先节点是一个复制事件,旁系同源的集中情况:
 within_species_paralog 物种内的
 between_species_paralog 物种间的

简单的基因同源性的门槛(基于Blastp比对的)

  • identity >30%;
  • e-value <1e-10;
  • score>200
  • overlap >60%

同源基因数据库

原文地址:https://www.cnblogs.com/wangprince2017/p/9939562.html

时间: 2024-10-09 16:50:11

直系同源预测方法的相关文章

几种同源关系:直系同源、旁系同源和异同源

搞生物信息的必须搞清楚这几种同源关系! 参考:直系同源和旁系同源 直系同源(orthologous) 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性.Orthologs是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能. 旁系同源(Paralogs)是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能. 蛋白质同源家庭的分析对于确立物种之间的亲缘关系和预测新蛋白质序列的功能有重要意义,同源蛋白质(homolog

基因数据分析主流软件与基因预测方法步骤-搬运工

源自:http://www.bbioo.com/lifesciences/40-114214-1.html 1. 基因数目预测的主流软件 GENSCAN就是一个经典的基因预测软件.1996年由MIT的Chris Burge开始编写这个软件程序.当时,Burge的许多同事主张采用比较的方法,他们随机选取一个最新测序基因组中基因的DNA序列,与数据库中已存在的基因进行联配.但是Chris Burge认为:"利用人类基因组所获知的信息,可能不能发现某些新的基因." 他还积极吸取了加州大学计算

基于随机森林的煤与瓦斯突出预测方法研究

1引言 煤炭在我国一次能源中的主导地位短期内不会发生根本性改变.随着煤炭产量的增长,近年来我国煤矿生产事故频繁发生,安全形势非常严峻.煤矿事故已经成为社会各界关注的焦点.而煤与瓦斯突出是煤矿生产过程中的一种严重自然灾害.长期以来,煤与瓦斯突出事故严重制约着我国煤矿生产和煤炭企业经济效益的提高,给煤矿安全生产和井下作业人员的生命财产安全带来了极大威胁.因此,正确预测矿井煤与瓦斯突出的规模,对于煤炭企业安全生产具有重要的现实意义. 目前关于煤与瓦斯突出的预测方法主要有:单项指标法.瓦斯地质统计法.D

常见预测方法及其特点

常见预测方法及其特点 定性定量 方法名 适用时间 方法说明 需要数据 定性方法 专家会议法 长期预测 组织专家以会议的形式进行预测,综合专家意见得出结论 市场历史发展资料信息 德尔菲法 长期预测 专家会依法的发展,对多名专家匿名调查,多轮反馈整理对结果进行统计分析,采用平均数或者中位数得出量化结果 专家意见综合整理分析 类推预测法 长期预测 运用事物发展相似性原理,对相互类似产品的出现和发展进行对比分析 相关历史数据 定量方法 线性回归预测法(包括一元和多元) 短.中期预测 因变量与一个或多个自

统计学习基础(第二版)两种简单的预测方法:最小二乘和最近邻

2.3两种简单的预测方法:最小二乘和最近邻 在本节中我们详细讨论两种简单但有效的预测方法,使用最小二乘线性模型拟合和k最近邻预测.线性模型对结构做了大量的假设,但是可能会产生不准确的预测.K-最近邻对结构做了适当的假设,所以预测通常是精确但不稳定的. 2.3.1线性模型和最小二乘 在过去的30年中,线性模型一直是统计学的支柱,而且现在依然是我们最重要的工具之一.给定一个输入向量,通过以下模型来预测Y: 其中是截距,在机器学习中又叫做偏置,通常在X中包含一个常数变量1,在系数向量中包含是方便的.这

同源建模方法整理

同源建模方法整理 Becky 12 人赞同了该文章 之前一直是使用Swiss model(http://swissmodel.expasy.org/interactive)做同源建模,这个服务器很简单,只要输入自己目的蛋白的序列即可,或者你自己提供模板,再输入蛋白序列,界面友好,但是它有几点不足之处,比如当你用蛋白A来模建蛋白B的时候,A序列比B序列短,那么构建出来的B就会缺少氨基酸,也就是说它不能自动补充那几个少的氨基酸,同源建模的理论前提是模板和目的蛋白的序列相似度要高于30%,对于没有高度

基于预测方法的高光谱图像压缩研究现状

Memon提出预测树的概念,同时利用前向自适应技术与后向自适应技术去除多光谱图像的谱间相关性. []mon N D,Sayood K,Magliveras S S.Lossless Compression of Multispectral Image Data[J].IEEE Transactions on Geoscience and Remote Sensing,1994,32(2):282-289. 张荣等人在预测树的概念上提出了一种侧邻域最小绝对权值预测树构造方法,极大地简化了预测树的构

时间序列 R 10 其他进阶预测方法 Advanced forecasting methods

1 Dynamic regression models 动态回归模型 前面的内容中要么只考虑了时间,要么只考虑了其他自变量的影响,这一节将考虑各个变量和时间的综合影响. 1.1 regression models+ ARIMA models 首先我们简单的将回归和Arima组合,做一个简单的动态回归模型. 其组合的方法和实质就是将回归模型中的误差项变为时间序列的ARIMA,也可以理解为下式: yt=回归+ARIMA+et 当ARIMA为(1,1,1)时可以写成下式 yt=β0+β1x1,t+?+

判别或预测方法汇总(判别分析、神经网络、支持向量机SVM等)

%% [Input]:s_train(输入样本数据,行数为样本数,列为维数):s_group(训练样本类别):s_sample(待判别数据)%% [Output]:Cla(预测类别) function Cla = fun_panbie(s_train,s_group,s_sample,index )switch index case 1%Classify %[s_train,~]=mapminmax(s_train);%标准化处理 %[s_sample,~]=mapminmax(s_sample