一文搞懂基因融合(gene fusion)的定义、产生机制及鉴定方法

欢迎关注微信公众号:AIPuFuBio和使用生物信息学平台AIPuFu:www.aipufu.com。

【基因融合的定义】

基因融合(gene fusion)是指由于某种机制(如基因组变异)使得两个不同基因的部分序列或全部序列融合到一起,形成了一个新的基因。如下图所示:

基因融合示意图(图片来源:https://www.tumorfusions.org/)

一般来说,基因融合是指基因组层面的融合。但转录组层面也可能发生融合,主要是由于两个不同基因转录产生的RNA,由于某种原因融合在了一起,形成新的融合RNA,该RNA可能编码蛋白,也可能为非编码。而基因组层面产生的融合基因,根据融合的情况,可能表达,也可能不表达(如破坏了启动子区域或其他原因)。

【基因融合的产生机制】

基因融合的产生机制主要有以下三种,具体如下图所示:

基因融合常见的三种发生机制(图片来源:Wikipedia)

基因融合常见的三种发生机制:

1)Chromosomal Translocation,染色体易位。如上图A中1号和2号染色体上的两片段发生交叉互换,导致1号染色体上的浅绿色基因与2号染色体上的橘黄色基因融合到一起;

2)Interstitial deletion,中间缺失。如上图中,3号染色体上的橘黄色基因和浅绿色基因之间的区段发生缺失(deletion),最终导致这两个基因融合到了一起;

3)Chromosomal Inversion,染色体倒位。如4号染色体上的橘黄色基因到墨绿色基因之间的片段发生倒位,最终导致橘黄色基因和浅绿色基因融合到了一起。

【基因融合与癌症的关系】

那为什么要研究基因融合呢?因为过去的诸多研究不断表明,基因融合与各种疾病,特别是癌症的发生发展紧密相关,甚至是一些癌症的直接诱因,所以基因融合也成为了当前组学大数据分析中的一项重要研究内容。

目前,已经报道有很多癌症的发生与基因融合密切相关,具体如下表所示:

已知的一些肿瘤中的基因融合数量和复发融合数量 (图片来源:Mertens et al. Nature Reviews Cancer, 2015)

而且,美国FDA(Food and Drug Administration)已经批准了一些针对特定基因融合的药物,以治疗相应的癌症,具体如下表所示:

FDA已批准的治疗相应肿瘤的药物 ( 图片来源:Mertens et al. Nature Reviews Cancer, 2015)

因此,基因融合可能与各种癌症的发生发展紧密相关,这些融合基因还可能是潜在的药物靶点,非常有必要对它们进行深入的研究。

【基于全基因组测序和转录组测序鉴定基因融合】

基因融合的鉴定,可以基于全基因组测序数据(whole-genome sequencing,WGS),也可以利用转录组测序数据(RNA-seq),或者二种技术结合起来更好。

全基因组测序鉴定出的基因融合,基本能确定是由于基因组层面发生某种变异而引起的,但如果没有转录组测序数据,就无法准确判断融合后产生的新基因是否能够表达,或表达量的高低。

而转录组测序数据鉴定出的基因融合,可以明确是能表达的基因融合,但却无法完全确定是否是由基因组变异产生的,还是来源于两个不同基因转录后发生的RNA融合。

因此,如果条件允许,同时结合全基因组测序和转录组测序来鉴定基因融合,能够获得更准确的鉴定结果。

【基因融合鉴定中的常见术语】

在了解基因融合鉴定的方法或软件前,我们先了解一下基于测序数据鉴定基因融合时的一些常见术语。具体如下图所示:

基因融合鉴定的一些常见术语(图片来源:Liu et al. Nucleic Acids Research, 2016)(A) Intact exon (IE) type andbroken exon (BE) type fusion transcripts; (B) spanning read, split readand anchor length; (C) short and long insert size of DNA fragment forsequencing.

这些常见的术语有:

1)Intact exon (IE) type fusion,是指融合后完整的保留了原来的外显子,未影响原来的外显子结构。如上图A中Gene A的Exon2和Gene B的Exon1融合后完整的保留了两个外显子的序列;

2)Broken exon (BE) type fusion,是指融合后没有保留原来完整的外显子序列。如上图A中 Gene A的Exon3的部分序列和Gene B的Exon2融合在一起,融合后的新基因中,来自Gene A的Exon3丢失了部分序列;

3)Breakpoint,是指两个融合基因在基因组上发生融合的位置,如上图B中Gene A(蓝色)和Gene B(绿色)融合的位点;

4)Spanning read,是指跨越融合位点分别匹配到两个融合基因的paired-end read,比如上图B中的匹配到Gene A(蓝色)和Gene B(绿色)的一对read;

5)Split read,是指恰好匹配到融合位点上的read,具体如上图B中右侧图所示;

6)Anchor length,是指跨越融合位点的read左端和右端的长度,具体如上图B中右侧图所示;

7)short insert size,一般是指双端测序paired-end sequencing中,两个read中间间隔的较短距离,一般为几百bp;

8)long insert size,一般是指双端测序mate-pair sequencing中,两个read中间间隔的较长距离,一般为几kb甚至更长;

基因融合鉴定软件的开发,一般就是基于上面提到的这些术语,采用相应的算法来设计的。

【基因融合鉴定软件的性能比较】

到目前为止,已经有数十种不同的基因融合检测软件相继被开发出来,其中一些具有比较好的综合性能。接下来,我们就进一步比较分析一下一些常用的基因融合鉴定软件的性能。

下表列出了15种常用的基因融合鉴定软件在3组不同类型的人工合成数据和3组真实数据集上的性能比较。这些软件分别是:SOAPfuse,FusionCatcher,JAFFA,EricScript,chimerascan,PRADA,deFuse,FusionMap,TopHat-Fusion,MapSplice,BreakFusion,SnowShoes-FTD,FusionQ,FusionHunter,ShortFuse。

15种基因融合鉴定软件在3组合成数据和3组真实数据上的F-measure得分比较(图片来源:Liu et al. Nucleic Acids Research, 2016)。F-measure是一种统计量,又称为F-Score,是Precision和Recall加权调和平均,常用于评价分类模型的好坏,数值越高代表性能越好  注:* 综合表现最好。

值得注意的是,测序read的长度,还有双端测序read的间隔距离insert size等都会影响基因融合的鉴定效果。因此,上面表中使用了不同类型的测数据来综合检验这15款软件的性能。其中,Type-1A 为使用wgsim软件人工合成 的来自5’ 和 3’ end 的chimerical transcripts 双端测序数据, 其中read长度为100bp,insert size 为500 ± 50 bp; Type-1B数据合成方法和Type-1A类似,只是双端测序数据的insert size较小,为 250 ± 50 bp;Type-3B: read 长度为50 bp 的合成数据; 另外三组真实数据分别来自于Breast cancer,Melanoma和Prostate cancer。

比较结果显示,SOAPfuse,FusionCatcher和JAFFA在3组模拟数据和3组真实数据上的综合性能最好,取得了最高的F-measure分值。

Liu et al. 进一步比较了15种基因融合检测软件在更多真实数据上的性能表现。具体如下图所示:

15种基因融合检测软件在真实测序数据集上的进一步性能比较(图片来源: Liu et al. Nucleic Acids Research, 2016 )。A到C纵轴为检测到的真实基因融合数量,横轴为15种不同的软件。D图为Precision和Recall的曲线比较。其中(A) 和(D)使用的是 Breast cancer数据集; (B) 和 (E) 使用的是Melanoma数据集; (C) 和(F)使用的是Prostate cancer数据集。

真实数据上的比较结果也显示,SOAPfuse,FusionCatcher和JAFFA在检测基因融合时具有较高的准确性。

Liu et al. 也比较了15种基因融合检测软件在不同测序深度的合成数据集和真实数据集上的运行时间比较。具体如下图所示:

15种基因融合检测软件的运行速度比较(图片来源: Liu et al. Nucleic Acids Research, 2016 )。Y轴为运行时间分钟(min)。A为 合成数据集,read长度为100 bp,模拟测序深度分别为50X, 100X 和200X。B为真实的prostate cancer 171T 的数据集。

运行时间比较结果显示,FusionMap等软件的运行速度最快。但前面的结果显示,FusionMap检测的基因融合准确性较低。

所以,没有哪一个方法在各方面的性能比较上面都具有最明显的优势。整体来看,SOAPfuse综合比较最好,接着是FusionCatcher和JAFFA。 而且,因为不同软件具有的优缺点不一样,如果联合多个不同软件一起鉴定基因融合,或可取得更准确的结果。

更多精彩,可见大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com,关注微信公众号:AIPuFuBio。

希望今天的内容对大家有用,欢迎留言~~!

原文地址:https://www.cnblogs.com/aipufu/p/11615336.html

时间: 2024-10-10 06:49:17

一文搞懂基因融合(gene fusion)的定义、产生机制及鉴定方法的相关文章

【Data Visual】一文搞懂matplotlib数据可视化

一文搞懂matplotlib数据可视化 作者:白宁超 2017年7月19日09:09:07 摘要:数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息.但是,这并不就意味着数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂.为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察.然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式,

一文搞懂 RSA 算法

一文搞懂 RSA 算法 地球上最重要的算法 如果没有 RSA 算法,现在的网络世界毫无安全可言,也不可能有现在的网上交易.上一篇文章 ssh 协议为什么安全 中的 ssh 协议也是基于 RSA 加密算法才能确保通讯是加密的,可靠的. 1976年以前,所有的加密方法都使用对称加密算法:加密和解密使用同一套规则.例如:甲使用密钥 A 加密,将密文传递给乙,乙仍使用密钥 A 解密.如果密钥 A 在甲传递给乙的过程中泄露,或者根据已知的几次密文和明文推导出密钥 A,则甲乙之间的通讯将毫无秘密. 1976

一文搞懂蓝绿发布、灰度发布和滚动发布(转)

应用程序升级面临最大挑战是新旧业务切换,将软件从测试的最后阶段带到生产环境,同时要保证系统不间断提供服务. 长期以来,业务升级渐渐形成了几个发布策略:蓝绿发布.灰度发布和滚动发布,目的是尽可能避免因发布导致的流量丢失或服务不可用问题. 一. 蓝绿发布 项目逻辑上分为AB组,在项目系统时,首先把A组从负载均衡中摘除,进行新版本的部署.B组仍然继续提供服务. 当A组升级完毕,负载均衡重新接入A组,再把B组从负载列表中摘除,进行新版本的部署.A组重新提供服务. 最后,B组也升级完成,负载均衡重新接入B

一文搞懂vim复制粘贴

转载自本人独立博客https://liushiming.cn/2020/01/18/copy-and-paste-in-vim/ 概述 复制粘贴是文本编辑最常用的功能,但是在vim中复制粘贴还是有点麻烦的,有一点学习成本.本文总结了使用vim复制粘贴的典型场景和使用方法,希望对读者有帮助. vim内部复制.粘贴.剪切 选择文本 v+光标移动 (按字符选择)高亮选中所要的文本,然后进行各种操作(比如,d表示删除). V (按行选择) v+选中的内容+c 更改选中的文字 复制:y(ank) y 用v

一文搞懂*argv和**kwargs

大多刚接触Python的学员,会对*argv和**kwargs这两个魔法变量的用法产生困惑,今天本文将全面梳理下这两个小可爱的使用方法,让各位同学彻底搞懂它们的规则. 这两个变量主要用户函数定义,有了它俩你可以将不定数量的参数传递给一个函数.这里,需要申明下:在写Python代码时,我们习惯将它俩写成*argv和**kwargs,这只是一个书写习惯,你也可以任性地用*var和**kvars来代替它们,要注意的是符号*和**是必须写的. 函数在实际执行时,编程人员无法预先知道会被传入多少实参,这是

夯实Java基础系列6:一文搞懂抽象类和接口,从基础到面试题,揭秘其本质区别!

目录 抽象类介绍 为什么要用抽象类 一个抽象类小故事 一个抽象类小游戏 接口介绍 接口与类相似点: 接口与类的区别: 接口特性 抽象类和接口的区别 接口的使用: 接口最佳实践:设计模式中的工厂模式 接口与抽象类的本质区别是什么? 基本语法区别 设计思想区别 如何回答面试题:接口和抽象类的区别? 参考文章 微信公众号 Java技术江湖 个人公众号:黄小斜 本系列文章将整理到我在GitHub上的<Java面试指南>仓库,更多精彩内容请到我的仓库里查看 https://github.com/h2pl

一文搞懂 Java 线程中断

在之前的一文<如何"优雅"地终止一个线程>中详细说明了 stop 终止线程的坏处及如何优雅地终止线程,那么还有别的可以终止线程的方法吗?答案是肯定的,它就是我们今天要分享的--线程中断. 下面的这断代码大家应该再熟悉不过了,线程休眠需要捕获或者抛出线程中断异常,也就是你在睡觉的时候突然有个人冲进来把你吵醒了. try { Thread.sleep(3000); } catch (InterruptedException e) { e.printStackTrace(); }

Java虚拟机系列一:一文搞懂 JVM 架构和运行时数据区

前言 之前写博客一直比较随性,主题也很随意,就是想到什么写什么,对什么感兴趣就写什么.虽然写起来无拘无束,自在随意,但也带来了一些问题,每次写完一篇后就要去纠结下一篇到底写什么,看来选择太多也不是好事儿,更重要的是不成体系的内容对读者也不够友好.所以以后的博客尽量按系列来写,不过偶尔也会穿插其他的内容.接下来一段时间我会把写博客的重点放在 JVM (Java Virtual Machine) 和 JUC (java util concurrent ) 上,对 Java 虚拟机和 Java 并发编

一文搞懂HMM(隐马尔可夫模型)

本文转自于:http://www.cnblogs.com/skyme/p/4651331.html 隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程.其难点是从可观察的参数中确定该过程的隐含参数.然后利用这些参数来作进一步的分析,例如模式识别. 是在被建模的系统被认为是一个马尔可夫过程与未观测到的(隐藏的)的状态的统计马尔可夫模型. 下面用一个简单的例子来阐述: 假设我手里有三个不同的骰子.第一个骰子是我们平常见的骰子(称这