Journal of Proteomics Research | 自动的、可重复的免疫多肽数据分析流程MHCquant

题目:MHCquant: Automated and reproducible data analysis for immunopeptidomics

期刊:Journal of Proteome Research

发表时间:October 7, 2019

DOI:10.1021/acs.jproteome.9b00313

分享人:陈洁

本次分享的文章的题目是:MHCquant: Automated and reproducible data analysis for immunopeptidomics。

第一作者是图宾根大学的Leon Bichmann,通讯作者是Oliver Kohlbacher教授。

由HLA分子呈递在细胞表面的肽段在适应性免疫免疫中扮演着重要角色。T细胞识别HLA呈递的肽段并激活呈递肽段的细胞的死亡进程。HLA一类抗原决定簇是长度为8-12个氨基酸的多肽,是由一类抗原加工途径形成的内源性抗原。

来源于肿瘤特异性基因突变的新表位有希望作为靶标用于癌症免疫治疗。

为了从样本中更好的纯化和提取HLA配体,现已发展和优化了很多实验方法。相比之下,免疫信息学中几乎没有针对MS原始数据的处理方法,特别是针对HLA呈递的肽组(peptidome)。免疫多肽鉴定的一个大的缺点是它是非特异性酶切产生的,因此数据库搜索空间要远大于典型的胰蛋白酶酶切肽段的鉴定。又因为很大一部分免疫肽组来源于翻译后的剪切和非典型翻译,这就使得问题更为复杂。处理这样大的搜索空间和数据集会导致错误的鉴定,因此就需要稳健地估计和严格地控制假阳性率来防止错误的累积。此外,准确定量表位的丰度仍然是一个挑战。

随着鉴定这种肽段的需求越来越多,也发展出一些流程,但至今还没有集成的、版本控制的工作流程专门用于免疫多肽的鉴定。因此,作者开发了MHCquant,它是一个可用于鉴定和定量的流程。

  1. MHCquant流程的组成结构

MHCquant的处理步骤包括数据库搜索,FDR估计,非标定量和HLA结合亲和力预测。 FDR可以在多个水平(PSM,肽或蛋白质)上进行评估,可选地,这个软件可以通过计算高可信的和预测为亲和的PSM子集的FDR,从而挽救(rescue)低于常规FDR阈值的高可信PSM。此外,与其他可用的蛋白质组学软件相比,MHCquant将靶向特征提取作为一种非标定量方法,几乎可以对所有鉴定的肽进行完全定量,并可以在不同的run之间对比。

MHCquant是一个集成的数据处理管道(图1),包括来自OpenMS软件包的一系列不同的工具。这个流程的输入文件包括四类:一组LC-MS / MS原始文件(每个LC-MS / MS以mzML格式在单独的文件中运行),蛋白数据库(FASTA格式),突变调用文件(VCF格式),包含推定的新抗原突变和HLA分型文件(TSV格式)。使用Fred 2.0 免疫信息学框架将variants翻译成突变的蛋白序列,并添加到提供的FASTA数据库中。

该流程使用反序Decoy序列以Target-Decoy方法应用搜索引擎Comet进行数据库搜索。 随后,使用OpenMS的MapAlignerIdentification工具,将通过给定q值的共享的特征用于整个样本的线性保留时间对齐。 然后用Percolator重新计算FDR。

为了获得更好的FDR估计,MHCquant可以选择通过q值或通过给定的预测亲和力阈值的PSM作为一个子集重新计算其FDR。 最近,该技术已成功应用于宏蛋白质组学中的类似问题,并产生了优异的结果。

最后,结果以社区标准格式mzTab导出,并包括MHCflurry,MHCnugget与ImmunoNodes工具箱中其他的亲和力预测软件的预测结果。

图1:多肽鉴定简化的工作流程

  1. MHCquant比现有方法具有更高的灵敏度

为了评估MHCquant的性能,作者使用一个包括9个PBMC样本和4个JY细胞系样本的数据集,比较了MS-GF +、PEAKS、SequestHT、Mascot和Andromeda的HLA -1结合多肽的鉴定结果。用q velue小于0.01且HLA亲和的肽段的数量和比率来评估每种搜索工具的性能。

在Subset FDR模式下,MHCquant鉴定到的HLA 亲和的unique peptide数最多,然后是默认模式下的MHCquant和PEAKS。所有搜索引擎鉴定到的肽都遵循预期分布,长度范围为8-12个氨基酸,最大长度为9。鉴定的HLA结合肽的结合率为87%至99%。

与其他工具相比,SequestHT,Mascot和MaxQuant鉴定到的亲和肽段的比例略高,而PEAKS的比率最低。相反,SequestHT,Mascot和MaxQuant鉴定到的HLA-1结合肽段较少。搜索引擎之间肽段的重叠表明,使用MHCquant和PEAKS可以鉴定到大多数unique peptide,并且这些unique peptide中预测亲和肽段的比率大于70%。此外,还比较了实际的保留时间与预测保留时间,结果显示预测的保留时间与所有共识鉴定的观察到的保留时间非常相关(r = 0.93)。总之,我们发现MHCquant在肽段鉴定数和HLA亲和肽段的比例之间提供了最佳平衡。

图2:各流程表现的比较

3.Subset方法在鉴定中的影响(增加12%的鉴定数)

通过subset 方法重新计算FDR后,鉴定到的unique peptide的中位数为4,000左右。与默认模式相比,以这种方式鉴定出的多肽中位数多了12%。

图3:MHCquant每个步骤中鉴定到的谱图或肽段的数量

(默认方式(蓝色)和subset FDR模式(橙色))

使用目标非标定量分析可以为99%的肽段定量。在从0.1 fmol到100 fmol的整个浓度范围内加到测量样品中的66种标记肽段中,有58种被成功鉴定和定量。 最终,取决于样品特性,预计约87%至99%的独特鉴定和定量肽是相应患者各等位基因的HLA-1结合肽段。

4.在旧数据中鉴定到新抗原

为了检查MHCquant相对于其他常用搜索工具的敏感性增加是否有助于在已发表的免疫肽组学数据集中发现新抗原,作者重新处理了近期的恶性黑色素瘤研究的质谱数据,鉴定结果中包含先前使用MaxQuant鉴定到的全部新表位。

表1:从已发表的黑色素瘤数据集中鉴定出新表位

使用MHCquant,作者鉴定到了所有先前发表的新表位(表1)。此外还发现了三个潜在的新型潜在突变的新表位(表1加粗)。

通过与对应合成肽的谱图比较进行验证。所有三个肽段均显示出与先前检测到的新表位相似的范围。 其中一种肽片段(NUP153P778L)带有半胱氨酸氨基甲酰甲基修饰,这可能阻止了其在原始出版物中的检测。然而,氨基甲酰甲基修饰的肽仅占我们用MHCquant重新分析中所有鉴定出的肽的约2%。 总之,MHCquant允许以可重复的方式搜索免疫肽组学数据,其增加的敏感性可能会导致新发现。

小结:

MHCquant与其他的鉴定软件相比,可以更好地平衡肽段鉴定数和免疫亲和肽段的比例。一个关键的步骤是在搜索后把通过qvalue的肽段和通过预测的亲和力阈值的肽段作为一个新的集合重新计算FDR。

MHCquant在使用上有以下优点:一是该软件基于KNIME平台,是一个全自动、可移植的计算流程,在集群/云基础设施上执行和结果的完全重现性。

原文地址:https://www.cnblogs.com/ilifeiscience/p/12016363.html

时间: 2024-10-08 13:57:09

Journal of Proteomics Research | 自动的、可重复的免疫多肽数据分析流程MHCquant的相关文章

Journal of Proteomics Research | 构建用于鉴定蓖麻毒素的串联质谱库

文章题目:Constructing a Tandem Mass Spectral Library for Forensic Ricin Identification 构建用于鉴定蓖麻毒素的串联质谱库 解读人:马臻 Doi号:https://doi.org/10.1021/acs.jproteome.9b00377 文章链接:https://pubs.acs.org/doi/10.1021/acs.jproteome.9b00377 文章的实验室和主要参与人员: 实验室:美国西北太平洋国家实验室化

Journal of Proteome Research | Proteomic analysis of Rhizobium favelukesii LPU83 in response to acid stress.(酸胁迫下根瘤菌LPU83(Rhizobium favelukesii)的蛋白质组学分析)(解读人:丑天胜)

文献名:Proteomic analysis of Rhizobium favelukesii LPU83 in response to acid stress.(酸胁迫下根瘤菌LPU83(Rhizobium favelukesii)的蛋白质组学分析) 期刊名:Journal of Proteome Research 发表时间: 2019年10月 IF:3.78 单位:国立拉普拉塔大学,阿根廷 物种:根瘤菌LPU83(Rhizobium favelukesii) 技术:非标定量蛋白质组学(Lab

Session的活化和钝化,表单重复提交,验证码使用流程

钝化 指将HttpSession对象序列化到硬盘中,一般钝化发生在服务器停止,服务器停止时会自动将HttpSession对象序列化到硬盘,这个事我们称为钝化. 活化 将硬盘中HttpSession对象加载进内存中,一般在服务器启动时,会自动将硬盘中HttpSession对象重新加载进内存,这一过程我们成为活化. 钝化指将内存中的对象写到硬盘中, 一个类要想可以序列化到硬盘中必须要实现java.io.Serializable接口 这个类中的所有属性也需要实现java.io.Serializable

Js删除数组重复元素的多种方法

js对数组元素去重有很多种处理的方法,本篇文章中为网络资源整理,当然每个方法我都去实现了:写下来的目的是希望自己活学活用,下次遇到问题后方便解决. 第一种 1 function oSort(arr){ 2 var result={}; 3 var newArr=[]; 4 for(var i=0;i<arr.length;i++){ 5 if(!result[arr[i]]){ 6 console.log(result[arr[i]]); //看看输出的是什么 7 newArr.push(arr

几种去除数组中重复元素的方法

工作中遇到的一个问题,就是去除数组中重复的元素,记录一下几种有效的方法: 第一种思路:遍历要删除的数组arr, 把元素分别放入另一个数组tmp中,在判断该元素在arr中不存在才允许放入tmp中. <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>去除数组重复项</title> </head> &

前端面试高频题:删除数组重复元素的多种方法

最近在想着换工作,去了一家中关村的上市公司,面试官随便问了几个问题其中就提到了怎么删除数组元素的方法,表示这已经是第三次遇到了这个问题了,由于知识口头说说所以就随便说了下,之前用的时候都是直接找的方法库虽然知道大致是怎么写的但是还没有真正写过,网上的方法还是蛮多的这里也给大家分享一个作者写的吧,希望对初学者有所帮助: //数组去重的方法 Array.prototype.unique=function(){ //集中声明变量 var oldArr=this, newArr=[oldArr[0]],

js在数组中删除重复的元素自保留一个

js在数组中删除重复的元素自保留一个 第一种思路是:遍历要删除的数组arr, 把元素分别放入另一个数组tmp中,在判断该元素在arr中不存在才允许放入tmp中 用到两个函数:for ...in 和 indexOf() 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 <script type="text/javascript"> var student = ['qiang','ming','tao','li','liang','you','qiang'

机器码农:深度学习自动编程

转自原文机器码农:深度学习自动编程 作者简介:张俊林,中科院软件所博士,曾担任阿里巴巴.百度.新浪微博资深技术专家,目前是用友畅捷通工智能相关业务负责人,关注深度学习在自然语言处理方面的应用. 责编:何永灿,欢迎人工智能领域技术投稿.约稿.给文章纠错,请发送邮件至[email protected] 本文为<程序员>原创文章,未经允许不得转载,更多精彩文章请订阅2017年<程序员> 机器自动编程是人工智能一直以来期望攻克的重要应用领域,随着深度学习的逐步流行,最近在自动编程方向获得了

防止刷新/后退引起的重复提交问题的Java Token代码,非Struts

贴子转自http://hi.baidu.com/bobylou,转之前并没有验证文章里的方法是不是有效,估计原作者把它放到blog之前应该做过测试了吧. Struts本身有一套完善的防止重复提交表单的Token(令牌)机制,但笔者目前的项目自写的framework没有用到Struts,故也得自写防止用户因为后退或者刷新来重复提交表单内容的Token机制.不难,容易实现. 实现原理:一致性.jsp生成表单时,在表单中插入一个隐藏<input>字段,该字段就是保存在页面端的token字符串,同时把