Mol Cell Proteomics. |马臻| psims-一个用于编写HUPO-PSI标准下的mzML和mzIdentML的python库

大家好,本周分享的是发表在MCP(MOLECULAR&CRLLULAR PROTEOMICS)上的一篇关于质谱数据处理和识别的文章,题目是psims - A Declarative Writer for mzML and mzIdentML for Python,通讯作者是波士顿大学的Joseph Zaia。

质谱中数据处理和识别方法的激增导致需要描述其结果的工具的复杂性不断增加。 在过去的十五年中,两种质谱数据mzML 和mzIdentML ,已成为计算方法开发的核心。 目前有基于C/C++的程序例如ProteoWizard 和OpenMS,和基于Java的程序ms-data-core-api / jmzML和MSFTBX ,以及其他静态类型的编译语言能够对这两种数据进行处理。在高级语言中,这些格式的读取通常直接在通用XML解析库之上实现,或者与底层语言进行绑定。在实现读取时,通常编写器被实现为对某些读入数据进行模板化,或者根本不实现。这些库不能用于“从本机数据”生成文件,这意味着用户无法轻松编写工具来生成这些文件格式,因为要生成的数据不会立即与输入模板连接。在与底层语言进行绑定,可以表达的构造范围存在限制,例如无法描述不属于底层库的绑定或该类型系统的新的结构。这可能是由于违反单一责任原则,或仅涵盖使用者认为有用的规范部分。据我们所知,上面列出的C ++库以及几个已发布和未发布的Java或C#实现中都可以找到唯一的无模板编写器。要使用像Python或R这样的脚本语言从本机数据编写mzML和mzIdentML文件,必须分别通过pyOpenMS 和ProteoWizard通过mzR 绑定OpenMS。这为质谱数据处理工具的创建和部署增加了不必要的复杂性。波士顿大学的Joseph Zaia课题组使用Python为mzML 1.1和mzIdentML 1.2写了一个声明性编程Psims,使用范围比以前可用的语言更广泛。Psims的编写利用了lxml,一个强大的XML处理库用于实现增量文档的编写,NumPy 用于处理二进制数据数组, SQLAlchemy 用于在语义术语图不适用的某些情况下的关系模式表示。作者使用Pyteomics 演示了一些示例,在测试组件中为mzML和mzIdentML提供了读入。源代码及其文档可在以下免费获得https://github.com/mobiusklein/psims。该库与跨平台的Python 2和Python 3兼容。

该课题组使用公共数据PXD003498进行测试,从PRIDE下载raw文件和mgf文件,将raw文件转换成mzXL格式的文件,使用Proteowizard提取峰值信息,使用MS-Deconv处理mzXML文件,输出包含MS1信息,使用转换脚本msdeconv.py转换MS-Deconv的输出为mzML格式,使用Identify搜索mgf文件,数据库为从UniProt Release下载的人类蛋白质组数据,搜索参数设置为胰蛋白酶,2个漏切位点, 10ppm前体质量误差,0.1 Da生产质量精度,输出结果被写成pickle格式的文件,使用identipy mzid.py脚本转换将其转换为mzIdentML格式。为了证明通用性,作者构建了两个脚本用于从mzML和mzIdentML读入数据和输出相同的文档。通过对来自每个源文件及其重复对的解析数据进行递归比较来发现差异,并对这些差异进行了语义评估。

该库的运行过程主要包括三部分:解析词汇,为了能够自动推导受控词汇表术语,首先从文档初始化期间用户指定的URI加载每个CV,或者在打包期间包含库中源代码的静态文件(如果网络请求失败)。该库包括一个可配置的缓存机制,用于在首次从提供的或已安装的包中检索词汇源文件后,选择将词汇源文件存储在文件系统上。除了Unimod之外,用OBO格式解析每个CV,构造一个内存中的术语图,过编号为每个术语编制索引。解析单元:解决了第一个问题后,如果术语定义指定该术语具有单元,则该单元也将被解析。 如果在受控词汇表中仅指定了一个单元,并且用户提供的描述该术语的数据未提供任何单元信息,则将自动使用该术语的定义单位。 如果允许多个单元,如时间或信号强度等数量的情况,则会产生警告并且第一个单元选项将被使用。定义组件:每个组件构造一个包含元素以包含其内容,但可以自动创建多个内部元素或组件,绑定到同一文档的上下文中。 元素和组件类型都使用了上下文管理器,因此它们可以任意嵌套和混合。

作者将MS-Deconv 的结果从制表符分隔的文本格式转换为mzML,尽可能多地保留源文件元数据,同时保留deisotoped和charge deconvoluted峰值质量和强度。 保留了MS-Deconv重新计算的前体单同位素m / z和电荷,可以校正仪器报告的前体单同位素峰值误差。 生成的mzML文件保留了MS-Deconv的产生的原始mzXML文件中读取的元数据,可以使用任何可以读取mzML的工具查看,例如SeeMS 。 此外,在转换过程中,作者提供了一组计算以查找特定的特征离子,并在每个MS2扫描上提供了一个<userParam />标记,其中包含所需的m / z值。

Psims是一个用于编写HUPO-PSI标准下的mzML和mzIdentML的库,以及用于与Python中相关的受控词表进行交互的库。作者在本文中简要地展示了它用于从外部工具生成的表格数据中编写mzML文件的功效。随着越来越多的肽和蛋白质鉴定工具(包括IdentiPy和Ursgal直接用Python编写)被开发出来,直接将其结果写入mzIdentML可能是很有利的。 psims不使用类似DOM的体系结构,但它完全支持已发布的XML模式,并可以使用它们来验证自己生成的XML。由于流的性质,库不会在运行时严格执行XSD验证,因此用户必须明确请求调用它。作者还希望提供一个灵活的系统,使用户能够编写满足其需求的文档,这些文档可能还未被目前发布的标准所涵盖。

文章解读:

文献分享二组-马臻

文章引用:

doi:10.1074/mcp.RP118.001070

文章链接:

https://www.mcponline.org/content/18/3/571

原文地址:https://www.cnblogs.com/ilifeiscience/p/10751540.html

时间: 2024-08-04 03:03:31

Mol Cell Proteomics. |马臻| psims-一个用于编写HUPO-PSI标准下的mzML和mzIdentML的python库的相关文章

Mol Cell Proteomics. | 雷公藤红素通过SIRT1-FXR 信号通路保护胆汁淤积性肝损伤

期刊:Mol Cell Proteomics 题目:Celastrol protects from cholestatic liver injury though modulation of SIRT1-FXR signaling 通讯作者及单位:Fei Li, State Key Laboratory of Phytochemistry and Plant Resources in West China,Kunming Institute of Botany, Chinese Academy

Mol Cell Proteomics. | Integration and analysis of CPTAC proteomics data in the context of cancer genomics in the cBioPortal (解读人:徐洪凯)

文献名:Integration and analysis of CPTAC proteomics data in the context of cancer genomics in the cBioPortal 期刊名:Molecular & Cellular Proteomics 发表时间:2019年9月 IF:4.828 作者: Pamela Wu1,2,3, Zachary J Heins4, James T Muller3, Lizabeth Katsnelson3, Ino de Br

Mol Cell Proteomics. |赵赟| 全面地分析个人尿蛋白质组学的变化揭示出不同的性别变化

大家好,本周分享的是发表在Molecular & Cellular Proteomics上的一篇关于人的尿蛋白质组学的文章,题目是Comprehensive analysis of individual variation in the urinary proteome revealed significant gender differences,通讯作者是北京师范大学的Youhe Gao,北京肾病临床研究中心的Di Wu和北京协和医学院的Wei Sun. 尿液是一种无创可得的生物样本,它积累

Mol Cell Proteomics. | Proteomics Analysis of Extracellular Matrix Remodeling During Zebrafish Heart Regeneration (解读人:徐宁)

文献名:Proteomics Analysis of Extracellular Matrix Remodeling During Zebrafish Heart Regeneration(斑马鱼心脏再生过程中胞外基质重塑的蛋白质组学分析) 期刊名:MCP 发表时间:(2019年9月) IF:4.828 单位: 西班牙巴塞罗那再生医学中心 巴塞罗那生物材料和纳米医学网络生物医学研究中心 物种:斑马鱼 技术:非靶向蛋白组学   一. 概述: 本研究选取斑马鱼心脏不同再生时期的心室样本,通过所建立一

Selenium也是一个用于Web应用程序测试的工具

Selenium也是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE.Mozilla Firefox.Mozilla Suite等.这个工具的主要功能包括:测试与浏览器的兼容性--测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上.测试系统功能--创建衰退测试检验软件功能和用户需求.支持自动录制动作和自动生成.Net.Java.Perl等不同语言的测试脚本.Selenium 是ThoughtWorks专门为Web

Facebook开源游戏平台ELF: 一个用于实时战略游戏研究的轻量级平台

ELF是一个用于游戏研究的应用广泛的(Extensive).轻量级的(Lightweight).灵活的(Flexible)平台,特别适用于实时战略(RTS)游戏.在C++方面,ELF采用C++线程来并发运行多个游戏.在Python方面,ELF可以一次性返回一批游戏状态,使其对现代RL(强化学习)非常友好.另一方面,在其他平台(例如OpenAI Gym)中,一个Python接口只能包含一个游戏实例.这使得游戏的并发运行有点复杂,而这又是许多现代强化学习算法的要求. 对于RTS游戏的研究,ELF配备

一个用于网站自动化测试的生态系统实现

这是我在从事网站自动化测试的工作当中构建出的一个"生态系统"."生态系统"这个概念是我从公司的前辈身上学到的,他一直以来都认为自动化测试人员不应仅仅局限于编写测试代码,还应该让整个自动化测试的过程(测试代码的持续集成.分发.执行等)都自动化,形成一个"系统",这个系统的自动化程度越高,自动化测试人员就越省力. 一.概念 这里我画了一张示意图: 之所以称之为"生态系统",是因为建成之后需要的人为干涉很少,其余的时间都是系统内部循

(转载)一个用于Gnome桌面的下拉式终端: Guake 0.7.0 发布

转自:https://linux.cn/article-5507-1.html Linux的命令行是最好.最强大的东西,它使新手着迷,并为老手和极客的提供极其强大的功能.那些在服务器和生产环境下工作的人早已认识到了这个事实.有趣的是,Linux终端是Linus Torvald在1991年写内核时实现的第一批功能之一. 终端是个强大的工具,由于它没有什么可调整的部分,所以十分可靠.终端介于控制台环境和GUI环境之间.终端自身作为一个GUI程序,运行在桌面环 境下.有许多终端是适用于特定的桌面环境的

一个diff工具,用于判断两个目录下所有的改动(比较新旧版本文件夹)

需求: 编写一个diff工具,用于判断两个目录下所有的改动 详细介绍: 有A和B两个目录,目录所在位置及层级均不确定 需要以B为基准找出两个目录中所有有改动的文件(文件或内容增加.修改.删除),将有改动的文件放入第三个目录中,层级结构与原目录相同 将所有新增与更新信息记录到更新日志文件中 将删除信息单独记录到删除日志文件中 每次执行diff工具需要生成一个新的以日期命名的目录存放文件 使用场景: 本工具用于软件版本升级时找出两个版本间所有修改过的文件,便于增量替换. 提示:    使用CRC判断