蛋白组学定量值得比较说明

1. Maxquant的iBAQ和LFQ，该用哪个？
我们使用Maxquant做Label Free蛋白质组学定量分析的时候，在Maxquant的参数设置时，会遇到两个参数，LFQ和iBAQ，那么，选择哪个好呢？
如果你都选上，在最终的proteingroups.txt中，会出现三列：Intensity、IBAQ、LFQ intensity，这三列中的数字，也就是蛋白的定量强度，并不一样，那么，到底那一列比较准呢？
首先，让我们来看一下三者的计算原理是什么？
> Intensity是将某Protein Groups里面的所有Unique和Razor peptides的信号强度加起来，作为一个原始强度值。
> iBAQ是在上面的基础上，将原始强度值除以本蛋白的理论肽段数目。
> LFQ则是将原始强度值在样本之间进行校正，以消除处理、上样、预分、仪器等造成的样本间误差。
假设有两个蛋白，A和B，A和B在样本中的量是相等的，也就是等量。假设A的长度是10个肽段，B的是100个肽段，假设鉴定结果中，覆盖度都是30%，那么蛋白A的强度是3，B的是30,。这时候我们对比一下，B是A的10倍，但是，A和B原本是相等，这样就存在较为严重的误差。
这时候，如果我们将其原始强度值除以理论肽段数目，A的强度变成了3/10, B的强度变成了3/10。 A = B，Perfect！
上面就是IBAQ的原理和用处。
但是在定量蛋白质组学中，我们并不做蛋白A和 B之间的定量，假如你有一个药物处理前的细胞和药物处理后的细胞的对照型样本做的定量蛋白质组学实验，我们关注的蛋白A在处理前和处理后的变化，至于A和B之间的比值，并不重要。
所以，如果是样本内对比，当然用iBAQ，因为其表征的是蛋白的摩尔比值（copy number）。如果是样本间对比，当然是LFQ（正式名称为MaxLFQ，也就是搜库结果中的txt文件中的LFQ Intensity）[1]
当然，如果你执意要用iBAQ，你可以手工校准样本件误差，方法很简单：蛋白IBAQ值除以此样品所有蛋白的强度的和，计算比例（这也是组学中“等质量上样”和“等体积上样”的核心区别，等质量上样来看的是比例，但是计算比例是有压缩效应的）[2]。
最后，总结一下：
同一个（或者说同一针）样品内部的蛋白互相比较，用IBAQ；
不同样品间互相比较（不管是重复还是不同的处理组），用LFQ。
Reference：
[1]Cox J, Hein M Y,Luber C A, et al. Accurate Proteome-wide Label-free Quantification by DelayedNormalization and Maximal Peptide Ratio Extraction, Termed MaxLFQ[J]. Molecular& Cellular Proteomics Mcp, 2014, 13(9):2513.
[2]Shin J B, Krey JF, Hassan A, et al. Molecular architecture of the chick vestibular hairbundle[J]. Nature Neuroscience, 2013, 16(3):365-74.

2. 关于数据标准化方法的描述【thermo 配带的PD2.2为例】

1). 从原始的abundance到abundance（normalize），是利用样品总面积进行normalize的【total sum intensity normalization】。
ref1：Sialana F J, Wang A L, Fazari B, et al. Quantitative proteomics of synaptosomal fractions in a rat overexpressing human DISC1 gene indicates profound synaptic dysregulation in the dorsal striatum[J]. Frontiers in molecular neuroscience, 2018, 11: 26.
ref2：Dittenhafer-Reed K E, Richards A L, Fan J, et al. SIRT3 mediates multi-tissue coupling for metabolic fuel switching[J]. Cell metabolism, 2015, 21(4): 637-646.

>abundance到abundance（normalize），是利用样品总面积进行normalize，计算如下：
a. 计算3个样本Sample1，Sample2，Sample3中蛋白总量（sum行），
b. 选取其中一个样本（这里选取Sample3）的总量当作参考，进行其他两个样本系数（Sample1总量/Sample3总量，Sample2总量/Sample3总量）的计算;
c. 每个蛋白丰度值除以相应样本的系数，获得normalize数值；最终，达到个样本的总量相一致；
protein Sample1 Sample2 Sample3 Sample1.norm Sample2.norm Sample3.norm
P1 96263572.85 104019086.7 154492068.8 188852720.2 195452761.3 154492068.8
P2 49830964.66 46392160.22 67074679.03 97759858.15 87171269.3 67074679.03
P3 143632391.8 137680969.2 194423852.5 281782268.3 258703728.9 194423852.5
P4 46985091.01 50239488.8 28002701.31 92176739.18 94400432.89 28002701.31
P5 62493244.91 78469297.48 339179377.8 122601093.5 147444486.9 339179377.8
sum 399205265.2 416801002.4 783172679.3 783172679.3 783172679.3 783172679.3
系数 0.509728283 0.532195534 1 1 1 1

2).abundance(group)或scaled是在abundance（normalize）基础上均一化之后的结果，主要是为了方便提取数据，把数据映射到一定范围之内，使数据大小更直观，计算如下：；
a.蛋白a在三个样品中abundance（normalize）的结果为分别为Sample1.norm,Sample2.norm,Sample3.norm，平均值average=(Sample1.norm+Sample2.norm+Sample3.norm)/3；
b.所以蛋白a在三个样品中abundance(group或scale)（即均一化）分别为：Sample1.norm/average,Sample2.norm/average,Sample3.norm/average;
c.为方便数据分析，将结果扩大100倍，蛋白a的三个样品中abundance(group或scale)结果为100Sample1.norm/average,100Sample2.norm/average,100Sample3.norm/average;

3). 关于组内样本蛋白总量的波动性评估，看了一篇文章，文章公布了 label-free quantification【LFQ】的数据。在一组重复数据中，有变化的倍数能达到2倍多。如附件1-s2.0-S2211124717311889-mmc3 - 副本.xlsx。

ref：Itzhak D N, Davies C, Tyanova S, et al. A mass spectrometry-based approach for mapping protein subcellular localization reveals the spatial proteome of mouse primary neurons[J]. Cell reports, 2017, 20(11): 2706-2718.【A Mass Spectrometry-Based Approach for Mapping.pdf】

原文地址：https://www.cnblogs.com/yanzhi123/p/11712926.html

时间： 2024-10-23 07:11:15

蛋白组学定量值得比较说明的相关文章

ComplexBrowser: a tool for identification and quantification of protein complexes in large-scale proteomics datasets（大规模蛋白组学数据集中鉴定和定量蛋白复合物）

文献名:ComplexBrowser: a tool for identification and quantification of protein complexes in large-scale proteomics datasets(大规模蛋白组学数据集中鉴定和定量蛋白复合物) 期刊名:Mol Cell Proteomics 发表时间:(2019年11月) IF:4.828 单位:南丹麦大学生物化学与分子生物学系和VILLUM生物分析科学中心物种:人和小鼠技术:ComplexBrow

多组学讲座汇总

整理了一下以质谱技术为核心的多组学方面的讲座,主要是中科新生命的,感觉质量还可以,适合入门观看.是直播课,首次应该需要填写资料才能进入直播间. 生命表型体现者,从"代谢到脂质到修饰"组学专场报告 http://xy.bioon.com/live/webinar_play_new/442.html 蛋白翻译后修饰组学技术(PTMScan?)在精准医学中的应用 http://xy.bioon.com/live/webinar_play_new/441.html 打通表型与调控机制的代谢通路

【代谢组学】2.代谢物鉴定

代谢物的鉴定流程蛋白组比基因组和转录组落后一档次,代谢组学比蛋白组又落后一档次,仅化合物的鉴定就让人头疼. 流程如下: 化合物精确质量数数据库检索一级鉴定(筛选分子量相同的离子).解决质量数问题. 一级鉴定(通过同位素分布比对,筛选分子量和元素组成相同的离子).解决同位素问题. 二级鉴定.通过标准品谱图库或者理论二级谱图库(公共数据库)与实际二级谱图匹配,筛选分子量.元素组成.结构相似的离子.解决同分异构体问题. 细节: 1.合并加和离子. 实验设计加和形式:M+NH4, M+K, M+N

【代谢组学】3.数据分析

非靶向代谢组实验设计 1.代谢物提取,一般要求每组至少10个样: 2.在所有提取好的样本中取等量混合作为QC: 3.QC样本与实验样本穿插上机,开始十个QC,结尾三个QC,中间每十个样本穿插一个QC样本 . 得到质谱谱图数据经软件处理后得到峰表. 峰表格式一般为:每行为一个m/z,每列为一个样本数值表示该样本中某个m/z的信号响应. 第一列为保留时间_质荷比来代表离子,如0.10_96.9574m/z. 数据分析流程一般有如下几点: 1.数据预处理.如缺失值过滤填充.数据归一化等. 2.数据

解读人：范徉，Methylome and Metabolome Analyses Reveal Adaptive Mechanisms in Geobacter sulfurreducens Grown on Different Terminal Electron Acceptors（甲基化组学和代谢组学分析发现Geobacter sulfurreducens生长在不同电子终受体中的适应机制）

一. 概述: Geobacter sulfurreducens乃一种能量代谢方式为化能异养的厌氧格兰仕阴性细菌,它在无氧条件下通过TCA循环消耗有机物产生电子,以高价铁化合物为电子受体完成电子转移.该研究使用三代测序技术(SMRT)测定了生长在3种包含不同电子受体的培养基,柠檬酸铁,水合氧化铁和延胡索酸中的Geobacter sulfurreducens的甲基化组学.该研究还利用GC-MS分析了3种生长条件下的Geobacter sulfurreducens的代谢组学,并在最后测定了3种生长条件

MCP/解读人：邹婉婷，Precision de novo peptide sequencing using mirror proteases of Ac-LysargiNase and trypsin for large-scale proteomics（基于Ac-LysargiNase和胰蛋白酶的蛋白组镜像de novo测序）

一.概述由于难以获得100%的蛋白氨基酸序列覆盖率,蛋白组de novo测序成为了蛋白测序的难点,由Ac-LysargiNase(N端蛋白酶)和胰蛋白酶构成的镜像酶组合可以解决这个问题并具有稳定性,这2种消化位点互补的酶能够产生目标蛋白的镜像b,y离子,基于镜像原理设计的算法pNovoM可用于蛋白组de novo测序. 二.研究背景 De novo测序是基于二级质谱谱图解析未知蛋白.翻译后修饰及蛋白突变位点的测序方法,这项技术适用于没有氨基酸序列信息的蛋白及蛋白组解析.De novo测序的难点

Development of a High Coverage Pseudotargeted Lipidomics Method Based on Ultra-High Performance Liquid Chromatography?Mass Spectrometry（基于超高效液相色谱-质谱法的高覆盖拟靶向脂质组学方法的开发）

文献名:Development of a High Coverage Pseudotargeted Lipidomics Method Based on Ultra-High Performance Liquid Chromatography−Mass Spectrometry(基于超高效液相色谱-质谱法的高覆盖拟靶向脂质组学方法的开发) 期刊名:Analytical Chemistry 发表时间:(2018年5月) IF:6.38 单位: 中国科学院大连化学物理研究所中国科学院大学生物材料

【代谢组学】5.功能分析

目的和转录组或蛋白组的分析原理类似,目的是: 将大量的差异代谢物降维到少量的显著富集的代谢通路,方便解释科学问题: 从通路水平上可以更好解释表型背后的生物学原理/过程. 富集分析方法富集分析的本质:某个代谢通路在不同的状态下(如疾病与健康)是否发生了显著变化? ORA富集回答的问题:一个代谢物集合(如某个代谢通路)中所包含的差异代谢物的数量是否显著地比随机取样获得的差异代谢物的数量更多? 零假设:代谢通路A中的差异代谢物数量不比随机取样获得的差异代谢物数量多. 备择假设:代谢通路A中差异代

【宏组学】如何根据taxid（或taxname）快速获得taxname（或taxid)?

需求我有一个物种taxonomy ID的list,想获得相应的物种名,不要一个个去NCBI Taxonomy官网查.反之根据物种名list查询对应的taxid. 实现因为之前没怎么用过,我的第一个想法是通过下载到集群的taxonomy数据库文件来匹配.一般下载下来的数据库会有names.dmp和nodes.dmp文件,分别是物种层级关系文件和taxid与物种名对应文件.但我想要的只是species这个层级的,所以要结合这两个文件写个小程序才能实现,并且很可能出错,因为我不知道到底哪个才是标准