文献名:Repeat-Preserving Decoy Database for False Discovery Rate Estimation in Peptide Identication (用于肽段鉴定中错误发生率估计的能体现重复性的诱饵数据库)

文献名:Repeat-Preserving Decoy Database for False Discovery Rate Estimation in Peptide Identication (用于肽段鉴定中错误发生率估计的能体现重复性的诱饵数据库)

期刊名:Journal of Proteome Research

发表时间:(2020年3月)

IF3.78

单位:

  1. 滑铁卢大学计算机科学学院
  2. 多伦多细胞生物学和SPARC生物项目中心
  3. 多伦多大学分子遗传学系

技术:肽段鉴定,诱饵数据库构建

一、 概述:

该研究开发了一种基于de Bruijn图形模型的诱饵数据库构建算法。这种算法构建的诱饵数据库在保证随机性的同时,在很大程度上保留了目标数据库中的序列结构的重复性。而将de Bruijn策略与其他常见诱饵库构建策略进行对比得到的结果表明,在0.01这一较高的错误发生率(FDR)水平上该方法能鉴定到更多的肽段。

二、 研究背景:

在基于质谱的蛋白质组学研究中,数据库搜索方法是最常用的肽段鉴定方法。其原理首先利用蛋白质序列,通过酶切法将其转化为肽,建立理论肽段序列数据库;接着通过将实际谱图与理论数据库中的肽段序列相匹配来实现肽段鉴定。

数据库搜索方法需要一个合理的方法来评估结果的FDR,而目标诱饵(target-decoy)方法是最常见的一种。该方法使用由目标蛋白序列和人工生成的诱饵序列组成的串联序列数据库与MS/MS谱匹配。理想情况下,谱图匹配到诱饵和目标序列的概率分布是相同的。因此,诱饵匹配数成为目标数据库中错误匹配数的估计,FDR则是通过诱饵匹配数与报告的目标匹配数之间的比率来估计的。

因此合理地构建诱饵库就是目标诱饵方法的核心问题,使用de Bruijn方法构建诱饵库可以避免常用的反库或随机库等诱饵库所产生的缺陷。

三、实验设计:

四、研究成果:

1、目标库与不同方法生成的诱饵库中肽段总数与肽段种类数目。可以看出在目标库中大约有一半的数目是重复肽段。因此random shuffling与normalized shuffling生成的诱饵库包含的肽段种类更多,这最终会导致FDR的偏高。而其他四种方法利用一定的规则生成诱饵序列,避免或减少了这一问题。

2、不同诱饵库在1%FDR下的肽段谱图匹配数。Normalized Shuffling方法的FDR是在乘以0.519的标准化因子后计算的。从图中可以看出使用de brujin诱饵库得到的肽段数量最多。这个现象可以从以下几个角度解释:

对于Random Shuffling,Normalized Shuffling与TPP方法而言,性能较差的原因是诱饵数据库中肽段的种类比目标库要多。由于诱饵肽种类的增加,质谱谱图与更多的诱饵肽进行了匹配评分,这可能导致一些分数处在阈值上的真正该被匹配到的目标肽被随机产生的诱饵肽所淘汰。这对正确识别目标肽有不利的影响。

而对于Reversal与shifted Reversal方法,性能较差的原因可能是目标肽和诱饵肽及其谱图的碎片离子之间存在高度的相关性。

3、de brujin的原理实例图:(a) 两个目标库蛋白序列的示例。(b) 对应的k=2的de-Bruijn图。每个目标序列对应于图中的一条路径。第一个序列、第二个序列和两个序列共享的边分别为蓝色、橙色和黑色。(c) 边缘标签随机替换为其他氨基酸。(d) 诱饵蛋白序列是通过在重标记图中跟踪两个目标蛋白的路径获得的。

简而言之,氨基酸在替换时会考虑以此氨基酸为起始的k个氨基酸所组成的序列,相同的序列会将此氨基酸替换为同一个随机氨基酸,从而达到保护序列重复性的效果。

五、文章亮点(结论讨论):针对生成用于数据库搜库方法FDR估计的诱饵库,本文提出了一种数学上严格且易于实现的方法de brujin,能够在保留蛋白质重复结构的同时生成带有随机性的诱饵序列。此方法避免了简单的随机方法不保留目标数据库中的重复片段与Reversal方法使目标诱饵库之间相似性过高的问题,且从数据与原理两个角度说明了de Bruijn方法的良好性能。

阅读人:刘佳维

原文地址:https://www.cnblogs.com/ilifeiscience/p/12607158.html

时间: 2024-10-11 21:59:29

文献名:Repeat-Preserving Decoy Database for False Discovery Rate Estimation in Peptide Identication (用于肽段鉴定中错误发生率估计的能体现重复性的诱饵数据库)的相关文章

False Discovery Rate, a intuitive explanation

[转载请注明出处]http://www.cnblogs.com/mashiqi Today let's talk about a intuitive explanation of Benjamini-Hochberg Procedure. My teacher Can told me this explanation. Suppose there are $M$ hypothesis:$$H_1,H_2,\cdots,H_M$$and corresponding $M$ p-values:$$p

假设用一个名为text的字符串向量存放文本文件的数据,其中的元素或者是一句话或者是一个用于表示段分隔的空字符串。将text中第一段全改为大写形式

#include<iostream> #include<string> #include<vector> using namespace std; int main() { vector<string> str={"The is C++ program ","hfh ","","hfdshfisoid"}; for(auto it=str.begin();it!=str.end(

The database could not be exclusively locked to perform the operation(SQL Server 5030错误解决办法)(转)

Microsoft SQL Server 5030错误解决办法 今天在使用SQL Server时,由于之前创建数据库忘记了设置Collocation,数据库中插入中文字符都是乱码,于是到DataBase的Options中修改Collocation,出现了The database could not be exclusively locked to perform the operation这个错误,无法修改字符集为Chinese_PRC_90_CI_AS. 解决办法找了很久才找到,如下: 1.执

转载 The database could not be exclusively locked to perform the operation(SQL Server 5030错误解决办法)

SQL Server 5030错误解决办法 今天在使用SQL Server时,由于之前创建数据库忘记了设置Collocation,数据库中插入中文字符都是乱码,于是到DataBase的Options中修改Collocation,出现了The database could not be exclusively locked to perform the operation这个错误,无法修改字符集为Chinese_PRC_90_CI_AS. 解决办法找了很久才找到,如下: 1.执行SQL ALTER

unity游戏之友利拟收购《刀塔传奇》发行商中清龙图

1月23日,已经停牌4个月的友利控股(000584)发布公告,宣布由于进入重大资产重组停牌程序,申请继续停牌,拟购买中清龙图 100%股权. 根据公告,友利控股拟购买资产基本情况:本次拟发行股份购买的资产为中清龙图 100%股权,中清龙图主要从事网页游戏.手机游戏等业务,是国内领先的网络游戏的开发商和发行代理商之一.中清龙图拥有强大的研发能力.拥有丰富的产品储备及运营能力. 2014 年中清龙图总资产约 10 亿元,净资产约 6.5 亿元(以上数据未经审计). 在2015年1月24日,据狗刨学习

Python scikit-learn机器学习工具包学习笔记:feature_selection模块

sklearn.feature_selection模块的作用是feature selection,而不是feature extraction. Univariate feature selection:单变量的特征选择 单变量特征选择的原理是分别单独的计算每个变量的某个统计指标,根据该指标来判断哪些指标重要.剔除那些不重要的指标. sklearn.feature_selection模块中主要有以下几个方法: SelectKBest和SelectPercentile比较相似,前者选择排名排在前n个

Python —— sklearn.feature_selection模块

Python -- sklearn.feature_selection模块 sklearn.feature_selection模块的作用是feature selection,而不是feature extraction. Univariate feature selection:单变量的特征选择 单变量特征选择的原理是分别单独的计算每个变量的某个统计指标,根据该指标来判断哪些指标重要.剔除那些不重要的指标. sklearn.feature_selection模块中主要有以下几个方法: Select

转:Python标准库(非常经典的各种模块介绍)

Python Standard Library 翻译: Python 江湖群 10/06/07 20:10:08 编译 0.1. 关于本书 0.2. 代码约定 0.3. 关于例子 0.4. 如何联系我们 核心模块 1.1. 介绍 1.2. _ _builtin_ _ 模块 1.3. exceptions 模块 1.4. os 模块 1.5. os.path 模块 1.6. stat 模块 1.7. string 模块 1.8. re 模块 1.9. math 模块 1.10. cmath 模块

ORACLE之常用FAQ V1.0

[B]第一部分.SQL&PL/SQL[/B][Q]怎么样查询特殊字符,如通配符%与_[A]select * from table where name like 'A\_%' escape '\' [Q]如何插入单引号到数据库表中[A]可以用ASCII码处理,其它特殊字符如&也一样,如 insert into t values('i'||chr(39)||'m');  -- chr(39)代表字符'或者用两个单引号表示一个or insert into t values('I''m');