【宏组学】如何根据taxid(或taxname)快速获得taxname(或taxid)?

需求

我有一个物种taxonomy ID的list,想获得相应的物种名,不要一个个去NCBI Taxonomy官网查。反之根据物种名list查询对应的taxid。

实现

因为之前没怎么用过,我的第一个想法是通过下载到集群的taxonomy数据库文件来匹配。一般下载下来的数据库会有names.dmp和nodes.dmp文件,分别是物种层级关系文件和taxid与物种名对应文件。但我想要的只是species这个层级的,所以要结合这两个文件写个小程序才能实现,并且很可能出错,因为我不知道到底哪个才是标准的species name。

比如说,我想要知道taxid为10090的物种名,在names.dmp文件中有如下这么多对应关系:

其实,NCBI的Taxonomy数据库自带了一个叫TaxIdentifier的工具(https://www.ncbi.nlm.nih.gov/Taxonomy/TaxIdentifier/tax_identifier.cgi),可以轻松转换。

如上图我输入一个taxid list,直接得到以下结果:

通过选择full taxid lineage,也可以得到该物种的所有谱系关系:

反过来,通过taxname来获得taxid也是一样的,不过要注意名字的规范性。

可见在生物学问题研究上,很多轮子已经造成了,要学会搜索和使用。关键还是需求问题。

原文地址:https://www.cnblogs.com/jessepeng/p/11969941.html

时间: 2024-10-23 14:10:39

【宏组学】如何根据taxid(或taxname)快速获得taxname(或taxid)?的相关文章

解读人:范徉,Methylome and Metabolome Analyses Reveal Adaptive Mechanisms in Geobacter sulfurreducens Grown on Different Terminal Electron Acceptors(甲基化组学和代谢组学分析发现Geobacter sulfurreducens生长在不同电子终受体中的适应机制)

一. 概述: Geobacter sulfurreducens乃一种能量代谢方式为化能异养的厌氧格兰仕阴性细菌,它在无氧条件下通过TCA循环消耗有机物产生电子,以高价铁化合物为电子受体完成电子转移.该研究使用三代测序技术(SMRT)测定了生长在3种包含不同电子受体的培养基,柠檬酸铁,水合氧化铁和延胡索酸中的Geobacter sulfurreducens的甲基化组学.该研究还利用GC-MS分析了3种生长条件下的Geobacter sulfurreducens的代谢组学,并在最后测定了3种生长条件

蛋白组学定量值得比较说明

1. Maxquant的iBAQ和LFQ,该用哪个?我们使用Maxquant做Label Free蛋白质组学定量分析的时候,在Maxquant的参数设置时,会遇到两个参数,LFQ和iBAQ,那么,选择哪个好呢?如果你都选上,在最终的proteingroups.txt中,会出现三列:Intensity.IBAQ.LFQ intensity,这三列中的数字,也就是蛋白的定量强度,并不一样,那么,到底那一列比较准呢?首先,让我们来看一下三者的计算原理是什么?> Intensity是将某Protein

多组学讲座汇总

整理了一下以质谱技术为核心的多组学方面的讲座,主要是中科新生命的,感觉质量还可以,适合入门观看.是直播课,首次应该需要填写资料才能进入直播间. 生命表型体现者,从"代谢到脂质到修饰"组学专场报告 http://xy.bioon.com/live/webinar_play_new/442.html 蛋白翻译后修饰组学技术(PTMScan?)在精准医学中的应用 http://xy.bioon.com/live/webinar_play_new/441.html 打通表型与调控机制的代谢通路

Development of a High Coverage Pseudotargeted Lipidomics Method Based on Ultra-High Performance Liquid Chromatography?Mass Spectrometry(基于超高效液相色谱-质谱法的高覆盖拟靶向脂质组学方法的开发)

文献名:Development of a High Coverage Pseudotargeted Lipidomics Method Based on Ultra-High Performance Liquid Chromatography−Mass Spectrometry(基于超高效液相色谱-质谱法的高覆盖拟靶向脂质组学方法的开发) 期刊名:Analytical Chemistry 发表时间:(2018年5月) IF:6.38 单位: 中国科学院大连化学物理研究所 中国科学院大学 生物材料

ComplexBrowser: a tool for identification and quantification of protein complexes in large-scale proteomics datasets(大规模蛋白组学数据集中鉴定和定量蛋白复合物)

文献名:ComplexBrowser: a tool for identification and quantification of protein complexes in large-scale proteomics datasets(大规模蛋白组学数据集中鉴定和定量蛋白复合物) 期刊名:Mol Cell Proteomics 发表时间:(2019年11月) IF:4.828 单位:南丹麦大学生物化学与分子生物学系和VILLUM生物分析科学中心 物种:人和小鼠 技术:ComplexBrow

【代谢组学】2.代谢物鉴定

代谢物的鉴定流程 蛋白组比基因组和转录组落后一档次,代谢组学比蛋白组又落后一档次,仅化合物的鉴定就让人头疼. 流程如下: 化合物精确质量数 数据库检索 一级鉴定(筛选分子量相同的离子).解决质量数问题. 一级鉴定(通过同位素分布比对,筛选分子量和元素组成相同的离子).解决同位素问题. 二级鉴定.通过标准品谱图库或者理论二级谱图库(公共数据库)与实际二级谱图匹配,筛选分子量.元素组成.结构相似的离子.解决同分异构体问题. 细节: 1.合并加和离子. 实验设计加和形式:M+NH4, M+K, M+N

【代谢组学】3.数据分析

非靶向代谢组实验设计 1.代谢物提取,一般要求每组至少10个样: 2.在所有提取好的样本中取等量混合作为QC: 3.QC样本与实验样本穿插上机,开始十个QC,结尾三个QC,中间每十个样本穿插一个QC样本 . 得到质谱谱图数据经软件处理后得到峰表. 峰表格式一般为:每行为一个m/z,每列为一个样本 数值表示该样本中某个m/z的信号响应. 第一列为保留时间_质荷比来代表离子,如0.10_96.9574m/z. 数据分析流程 一般有如下几点: 1.数据预处理.如缺失值过滤填充.数据归一化等. 2.数据

【代谢组学】5.功能分析

目的 和转录组或蛋白组的分析原理类似,目的是: 将大量的差异代谢物降维到少量的显著富集的代谢通路,方便解释科学问题: 从通路水平上可以更好解释表型背后的生物学原理/过程. 富集分析方法 富集分析的本质:某个代谢通路在不同的状态下(如疾病与健康)是否发生了显著变化? ORA富集 回答的问题:一个代谢物集合(如某个代谢通路)中所包含的差异代谢物的数量是否显著地比随机取样获得的差异代谢物的数量更多? 零假设:代谢通路A中的差异代谢物数量不比随机取样获得的差异代谢物数量多. 备择假设:代谢通路A中差异代

独家讲解分析《组三组六 必中技巧》助你快速掌握

组三组六 必中技巧筘[5926656]胜率95%,已助上千人成功翻盘,他都是有问必答的. 号码直落定位组三,对应看百位号码,只要上下两期出现相同的号码,形成同位直落,俗称两期百位“对子码”结构,第三期的开jiang号码结构形态就可以重点考虑组三. 例如:50期jiang号为570,51期jiang号为543,百位号码5出现了直落,52期开出组三号码933.当然这种情形不是绝对的,有时会出现特殊形态的号码组合,如全大.全小.全质.全合等虽然出现了号码直落现象,但在之后出现的不是组三,而是全质数组合