KEGG Pathway Anonatation

转载于 Original 2017-06-20 liuhui 生信百科

KEGG 数据库中,把功能相似的蛋白质归为同一组,然后标上 KO 号。通过相似性比对,可以为未知功能的蛋白序列注释上 KO 号。通过KEGG数据库的注释极大的方便我们进行生物学通路的研究,可以直接查看物种某条生物学通路上基因的存在情况。

最简单的方法是看公司给的KEGG注释或者直接下载本物种每个基因的注释结果(比如,植物Phytozome;动植物Ensemble),然后对应到自己的差异基因集里面。

当然如果自己的物种没有KEGG注释结果,那只能自己动手了!

截止到 2015 年 6 月 12 日,KEGG 数据库中共收录了 3,904 个完整的基因组。其中 304 个为真核生物,3,600 个为原核生物。在真核生物中,共有 299 个物种(一个物种可能不止一个基因组),分为 172 科,227 属;在原核生物中,共有 1,858 个物种,分为 809 属。

KEGG 对这些物种的基因序列构成了一个非冗余的 KEGG GENES 数据库;通过 BlastKOALA 和 GhostKOALA, 可对用户提交的蛋白质序列,与 KEGG GENES 数据库分别进行 BLAST 或 GHOSTX 相似性比对,为蛋白质序列注释上 K number,即 KO 号。其中,GHOSTX 比对和 BLAST 比对类似,能够检测到分歧度较大的同源序列(remote homologues),在速度上比 BLAST 大约快 100 倍,两者的区别是:

  • BlastKOALA:用于注释高质量基因组,只能提交 5,000 - 10,000 条蛋白质序列。
  • GhostKOALA:用于注释宏基因组,文件大小为 300 M 以内。

有了 KO 号,就可以重构 KEGG 数据库中的 KEGG pathways 及其他分子网络,然后进行其它分析。

这里以 BlastKOALA 为例,对蛋白质序列进行 KO 注释。

分析步骤如下:

  • 到这个网页:http://www.kegg.jp/blastkoala/
  • 上传 fasta 格式的蛋白质序列

选择物种所属的分类单元,如这里选择植物“plant”

选择一个数据库进行比对。这些数据库由 KEGG GENES 分别在种、属、科水平去冗余后生成。这里选“属”水平的真核生物,如下图右表所示,上传的蛋白质序列限制为 7,500 条序列。

填写自己的邮箱地址,并提交任务,开始分析

回跳转到这个界面,耐心等待即可

分析完成后,会收到邮件通知。

点击链接,返回如下结果。需要注意的是分析结果会在 7 天后删除,所以尽快将结果下载到本地。

在这个结果界面,可以查看 pathway 等信息。

Reference: Kanehisa, M., Sato, Y., and Morishima, K. (2016) BlastKOALA and GhostKOALA: KEGG tools for functional characterization of genome and metagenome sequences. J. Mol. Biol. 428, 726-731.

时间: 2024-10-17 17:57:17

KEGG Pathway Anonatation的相关文章

R获取指定GO term和KEGG pathway的gene list基因集

clusterProfiler没有显性的接口,但是可以直接扣取clusterProfiler里的函数. 核心函数就是get_GO_data GO_DATA <- get_GO_data("org.Hs.eg.db", "BP", "SYMBOL") 可以看到输入的是GO数据库,选定类别,基因名字类型,输出的就是整个数据库. 但是想调用这个函数没那么简单,得导入一系列的基础函数. 一个常见的任务就是获取GO数据库里所有的cell cycle相

python获取kegg pathway map的信息

1. 定位及获取目标元素 由于这是一个structured data,而且有一定的层次,鉴于需要较快完成信息的整理,所以并没有另外新学structured data信息的爬取(以后再说QAQ) 如果简单的复制粘贴的话,会变成以下模样... (可能要改好久的换行符,我不!!!) 那首先直接抓取最多的元素,省去最多的劳动力 在检查元素后发现,像01100Metabolic pathways这样的元素都分组到某个list中,那么直接driver.find_elements_by_class_name(

KEGG数据库

参考:KEGG数据库中文教程 - 博奥  &[学习笔记]KEGG数据库 - 微信 学习一个技能最主要的事情你必须知道,那就是能通过它来做什么? KEGG数据库里面有什么? 如何查询某一特定的代谢途径(pathway)的信息,例如Glycolysis / Gluconeogenesis? 如何查询某一化合物的信息,例如Pyruvate? 如何查询Pyruvate涉及了哪些生化反应? 如何查询某一基因的信息,例如gltA ? 如何知道Bacillus subtilis是否有gltA? 如何查询 gl

KEGG通路图应该怎么看(转载)

v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VML);} .shape {behavior:url(#default#VML);} 转载:http://www.omicshare.com/forum/thread-107-1-3219.html (出处: OmicShare Forum) 不管是RNA-seq的分析数据,还是蛋白组的分析数据,都有

GO/KEGG功能富集分析及气泡图

何为功能富集分析? 功能富集分析是将基因或者蛋白列表分成多个部分,即将一堆基因进行分类,而这里的分类标准往往是按照基因的功能来限定的.换句话说,就是把一个基因列表中,具有相似功能的基因放到一起,并和生物学表型关联起来. 何为GO和KEGG? 为了解决将基因按照功能进行分类的问题,科学家们开发了很多基因功能注释数据库,.这其中比较有名的一个就是Gene Ontology(基因本体论,GO)和Kyoto Encyclopedia of Genes and Genomes(京都基因与基因组百科全书,K

【R】clusterProfiler的GO/KEGG富集分析用法小结

前言 关于clusterProfiler这个R包就不介绍了,网红教授宣传得很成功,功能也比较强大,主要是做GO和KEGG的功能富集及其可视化.简单总结下用法,以后用时可直接找来用. 首先考虑一个问题:clusterProfiler做GO和KEGG富集分析的注释信息来自哪里? GO的注释信息来自Bioconductor,提供了19个物种的org类型的GO注释信息,如下表所示.Bioconductor中更多的注释包可参考http://www.bioconductor.org/packages/rel

TCGA系列--GDCRNATools

https://github.com/Jialab-UCR/GDCRNATools GDCRNATools - An R package for downloading, organizing, and integrative analyzing lncRNA, mRNA, and miRNA data in GDC Introduction The Genomic Data Commons (GDC) maintains standardized genomic, clinical, and

geneID转换之org.Hs.eg.db包简介

1)安装载入 if("org.Hs.eg.db" %in% rownames(installed.packages()) == FALSE) {source("http://bioconductor.org/biocLite.R");biocLite("org.Hs.eg.db")}suppressMessages(library(org.Hs.eg.db)) 2)查看该包所有的对象 ls("package:org.Hs.eg.db&q

kegg的某种svg展示图

#!perl use warnings; use strict; use SVG; use File::Basename qw(basename); die "perl $0 <sample.list> <pathway.sorted> <outprefix> Note: support 24 colors to sample~ " if @ARGV != 3; my (@file, @pwtmp, @pw2sp); my $i = 0; open