NR(non-redundant,非冗余)数据库
文献:Deng YY, Li JQ, Wu S F, Zhu YP, et al. Integrated NR Database in Protein Annotation System and Its Localization. Computer Engineering 2006.,32(5):71-74.
特点:
1、对已知的或者可能的编码序列,给出相应的氨基酸序列,其中部分提供蛋白数据库的序列号;
2、可以用blast软件做比对连接。
Swiss-Prot数据库
文献:Apweiler R, Bairoch A, Wu CH, Barker WC, et al. UniProt: the Universal Protein knowledgebase. Nucleic Acids Research 2004 Jan 1;32(Database issue):D115-9.
特点:
SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。
GO数据库
文献:Ashburner M, Ball C A, Blake J A, Botstein D, et al. Gene ontology: tool for the unification of biology. Nature Genetics 2000, 25(1): 25-29.
特点:
1. GO 不是基因序列或基因产物数据库,相反的,GO强调基因产物在细胞中的功能。
2. GO不是整合数据库的一种方式(如联邦式整合数据库),它并不能做到这点是因为:
a. 更新速度较慢
b. 由于每个人对数据定义的方式不同,标准难以达到一致。
c. GO并不对生物学的每个方面进行描述。如功能域的结构、3D结构、进化等。
3.GO 是对基因功能的注解,但是有其局限性。比如说,GO不能反映此基因的表达情况,即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关。GO虽然不涉及这些方面,但是支持其他的OBO(open biology ontologies)成员成立其他类型的本体论数据库(如发育本体学、蛋白组本体学、基因芯片本体学等)
COG数据库(Cluster of Orthologous Groups of proteins(蛋白相邻类的聚簇))
文献:Tatusov RL, Galperin MY, Natale DA. The COG database: a tool for genome scale analysis of protein functions and evolution. Nucleic Acids Research 2000, 28(1):33-36.
特点:
1、蛋白的注解。COG的一个蛋白成员的已知功能(以及二维或三维结构)可以直接应用到COG的其他成员上去。然而,这里也要警告,因为有些COG含有paralogs,它们的功能并非对应与那些已知蛋白。
2、种系发生图谱。这给出在一个特定的COG中一个给定物种是否存在某些蛋白。系统使用,这些图谱可以用来确定在一个物种中是否一个特定的代谢途径。
3、多重对齐。每一个COG页面包括了一个链接到COG成员的一个多重对齐,那可以被用来确定保守序列残基和分析成员蛋白的进化关系。
KOG数据库
文献链接:Koonin EV, Fedorova ND, Jackson JD, et al. A comprehensive evolutionary classification of proteins encoded in complete eukaryotic genomes. Genome biology, 2004, 5(2): R7.
可以理解为COG是NCBI的数据库。COG的中文释义即“同源蛋白簇”。COG分为两类,一类是原核生物的,另一类是真核生物。原核生物的一般称为COG数据库;真核生物的一般称为KOG数据库。
Pfam
文献链接:Finn RD, Bateman A, Clements J, et al. Pfam: the protein families database. Nucleic Acids Research, 2013: gkt1223.
蛋白质家族数据库,根据多重序列比对和突变谱HMM构建
KEGG数据库
文献链接: Kanehisa M, Goto S, Kawashima S, Okuno Y, et al. The KEGG resource for deciphering the genome. Nucleic Acids Research 2004, 32(Database issue):D277-D280.
KEGG(京都基因与基因组百科全书)是基因组破译方面的数据库。在给出染色体中一套完整的基因的情况下,它可以对蛋白质交互(互动)网络在各种细胞活动起的作用作出预测。 KEGG 的PATHWAY 数据库整合当前在分子互动网络(比如通道,联合体)的知识,KEGG 的GENES/SSDB/KO 数据库提供关于在基因组计划中发现的基因和蛋白质的相关知识,KEGG 的COMPOUND/GLYCAN/REACTION数据库提供生化复合物及反应方面的知识。