有参转录组常用数据库

NR(non-redundant,非冗余)数据库

文献：Deng YY, Li JQ, Wu S F, Zhu YP, et al. Integrated NR Database in Protein Annotation System and Its Localization. Computer Engineering 2006.,32(5):71-74.

特点：

　　1、对已知的或者可能的编码序列，给出相应的氨基酸序列，其中部分提供蛋白数据库的序列号；

　　2、可以用blast软件做比对连接。

Swiss-Prot数据库

文献：Apweiler R, Bairoch A, Wu CH, Barker WC, et al. UniProt: the Universal Protein knowledgebase. Nucleic Acids Research 2004 Jan 1;32(Database issue):D115-9.

特点：

SWISS-PROT是经过注释的蛋白质序列数据库，由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成，每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等，注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列，并与其它30多个数据建立了交叉引用，其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列，序列提交可以在其Web页面上完成。

GO数据库

文献：Ashburner M, Ball C A, Blake J A, Botstein D, et al. Gene ontology: tool for the unification of biology. Nature Genetics 2000, 25(1): 25-29.

特点：

　　1. GO 不是基因序列或基因产物数据库，相反的，GO强调基因产物在细胞中的功能。
　　2. GO不是整合数据库的一种方式（如联邦式整合数据库），它并不能做到这点是因为：
　　　　a. 更新速度较慢
　　　　b. 由于每个人对数据定义的方式不同，标准难以达到一致。
　　　　c. GO并不对生物学的每个方面进行描述。如功能域的结构、3D结构、进化等。
　　3．GO 是对基因功能的注解，但是有其局限性。比如说，GO不能反映此基因的表达情况，即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关。GO虽然不涉及这些方面，但是支持其他的OBO(open biology ontologies)成员成立其他类型的本体论数据库（如发育本体学、蛋白组本体学、基因芯片本体学等）

COG数据库（Cluster of Orthologous Groups of proteins（蛋白相邻类的聚簇））

文献：Tatusov RL, Galperin MY, Natale DA. The COG database: a tool for genome scale analysis of protein functions and evolution. Nucleic Acids Research 2000, 28(1):33-36.

特点：

　　1、蛋白的注解。COG的一个蛋白成员的已知功能（以及二维或三维结构）可以直接应用到COG的其他成员上去。然而，这里也要警告，因为有些COG含有paralogs，它们的功能并非对应与那些已知蛋白。

　　2、种系发生图谱。这给出在一个特定的COG中一个给定物种是否存在某些蛋白。系统使用，这些图谱可以用来确定在一个物种中是否一个特定的代谢途径。

　　3、多重对齐。每一个COG页面包括了一个链接到COG成员的一个多重对齐，那可以被用来确定保守序列残基和分析成员蛋白的进化关系。

KOG数据库

文献链接：Koonin EV, Fedorova ND, Jackson JD, et al. A comprehensive evolutionary classification of proteins encoded in complete eukaryotic genomes. Genome biology, 2004, 5(2): R7.

可以理解为COG是NCBI的数据库。COG的中文释义即“同源蛋白簇”。COG分为两类，一类是原核生物的，另一类是真核生物。原核生物的一般称为COG数据库；真核生物的一般称为KOG数据库。

Pfam

文献链接：Finn RD, Bateman A, Clements J, et al. Pfam: the protein families database. Nucleic Acids Research, 2013: gkt1223.

蛋白质家族数据库，根据多重序列比对和突变谱HMM构建

KEGG数据库

文献链接： Kanehisa M, Goto S, Kawashima S, Okuno Y, et al. The KEGG resource for deciphering the genome. Nucleic Acids Research 2004, 32(Database issue):D277-D280.

KEGG(京都基因与基因组百科全书)是基因组破译方面的数据库。在给出染色体中一套完整的基因的情况下，它可以对蛋白质交互（互动）网络在各种细胞活动起的作用作出预测。 KEGG 的PATHWAY 数据库整合当前在分子互动网络（比如通道，联合体）的知识，KEGG 的GENES/SSDB/KO 数据库提供关于在基因组计划中发现的基因和蛋白质的相关知识，KEGG 的COMPOUND/GLYCAN/REACTION数据库提供生化复合物及反应方面的知识。

时间： 2024-10-31 16:56:41

有参转录组常用数据库

NR(non-redundant,非冗余)数据库

特点：

Swiss-Prot数据库

特点：

GO数据库

特点：

COG数据库（Cluster of Orthologous Groups of proteins（蛋白相邻类的聚簇））

特点：

KOG数据库

Pfam

KEGG数据库

有参转录组常用数据库的相关文章

常用数据库的JDBC 的URL形式

常用数据库validationQuery语句

常用数据库查询判断表和字段是否存在的SQL

androidj常用数据库操作JDBC Utils

ORACLE常用数据库字段类型

T-SQL常用数据库对象判断语句

tomcat连接常用数据库的用法

常用数据库的驱动程序及JDBC URL分享

常用数据库中间件汇总