有参转录组常用数据库

NR(non-redundant,非冗余)数据库

文献:Deng YY, Li JQ, Wu S F, Zhu YP, et al. Integrated NR Database in Protein Annotation System and Its Localization. Computer Engineering 2006.,32(5):71-74.

特点:

  1、对已知的或者可能的编码序列,给出相应的氨基酸序列,其中部分提供蛋白数据库的序列号;

  2、可以用blast软件做比对连接。

Swiss-Prot数据库

文献:Apweiler R, Bairoch A, Wu CH, Barker WC, et al. UniProt: the Universal Protein knowledgebase. Nucleic Acids Research 2004 Jan 1;32(Database issue):D115-9.

特点:

SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。

GO数据库

文献:Ashburner M, Ball C A, Blake J A, Botstein D, et al. Gene ontology: tool for the unification of biology. Nature Genetics 2000, 25(1): 25-29.

特点:

  1. GO 不是基因序列或基因产物数据库,相反的,GO强调基因产物在细胞中的功能。
  2. GO不是整合数据库的一种方式(如联邦式整合数据库),它并不能做到这点是因为:
    a. 更新速度较慢
    b. 由于每个人对数据定义的方式不同,标准难以达到一致。
    c. GO并不对生物学的每个方面进行描述。如功能域的结构、3D结构、进化等。
  3.GO 是对基因功能的注解,但是有其局限性。比如说,GO不能反映此基因的表达情况,即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关。GO虽然不涉及这些方面,但是支持其他的OBO(open biology ontologies)成员成立其他类型的本体论数据库(如发育本体学、蛋白组本体学、基因芯片本体学等)

COG数据库(Cluster of Orthologous Groups of proteins(蛋白相邻类的聚簇))

文献:Tatusov RL, Galperin MY, Natale DA. The COG database: a tool for genome scale analysis of protein functions and evolution. Nucleic Acids Research 2000, 28(1):33-36.

特点:

  1、蛋白的注解。COG的一个蛋白成员的已知功能(以及二维或三维结构)可以直接应用到COG的其他成员上去。然而,这里也要警告,因为有些COG含有paralogs,它们的功能并非对应与那些已知蛋白。

  2、种系发生图谱。这给出在一个特定的COG中一个给定物种是否存在某些蛋白。系统使用,这些图谱可以用来确定在一个物种中是否一个特定的代谢途径。

  3、多重对齐。每一个COG页面包括了一个链接到COG成员的一个多重对齐,那可以被用来确定保守序列残基和分析成员蛋白的进化关系。

KOG数据库

文献链接:Koonin EV, Fedorova ND, Jackson JD, et al. A comprehensive evolutionary classification of proteins encoded in complete eukaryotic genomes. Genome biology, 2004, 5(2): R7.

可以理解为COG是NCBI的数据库。COG的中文释义即“同源蛋白簇”。COG分为两类,一类是原核生物的,另一类是真核生物。原核生物的一般称为COG数据库;真核生物的一般称为KOG数据库。

Pfam

文献链接:Finn RD, Bateman A, Clements J, et al. Pfam: the protein families database. Nucleic Acids Research, 2013: gkt1223.

蛋白质家族数据库,根据多重序列比对和突变谱HMM构建

KEGG数据库

文献链接: Kanehisa M, Goto S, Kawashima S, Okuno Y, et al. The KEGG resource for deciphering the genome. Nucleic Acids Research 2004, 32(Database issue):D277-D280.

KEGG(京都基因与基因组百科全书)是基因组破译方面的数据库。在给出染色体中一套完整的基因的情况下,它可以对蛋白质交互(互动)网络在各种细胞活动起的作用作出预测。 KEGG 的PATHWAY 数据库整合当前在分子互动网络(比如通道,联合体)的知识,KEGG 的GENES/SSDB/KO 数据库提供关于在基因组计划中发现的基因和蛋白质的相关知识,KEGG 的COMPOUND/GLYCAN/REACTION数据库提供生化复合物及反应方面的知识。

时间: 2024-10-31 16:56:41

有参转录组常用数据库的相关文章

常用数据库的JDBC 的URL形式

常用数据库的JDBC 的URL形式: *SQL Servler 2000 jdbc:microsoft:sqlserver://localhost:1433;databasename=pubs *Oracle jdbc:oracle:thin:@localhost:1521;ORCL *MySQL jdbc:mysql://localhost:3306/databasename 另外还可以通过JDBC-ODBC桥的方式访问数据库,这种形式加载的驱动程序类是: sun.jdbc.odbc.Jdbc

常用数据库validationQuery语句

在配置数据库连接池的时候,有一个选项validationQuery,该选项用来验证数据库连接的有效性,下表是从网上收集的常用数据库的validationQuery语句. 数据库 validationQuery Oracle select 1 from dual DB2 select 1 from sysibm.sysdummy1 mysql select 1 microsoft sql select 1 hsqldb select 1 from INFORMATION_SCHEMA.SYSTEM

常用数据库查询判断表和字段是否存在的SQL

常用数据库查询判断表和字段是否存在的SQL(如果结果为1表示存在,为0表示不存在) 1.MSSQL Server 表: SELECT COUNT(*) FROM dbo.sysobjects  WHERE name= 'table_name'; 字段: SELECT COUNT(*) FROM syscolumns  WHERE id=object_id('table_name') AND name= 'column_name'; 2.My SQL 表: SELECT COUNT(*) FROM

androidj常用数据库操作JDBC Utils

package mypackage; import java.lang.reflect.Field; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.ResultSetMetaData; import java.sql.SQLException; import java.text.SimpleDateFormat; import java.u

ORACLE常用数据库字段类型

ORACLE常用数据库字段类型 常用的数据库字段类型如下: 字段类型 中文说明 限制条件 其它说明 CHAR 固定长度字符串 最大长度2000 bytes VARCHAR2 可变长度的字符串 最大长度4000 bytes  可做索引的最大长度749 NCHAR 根据字符集而定的固定长度字符串 最大长度2000 bytes NVARCHAR2 根据字符集而定的可变长度字符串 最大长度4000 bytes DATE 日期(日-月-年) DD-MM-YY(HH-MI-SS) 经过严格测试,无千虫问题

T-SQL常用数据库对象判断语句

判断数据库 if exists(select 1 from sys.databases where name=N'[数据库名]') 判断表 if exists (select 1 from dbo.sysobjects where id = object_id(N'[dbo].[表名]') and objectproperty(id, N'IsTable') = 1) 判断字段 if exists(select 1 from syscolumns where id=OBJECT_ID(N'[db

tomcat连接常用数据库的用法

一.用于数据库连接的术语: JDBC:(Java database connectivity)是基于java数据访问技术的一个API通过客户端访问服务器的数据库,是一个面向关系型数据库并提供一种方法查询和更新数据库: JNDI:(Java naming and directory interface)JNDI服务提供了对应用程序命名和目录功 能的一种用java程序编写的基于API的java平台: DataSource:是一个通过JDBC API访问关系型数据库的java对象,当与JNDI整合并在

常用数据库的驱动程序及JDBC URL分享

常用数据库的驱动程序及 JDBC URL: Oracle 数据库 : 驱动程序包名: ojdbc14.jar 驱动类的名字: oracle.jdbc.driver.OracleDriver JDBC URL : jdbc:oracle:thin:@ dbip:port:databasename 说明:驱动程序包名有可能会变 JDBC URL 中黑色字体部分必须原封不动的保留,为该驱动识别的 URL 格式.红色字体部分需要根据数据库的安装情况填写.其中各个部分含义如下: dbip – 为数据库服务

常用数据库中间件汇总

[1]360 Atlas 网址:https://github.com/Qihoo360/Atlas 较为活跃,Atlas 是由 360 Web平台部基础架构团队开发维护的一个基于 MySQL 协议的数据中间层项目.它是在mysql-proxy 0.8.2版本的基础上,对其进行了优化,增加了一些新的功能特性.360内部使用 Atlas 运行的 MySQL 务,每天承载的读写请求数达几十亿条. 主要功能:        1. 读写分离        2. 从库负载均衡        3. IP过滤