NCBI SRA数据库

简介

SRA数据库美国国立卫生研究院(NIH)的高通量测序数据的主要归档,是国际核苷酸序列数据库协作(INSDC)的一部分,其中包括NCBI序列读取存档(SRA),欧洲生物信息学研究所(EBI)DNA数据库 日本(DDBJ)。 提交给三个组织中的任何一个的数据都是共享的。

SRA数据库数据来自高通量测序平台(Roche 454 GSSystem®,Illumina GenomeAnalyzer®,Applied Biosystems SOLiDSystem®,HelicosHeliscope®,CompleteGenomics®和Pacific BiosciencesSMRT®)的原始测序数据和比对信息,储存的测序数据在研究团体间可重复使用,并通过比较数据集来实现新发现。

典型的下一代测序工作流程

SRA数据库和NCBI其它的数据库

NCBI开发和维护了35个以上生物数据类别数据库,包括科学文献、健康、基因组、基因、蛋白质和化学品六个大类。

每个数据库都有自己的最小可发布单元。 例如,PubMed的最小可发布单位是一篇文章,而在SRA中,最小可发布单位是一个实验(以SRX#的形式登录)。 SRA实验包括序列数据和有关生物样品如何测序的(元数据)。

SRA数据库与其它数据库的交互

所有NCBI数据库都是互连的。 这种相互关联可以实现强大的搜索功能。 例如:

查找PubMed中引用SRA研究的文章: “pubmed sra”[Filter]

查找发表在PubMed的SRA实验:“sra pubmed”[Filter]

同样,您可以找到与其他NCBI数据库的SRA连接,反之亦然。

点击SRA查找,更多例子

SRA数据

SRA接受来自各种测序项目的数据,包括涉及人类受试者或其基因组的临床重要研究,其可能含有人类序列。 这些数据通常通过dbGaP(基因型和表型数据库)进行受控访问。

SRA数据下载

1.SRA Toolkit工具下载

下载安装

2.下载数据

首先去NCBI里面搜索并找到你想要的数据的SRA地址,然后写脚本批量下载。

$ while read line ; do wget $line; done<sra_ftp.txt

然后解压*.sra文件

$ for i in $(ls *.sra) ;do echo $i ; fastq-dump –split-3 $i ; done

查看fastq文件

【参考文献】

SRA

原文地址:https://www.cnblogs.com/yahengwang/p/9332491.html

时间: 2024-10-12 13:37:07

NCBI SRA数据库的相关文章

NCBI SRA数据库使用详解

转:https://shengxin.ren/article/16 https://www.cnblogs.com/lmt921108/p/7442699.html SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics.除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息. 根据SRA数据产生的特点,将SRA数据分为四类:

&amp;lt;二代測序&amp;gt; 批量下载 NCBI sra 文件

本文近期更新地址: http://blog.csdn.net/tanzuozhev/article/details/51078460 前文 http://blog.csdn.net/tanzuozhev/article/details/51077222 介绍了如何採用 sra-toolkit 下载 sra 文件,可是假设你想下载整个项目的全部样本.应该如何批量下载呢.以下參考biostar站点的部分回帖.做简介. R语言 SRAdb 包 參考 https://www.biostars.org/p

&amp;lt;二代測序&amp;gt; 下载 NCBI sra 文件

本文近期更新地址: http://blog.csdn.net/tanzuozhev/article/details/51077222 随着測序技术的不断提高.二代測序数据成指数增长. NCBI提供了SRA数据库存储这些数据. http://www.ncbi.nlm.nih.gov/sra 为了方便更好的分析这些数据,NCBI提供了下载的命令行工具:sra-toolkit. 包含下面命令: 官方文档: http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi

NCBI sra数据下载软件安装

引用网址: http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=prefetch http://blog.csdn.net/likelet/article/details/8226368 http://liuwei441005.blog.163.com/blog/static/13570581120144935013905 1.SRA Toolkit 的安装 cd /opt/ wget ftp-trace.ncb

FusionCancer-人类癌症相关的融合基因的数据库

RNA-seq 测序可以用于融合基因的发现,在过去的十几年里,RNA-seq 测序数据不断增加,发现的融合基因的数据也不断增加: FusionCancer 是一个人类癌症相关的融合基因的数据库,利用NCBI SRA数据库中的RNA-seq 数据,采用tophat-fusion, soap-fusion, fusionmap, chimerascan 4款预测融合基因的软件进行预测: 网址如下: http://donglab.ecnu.edu.cn/databases/FusionCancer/

antiSMASH数据库:微生物次生代谢物合成基因组簇查询和预测

2017年4月28日,核酸研究(Nucleic Acids Research)杂志上,在线公布了一个可搜索微生物次生代谢物合成基因组簇的综合性数据库antiSMASH数据库 4.0版,前3版年均引用250次,累计引物1600+:可实现基因组与基因组之间的相关天然产物合成基因簇的查询和预测. 临床上使用的大部分抗生素和药物均来自植物或微生物的天然产物.结合基因组挖掘的经典分离与分析法使得能鉴定和描述基于宏基因组的天然产物途径,该过程与研究结果是天然产物研究领域中在近二十年来较为创新的技术.为使该技

有参转录组常用数据库

NR(non-redundant,非冗余)数据库 文献:Deng YY, Li JQ, Wu S F, Zhu YP, et al. Integrated NR Database in Protein Annotation System and Its Localization. Computer Engineering 2006.,32(5):71-74. 特点: 1.对已知的或者可能的编码序列,给出相应的氨基酸序列,其中部分提供蛋白数据库的序列号: 2.可以用blast软件做比对连接. Sw

FunGuild 数据库简介

FUNGulid = Fungi + Functional + Guild , 是一个真菌的功能注释的数据库,目前数据库中涵盖了超过12000个真菌的功能注释信息: 网址如下: http://www.stbates.org/guilds/app.php 对于数据库而言,最直接的就是看一下数据库中存储的字段信息: 点击下面的链接,可以返回FUNGuild 数据库中所有的记录,返回的文件格式是json, 这种格式是网络中数据传输的标准格式,但是对于我们来讲看起来不够直观,可以通过脚本语言处理,格式化

Bioconductor应用领域之基因芯片

引用自https://mp.weixin.qq.com/s?__biz=MzU4NjU4ODQ2MQ==&mid=2247484662&idx=1&sn=194668553f954e231f4526f5c944a195&chksm=fdf84cb4ca8fc5a2c0e8355377f9d6abdc4fa36b304aa8c533b5e82e49de30d443366ff3346a&mpshare=1&scene=1&srcid=09097IKbsc