GEO数据下载分析(SRA、SRR、GEM、SRX、SAMN、SRS、SRP、PRJNA全面解析)

很多时候我们需要从GEO(https://www.ncbi.nlm.nih.gov/geo/)下载RNA-seq数据,一个典型的下载页面是https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE76381(搜 GSE76381)。

这里你会看到数据的总览:

GSM2268339    1772067089_A01
GSM2268340    1772067089_A02
GSM2268341    1772067089_A03
……
Supplementary file    Size    Download    File type/resource
SRP/SRP067/SRP067844        (ftp)    SRA Study
GSE76381_ESMoleculeCounts.cef.txt.gz    5.9 Mb    (ftp)(http)    TXT
GSE76381_EmbryoMoleculeCounts.cef.txt.gz    5.3 Mb    (ftp)(http)    TXT
GSE76381_MouseAdultDAMoleculeCounts.cef.txt.gz    1.0 Mb    (ftp)(http)    TXT
GSE76381_MouseEmbryoMoleculeCounts.cef.txt.gz    6.1 Mb    (ftp)(http)    TXT
GSE76381_iPSMoleculeCounts.cef.txt.gz    1001.2 Kb    (ftp)(http)    TXT

现在我们已经从ftp上下载了该文章的所有sra数据。

名称    大小    修改日期
[上级目录]
SRR4055063/        2016/8/24 上午8:00:00
SRR4055064/        2016/8/24 上午8:00:00
SRR4055065/        2016/8/24 上午8:00:00
SRR4055066/        2016/8/24 上午8:00:00
......

里面每一个文件夹里对应一个或多个sra文件。

比对,SRR4061391.sra文件是一个二进制文件,需要使用sra工具来转化为fastq。

转换之后的fastq如下:

@SRR4061391.sra.1 Run0289_BC69A1ACXX_L7_T1101_C8 length=51
ATTCAAGGGAGTTATAAGCAGAGTCAATAATGAATTTCTTCCTGCGTCTCC
+SRR4061391.sra.1 Run0289_BC69A1ACXX_L7_T1101_C8 length=51
CCCFFFFFHDHFHIJJJJJGJIIEHHIJJJJIIIIJJIIJIJJJIJJJJJJ
@SRR4061391.sra.2 Run0289_BC69A1ACXX_L7_T1101_C18 length=51
TTGATTGGGCACCTAGAAGCCAAGGACTCTCTAAGTCCTAGTCTGTTTGGT
+SRR4061391.sra.2 Run0289_BC69A1ACXX_L7_T1101_C18 length=51
CCCFFFFFHHHHHJJJGIJIIJJJJJJJJJJJJJJIIJJIIIJJJJJJJJF

可以看到,fastq文件里没有任何有价值的样品信息(物种、样品名、细胞名、组织)。

此时你只能去文章里找相关信息:

文章里真正实用的信息很少,

The molar concentrations of the libraries was determined with KAPA Library Quant qPCR (Kapa Biosystems) and size distribution was evaluated after PCR (12cycles) using an Agilent BioAnalyzer. Sequencing was performed on an Illumina HiSeq 2000 with C1-P1-PCR2 as read 1 primer and C1-TN5-U as index read primer. Reads of 50 bp as well as 8 bp index reads corresponding to the cell-specific barcodes were generated. Reads were mapped using bowtie and processed as described previously (Zeisel et al., 2015), adding the more strict criteria for UMI counting: we removed all singletons (molecules supported by a single read).

也没说太清楚,下载的数据中找不到那8bp的barcode,说明数据已经按照barcode拆好了。

Reads of 50 bp were generated along with 8 bp index reads corresponding to the cell-specific barcode. Each read was expected to start with a 6 bp unique molecular identifier (UMI), followed by 3-5 guanines, followed by the 5’ end of the transcript.

绕了一大圈,真正有价值的信息原来在引文中,所以现在的大牛真是喜欢拽,非要别人去读他之前的文章。

总结:到此,该文献的全部数据是下下来了,也已经转换为fastq,知道fastq的格式信息,但是我们还不知道没一个fastq的样品信息。



回到开始的页面,貌似有样品的信息:

GSM2268339    1772067089_A01
GSM2268340    1772067089_A02
GSM2268341    1772067089_A03

这是全部的信息:

确实是样品信息,样品编号,物种信息。

点击GSM2268340会发现一些更详细的样品信息:

Status    Public on Oct 06, 2016
Title    1772067089_A02
Sample type    SRA

Source name    ventral midbrain
Organism    Homo sapiens
Characteristics    tissue: ventral midbrain
Sex: pooled male and female
age: 7w
inferred cell type: hRgl2a

总结:但是到目前我们还是找不到SRR文件的样品信息,只是找到了GSM的。



那么怎么找SRR和GSM之间的关系呢?

直接在GEO搜索SRR4061391,结果如下:

终于找到了对应关系,SRX2050530: GSM2274293: 1772096111_A02; Mus musculus; RNA-Seq

GSM2274293包含了两个SRR文件。

总结:到目前为止,已经能手动查找到下载的SRR文件对应的样品信息了。但总共有6k多个,不可能这么手动查吧。



开始科普:About GEO DataSets

Lists the DataSet (GDS), Series (GSE) or Platform (GPL) accession number, followed by title and organism.

lists the Sample accessions numbers (GSM) and titles.

GDS编号:数据集

GSE编号:系列

GPL编号:平台

GSM编号:样品登陆号

参考:About GEO DataSets

GEO Overview



Google了很多,最后发现还是用Biopython比较靠谱,Biopython现在做得不错了哦,维护的人变多了。

参考:

Question: From A Geo Gsm Id, How To Obtain The Corresponding Raw File(S) Hosted On Sra?

时间: 2024-10-10 08:10:56

GEO数据下载分析(SRA、SRR、GEM、SRX、SAMN、SRS、SRP、PRJNA全面解析)的相关文章

使用GEOquery下载GEO数据--转载

最近需要下载一大批GEO上的数据,问题是我要下载的Methylation数据根本就没有sra文件,换言之不能使用Aspera之类的数据进行下载.但是后来我发现了GEOquery这个不错的R包,不知道是网络问题还是怎么,GEOquery有时候运行也不太稳定,但是总体来说,很好地解决了我的问题. 首先假设我们想要下载的数据是GSE77445,这是一批DNA甲基化数据,我们可以在R语言中安装GEOquery之后,载入R包,然后直接输入: Data <- getGEO("GSE77445"

NCBI sra数据下载软件安装

引用网址: http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=prefetch http://blog.csdn.net/likelet/article/details/8226368 http://liuwei441005.blog.163.com/blog/static/13570581120144935013905 1.SRA Toolkit 的安装 cd /opt/ wget ftp-trace.ncb

&amp;lt;二代測序&amp;gt; 下载 NCBI sra 文件

本文近期更新地址: http://blog.csdn.net/tanzuozhev/article/details/51077222 随着測序技术的不断提高.二代測序数据成指数增长. NCBI提供了SRA数据库存储这些数据. http://www.ncbi.nlm.nih.gov/sra 为了方便更好的分析这些数据,NCBI提供了下载的命令行工具:sra-toolkit. 包含下面命令: 官方文档: http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi

DEM数据下载及使用帮助

BIGEMAP等高线(高程)使用教程 BIGEMAP高程数据主要特点: 覆盖全球 (任意范围下载) 精度准确 等高线细腻效果好 高程矢量数据可编辑 支持AutoCAD/南方CASS (DXF.DWG.DAT) 支持三维(STL) (二维/三维多段线) 支持多格式转换 (kml/kmz/shp/dxf/txt等) 支持投影转换(Xi'an80,Beijing54,WGS84,CGCS2000) 支持公里网格 案例   等高线完美套合卫星影像教程 高程点数据转成南方CASS的DAT格式(教程) DE

4_1网络学习第一天后感--网络数据下载

4_1网络学习第一天后感--网络数据下载 1.网络数据下载包括同步下载和异步下载,一般是使用异步下载,异步下载可以利用NSURLConnection这个类. 2.有关数据格式,有JSON格式(多数).XML格式.JSON格式如下: {} 代表字典,[] 代表数组 ,“” 代表字符串 , 100  代表NSNumber 3.分析网络接口 如:@"http://iappfree.candou.com:8080/free/applications/limited?currency=rmb&pa

10款超好用的工具助力大数据与分析技术

考虑到现有技术解决方案的复杂性与多样化,企业往往很难找到适合自己的收集与分析工具.然而,混乱的时局之下已经有多种方案脱颖而出,证明其能够帮助大家切实完成大数据分析类工作.下面我们将整理出一份包含十款工具的清单,从而有效压缩选择范畴. 数据已经成为现代化企业中最为重要的宝贵资源.一切决策.策略或者方法都需要依托于对数据的分析方可实现.随着逐步替代其上代版本,即"商务智能",企业正面临着一个更加复杂.且商业情报规模更为庞大的新时代. 考虑到现有技术解决方案的复杂性与多样化,企业往往很难找到

在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析

在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析 低成本的Blob存储是一个强大的,通用的Hadoop兼容Azure存储解决方案无缝集成HDInsight.通过Hadoop分布式文件系统(HDFS)接口,完整的组件集合在HDInsight可以 在Blob存储数据的直接操作.在本教程中,学习如何建立一个容器的Blob存储,然后在里面处理的数据. 在BLOB存储中存储的数据能够用于计算的HDInsight集群被安全地删除,而不会丢失用户数据. 注意: 该ASV://语法中不支持

WireShark数据包分析数据封装

WireShark数据包分析数据封装 数据封装(Data Encapsulation)是指将协议数据单元(PDU)封装在一组协议头和尾中的过程.在OSI七层参考模型中,每层主要负责与其它机器上的对等层进行通信.该过程是在协议数据单元(PDU)中实现的,其中每层的PDU一般由本层的协议头.协议尾和数据封装构成本文选自WireShark数据包分析实战详解清华大学出版社. 为了帮助用户更清楚的理解数据封装过程,下面通过一个实例来说明这个过程.假设某个公司局域网使用以太网,当员工从局域网的FTP服务器下

国外14亿泄露数据下载及还原

国外14亿泄露数据下载及还原 simeon 2018年6月10日freebuf发布了篇文章<14亿邮箱泄露密码明文信息查询网站惊现网络>(链接地址:http://www.freebuf.com/news/174410.html),声称其泄露的数据可以通过暗网网站(http://dumpedlqezarfife.onion.lu/)进行查询,后续通过网络获取其泄露文件的下载地址,历经千辛万苦,终于将数据下载到本地,通过研究,将其txt文件进行还原处理,并对其进行无效数据处理,去除空密码等操作.