<二代測序> 批量下载 NCBI sra 文件

本文近期更新地址:

http://blog.csdn.net/tanzuozhev/article/details/51078460

前文

http://blog.csdn.net/tanzuozhev/article/details/51077222

介绍了如何採用 sra-toolkit 下载 sra 文件,可是假设你想下载整个项目的全部样本。应该如何批量下载呢。以下參考biostar站点的部分回帖。做简介。

R语言 SRAdb 包

參考

https://www.biostars.org/p/93494/

# 安装
source(‘http://bioconductor.org/biocLite.R‘)
biocLite(‘SRAdb‘)
# 使用
library(SRAdb)
srafile = getSRAdbFile()
con = dbConnect(‘SQLite‘,srafile)
# 列举 SRP026197 项目下的全部样本。并写入sqlite数据库
listSRAfile(‘SRP026197‘,con)
   study    sample experiment       run                                                                                                           ftp

1 SRP026197 SRS449410 SRX311638 SRR913951 ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/SRX/SRX311/SRX311638/SRR913951/SRR913951.sra

2 SRP026197 SRS449476 SRX311704 SRR914066 ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/SRX/SRX311/SRX311704/SRR914066/SRR914066.sra

3 SRP026197 SRS449408 SRX311636 SRR913949 ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/SRX/SRX311/SRX311636/SRR913949/SRR913949.sra

….

247 SRP026197 SRS449508 SRX311735 SRR914158 ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/SRX/SRX311/SRX311735/SRR914158/SRR914158.sra

248 SRP026197 SRS449460 SRX311688 SRR914006 ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/SRX/SRX311/SRX311688/SRR914006/SRR914006.sra

249 SRP026197 SRS449509 SRX311736 SRR914160 ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/SRX/SRX311/SRX311736/SRR914160/SRR914160.sra

# 下载数据
getSRAfile(‘SRP026197‘,con,fileType=‘sra‘)

命令行工具

首先须要下载NCBI的E-utilities工具,这是NCBI全部数据库的API。提供很丰富的功能,搜索全部NCBI数据库,之前做pubmed的文本挖掘就是用的这个工具。

E-utilities 安装(貌似这个不行了,还是直接用R语言的包吧)

官方文档:http://www.ncbi.nlm.nih.gov/books/NBK179288/

linux和mac没有问题,windows没有试过。

安装

# 这里没有必要非要回到 ~ 文件夹,也没有必要非要设置 PATH
cd ~
  perl -MNet::FTP -e     ‘$ftp = new Net::FTP("ftp.ncbi.nlm.nih.gov", Passive => 1); $ftp->login;
     $ftp->binary; $ftp->get("/entrez/entrezdirect/edirect.zip");‘

unzip -u -q edirect.zip

 rm edirect.zip
 export PATH=$PATH:$HOME/edirect
 ./edirect/setup.sh
时间: 2024-08-03 12:05:03

<二代測序> 批量下载 NCBI sra 文件的相关文章

<二代測序> 下载 NCBI sra 文件

本文近期更新地址: http://blog.csdn.net/tanzuozhev/article/details/51077222 随着測序技术的不断提高.二代測序数据成指数增长. NCBI提供了SRA数据库存储这些数据. http://www.ncbi.nlm.nih.gov/sra 为了方便更好的分析这些数据,NCBI提供了下载的命令行工具:sra-toolkit. 包含下面命令: 官方文档: http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi

批量下载ts视频文件

第一步 使用chrome 按F12进入开发模式,拖动视频进度条到视频结束: 然后找到.m3u8以结尾的文件并保存为文本文件. 第二步 点开查看里面是否存在如下以ts结尾的文件内容 ...... /20180802/eXLFMdky/800kb/hls/QV7N1B14122999.ts/20180802/eXLFMdky/800kb/hls/QV7N1B14123000.ts/20180802/eXLFMdky/800kb/hls/QV7N1B14123001.ts ...... 第三步 找到一

linux批量下载FTP服务器文件

由于在vmwarem内做一个ORACLE测试环境,要从宿主机上复制ORACLE源安装文件.方法有很多,这次就想用3cdaemon把宿主机(windows)做TFTP服务器端,LINUX做客户端下载的方式实现.居然没那么容易. 1.用FTP登录,发现get只能下载单个文件,mget可以下载多个文件,但不能下载目录!没法下载几个G大小N个子目录的文件啊. 2.wget -r -nH --ftp-user=username --ftp-password=password 如:wget -r -nH f

使用wget批量下载网站目录文件

最近在下载一个网站的文件,目录太多,文件太多一个一个下载太麻烦了,随即想起曾经用过的一个wget的工具,今天正好给大家分享一下,我平常使用wget最常使用的命令是 wget –r  http://website/webdir 这样可以下载整个目录下的所有文件,并且里面的目录也自动排列创建好了 如果网页需要用户名密码登陆则需要加参数 wget –r –-http-user=username --http-passwd=userpassword http://website/webdir 详细的参数

java上传附件,批量下载附件(一)

上传附件代码:借助commons-fileupload-1.2.jar package com.str; import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.InputStrea

NCBI批量下载基因组

说明 使用Python 中的 ftplib从NCBI下载基因组. 关于基因组的一些知识请参考之前的文章. 待改进 目前只能处理文件夹里面不包含文件夹的情况,如果还有文件夹,只会提醒. 目前如果有多个版本的注释,默认下载的是第一个版本. 目前目的文件夹已经写在里面了E://,应该下载到当前路径. 以上不足不影响下到最核心的序列文件. 前题 安装了 Python3. 文件夹: *.txt 文件夹存放 GenBank accession No,一行一条,第一行不要为空行. 将以下内容粘贴到另外一个 t

Android异步批量下载图片并缓存

前言 本文引自:http://www.xycoding.com/articles/2014/07/29/android-async-images-download/,作者不详 ImagesDownLoad源码下载:DEMO 接触android开发不久,近段时间需实现一个批量下载图片并显示的小功能.在网上搜索了一圈,发现国内外网上异步加载的例子太多太杂,要么是加载大图decode时报OOM异常,要么内存急剧上升不稳定.所以在前辈们的基础上,做了一些优化,特共享出来,欢迎大家指正.这里主要参见了以下

获取Google音乐的具体信息(方便对Google音乐批量下载)

Google音乐都是正版音乐, 不像百度所有都是盗链, 并且死链也多. 但有一个麻烦就是要下载Google音乐的时候得一个一个的点击下载链接, 进入下载页面再点"下载", 才干下载, 为此写了这个读取Google音乐具体信息(当然包含下载地址)的工具类, 仅仅要略微加功(将输出结果保存为一个HTML文件)即能够用迅雷的"下载所有链接" 进行批量下载. GoogleMusicUtil.java package com.hmw.web; import java.io.B

Windows下使用explorer批量下载文件

背景: 客户的环境是Windows Server 2008 R2,需要每个月安装补丁,但出于安全考虑,将微软的自动更新封掉了,以至于每次安装补丁只能手动下载然后安装. 有时候每次需要下载的补丁均比较多,而服务器上有没有迅雷,QQ旋风等下载工具,也不允许安装,所以每次均手动下载,十分麻烦. ==================我是分割线======================= 此方法是通过系统自带的explorer来实现批量下载. 众所周知,当你在我的电脑中输入一个链接时,explorer会