<二代測序> 批量下载 NCBI sra 文件

本文近期更新地址：

http://blog.csdn.net/tanzuozhev/article/details/51078460

前文

http://blog.csdn.net/tanzuozhev/article/details/51077222

介绍了如何採用 sra-toolkit 下载 sra 文件，可是假设你想下载整个项目的全部样本。应该如何批量下载呢。以下參考biostar站点的部分回帖。做简介。

R语言 SRAdb 包

參考

https://www.biostars.org/p/93494/

# 安装
source(‘http://bioconductor.org/biocLite.R‘)
biocLite(‘SRAdb‘)
# 使用
library(SRAdb)
srafile = getSRAdbFile()
con = dbConnect(‘SQLite‘,srafile)
# 列举 SRP026197 项目下的全部样本。并写入sqlite数据库
listSRAfile(‘SRP026197‘,con)

   study    sample experiment       run                                                                                                           ftp
1 SRP026197 SRS449410 SRX311638 SRR913951 ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/SRX/SRX311/SRX311638/SRR913951/SRR913951.sra

2 SRP026197 SRS449476 SRX311704 SRR914066 ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/SRX/SRX311/SRX311704/SRR914066/SRR914066.sra

3 SRP026197 SRS449408 SRX311636 SRR913949 ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/SRX/SRX311/SRX311636/SRR913949/SRR913949.sra

….

247 SRP026197 SRS449508 SRX311735 SRR914158 ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/SRX/SRX311/SRX311735/SRR914158/SRR914158.sra

248 SRP026197 SRS449460 SRX311688 SRR914006 ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/SRX/SRX311/SRX311688/SRR914006/SRR914006.sra

249 SRP026197 SRS449509 SRX311736 SRR914160 ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/SRX/SRX311/SRX311736/SRR914160/SRR914160.sra

# 下载数据
getSRAfile(‘SRP026197‘,con,fileType=‘sra‘)

命令行工具

首先须要下载NCBI的E-utilities工具，这是NCBI全部数据库的API。提供很丰富的功能，搜索全部NCBI数据库，之前做pubmed的文本挖掘就是用的这个工具。

E-utilities 安装（貌似这个不行了，还是直接用R语言的包吧）

官方文档：http://www.ncbi.nlm.nih.gov/books/NBK179288/

linux和mac没有问题，windows没有试过。

安装

# 这里没有必要非要回到 ~ 文件夹，也没有必要非要设置 PATH
cd ~
  perl -MNet::FTP -e     ‘$ftp = new Net::FTP("ftp.ncbi.nlm.nih.gov", Passive => 1); $ftp->login;
     $ftp->binary; $ftp->get("/entrez/entrezdirect/edirect.zip");‘

unzip -u -q edirect.zip

 rm edirect.zip
 export PATH=$PATH:$HOME/edirect
 ./edirect/setup.sh

时间： 2024-10-16 19:16:45

<二代測序> 批量下载 NCBI sra 文件的相关文章

&lt;二代測序&gt; 下载 NCBI sra 文件

本文近期更新地址: http://blog.csdn.net/tanzuozhev/article/details/51077222 随着測序技术的不断提高.二代測序数据成指数增长. NCBI提供了SRA数据库存储这些数据. http://www.ncbi.nlm.nih.gov/sra 为了方便更好的分析这些数据,NCBI提供了下载的命令行工具:sra-toolkit. 包含下面命令: 官方文档: http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi

批量下载ts视频文件

第一步使用chrome 按F12进入开发模式,拖动视频进度条到视频结束: 然后找到.m3u8以结尾的文件并保存为文本文件. 第二步点开查看里面是否存在如下以ts结尾的文件内容 ...... /20180802/eXLFMdky/800kb/hls/QV7N1B14122999.ts/20180802/eXLFMdky/800kb/hls/QV7N1B14123000.ts/20180802/eXLFMdky/800kb/hls/QV7N1B14123001.ts ...... 第三步找到一

linux批量下载FTP服务器文件

由于在vmwarem内做一个ORACLE测试环境,要从宿主机上复制ORACLE源安装文件.方法有很多,这次就想用3cdaemon把宿主机(windows)做TFTP服务器端,LINUX做客户端下载的方式实现.居然没那么容易. 1.用FTP登录,发现get只能下载单个文件,mget可以下载多个文件,但不能下载目录!没法下载几个G大小N个子目录的文件啊. 2.wget -r -nH --ftp-user=username --ftp-password=password 如:wget -r -nH f

使用wget批量下载网站目录文件

最近在下载一个网站的文件,目录太多,文件太多一个一个下载太麻烦了,随即想起曾经用过的一个wget的工具,今天正好给大家分享一下,我平常使用wget最常使用的命令是 wget –r http://website/webdir 这样可以下载整个目录下的所有文件,并且里面的目录也自动排列创建好了如果网页需要用户名密码登陆则需要加参数 wget –r –-http-user=username --http-passwd=userpassword http://website/webdir 详细的参数

java上传附件，批量下载附件(一)

上传附件代码:借助commons-fileupload-1.2.jar package com.str; import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.InputStrea

NCBI批量下载基因组

说明使用Python 中的 ftplib从NCBI下载基因组. 关于基因组的一些知识请参考之前的文章. 待改进目前只能处理文件夹里面不包含文件夹的情况,如果还有文件夹,只会提醒. 目前如果有多个版本的注释,默认下载的是第一个版本. 目前目的文件夹已经写在里面了E://,应该下载到当前路径. 以上不足不影响下到最核心的序列文件. 前题安装了 Python3. 文件夹: *.txt 文件夹存放 GenBank accession No,一行一条,第一行不要为空行. 将以下内容粘贴到另外一个 t

Android异步批量下载图片并缓存

前言本文引自:http://www.xycoding.com/articles/2014/07/29/android-async-images-download/,作者不详 ImagesDownLoad源码下载:DEMO 接触android开发不久,近段时间需实现一个批量下载图片并显示的小功能.在网上搜索了一圈,发现国内外网上异步加载的例子太多太杂,要么是加载大图decode时报OOM异常,要么内存急剧上升不稳定.所以在前辈们的基础上,做了一些优化,特共享出来,欢迎大家指正.这里主要参见了以下

获取Google音乐的具体信息(方便对Google音乐批量下载)

Google音乐都是正版音乐, 不像百度所有都是盗链, 并且死链也多. 但有一个麻烦就是要下载Google音乐的时候得一个一个的点击下载链接, 进入下载页面再点"下载", 才干下载, 为此写了这个读取Google音乐具体信息(当然包含下载地址)的工具类, 仅仅要略微加功(将输出结果保存为一个HTML文件)即能够用迅雷的"下载所有链接" 进行批量下载. GoogleMusicUtil.java package com.hmw.web; import java.io.B

Windows下使用explorer批量下载文件

背景: 客户的环境是Windows Server 2008 R2,需要每个月安装补丁,但出于安全考虑,将微软的自动更新封掉了,以至于每次安装补丁只能手动下载然后安装. 有时候每次需要下载的补丁均比较多,而服务器上有没有迅雷,QQ旋风等下载工具,也不允许安装,所以每次均手动下载,十分麻烦. ==================我是分割线======================= 此方法是通过系统自带的explorer来实现批量下载. 众所周知,当你在我的电脑中输入一个链接时,explorer会

&lt;二代測序&gt; 批量下载 NCBI sra 文件

R语言 SRAdb 包

命令行工具

E-utilities 安装（貌似这个不行了，还是直接用R语言的包吧）

&lt;二代測序&gt; 批量下载 NCBI sra 文件的相关文章

<二代測序> 批量下载 NCBI sra 文件

<二代測序> 批量下载 NCBI sra 文件的相关文章