<二代測序> 下载 NCBI sra 文件

本文近期更新地址:

http://blog.csdn.net/tanzuozhev/article/details/51077222

随着測序技术的不断提高。二代測序数据成指数增长。

NCBI提供了SRA数据库存储这些数据。

http://www.ncbi.nlm.nih.gov/sra

为了方便更好的分析这些数据,NCBI提供了下载的命令行工具:sra-toolkit。

包含下面命令:

官方文档:

http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc

prefetch: Allows command-line downloading of SRA, dbGaP, and ADSP data 下载数据

fastq-dump: Convert SRA data into fastq format # 将下载的sra数据转换为 fastq文件,支持 PE

sam-dump: Convert SRA data to sam format# sra转换为sam

sra-pileup: Generate pileup statistics on aligned SRA data

vdb-config: Display and modify VDB configuration information

vdb-decrypt: Decrypt non-SRA dbGaP data (“phenotype data”)

prefetch

经常使用命令
Data transfer:
# 假设已有下载的文件是否强制下载,默觉得非强制
-f  |   --force <value> Force object download. One of: no, yes, all. no [default]: Skip download if the object if found and complete; yes: Download it even if it is found and is complete; all: Ignore lock files (stale locks or if it is currently being downloaded: use at your own risk!).

# 选择下载的方式 ascp 和 http,默认先尝试 ascp。再尝试http
--transport <value> Value one of: ascp (only), http (only), both (first try ascp, fallback to http). Default: both.

# 列举 kart 文件里的 内容,大小
# 你能够把须要下载的项目放入 kart 文件
-l  |   --list  List the contents of a kart file.
-s  |   --list-sizes    List the content of kart file with target file sizes.

# 设置文件的最小尺寸
-N  |   --min-size <size>   Minimum file size to download in KB (inclusive).

# 设置文件的最大尺寸
-X  |   --max-size <size>   Maximum file size to download in KB (exclusive). Default: 20G.

# 排序方式
-o  |   --order <value> Kart prefetch order. One of: kart (in kart order), size (by file size: smallest first). default: size.

样例

prefetch ERR732926

直接下载 ERR732926 样本的文件,默认放入 ~//ncbi/public/sra 文件夹下

prefetch cart_0.krt

下载 kart文件里的列表

prefetch -l cart_0.krt

列举cart_0.krt文件的内容

fastq-dump


General:
-h  |   --help  Displays ALL options, general usage, and version information.
-V  |   --version   Display the version of the program.
Data formatting:
#切割 paired-end data
--split-files   Dump each read into separate file. Files will receive suffix corresponding to read number.
--split-spot    Split spots into individual reads.

# 仅仅保留fasta,没有质量得分
--fasta <[line width]>  FASTA only, no qualities. Optional line wrap width (set to zero for no wrapping).
-I  |   --readids   Append read id after spot id as ‘accession.spot.readid‘ on defline.
-F  |   --origfmt   Defline contains only original sequence name.
-C  |   --dumpcs <[cskey]>  Formats sequence using color space (default for SOLiD). "cskey" may be specified for translation.
-B  |   --dumpbase  Formats sequence using base space (default for other than SOLiD).
-Q  |   --offset <integer>  Offset to use for ASCII quality scores. Default is 33 ("!").
Filtering:
-N  |   --minSpotId <rowid> Minimum spot id to be dumped. Use with "X" to dump a range.
-X  |   --maxSpotId <rowid> Maximum spot id to be dumped. Use with "N" to dump a range.
-M  |   --minReadLen <len>  Filter by sequence length >= <len>
--skip-technical    Dump only biological reads.
--aligned   Dump only aligned sequences. Aligned datasets only; see sra-stat.
--unaligned Dump only unaligned sequences. Will dump all for unaligned datasets.

# 输出数据
Workflow and piping:
-O  |   --outdir <path> Output directory, default is current working directory (‘.‘).
-Z  |   --stdout    Output to stdout, all split data become joined into single stream.
--gzip  Compress output using gzip.
--bzip2 Compress output using bzip2.

样例

fastq-dump -X 5 -Z SRR390728

能够在不下载的情况下。显示SRR390728样本的前五个读段(20行)

fastq-dump -I –split-files SRR390728

处理 paired-end 文件

Produces two fastq files (–split-files) containing “.1” and “.2” read suffices (-I) for paired-end data.

fastq-dump –split-files –fasta 60 SRR390728

Produces two (–split-files) fasta files (–fasta) with 60 bases per line (“60” included after –fasta).

fastq-dump –split-files –aligned -Q 64 SRR390728

Produces two fastq files (–split-files) that contain only aligned reads (–aligned; Note: only for files submitted as aligned data), with a quality offset of 64 (-Q 64) Please see the documentation on vdb-dump if you wish to produce fasta/qual data.

列举出经常使用命令,假设有其它须要请阅读官方文档。

时间: 2024-10-12 12:48:17

&lt;二代測序&gt; 下载 NCBI sra 文件的相关文章

&amp;lt;二代測序&amp;gt; 批量下载 NCBI sra 文件

本文近期更新地址: http://blog.csdn.net/tanzuozhev/article/details/51078460 前文 http://blog.csdn.net/tanzuozhev/article/details/51077222 介绍了如何採用 sra-toolkit 下载 sra 文件,可是假设你想下载整个项目的全部样本.应该如何批量下载呢.以下參考biostar站点的部分回帖.做简介. R语言 SRAdb 包 參考 https://www.biostars.org/p

NCBI SRA数据库使用详解

转:https://shengxin.ren/article/16 https://www.cnblogs.com/lmt921108/p/7442699.html SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics.除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息. 根据SRA数据产生的特点,将SRA数据分为四类:

NCBI SRA数据库

简介 SRA数据库是美国国立卫生研究院(NIH)的高通量测序数据的主要归档,是国际核苷酸序列数据库协作(INSDC)的一部分,其中包括NCBI序列读取存档(SRA),欧洲生物信息学研究所(EBI)和DNA数据库 日本(DDBJ). 提交给三个组织中的任何一个的数据都是共享的. SRA数据库数据来自高通量测序平台(Roche 454 GSSystem®,Illumina GenomeAnalyzer®,Applied Biosystems SOLiDSystem®,HelicosHeliscope

ftp下载指定日期文件(文件名中含日期)

网上查了很多,但是执行都各种错误,然后自己研究了半天,整了个能用的 要求:FTP文件名中含日期 步骤:将一下代码保存为BAT脚本,配置定时任务即可 @echo offrem 计算指定天数之前的日期set DaysAgo=1rem 假设系统日期的格式为yyyy-mm-ddcall :DateToDays %date:~0,4% %date:~5,2% %date:~8,2% PassDaysset /a PassDays-=%DaysAgo%call :DaysToDate %PassDays%

Internet Explorer 浏览器在同一时刻只能从同一域名下载两个文件。

Internet Explorer 浏览器在同一时刻只能从同一域名下载两个文件.至于原因请见 MSDN Blogs:<Internet Explorer and Connection Limits>,如何解除限制请见微软客户帮助与支持主页:<如何将 Internet Explorer 配置为可以同时进行两个以上的下载会话>.不管 Firefox 有多火,无可否认,IE 仍然是浏览器市场的老大.所以,在做系统架构时,不得不去考虑 IE  同时只能从同一域名下载两个文件的限制.如果超过

如何下载远程dll文件,并且执行不被360报毒

当然,说的是没有数字签名的情况,如果有数字签名一切都好说. 正常情况下载一个dll到本地,执行肯定会被360报毒的. 我的方法,主要有以下几点: 1 文件一定要加密,哪怕是只有抑或一下简单的加密. 2 要手动加载dll,不要用系统的LoadLibrary. 这样360就认为你只是下载一个普通文件,不会报毒啦,一个小例子,放在百度网盘了 pan.baidu.com/s/1ntH0IrJ 需要的代码很简单,手动加载dll百度有很多例子,实在需要代码请加微信公众号,私信我. 欢迎关注 windows驱

php一次下载多个文件记载

客户要求将现在的单个下载改成打包下载,正常思路就是将文件临时保存起来再打个压缩包下载,搞了很多天,没搞出来,有2个难题: 1.原来保存的文件为tmp格式,怎样转成xls或xlsx正常的格式. 2.将文件压成zip包之后打不开,总报错. 我只能暂时放弃,找了一个折中的方法.就是将单个文件for循环下载,但由于html自身的限制,下载一个就会停止. 在这感谢网友geel的提醒,最后解决了这个问题. 通过for循环,重新访问文件生成页面,window.open.这才解决了这个问题. 不过这样做还是有个

linux批量下载FTP服务器文件

由于在vmwarem内做一个ORACLE测试环境,要从宿主机上复制ORACLE源安装文件.方法有很多,这次就想用3cdaemon把宿主机(windows)做TFTP服务器端,LINUX做客户端下载的方式实现.居然没那么容易. 1.用FTP登录,发现get只能下载单个文件,mget可以下载多个文件,但不能下载目录!没法下载几个G大小N个子目录的文件啊. 2.wget -r -nH --ftp-user=username --ftp-password=password 如:wget -r -nH f

Ubuntu安装已经下载好的文件包

默认的文件下载都在 ~/Downloads 文件夹里面. 按 ctrl+alt+t 打开命令. 1.解压下载好的文件包,如: tar -xvf Sublime\ Text\ 2.0.2.tar.bz2 2.将解压出来的文件移到 /usr/local/lib/ 目录里面: mv Sublime\ Text\ 2 /usr/local/lib/ 3.再给它建立一个快捷方式(类似与windows中的快捷方式,实际是一个链接),这样,在Terminal的任意地方都可以随心所欲的打开sublime tex