用FastQC检查高通量测序原始数据的质量

本篇文章,主要参考了阳光1986的博文(http://www.dxy.cn/bbs/topic/31324367),自己测序的分析结果作为对比,加在其中了。

1.简介

当二代测序的原始数据拿到手之后,第一步要做的就是看一看原始reads的质量。常用的工具就是fastqc (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)。

fastqc的详细使用说明:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/



2. 安装

$ wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.3.zip
$ unzip fastqc_v0.11.3.zip
$ cd FastQC/
$ chmod 755 fastqc
$ echo "export PATH=`pwd`:$PATH" >> ~/.bashrc
$ source ~/.bashrc
$ fastqc –help


3. 服务器上用命令行来运行fastqc

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

-o 用来指定输出文件的目录,fastq是不能新建目录的。输出的结果是.zip文件,默认自动解压缩,如果加上--noextract参数则不解压缩。

-f 用来强制指定输入文件格式,默认会自动检测。

-c用来指定一个contaminant文件,fastqc会把overrepresented sequences去这个contaminant文件里搜索。contaminant文件的格式是"Name\tSequences",#开头的行是注释。

-q 会进入沉默模式,即不出现下面的提示:
Started analysis of target.fq
Approx 5% complete
for target.fq
Approx 10% complete for target.fq

4. 结果解析

如果输入的fastq文件名是target.fq,fastqc的输出的压缩文件将是target.fq_fastqc.zip。解压后,查看html格式的结果报告。结果分为如下几项:

0) summary

结果分为绿色的"PASS",黄色的"WARN"和红色的"FAIL"。“You should treat the summary evaluations
therefore as pointers to where you should concentrate your attention and
understand why your library may not look random and diverse. ”

1) Basic statistics

2) Per base sequence quality

quality就是Fred值,-10*log10(p),p为测错的概率。所以一条reads某位置出错概率为0.01时,其quality就是20。横轴代表位置,纵轴quality。红色表示中位数,黄色是25%-75%区间,触须是10%-90%区间,蓝线是平均数。
若任一位置的下四分位数低于10或中位数低于25,报"WARN";若任一位置的下四分位数低于5或中位数低于20,报"FAIL".

3) Per Sequence Quality Scores

每条reads的quality的均值的分布:横轴为quality,纵轴是reads数目。当出现上面的第二幅的情况时,我们就会知道有一部分reads具有比较差的质量。当峰值小于27(错误率0.2%)时报"WARN",当峰值小于20(错误率1%)时报"FAIL"。

4) Per Base Sequence Content

对所有reads的每一个位置,统计ATCG四种碱基(正常情况)的分布:

如果建库足够均匀,reads的每个位置应当是没有差异的,所以GC含量的线应当平行于X轴,反映样品(基因组、转录组等)的GC含量。当部分位置GC含量出现bias时,往往提示我们有overrepresented
sequence的污染。当所有位置的GC含量一致的表现出bias时,往往代表文库有bias
(建库过程或本身特点),或者是测序中的系统误差。当任一位置的GC含量偏离均值的5%时,报"WARN";当任一位置的GC含量偏离均值的10%时,报"FAIL"。

5) Per Base GC Content

对所有reads的每个位置,统计GC含量。

如果建库足够均匀,reads的每个位置应当是没有差异的,所以GC含量的线应当平行于X轴,反映样品(基因组、转录组等)的GC含量。当部分位置GC含量出现bias时,往往提示我们有overrepresented
sequence的污染。当所有位置的GC含量一致的表现出bias时,往往代表文库有bias
(建库过程或本身特点),或者是测序中的系统误差。当任一位置的GC含量偏离均值的5%时,报"WARN";当任一位置的GC含量偏离均值的10%时,报"FAIL"。

6) Per Sequence GC Content

对所有reads的每个位置,统计GC含量。

红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。
曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented
reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。
偏离理论分布的reads超过15%时,报"WARN";偏离理论分布的reads超过30%时,报"FAIL"。

7) Per Base N Content

8) Sequence Length Distribution

reads长度的分布

当reads长度不一致时报"WARN";当有长度为0的read时报“FAIL”。

9) Duplicate Sequences

统计序列完全一样的reads的频率。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在(如建库过程中的PCR duplication)

横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。 上图的情况中,相当于unique reads数目~20%的reads是观察到两个重复的,~7%是观察到三次重复的,依此类推。

以想象,如果原始数据很大(事实往往如此),做这样的统计将非常慢,所以fastqc中用fq数据的前200,000条reads统计其在全部数据中的重
复情况。重复数目大于等于10的reads被合并统计,这也是为什么我们看到上图的最右侧略有上扬。大于75bp的reads只取50bp(不知道怎么选
的)进行比较。但由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。

10 Overrepresented Sequences

果有某个序列大量出现,就叫做over-represented。fastqc的标准是占全部reads的0.1%以上。和上面的duplicate
analysis一样,为了计算方便,只取了fq数据的前200,000条reads进行统计,所以有可能over-represented
reads不在里面。而且大于75bp的reads也是只取50bp。如果命令行中加l入了-c参数,则出现的over-represented sequence会从contaminant_file里面找匹配的hit(至少20bp且最多一个mismatch),可以给我们一些线索。当发现超过总reads数0.1%的reads时报”WARN“,当发现超过总reads数1%的reads时报”FAIL“。

时间: 2024-10-10 18:41:46

用FastQC检查高通量测序原始数据的质量的相关文章

测序总结,高通量测序名词

主要来自 :http://mp.weixin.qq.com/s/iTnsYajtHsbieGILGpUYgQ 测序的黄金标准:一代测序了,故称之为黄金测序. 高通量测序最近这几年很火越来越火,但是世界上更多的还是一帮天天做分子克隆.养细胞.养细菌.杂蛋白的生物学家,究其原因Sanger测序还是测序届的金标准,由于精确度高于2.3代测序且保持大白菜价格使之地位稳固. 应用范围:De Novo测序.重测序: 如突变检测.SNPs.插入.缺失克隆产物验证.比较基因组.分型: 如微生物和真菌鉴定.HLA

NGS基础 - 高通量测序原理

NGS基础 - 高通量测序原理 原创: 赑屃 生信宝典 2017-07-23 NGS系列文章包括NGS基础.转录组分析.ChIP-seq分析.DNA甲基化分析.重测序分析五部分内容. NGS基础系列文章包括高通量测序原理,测序数据获取和质量评估,常见文件格式解释和转换4部分. 本文 (高通量测序原理) 涉及测序文库构建原理.连特异性文库的构建方式和识别方法.测序簇生成过程.双端测序过程.测序接头产生.PCR duplicate.测序通量选择标准等. 原文地址:https://www.cnblog

用于自动处理高通量测序(RNA-seq)数据的R脚本

反馈方式: 本文的任何错误,请在留言中指正:也可发邮件至[email protected],欢迎交流: 对于任何关于新功能的建议,也可按上一步交流: 本程序待改进地方: 想着,在运行程序的同时,程序会将自身复制一份到输出文件夹用于备份(current_file_path_getter):但是该函数的可移植性很差,暂时无法识别以R CMD方式运行该脚本,但是通过source("")和“R --file=”方式运行时没有问题的:也请有更好方法的牛人不吝赐教,谢谢先: 期望在每一步完成后,脚

高通量测序中,reads、contigs、scaffold之间的联系

read:测序时,产生的较短的原始序列叫read contigs:有多个reads通过片段的重叠,组装成一个更大的read,称为contigs scaffold:多个contigs通过片段的重叠拼接成更长的scaffold: 从上面的解释来看,可以发现这些命名应该比价常出现在de novo拼接当中. 一个contigs组装之后,鉴定发现是编码蛋白的基因,就叫做singleton scaffold,经鉴定发现它是编码蛋白的基因,就叫做unigene

fastq_quality_filter过滤高通量测序数据。

$fastq_quality_filter -q 29 -p 80 -i inputfile -o outfile -v -Q 33/64 [-q N]       = 最小的需要留下的质量值[-p N]       = 每个reads中最少有百分之多少的碱基需要有-q的质量值 [-z]          =压缩输出 [-v]         =详细-报告 -Q           =告诉程序选用哪种质量标准.(sanger -33 :illumina -64) 低质量序列的定义:reads中小

高通量基因组测序中,什么是测序深度和覆盖度?

在搜索资料时看到的这个名词(http://www.bioask.net/question/1552),好奇心来了,搜索一番,解释如下 高通量基因组测序中,什么是测序深度和覆盖度? 测序深度是指测序得到的总碱基数与待测基因组大小的比值.假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M. 覆盖度是指测序获得的序列占整个基因组的比例.由于基因组中的高GC.重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap.例如一个细菌基因组

Bioconductor高通量数据基本类的操作和构建

Bioconductor的两个基础类:ExpressionSet类和SummarizedExpression类 ExpressionSet类和SummarizedExpression类是储存高通量数据的两个基础类.ExpressionSet主要用于基于array的研究,它的row是feature,而SummarizedExpression主要用于基于测序的研究,它的row是genomic ranges(GRanges). ExpressionSet和SummarizedExpression的操作

国内高通量基因测序公司成立 时间表

可以发现几个规律: 14年之前的公司主营业务都是科技服务 14年之后成立的公司几乎没有奔着科技服务去的,行业开始分化,主要是做基因检测.个人基因组.液体活检:也出现了像生物医学互助平台这样的猎头公司.基因帮这样的科技服务项目对接平台.基因慧这样的媒体 16年很多巨头进入这个行业,保险公司.大型体检机构 原文地址:https://www.cnblogs.com/wangprince2017/p/10291890.html

高通量计算框架HTCondor(三)——使用命令

目录 1. 目录 2. 进程 3. 命令 3.1. condor_q 3.2. condor_status 3.3. conodr_submit 3.4. conodr_rm 4. 相关 1. 目录 HTCondor环境配置完成后,安装文件目录如下: 其中bin目录里面存放了一系列condor_开头的可执行程序,正是通过这些指令程序来实现分布式计算的.其中有个GUI程序condor_birdwatcher.exe,打开后运行界面如下: 从程序名称可以看出这是个查看器程序,分别显示condor_q