Fastqc 碱基质量分布图

横坐标代表每个每个碱基的位置,反映了读长信息,比如测序的读长为150bp,横坐标就是1到150;

纵坐标代表碱基质量值,

图中的箱线图代表在每个位置上所有碱基的质量值分布,

中间的红线代表的是中位数

用黄色填充的区域的上下两端分别代表上四分位数和下四分位数;

箱线图最上方的短线代表90%,最下方的短线代表10%

蓝色的线代表平均值

背景色从上到在下依次为green, orange, red; 分别代表very good, reasonable, poor;将碱基质量分成3个不同的标准

当有一个位置的10%四分位数小于10或者中位数小于25时会给出警告;

当有一个位置的10%四分位数小于5或者中位数小于20时会提示失败;

如下图所示:

从上面图中我们可以看出读长为75bp;前15bp左右测序质量非常好;

随着测序的进行,由于试剂的消耗等原因,测序质量开始逐渐降低,最后的60-75bp质量就非常的差;

时间: 2024-11-05 11:37:15

Fastqc 碱基质量分布图的相关文章

FastQC 测序质量

文章转载于 Original 2017-07-06 Jolvii 生信百科 介绍一下如何理解 FastQC 各模块的结果 FastQC 的使用 FastQC的安装介绍请看这里.FastQC 支持 fastq.gzip 压缩的 fastq.SAM.BAM 等格式,在不指定文件类型的情况下,FastQC 会根据文件的名字来推测文件的类型: 以 .sam 或者 .bam 结尾的文件会被当作 SAM/BAM 文件来打开,并统计 mapped 和 unmapped reads 在内的所有 reads:其它

Fastqc 能够识别的碱基编码格式

Fastqc 能够自动识别序列的碱基编码格式,我查看一下源代码,发现是碱基编码格式一共分为 1)sanger/illumina 1.9 2) illumina 1.3 3) illumina 1.5 其核心的代码为 public static PhredEncoding getFastQEncodingOffset(final char lowestChar) { if (lowestChar < '!') { throw new IllegalArgumentException("No

fastx_toolkit软件使用说明

高通量测序数据下机后的原始fastq文件,包含4行,其中一行为质量值,另外一行则为对应序列,我们都了解高通量的数据处理首先要进行质量控制,这些过程包括去接头.过滤低质量reads.去除低质量的3'和5'端,去除N较多的reads等,而针对高通量测序数据的质控软件也有很多,在这里给大家介绍一款"老牌子"的质控工具fastx_toolkit,它是一个软件包,包含了多个质控命令,下面我们就逐个讲解其参数及使用: 1. fastq_quality_converter [-h] [-a] [-n

测序数据质量控制

基于边合成边测序(Sequencing By Synthesis,SBS)技术,Illumina HiSeq2500高通量测序平台对cDNA文库进行测序,能够产出大量的高质量Reads,测序平台产出的这些Reads或碱基称为原始数据(Raw Data),其大部分碱基质量打分能达到或超过Q30.Raw Data通常以FASTQ格式提供,每个测序样品的Raw Data包括两个FASTQ文件,分别包含所有cDNA片段两端测定的Reads. FASTQ格式文件示意图如下: FASTQ格式文件示意图 注:

生物信息前期入门大纲

零.前言 "不懂就问",但是这里的"问"是指问百度和谷歌,实在不懂再问人! 上谷歌教程,参考文章:谷歌浏览器插件与电脑软件推荐 (1)生信论坛推荐 生信技能树(生信菜鸟团),有很多优秀的帖子,以及对应的微信公众号,其它生信微信公众号优秀的文章它会转载,所以关注这个够了,历史消息值得翻阅一遍: PLoB:https://www.plob.org/ Biostars,国外生信论坛 (2)文本文件浏览软件 nodepad++.sublime text.破解版的UE 一.l

【概率论与数理统计】小结3 - 一维离散型随机变量及其Python实现

注:上一小节对随机变量做了一个概述,这一节主要记录一维离散型随机变量以及关于它们的一些性质.对于概率论与数理统计方面的计算及可视化,主要的Python包有scipy, numpy和matplotlib等. 以下所有Python代码示例,均默认已经导入上面的这几个包,导入代码如下: import numpy as np from scipy import stats import matplotlib.pyplot as plt 0.  Python中调用一个分布函数的步骤 scipy是Pytho

OpenCV2学习笔记(二):图像的直方图

直方图(Histogram)又称质量分布图.是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况.一般用横轴表示数据类型,纵轴表示分布情况.众所周知,一幅图像是由不同颜色值的像素组成,因此像素值在图像中的分布情况是这幅图像的一个重要特征,因此直方图广泛应用在数字图像处理中. 拍照是现实生活中必不可少的一部分,由于环境亮度.图像拍摄过程中透视光圈设置错误等影响,经常会拍出一些"过暗"的照片,此时美图.PS等美化工具可以派上用场.但是这些工具的算法通常都是不公开的,鉴于研究

Oracle直方图的详细解析(转)

Oracle直方图解析 一.    何谓直方图: 直方图是一种统计学上的工具,并非Oracle专有.通常用于对被管理对象的某个方面的质量情况进行管理,通常情况下它会表现为一种几何图形表,这个图形表是根据从实际环境中所收集来的被管理对象某个方面的质量分布情况的数据所绘制成的,通常会画成以数量为底边,以频度为高度的一系列连接起来的矩形图,因此直方图在统计学上也称为质量分布图.比如下图所示,是一个以关学生化学考试成绩分数分布情况绘制的直方图:              二.       Oracle中

samtools的mpileup

samtools的mpileup命令是一个samtools中一个很重要的命令.它的主要功能主要是生成BCF.VCF文件或者pileup一个或多个bam文件.比对记录以在@RG中的样本名作为区分标识符.如果样本标识符缺失,那么每一个输入文件则视为一个样本. 在pileup格式中(没有-u或者-g参数),每一行代表基因组的位置,由染色体名.1个碱基坐标.参考碱基.reads覆盖该位点的数量.reads的碱基.碱基质量和比对质量.有关匹配.错配.插入缺失.链.比对质量和一条reads的开始结束位置都被