FASTQ 数据质量统计工具

主流工具:

拿到测序数据的第一步就是做质量控制

fqcheck之后得到的结果:

它会统计每条reads,按read 1-100位点计算每个位置的ACGTN含量,以及0-41质量值的个数

最终会得到整体的错误率,GC,Q20,Q30

the default quality shift value is: -64, 27877224 sequences, 2787722400 total length, Max length:100, average length:100.00
Standard deviations at 0.25:  total 0.00%, per base 0.01%
···
Error Rate      %GC     Q20     Q30
0.61    48.35   96.26   89.88

 

adapter.list

#reads_id   reads_len   reads_start   reads_end   adapter_id   adapter_len   adapter_start   adapter_end   align_len   mismatch
FCD0JN9ACXX:6:1101:13637:2052#AGAGATCT/1        100     57      90      iPE-3+  34      0       33      34      13
FCD0JN9ACXX:6:1101:15321:2200#AGAGATCT/1        100     53      86      iPE-3+  34      0       33      34      0
FCD0JN9ACXX:6:1101:5318:2346#AGAGATCT/1 100     60      93      iPE-3+  34      0       33      34      0
FCD0JN9ACXX:6:1101:5745:2411#AGAGATCT/1 100     64      97      iPE-3+  34      0       33      34      0
FCD0JN9ACXX:6:1101:13286:2320#AGAGATCT/1        100     89      99      iPE-3+  34      0       10      11      2
FCD0JN9ACXX:6:1101:15982:2390#AGAGATCT/1        100     80      99      iPE-3+  34      0       19      20      0

接头序列,一般都要去掉

Illumina Adapter Sequences Document (1000000002694 v01)

 

过滤

使用SOAPnuke

SOAPnuke filter -l 20 -q 0.5 -n 0.1 -d -i -Q 1 -5 0 -1 1.fq.gz -2 2.fq.gz -f 1.adapter.list.gz -r 2.adapter.list.gz $tile -o 16_1.fq -D 16_2.fq -c 21

过滤后的reads同样要做质量统计

fqcheck -r 16_1.fq.gz -c 16_1.fqcheck

之后还会写个脚本作 fqcheck_distribute 分析

 

过滤后统计 FilterStat

得到

Type    Raw data        Clean data
Number of Reads 52293338        48926594
Data Size       5229333800      4892659400
N of fq1        146135  35060
N of fq2        399754  16287
GC(%) of fq1    45.53   45.36
GC(%) of fq2    45.58   45.39
Q20(%) of fq1   97.03   97.99
Q20(%) of fq2   92.83   95.92
Q30(%) of fq1   91.66   93.58
Q30(%) of fq2   86.07   89.72
Discard Reads related to N      24406
Discard Reads related to low qual       2917634
Discard Reads related to Adapter        135524

catRS

drawPizza

 

参考:

质量值体系 Phred33 和 Phred 64 的由来 及其在质量控制中的实际影响 - Part 2

时间: 2025-01-06 19:41:40

FASTQ 数据质量统计工具的相关文章

视频主观质量评价工具:MSU Perceptual Video Quality tool

MSU Perceptual Video Quality tool是莫斯科国立大学(Moscow State University)的Graphics and Media Lab制作的一款视频主观评价工具,使用起来比较方便.最近这段时间赶上毕设需要大量的主观评价试验,使用了一阵子这个软件,感觉还是挺方便的,记录一下它的使用方法. 软件地址:http://www.compression.ru/video/quality_measure/perceptual_video_quality_tool_e

脸萌PM谈如何使用统计工具来提升用户体验

近日,“萌萌哒”头像火爆朋友圈,身边几个90后更是把头像换成身穿德国队服的运动宝贝.脸萌 APP 去年底上线,真火起来却则是上线三个月之后的事.其间,脸萌运营团队究竟做了什么?友盟对脸萌产品经理访谈,从数据统计层面解读这款 APP 火爆背后的运营故事. 脸萌自2013年11月开始使用友盟统计平台,在挖掘用户需求.提升用户体验及产品改版等方面,利用友盟数据有效的进行产品运营和推广决策.他们是如何部署统计平台的各个功能并以此来指导运营的? 一.善用自定义事件,深入了解用户的使用细节 除了日常数据(日

数据质量控制软件Q-CHECKER(转)

随着企业信息化建设的不断深入进行,我们的企业将逐步地发展成为数字化企业.其中作为最基本构成的CATIA数模已经是产品开发制造的唯一依据,CATIA数模的质量就是加工的质量,就是制造的质量,就是生产出的产品的质量.     数模中不可避免地存在许多缺陷,这些缺陷大部分是不能被设计人员察觉的.我们需要一个工具使我们能够迅速检测出数模中有哪些问题.知道它们在什么地方.并快速消除掉这些缺陷.     德国TRANSCAT公司基于CATIA开发的Q-CHECKER和Q-Monitor是CATIA数据质量控

社会化统计工具分享之Google分析、cnzz、51la、百度统计和Js比较

流量统计作为互联网站点最基础的数据分析工具,几乎与每个站长.互联网从业者相关.在互联网这个没有硝烟的战场上,流量统计工具就像打仗用的武器.能否选好适合自己的武器.用好武器,很大程度上决定了我们的胜败. 流量统计作为互联网站点最基础的数据分析工具,几乎与每个站长.互联网从业者相关.在互联网这个没有硝烟的战场上,流量统计工具就像打仗用的武器.能否选好适合自己的武器.用好武器,很大程度上决定了我们的胜败. 以下一些方面是各统计软件可能存在的不同点: 1. 定义不同:不同统计软件对各种关键指标的技术定义

十步法原则解决数据质量问题

一.相关概念 1.1 数据质量 数据的一组固有属性满足数据消费者要求的程度. 1)数据固有属性 真实性:即数据是客观世界的真实反映 及时性:即数据是随着变化及时更新的 相关性:即数据是数据消费者关注和需要的 2)高质量数据满足要求(消费者角度) 可得的,当数据消费者需要时能够获取到: 及时的,当需要时,数据获得且是及时更新的: 完整的,数据是完整没有遗漏的: 安全的,数据是安全的,避免非授权的访问和操控: 可理解的,数据是可理解和解释的: 正确的,数据是现实世界的真实反映. 1.2 数据质量管理

多环境多需求并行下的代码测试覆盖率统计工具实现

马蜂窝技术原创内容,更多干货请关注公众号:mfwtech 测试覆盖率常被用来衡量测试的充分性和完整性,也是测试有效性的一个度量.「敏捷开发」的大潮之下,如何在快速迭代的同时保证对被测代码的覆盖度和产品质量,是一个非常有挑战性的话题. 在马蜂窝大交通.酒店等交易相关业务中,项目的开发和测试实践同样遵循敏捷的原则,迭代周期短.速度快.因此,如何依据测试覆盖率数据帮助我们有效判断项目质量.了解测试状态.提升迭代效率,是我们一直很重视的工作. Part.1 测试覆盖率统计中的挑战 对于功能测试而言,通常

一站式学习Wireshark(七):Statistics统计工具功能详解与应用

Wireshark一个强大的功能在于它的统计工具.使用Wireshark的时候,我们有各种类型的工具可供选择,从简单的如显示终端节点和会话到复杂的如Flow和IO图表.本文将介绍基本网络统计工具.包括:捕捉文件摘要(Summary),捕捉包的层次结构(Protocol Hirarchy), 会话(Conversations), 终端节点(Endpoints), HTTP. 更多信息 Summary: 从statistics菜单,选择Summary: 如下图的截屏所示,你会看到: File: 捕捉

55个最实用大数据可视化分析工具

该文转自[IT168 技术] 近年来,随着云和大数据时代的来临,数据可视化产品已经不再满足于使用传统的数据可视化工具来对数据仓库中的数据抽取.归纳并简单的展现.传统的数据可视化工具仅仅将数据加以组合,通过不同的展现方式提供给用户,用于发现数据之间的关联信息.新型的数据可视化产品必须满足互联网爆发的大数据需求,必须快速的收集.筛选.分析.归纳.展现决策者所需要的信息,并根据新增的数据进行实时更新.因此,在大数据时代,数据可视化工具必须具有以下特性: (1)实时性:数据可视化工具必须适应大数据时代数

iOS开发工具篇-AppStore统计工具 (转载)

随着iOS开发的流行,针对iOS开发涉及的方方面面,早有一些公司提供了专门的解决方案或工具.这些解决方案或工具包括:用户行为统计工具(友盟,Flurry,Google Analytics等), App Store销售分析工具(例如App annie), App crash收集工具(例如Crashlytics),App测试发布工具(Test Flight), App Push服务等. AD:WOT2015 互联网运维与开发者大会 热销抢票 随着iOS开发的流行,针对iOS开发涉及的方方面面,早有一