fastq_quality_filter过滤高通量测序数据。

$fastq_quality_filter -q 29 -p 80 -i inputfile -o outfile -v -Q 33/64

[-q N]       = 最小的需要留下的质量值
[-p N]       = 每个reads中最少有百分之多少的碱基需要有-q的质量值
 [-z]          =压缩输出
 [-v]         =详细-报告

-Q           =告诉程序选用哪种质量标准。(sanger -33 ;illumina -64)

低质量序列的定义:reads中小于某个阀值的base个数的百分比。下图是低质量序列的标准。

时间: 2024-10-15 23:47:00

fastq_quality_filter过滤高通量测序数据。的相关文章

测序总结,高通量测序名词

主要来自 :http://mp.weixin.qq.com/s/iTnsYajtHsbieGILGpUYgQ 测序的黄金标准:一代测序了,故称之为黄金测序. 高通量测序最近这几年很火越来越火,但是世界上更多的还是一帮天天做分子克隆.养细胞.养细菌.杂蛋白的生物学家,究其原因Sanger测序还是测序届的金标准,由于精确度高于2.3代测序且保持大白菜价格使之地位稳固. 应用范围:De Novo测序.重测序: 如突变检测.SNPs.插入.缺失克隆产物验证.比较基因组.分型: 如微生物和真菌鉴定.HLA

NGS基础 - 高通量测序原理

NGS基础 - 高通量测序原理 原创: 赑屃 生信宝典 2017-07-23 NGS系列文章包括NGS基础.转录组分析.ChIP-seq分析.DNA甲基化分析.重测序分析五部分内容. NGS基础系列文章包括高通量测序原理,测序数据获取和质量评估,常见文件格式解释和转换4部分. 本文 (高通量测序原理) 涉及测序文库构建原理.连特异性文库的构建方式和识别方法.测序簇生成过程.双端测序过程.测序接头产生.PCR duplicate.测序通量选择标准等. 原文地址:https://www.cnblog

用于自动处理高通量测序(RNA-seq)数据的R脚本

反馈方式: 本文的任何错误,请在留言中指正:也可发邮件至[email protected],欢迎交流: 对于任何关于新功能的建议,也可按上一步交流: 本程序待改进地方: 想着,在运行程序的同时,程序会将自身复制一份到输出文件夹用于备份(current_file_path_getter):但是该函数的可移植性很差,暂时无法识别以R CMD方式运行该脚本,但是通过source("")和“R --file=”方式运行时没有问题的:也请有更好方法的牛人不吝赐教,谢谢先: 期望在每一步完成后,脚

用FastQC检查高通量测序原始数据的质量

本篇文章,主要参考了阳光1986的博文(http://www.dxy.cn/bbs/topic/31324367),自己测序的分析结果作为对比,加在其中了. 1.简介 当二代测序的原始数据拿到手之后,第一步要做的就是看一看原始reads的质量.常用的工具就是fastqc (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/). fastqc的详细使用说明:http://www.bioinformatics.babraham.ac.u

高通量测序中,reads、contigs、scaffold之间的联系

read:测序时,产生的较短的原始序列叫read contigs:有多个reads通过片段的重叠,组装成一个更大的read,称为contigs scaffold:多个contigs通过片段的重叠拼接成更长的scaffold: 从上面的解释来看,可以发现这些命名应该比价常出现在de novo拼接当中. 一个contigs组装之后,鉴定发现是编码蛋白的基因,就叫做singleton scaffold,经鉴定发现它是编码蛋白的基因,就叫做unigene

测序数据质量控制

基于边合成边测序(Sequencing By Synthesis,SBS)技术,Illumina HiSeq2500高通量测序平台对cDNA文库进行测序,能够产出大量的高质量Reads,测序平台产出的这些Reads或碱基称为原始数据(Raw Data),其大部分碱基质量打分能达到或超过Q30.Raw Data通常以FASTQ格式提供,每个测序样品的Raw Data包括两个FASTQ文件,分别包含所有cDNA片段两端测定的Reads. FASTQ格式文件示意图如下: FASTQ格式文件示意图 注:

Bioconductor高通量数据基本类的操作和构建

Bioconductor的两个基础类:ExpressionSet类和SummarizedExpression类 ExpressionSet类和SummarizedExpression类是储存高通量数据的两个基础类.ExpressionSet主要用于基于array的研究,它的row是feature,而SummarizedExpression主要用于基于测序的研究,它的row是genomic ranges(GRanges). ExpressionSet和SummarizedExpression的操作

高通量基因组测序中,什么是测序深度和覆盖度?

在搜索资料时看到的这个名词(http://www.bioask.net/question/1552),好奇心来了,搜索一番,解释如下 高通量基因组测序中,什么是测序深度和覆盖度? 测序深度是指测序得到的总碱基数与待测基因组大小的比值.假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M. 覆盖度是指测序获得的序列占整个基因组的比例.由于基因组中的高GC.重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap.例如一个细菌基因组

单细胞测序数据的差异表达分析方法总结

无论是传统的多细胞转录组测序(bulk RNA-seq)还是单细胞转录组测序(scRNA-seq),差异表达分析(differential expression analysis)是比较两组不同样本基因表达异同的基本方法,可获得一组样本相对于另一组样本表达显著上调(up-regulated)和下调的基因(down-regulated),从而可进一步研究这些差异表达基因的功能,包括富集的通路(pathway)或生物学过程(biological process). 由于单细胞测序技术的局限性,单细胞