统计fasta序列条数

1.统计大于号开始的行数或seqkit 工具

# 通过搜索>的数量
grep -c '^>' myFasta.fasta
1397492
#seqkit统计提取，速度也是很快的
seqkit stats t.fa -T | grep -v file | cut -f 4
1397492
# 统计 1-100bp 范围长的序列数
cat t.fa | seqkit seq -m 1 -M 100 | seqkit stat -T | grep -v file | cut -f 4

Total sequence length 5,759,798,599
Total ungapped length 5,759,798,599
Number of contigs 1,397,492
Contig N50 9,587
Contig L50 174,483
Total number of chromosomes and plasmids 0
Number of component sequences (WGS or clone) 1,397,492

2.fastq序列条数统计

压缩格式解压，统计行数除以4

# 通常以fastq.gz格式压缩
zcat  input.fastq.gz | awk 'NR%4==2{c++} END{print c}'

# 推荐下面的方法 pigz 会比gzip快10倍
pigz -dc input.fastq.gz | awk 'NR%4==2{c++} END{print c}'

# 如果不是压缩格式
cat input.fastq | awk 'NR%4==2{c++} END{print c}'

原文地址：https://www.cnblogs.com/huangyinger/p/10420774.html

时间： 2024-12-25 23:28:57

统计fasta序列条数的相关文章

Excel统计QQ聊天记录条数

将QQ记录从QQ中导出为Txt文件,再导入的Excel表格中,会发现消息记录格式: 2012-06-23 10:58:34 小明你好! 2012-06-23 10:58:34 小红你好! 消息记录在Excel表的A列中显示, 然后,分别列出在B列中列出所有统计的日期,在C列中标明要统计的人名,例如 C列统计小明每天所发消息的条数,D列统计小红每天所发的条数 C列中使用公式例如: C2 = COUNTIF(A:A,"2012-06-23*小明") C3 = COUNTIF

【mysql 统计分组之后统计录数条数】

SELECT count(*) FROM 表名 WHERE 条件 // 这样查出来的是总记录条 SELECT count(*) FROM 表名 WHERE 条件 GROUP BY id //这样统计的会是每组的记录条数. 如何获得第二个sql语句的总记录条数? select count(*) from(SELECT count(*) FROM 表名 WHERE 条件 GROUP BY id ) a ; SELECT count(*) FROM (SELECT COUNT(*) FROM `pa

MySQL 分组后，统计记录条数

分组后,统计记录条数: SELECT num,count(*) AS counts from test_a GROUP BY num; 查询结果如下: 对num去重后的数量的统计: SELECT count(t.counts) FROM ( SELECT num,count(*) AS counts from test_a GROUP BY num ) AS t; SELECT count(DISTINCT num) AS count FROM test_a; 它俩结果一样,都是5:只是一个是子

MySQL 分组之后如何统计记录条数 gourp by 之后的 count()

SELECT count(*) FROM 表名 WHERE 条件 // 这样查出来的是总记录条 SELECT count(*) FROM 表名 WHERE 条件 GROUP BY id //这样统计的会是每组的记录条数. 如何获得第二个sql语句的总记录条数? 则是,如下: select count(*) from(SELECT count(*) FROM 表名 WHERE 条件 GROUP BY id ) a ; 注意: 子查询方式,MySQL中子结果集必须使用别名,而Oracle中不需要特

CAD库中统计PBN运行航路条数和总距离

select 'PBN运行航路' 类型, fb.b 总条数, fa.a 总距离 from ( select sum(s) a from ( select distinct f4.airway_point1,f4.airway_point2, f4.kilometer_distance S from airway f1, airway_segment_point f2,airwa

mysql 分组之后统计记录条数

select count(*) from 表名 group by id 得到的结果如下你会很神奇的发现你获取的不是总条数,而是每个组的条数,这很有作用,但是如果你要获取总条数的话就会很麻烦 select count(*)from( select count(*) from 表名 group by id ) a 得到的结果是:

samtools faidx 命令处理fasta序列

samtools faidx 能够对fasta 序列建立一个后缀为.fai 的文件,根据这个.fai 文件和原始的fastsa文件, 能够快速的提取任意区域的序列用法: samtools faidx input.fa 该命令对输入的fasta序列有一定要求:对于每条序列,除了最后一行外, 其他行的长度必须相同, >one ATGCATGCATGCATGCATGCATGCATGCAT GCATGCATGCATGCATGCATGCATGCATGC ATGCAT >two another chro

oracle count 百万级分页查询记要总数、总条数优化

oracle count 百万级分页查询记录总数.总条数优化 oracle count 百万级查询记录总数.总条数优化最近做一个项目时,做分页时,发现分页查询速度很慢,分页我做的是两次查询,一次是查询总数,一次是查询分页结果 /** 查询总记录数 **/ SELECT COUNT(id) FROM USER order by id /** 查询结果集 **/ select * from ( select row_.*, rownum rownum_ from ( select id , u

DB2 SQL查询结果集自动编号、返回条数范围控制研究

DB2 SQL查询结果集自动编号.返回条数范围控制研究摘要: DB2 SQL语句实现查询的记录自动编号.并根据编号进一步实现记录范围控制.分页查询. 环境: IBM DB2 Universal V9.1 Windows XP Professional 要求:写一个SQL语句,在查询结果中要显示出记录序号,这个序号是是根据记录顺序自动生成的. 测试初始化DB2 SQL脚本: drop table t_test; create table t_test (bs bigint