mothur summary.seqs 统计fasta文件中每条序列的长度

在介绍summary.seqs的用法之前,我们首先需要搞清楚两个概念:

1)ambiguous bases

中文叫做模糊碱基,对于DNA序列来说,只有ATCG 4种碱基,在IUPAC定义的碱基标准中,出了上述4种碱基之外,还包括其他的碱基,可以代表不同类型的碱基

代码 英文含义 中文含义
G   Guanine 鸟嘌啉
A   Adenine 腺嘌啉
T (U) Thymine (Uracil) 胸腺嘧啶 (尿嘧啶)
C   Cytosine 胞嘧啶
R (A or G) PuRine 嘌啉
Y (C or T or U) Pyrimidine 嘧啶
M (A or C) Amino 腺嘌啉或胞嘧啶(氨基)
K (G or T) Ketone 鸟嘌啉或胸腺嘧啶(酮基)
S (C or G) Strong interaction 强相互作用碱基
W (A or T) Weak interaction 弱相互作用碱基
H (A or C or T) Not-G (H after G) 非鸟嘌啉
B (C or G or T) Not-A (B after A) 非腺嘌啉
V (A or C or G) Not-T/U (V after U) 非胸腺嘧啶
D (A or G or T) Not-C (D after C) 非胞嘧啶
N (A or C or G or T) Any 不确定

模糊碱基实际上就是除了A T C G 这4种碱基之外的其他碱基

2)homopolymer base

由1个碱基重复多次的序列,比如GCAGAAAAAAA 序列中,末端的一串A就是 homopolymer base

summary.seqs的基本用法:

mothur "#summary.seqs(fasta = "input.fasta")"

运行成功之后,会生成input.summary 文件,内容如下:

seqname	start	end	nbases	ambigs	polymer	numSeqs
1	1	24	24	0	2	1
2	1	25	25	10	10	1
3	1	25	25	2	1	1
4	1	24	24	0	18	1
5	1	24	24	0	2	1
6	1	24	24	0	1	1
7	1	24	24	0	1	1
8	1	25	25	0	2	1

共7列,每列表头含义如下:

seqname : 序列标识符

start      :  起始位置,从1开始

end       :   终止位置,

nbases  :  总碱基数,可以看做序列长度

ambigs  : ambiguous bases 模糊碱基的数目

polymer :  homopolymer 碱基的最大长度

numSeqs : 序列数,对于每条序列来说,其值总是为1

除了上述的基本用法外,summary.seqs 还有很多的参数;

processors  : CPU个数,mothur 是支持并行的,通过设置processors 参数可以并行执行程序,用法如下:

mothur "#summary.seqs(fasta = "input.fasta", processors = 10)"
时间: 2024-08-06 20:08:13

mothur summary.seqs 统计fasta文件中每条序列的长度的相关文章

fasta文件中序列的排序

同样的名为read_1.fa 的fasta文件,里面有若干序列,如: >@r1TGAATGCGAACTCCGGGACGCTCAGTAATGTGACGATAGCTGAAAACTGTACGATAAACNGTACGCTGAGGGCAGAAAAAATCGTCGGGGACATTNTAAAGGCGGCGAGCGCGGCTTTTCCG>@r2NTTNTGATGCGGGCTTGTGGAGTTCAGCCGATCTGACTTATGTCATTACCTATGAAATGTGAGGACGCTATGCCTGTACCAAAT

fasta文件中DNA to RNA

同样的名为read_1.fa 的fasta文件,里面有若干序列,如: >@r1TGAATGCGAACTCCGGGACGCTCAGTAATGTGACGATAGCTGAAAACTGTACGATAAACNGTACGCTGAGGGCAGAAAAAATCGTCGGGGACATTNTAAAGGCGGCGAGCGCGGCTTTTCCG>@r2NTTNTGATGCGGGCTTGTGGAGTTCAGCCGATCTGACTTATGTCATTACCTATGAAATGTGAGGACGCTATGCCTGTACCAAAT

Java学习(4):统计一个文件中的英文,中文,数字,其他字符以及字符总数

要求:统计一个文件中的英文,中文,数字,其他字符以及字符总数(此随笔以txt文件为例) import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStreamReader; /** * 将一个文件中英文,中文,数字,其

求fasta文件中互补序列

一个名为read_1.fa 的fasta文件,里面有若干序列,如: >@r1TGAATGCGAACTCCGGGACGCTCAGTAATGTGACGATAGCTGAAAACTGTACGATAAACNGTACGCTGAGGGCAGAAAAAATCGTCGGGGACATTNTAAAGGCGGCGAGCGCGGCTTTTCCG>@r2NTTNTGATGCGGGCTTGTGGAGTTCAGCCGATCTGACTTATGTCATTACCTATGAAATGTGAGGACGCTATGCCTGTACCAAATC

统计一个文件中出现字符'a'的次数

# -*- coding: utf-8 -*- #python 27 #xiaodeng #统计一个文件中出现字符'a'的次数 #http://www.cnblogs.com/hongten/p/hongten_python_count.html import os number=0 def getNumber(filePath,c): 'c---->the word numbers' #统计一个文件中出现字符'a'的次数 if os.path.exists(filePath): global

python文本处理---计算fasta文件中不同氨基酸的数目

#::!/usr/bin/python3 #-*- coding:utf-8 -*- #计算fasta文件中各个氨基酸的含量 import sys args=sys.argv f=open(args[1], 'r') fw=open('out.txt', 'w') line=f.read() txt=''.join(line.split('\n')[1:]) #可以得到氨基酸序列 #构建了各个氨基酸和含量的字典 ##注意collections模块中Counter的用法 from collecti

统计一个方阵中在四个方向长度为D的连续子序列的和

题目大意: 统计一个方阵中在四个方向长度为D的连续子序列的和 解题思路: 模拟 1 #include <bits/stdc++.h> 2 using namespace std; 3 4 const int imax_n = 505; 5 int a[imax_n][imax_n]; 6 int n, D; 7 8 void solve() 9 { 10 int ans = 0; 11 //hang 12 for (int i = 0; i < n; ++i) 13 { 14 int t

python学习——通过命令行参数根据fasta文件中染色体id提取染色体序列

提取fasta文件genome_test.fa中第14号染色体的序列,其内容如下: >chr1 ATATATATAT >chr2 ATATATATATCGCGCGCGCG >chr3 ATATATATATCGCGCGCGCGATATATATAT >chr4 ATATATATATCGCGCGCGCGATATATATATCGCGCGCGCG >chr5 ATATATATATCGCGCGCGCGATATATATATCGCGCGCGCGATATATATAT >chr6 ATCG

Python 统计yaml文件中数字出现的次数

背景需求: 公司开发了一个抽奖系统,大概功能是可以设置抽奖号码,然后设置抽奖的等级及数量,再从设置的号码中抽取. 由于是抽奖系统,需要评估一下数字中奖的概率.我对这个系统进行了以下处理 1.编写初始化抽选号码,即根据初始化接口清空已有号码数据 2.根据设置号码池 3.根据抽奖接口返回数据取出中奖号码 4.将数据写入yaml文件 5.设置100次循环抽奖 6.对yaml文件进行处理,读取数据 7.按照条件取出数据 8.取出文件中出现频率最高的数字 最后结果为 附yaml文件读取代码 import