题目和内容参考jimmy大神的http://www.biotrainee.com/thread-626-1-1.html
gff文件来自gencode的genode.v26.annotation.gft.gz
目的:熟悉gff文件内容,练习提取数据操作
1.统计每一条染色体的基因数目:
zcat gencode*|awk ‘$3=="gene"{print $1}‘|sort|uniq-c #$3是feature type,$1是reference sequence name。
2.统计每一条染色体的protein_coding 基因数目:
zcat gencode*|awk ‘$3=="gene"{print $0}‘|grep "protein_coding"|cut -f 1|sort|uniq -c
3.统计各个类型的基因
zcat gencode*|awk ‘$3=="gene"{print $0}‘|awk ‘match($0,/(gene_type).+(".+?");.*gene_name,a){print a[2]}‘|sort|uniq -c
时间: 2024-10-13 00:56:29