求GC含量

代码如下:

from collections import OrderedDict
ID_name = ‘‘
temp_dict = OrderedDict()
with open(r‘D:\testpy\Rosalind\rosalind_gc.txt‘,‘r‘) as f:
    for line in f:
        if line.startswith(‘>‘):
            ID_name = line.strip()
            temp_dict[ID_name] = ‘‘  #之前一直不会将ID和seq存到序列中,这里给temp_dicr[ID_name]一个空值就是为了将ID存进字典里。
        else:
            temp_dict[ID_name] += line

for ID,seq in temp_dict.items():  GC_num = seq.count(‘G‘) + seq.count(‘C‘)
    GC_ration = GC_num/len(seq)
    print (ID + " ====> " +"%.8f"%GC_ration)
    
时间: 2024-10-29 19:10:43

求GC含量的相关文章

统计碱基数目、GC含量、read数、最长的read、最短的read及平均read长度

# 用于fasta格式文件的碱基数目和GC含量的统计 grep -v '>' input.fa| perl -ne  '{$count_A=$count_A+($_=~tr/A//);$count_T=$count_T+($_=~tr/T//);$count_G=$count_G+($_=~tr/G//);$count_C=$count_C+($_=~tr/C//);$count_N=$count_N+($_=~tr/N//)};END{print qq{total count is },$co

perl练习——FASTA格式文件中序列GC含量计算&perl数组排序如何获得下标或者键

一.关于程序: FUN:计算FASTA文件中每条序列中G和C的含量百分比,输出最大值及其id INPUT:FASTA格式文件 >seq1 CGCCGAGCGCTTGACCTCCAGCAAGACGCCGTCTGGCACATGCAACGAGCTGTAGCAGAC >seq2 ATGCCTAGAACGTTCGAGACTTCTCGGGTGCGGTAGAATTAGCCATTCGACCGACTTCCA GCATCTGCGAGCCGCCTGTTGATTGCATCCGCCGGGGACGCAACAAGGCAAG

生物信息前期入门大纲

零.前言 "不懂就问",但是这里的"问"是指问百度和谷歌,实在不懂再问人! 上谷歌教程,参考文章:谷歌浏览器插件与电脑软件推荐 (1)生信论坛推荐 生信技能树(生信菜鸟团),有很多优秀的帖子,以及对应的微信公众号,其它生信微信公众号优秀的文章它会转载,所以关注这个够了,历史消息值得翻阅一遍: PLoB:https://www.plob.org/ Biostars,国外生信论坛 (2)文本文件浏览软件 nodepad++.sublime text.破解版的UE 一.l

FastQC 测序质量

文章转载于 Original 2017-07-06 Jolvii 生信百科 介绍一下如何理解 FastQC 各模块的结果 FastQC 的使用 FastQC的安装介绍请看这里.FastQC 支持 fastq.gzip 压缩的 fastq.SAM.BAM 等格式,在不指定文件类型的情况下,FastQC 会根据文件的名字来推测文件的类型: 以 .sam 或者 .bam 结尾的文件会被当作 SAM/BAM 文件来打开,并统计 mapped 和 unmapped reads 在内的所有 reads:其它

用FastQC检查高通量测序原始数据的质量

本篇文章,主要参考了阳光1986的博文(http://www.dxy.cn/bbs/topic/31324367),自己测序的分析结果作为对比,加在其中了. 1.简介 当二代测序的原始数据拿到手之后,第一步要做的就是看一看原始reads的质量.常用的工具就是fastqc (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/). fastqc的详细使用说明:http://www.bioinformatics.babraham.ac.u

测序数据质量控制

基于边合成边测序(Sequencing By Synthesis,SBS)技术,Illumina HiSeq2500高通量测序平台对cDNA文库进行测序,能够产出大量的高质量Reads,测序平台产出的这些Reads或碱基称为原始数据(Raw Data),其大部分碱基质量打分能达到或超过Q30.Raw Data通常以FASTQ格式提供,每个测序样品的Raw Data包括两个FASTQ文件,分别包含所有cDNA片段两端测定的Reads. FASTQ格式文件示意图如下: FASTQ格式文件示意图 注:

生物结构变异分析软件meerkat 0.189使用笔记(二)

一. 运行meerkat 前面已经依序meerkat 的环境和meerkat,运行了预处理一步,在相对应的bam文件目录下生成了大批文件,因此,当要用meerkat处理某个bam文件时,应先将该bam文件移动到专有的一个文件夹,manual中也建议这样用. 预处理生成的文件包括: 黑名单文件.gz isinfo文件:包括插入大小信息 pdf文件:插入大小的分布图,unmapped reads长度的分布图,softclip reads长度分布图 pre.log文件:日志文件,包括输入的参数,输入输

基因数据分析主流软件与基因预测方法步骤-搬运工

源自:http://www.bbioo.com/lifesciences/40-114214-1.html 1. 基因数目预测的主流软件 GENSCAN就是一个经典的基因预测软件.1996年由MIT的Chris Burge开始编写这个软件程序.当时,Burge的许多同事主张采用比较的方法,他们随机选取一个最新测序基因组中基因的DNA序列,与数据库中已存在的基因进行联配.但是Chris Burge认为:"利用人类基因组所获知的信息,可能不能发现某些新的基因." 他还积极吸取了加州大学计算

丹诺尔(Denovix)DS-11+增配比色杯型超微量紫外可见分光光度计

广州深华公司提供的丹诺尔(Denovix) DS-11+增配比色杯型超微量紫外可见分光光度计质量过硬,物美价廉. 丹诺尔(Denovix) DS-11+增配比色杯型超微量紫外可见分光光度计的技术优势: 整合了DS-11的所有性能及比色皿检测功能 高级微底座技术 可选择比色皿或微量基座检测模式 更宽的浓度范围可以测量极低的浓度值 细胞培养(OD 600)测量功能 比色皿模式可以进行动力学(时间或时间/温度)研究 丹诺尔(Denovix) DS-11+增配比色杯型超微量紫外可见分光光度计技术参数: