计算基因组外显子长度

下载基因组外显子信心

网站 ftp://ftp.ncbi.nlm.nih.gov/pub/CCDS/current_human/

wget ftp://ftp.ncbi.nlm.nih.gov/pub/CCDS/current_human/CCDS.current.txt

运行下列代码 得到外显子大约36M

import re

import os

from collections import OrderedDict

from operator import itemgetter

os.chdir(‘/Users/yangqin/Desktop/biotree/python/‘)

exonLength = 0 # 外显子长度尚未计算

overlapExons = OrderedDict()

with open(‘CCDS.current.txt‘, ‘rt‘) as f: # 把CCCDS.current.txt打开定义为f

    for line in f: # 逐行读取f

        if line.startswith(‘#‘): # 如果该行以井号开头,该行为表头

            continue # 跳过该行

        line = line.rstrip()  # 把右边的空格去掉,_.rstrip()把右边的空格去掉

        lst = line.split(‘\t‘) # 用split分开该行的各列数据,以\t分隔

        if lst[-2] == ‘-‘: # 如果倒数第二列是‘-’,没有外显子

            continue # 跳过该行

        lst[-2] = re.sub(‘\[|\]‘, ‘ ‘, lst[-2]) # 正则表达式,去掉倒数第二列两端的[],换成空格

        exons = lst[-2].split(‘, ‘) # 把该列(每个基因)多个外显子隔开

        for exon in exons:  # 对于每一个外显子

            start = int(exon.split(‘-‘)[0]) # 拿到该外显子的起始坐标

            end = int(exon.split(‘-‘)[1]) # 拿到该外显子的终止坐标

            coordinate = lst[0] + ‘:‘ + exon # 定义每一个外显子,以防重复计算

            if coordinate not in overlapExons.keys(): # 如果该外显子尚未计算

                overlapExons[coordinate] = 1 # 加入该外显子

                exonLength += end - start # 计算长度

            

print(exonLength)

36061455

时间: 2024-08-05 23:16:07

计算基因组外显子长度的相关文章

【JavaScript】计算字符串的长度

定义: functionGetChineseCount(str) { varchinieseCount=0; varbadChar="ABCDEFGHIJKLMNOPQRSTUVWXYZ"; badChar+="abcdefghijklmnopqrstuvwxyz"; badChar+="0123456789"; badChar+=""+" ";//半角与全角空格 badChar+="`[emai

根据ui控件的字体计算占用的长度

//1.根据icon计算name的长度 CGFloat nameX = CGRectGetMaxX(_icon.frame) + kBorder; CGFloat nameY = iconY; //计算用户昵称的长度 CGSize nameSize = [_weiBo.name sizeWithFont:_name.font]; _name.frame = CGRectMake(nameX, nameY, nameSize.width, nameSize.height); //2.设置vip的f

javascript计算字符串的长度区分中英文

javascript计算字符串的长度区分中英文:计算字符串的长度是常有的操作,代码如下: var str="I love 蚂蚁部落"; console.log(str.length); 使用length计算字符串的长度,得出的结果是字符串中字符的个数,而在实际应用中可能需要计算字符串所占有的字节长度,一个汉字占两个字节,一个英文字符占一个字节,代码如下: var zfl={}; zfl.GetLength=function(str){ var realLength=0,len=str.

JAVA 数组实例-求学生平均成绩,与计算数组的长度

实例: 知识点:数组名.length是计算数组的长度 import java.util.*; //求学生平均分成绩 public class Test{ public static void main(String[] args){ Scanner in = new Scanner(System.in); System.out.println("======求学生平均成绩======"); System.out.println("请输入有多少个学生:"); int

计算字符串的长度值

当字符串长度未知,需要动态设置一个UI控件的高度和宽度(比如一个UILabel),这时需要计算字符串的长度 //两个重要参数,一个是最大的宽度,一个是字体的font值 //返回的CGRect 对象,包括宽度和高度值 /* 计算item高度 */ -(CGFloat)calculateItemStringLength:(NSString*)title{ // NSStringDrawingOptions options = NSStringDrawingUsesLineFragmentOrigin

js混合计算字符串字节长度

js混合计算字符串字节长度 function getBt(str) { if (str.length > 0) { var char = str.match(/[^\x00-\xff]/ig); return str.length + (char == null ? 0 : char.length); } else { return 0; } } 用法:直接调用getBt('计算我的字节长度');

计算字符串的长度

1.cl_abap_list_utilities=>dynamic_output_length 类得静态方法可以计算出字符串长度.以下输出的是7 DATA: lv_str TYPE string, lv_len TYPE I , lv_char TYPE c . lv_str = 'abc中国'. *lv_char = lv_str+3(0). lv_len = cl_abap_list_utilities=>dynamic_output_length( lv_str ). *lv_len =

C语言中,当计算字符数组长度时,用sizeof 和strlen 的原理及两者的区别

字符数组的长度计算:必须以终止符'\0'作为边界,但对字符数组赋值时,有两种方式: 1:定义时用字符初始化 (1)char chs[7] = {'a', 'c', '0', 'z', '3','d'}; // 长度为6 上式等价于: (2)char chs[7] = {'a', 'c', '0', 'z', '3','d', '/0'}; // 长度为6 也等价于: (3)char chs[] = {'a', 'c', '0', 'z', '3','d', '/0' }; // 长度为6 但不等

PHP计算中文字符串长度 、截取对应中文字符串

PHP计算字符串长度     及其   截取对应中文字符串 计算字符长度: $gouWu = '美日汇http://www.hnzyxok.com/'; echo mb_strlen($gouWu,'utf-8') ;    //输出的结果是26,里面包含了中文字母符号的计算,在该函数加上 UTF-8行  ,否则算出来的就是32(一个中文对应的长度是3) 对应截取中文: echo mb_substr($gouWu,0,10,'utf-8').;     //从$gouWu变量中对应取10个字符,