python goatools使用

用david搞定了所有的GOterm后,接下来就是利用goslim处理这些term。

用的包是goatools,需要下载几个obo文件以及,fisher,pygraphviz以及graphviz等几个模块。

# -*- coding: utf-8 -*-
"""
Created on Fri Nov 21 20:06:42 2014

@author: hluo
"""

#!/usr/bin/python
# -*- coding: UTF-8 -*-

import os
import os.path as op
import sys
sys.path.insert(0, op.join(op.dirname(__file__), ".."))
from obo_parser import GODag
from mapslim import mapslim
import json
import re
#from goatools.mapslim import mapslim

# copied from find_enrichment.pydef get_goslim(term, godag, goslimdag):
    if not term in godag:
        return [None, None]
    else:
        direct_anc, all_anc = mapslim(term, godag, goslimdag)
        return [direct_anc, all_anc]

def mygofun(json_file):
    obo_file = ‘/home/hluo/Desktop/goslim/go-basic.obo‘
    assert os.path.exists(obo_file), "file %s not found!" % obo_file

    slim_obo_file = ‘/home/hluo/Desktop/goslim/goslim_generic.obo‘
    assert os.path.exists(slim_obo_file), "file %s not found!" % slim_obo_file

    # load DAGs
    go_dag = GODag(obo_file)
    goslim_dag = GODag(slim_obo_file)

    #json_file = ‘NC_000913.gbk.json‘
    myrecord = json.load(open(json_file))

    #re_obj = re.compile(r‘GO\:\d+‘)
    re_obj = re.compile(r‘(?<=\$)\S+(?=\~)‘)
    #a =  re.match(re_Obj, text)

    #mylist = []
    for item in myrecord:
        mykey = filter(lambda x: x.startswith(‘GO‘), item.keys())
        for k in mykey:
            tplist = [set(), set()]
            for text in item[k]:
                tplist1 = []
                goterm = re.findall(re_obj, text)[0]
                tplist1 = get_goslim(goterm, go_dag, goslim_dag)
                tplist[0] |= tplist1[0]
                tplist[1] |= tplist1[1]
            item[k + ‘_dslim‘] = list(tplist[0])
            item[k + ‘_aslim‘] = list(tplist[1])
    json.dump(myrecord, open(‘%s.txt‘ % json_file, ‘w‘), indent = 1)

if __name__ == ‘__main__‘:
    mygofun(NC_000913.gbk.json)

the script loads the json format file, and adds the new keys to every record in the file.

ps. dslim: direct slim. aslim: all slim.

Then I run a python batch script to process all the json files.

# -*- coding: utf-8 -*-
"""
Created on Mon Nov 24 17:37:24 2014

@author: hluo
"""

import os
import reimport sys
from mygoslim import mygofun
if __name__ == ‘__main__‘:
    mydir = ‘/home/hluo/Desktop/gbk‘
    flist = os.listdir(mydir)
    re_obj = re.compile(‘\.json$‘)
    #re_obj1 = re.compile(‘NC_\d{6}\.gbk‘)
    json_file_list = []
    for item in flist:
        re_item = re.findall(re_obj, item)
        if re_item:
            json_file_list.append(item)

    for item in json_file_list:
        mygofun(‘%s/%s‘ % (mydir, item))

In the script, use the ‘re‘  and ‘os‘ module to get all the json files.

时间: 2024-08-29 14:04:07

python goatools使用的相关文章

Python学习1-Python和Pycharm的下载与安装

本文主要介绍Python的下载安装和Python编辑器Pycharm的下载与安装. 一.Python的下载与安装 1.下载 到Python官网上下载Python的安装文件,进入网站后显示如下图: 网速访问慢的话可直接在这里下载:python-2.7.11.amd64 在Downloads中有对应的支持的平台,这里我们是在Windows平台下运行,所以点击Windows,出现如下: 在这里显示了Python更新的所有版本,其中最上面两行分别是Python2.X和Python3.X对应的最后更新版本

Python——深入理解urllib、urllib2及requests(requests不建议使用?)

深入理解urllib.urllib2及requests            python Python 是一种面向对象.解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年,Python 源代码同样遵循 GPL(GNU General Public License)协议[1] .Python语法简洁而清晰,具有丰富和强大的类库. urllib and urllib2 区别 urllib和urllib2模块都做与请求URL相关的操作,但

python学习_day26_面向对象之封装

1.私有属性 (1)动态属性 在python中用双下划线开头的方式将属性隐藏起来.类中所有双下划线开头的名称,如__x都会自动变形成:_类名__x的形式.这种自动变形的特点是: a.类中定义的__x只能在内部使用,如self.__x,引用的就是变形的结果.b.这种变形其实正是针对外部的变形,在外部是无法通过__x这个名字访问到的.c.在子类定义的__x不会覆盖在父类定义的__x,因为子类中变形成了:_子类名__x,而父类中变形成了:_父类名__x,即双下滑线开头的属性在继承给子类时,子类是无法覆

python面向对象知识点疏理

面向对象技术简介 类: 用来描述具有相同的属性和方法的对象的集合.它定义了该集合中每个对象所共有的属性和方法.对象是类的实例.class 类变量:类变量在整个实例化的对象中是公用的.类变量定义在类中且在函数体之外.类变量通常不作为实例变量使用. 数据成员:类变量或者实例变量用于处理类及其实例对象的相关的数据. 方法重写:如果从父类继承的方法不能满足子类的需求,可以对其进行改写,这个过程叫方法的覆盖,也称为方法的重写. 实例变量:定义在方法中的变量,只作用于当前实例的类. 继承:即一个派生类(de

python实现网页登录时的rsa加密流程

对某些网站的登录包进行抓包时发现,客户端对用户名进行了加密,然后传给服务器进行校验. 使用chrome调试功能断点调试,发现网站用javascript对用户名做了rsa加密. 为了实现网站的自动登录,需要模拟这个加密过程. 网上搜了下关于rsa加密的最简明的解释: rsa加密是非对称加密算法,该算法基于一个十分简单的数论事实:将两个大素数相乘十分容易,但那时想要对其乘积进行因式分解却极其困难,因此可以将乘积公开作为加密密钥,即公钥,而两个大素数组合成私钥.公钥是可发布的供任何人使用,私钥则为自己

Python中编码的详细讲解

看这篇文章前,你应该已经知道了为什么有编码,以及编码的种类情况 ASCII 占1个字节,只支持英文 GB2312 占2个字节,支持6700+汉字 GBK GB2312的升级版,支持21000+汉字 Shift-JIS 日本字符 ks_c_5601-1987 韩国编码 TIS-620 泰国编码 由于每个国家都有自己的字符,所以其对应关系也涵盖了自己国家的字符,但是以上编码都存在局限性,即:仅涵盖本国字符,无其他国家字符的对应关系.应运而生出现了万国码,他涵盖了全球所有的文字和二进制的对应关系, U

Python练习(一)

Python练习(一): 给一个不超过5位的正整数,判断其有几位,依次打印出个位.十位.百位.千位.万位的数字: num = int(input('please enter a number: '))   lst = [] for i in str(num):      lst.append(i) lenlst = len(lst) if num >= 1000:      if num >= 10000:          print('too big')     else:        

菜鸟学python之对象类型及运算

Python 中的变量不需要声明.每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建. 在 Python 中,变量就是变量,它没有类型,我们所说的"类型"是变量所指的内存中对象的类型. 等号(=)用来给变量赋值. 1 变量赋值 1.1 单个变量赋值 >>> name="python" >>> print(name) python 1.2 多个变量赋值 >>> name=names="python&

开始我的Python爬虫学习之路

因为工作需要经常收集一些数据,我就想通过学爬虫来实现自动化完成比较重复的任务. 目前我Python的状况,跟着敲了几个教程,也算是懂点基础,具体比较深入的知识,是打算从做项目中慢慢去了解学习. 我是觉得如果一开始就钻细节的话,是很容易受到打击而放弃的,做点小项目让自己获得点成就感路才更容易更有信心走下去. 反正遇到不懂的就多查多问就对了. 知乎上看了很多关于入门Python爬虫的问答,给自己总结出了大概的学习方向. 基础: HTML&CSS,JOSN,HTTP协议(这些要了解,不太需要精通) R