从序列查找下载(NCBI)处理到多序列比对----记录一次不太成功的尝试

一、问题呈现

找到Streptomyces属里hrdb基因的启动子(hrdbp)的保守序列,希望以此推断出-10区和-35区。

二、过程

1、下载15-20条hrdb基因的启动子序列,并处理形成一个fasta文件

1.1、以coelicolor A3(2)的hrdb基因为源头,通过blast找到得分最高的前50条序列。Download下载Hit Table(txt)格式的文件,这个文件表头会告诉你每一列显示的是什么。

接下来用excel打开这个文件,首先把 alignment length小于1500bp的全部删掉,找到subject acc.ver、s.start和s.end这三列,等一下要用这三列来生成url。

url示例:https://www.ncbi.nlm.nih.gov/nuccore/LT629768.1?report=fasta&from=6444177&to=6445864,生成url的代码如下:

 1 #读入数据
 2 fo = open(‘D:\\temporary\\hrdb_related\\ZECB16FT01N-Alignment.csv‘,‘r‘)
 3 ls=[]
 4 for line in fo:
 5     line = line.replace(‘\n‘,‘‘)
 6     ls.append(line.split(‘,‘))
 7 fo.close()
 8 #写出成url
 9 fo1 = open(‘D:\\temporary\\hrdb_related\\output.csv‘,‘w‘)
10 for line in ls:
11     if line[-1] ==‘0‘ :    #0表示为正向序列,可以用s.start-400和s.stsrt+5来做起始和结束的位置
12         fo1.write(‘https://www.ncbi.nlm.nih.gov/nuccore/‘+line[1]+13               ‘?report=fasta&from=‘+line[9]+‘&to=‘+line[11]+‘\n‘)
14 fo1.close()

1.2、本来想直接用url爬虫获得相应的二十条序列,但发现相应序列是加密过的,在网上搜了一下,好像跟异步加载有关。就直接手动打开每个url,下载相应的序列,这样我就得到了20个fasta文件,每个文件含有一条序列。

1.3、接下来我想把这20个文件合并成一个fasta文件,用于之后的多序列比对。听说在linux下一个cat命令就可以解决,所以我就想把这些个文件发送到我的linux虚拟机,试了WinSCP3,但没有连接成功,NAT模式可以联网,但换到桥接模式就连不上网络,所以WinSCP3也没有成功连接上我的linux虚拟机。后来又发现WIN10的DOS下也可以通过copy的命令实现同样的功能。只是需要把所有要合并的文件名都用加号连起来,略有些麻烦。也是用代码实现。

1 import os
2 for (dirname,subdir,subfile) in os.walk(r‘D:\temporary\hrdb_related‘) :
3     for f in subfile:
4         print(f+‘+‘,end=‘‘)

到这里就得到可以用来做多序列比对的fasta文件了。

2、meme分析和mega分析

在mega里多序列比对则发现起始密码子上游200bp都非常保守;用meme分析出来3个保守区,与clustax分析结果相比漏掉了上游100-150bp,但这一段实际上也非常保守,看来meme有一些局限性。

到这里这次不太成功的尝试就结束了,只得到起始密码子上游200bp非常保守的结论,而这个也早就被报道了。并没有得到-10区和-35区的相应序列。

3、在以上分析之外,我也试了直接预测启动子的在线软件。可能由于Streptomyces的GC含量过高,用专门的细菌启动子预测软件预测不出来或者极其不准,也没有找到合适的在线软件。

原文地址:https://www.cnblogs.com/s-qw/p/12089150.html

时间: 2024-08-29 02:24:40

从序列查找下载(NCBI)处理到多序列比对----记录一次不太成功的尝试的相关文章

GL-问题:会计序列定义界面,查找不到之前定义的序列。

EBS系统中,在会计序列定义界面(路径:总账模块-设置-财务系统-序列-会计-定义)查找不到之前定义的序列信息,提交sr后,反馈是一个bug,需要打pacth(Patch 22593853 R12.GL.C).

akoj-1139-二维序列查找

二维序列查找 Time Limit:1000MS  Memory Limit:65536K Total Submit:41 Accepted:24 Description 在形如如下的二维序列中查找对应坐标(x,y)的值. 1 3 6 10 15 .. 2 5 9 14 .. 4 8 13 .. 7 12 .. 11 .. .. Input 输入的第一行是一个整数N,表示有N组测试数据. 接下来有N行,且每一行均有两个整数x,y(均小于1000). Output 输入每行坐标(x,y)上的值.(

<二代測序> 批量下载 NCBI sra 文件

本文近期更新地址: http://blog.csdn.net/tanzuozhev/article/details/51078460 前文 http://blog.csdn.net/tanzuozhev/article/details/51077222 介绍了如何採用 sra-toolkit 下载 sra 文件,可是假设你想下载整个项目的全部样本.应该如何批量下载呢.以下參考biostar站点的部分回帖.做简介. R语言 SRAdb 包 參考 https://www.biostars.org/p

华为机试题 二叉查搜索树 判断两序列是否为同一二叉搜索树序列

描述: 判断两序列是否为同一二叉搜索树序列 输入 开始一个数n,(1<=n<=20) 表示有n个需要判断,n= 0 的时候输入结束. 接下去一行是一个序列,序列长度小于10,包含(0~9)的数字,没有重复数字,根据这个序列可以构造出一颗二叉搜索树. 接下去的n行有n个序列,每个序列格式跟第一个序列一样,请判断这两个序列是否能组成同一颗二叉搜索树. 输出: 如果序列相同则输出YES,否则输出NO 样例输入: 2 567432 543267 576342 0 样例输出: YES NO 本题思路:根

根据二叉树的先序序列和中序序列还原二叉树并打印后序序列

#include<stdio.h> #include<stdlib.h> #include<iostream> using namespace std; struct Node { int value; Node *left; Node *right; Node(int value) { this->value = value; left = right = NULL; } }; bool bNotTree = false; Node* RebuildTree(i

Oracle中序列的操作以及使用前对序列的初始化

Oracle中序列的操作以及使用前对序列的初始化 一 创建序列 create sequence myseq start with 1 increment by 1 nomaxvalue minvalue 1 二 初始化序列 select myseq.nextval from dual; 这里值得注意的是,如果先直接写select myseq.currval from dual,会提示会提示myseq.currtval尚未在此会话中定义. www.2cto.com 三 使用序列 初始化序列之后才可

数据结构与算法问题 判断两序列是否为同一二叉搜索树序列

题目描述: 判断两序列是否为同一二叉搜索树序列 输入: 开始一个数n,(1<=n<=20) 表示有n个需要判断,n= 0 的时候输入结束. 接下去一行是一个序列,序列长度小于10,包含(0~9)的数字,没有重复数字,根据这个序列可以构造出一颗二叉搜索树. 接下去的n行有n个序列,每个序列格式跟第一个序列一样,请判断这两个序列是否能组成同一颗二叉搜索树. 输出: 如果序列相同则输出YES,否则输出NO 样例输入: 2 567432 543267 576342 0 样例输出: YES NO 来源:

Biopython SeqIO 读取序列文件,读取信息,写入序列

Biopython1.序列赋值 转录(反转录) 翻译 反向互补2.读取序列文件,识别序列的属性信息.SeqRecord提供序列及其注释的容器属性:seq :一条生物序列id:基本ID,标识这条序列name:常用分子的名称description:序列分子的描述letter_annotation:是一个有给每个碱基注释的字典,键是注释类型,值是每个残基序列注释的列表annotations:序列附件信息的字典.键是信息的类型,值包含信息features:是SeqFeature对象的列表 2.1 读取序

视频测试序列的下载地址【转】

HTTP下载地址:(都经过检查还在) 1.http://www.cipr.rpi.edu/resource/sequences/  (有D1尺寸)(有YUV.RAS) Caltrain 512x400 .Garden 720x486  .Missa(无色)360x288  .Missa 360x288 .Mrchest 256x256.Salesman 360x288.Surfside 2048x1024.Mit 1600x960.Mobile 720x576 .Football 720x486