通过bed文件获取fasta序列

一、BED 文件格式

BED 文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释的信息。BED行有3个必须的列和9个额外可选的列。 每行的数据格式要求一致。

必须包含的3列:

1.chrom, 染色体名字(e.g. chr3, chrY)

2.chromStart, 目标区段在染色体起始位置,染色体第一个碱基的位置是0

3.chromEnd, 目标区段在染色体结束位置,染色体的末端位置没有包含到显示信息里面。例如,首先得100个碱基的染色体定义为chromStart =0 . chromEnd=100, 碱基的区段是0-99

9个可选列

4.name、5.score、6.strand、7.thickStart、8.thickEnd、9.itemRGB、10.blockCount、11.blockSize、12.blockStarts

二、基因组文件下载和seqFasta.py相关依赖包下载

1.基因组文件下载,如人hg38

$ wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz

2.seqFasta.py依赖包下载

$ pip install numpy pyfasta

三、运行脚本seqFasta.py得到结果

1.利用geneInfo.py得到bed文件

$ python geneInfo.py -i brca1 -d hg38 -o brca1.bed

2.运行seqFasta.py得到fasta序列

$ python seqFasta.py -g $HG38/hg38.fa -b brca1.bed

【参考列表】

UCSC BED format

原文地址:https://www.cnblogs.com/yahengwang/p/9332487.html

时间: 2024-10-03 16:12:17

通过bed文件获取fasta序列的相关文章

samtools faidx 命令处理fasta序列

samtools faidx 能够对fasta 序列建立一个后缀为.fai 的文件,根据这个.fai 文件和原始的fastsa文件, 能够快速的提取任意区域的序列 用法: samtools faidx input.fa 该命令对输入的fasta序列有一定要求:对于每条序列,除了最后一行外, 其他行的长度必须相同, >one ATGCATGCATGCATGCATGCATGCATGCAT GCATGCATGCATGCATGCATGCATGCATGC ATGCAT >two another chro

bowtie2-inspect 根据bowtie2的索引取得fasta 序列

今天运行tophat2的时候看到下面这条记录: [2016-02-27 11:40:03] Checking for reference FASTA file Warning: Could not find FASTA file /home/pub/database/Human/hg19/bowtie2_db/hg19.fa.fa [2016-02-27 11:40:03] Reconstituting reference FASTA file from Bowtie index Executi

类型:Ajax;问题:ajax调用ashx参数获取不到;结果:ashx文件获取$.ajax()方法发送的数据

ashx文件获取$.ajax()方法发送的数据 今天在使用Jquery的ajax方法发送请求时,发现在后台中使用ashx文件无法接收到ajax方法中传递的参数,上网查了一下原因后发现了问题所在,原来是我在$.ajax方法中指明了"contentType: 'application/json; charset=utf8'",所以才导致了在ashx文件中处理请求时无法获取传递到服务器端的参数, 正确的写法如下: 1 $.ajax({ 2 url: '/Handler1.ashx?operF

Unity3D杂烩:位置修改,子对象获取,组件获取,通过脚本文件获取被绑定对象

//位置修改 player.transform.position = new Vector3( Camera.main.transform.position.x, Camera.main.transform.position.y+3);  player.GetComponent<Rigidbody2D> ().velocity = new Vector2 (0,0);  player.transform.localRotation = Quaternion.Euler(0,0,0); //对象

Java文件获取路径方式

由于经常需要获取文件的路径,但是比较容易忘记,每次需要总需要查询,现在把这些方式写下来,方便自己的时候也方便大家了,如果大家在下面的方法遇到什么问题,可以留言. Java文件获取路径方式: package first.second; import java.io.File; public class GetPath { public static void getPath() {  //方式一  System.out.println(System.getProperty("user.dir&qu

通过二叉树的中序序列和后序序列获取前序序列

二叉树的遍历方式常见的三种是:先序遍历(ABC).中序遍历(BAC).后序遍历(BCA) 先序遍历: 若二叉树为空,则空操作:否则: 访问根结点; 先序遍历左子树: 先序遍历右子树. 中序遍历: 若二叉树为空,则空操作:否则: 中序遍历左子树: 访问根结点: 中序遍历右子树. 后序遍历: 若二叉树为空,则空操作:否则: 后序遍历左子树: 后序遍历右子树: 访问根结点. 在学习到 根据遍历序列确定二叉树 时,知道了:可以通过二叉树的先中或者中后遍历序列唯一确定一棵二叉树. 根据算法描述 使用jav

perl 多fasta文件匹配,并提取匹配文件第一条序列

目标如题,有多个fasta文件和一个文件名列表,将文件名列表中包含的文件匹配出来并提取第一条序列合并成一个fa文件. 这个采用perl实现,用法和代码如下: 1 #!/usr/bin/perl -w 2 use strict; 3 4 sub usage{ 5 die "usage:perl $0 <fa.list> <Fasta_Dir> <merged.fa>\n",unless(@ARGV==3); 6 } 7 usage(); 8 9 ope

从gff3文件中获取fasta文件

chr1A NRGenome gene 1157233 1158291 . + . ID=TRIAE_CS42_U_TGACv1_641506_AA2096860.1.path1;Name=TRIAE_CS42_U_TGACv1_641506_AA2096860.1 chr1A NRGenome mRNA 1157233 1158291 . + . ID=TRIAE_CS42_U_TGACv1_641506_AA2096860.1.mrna1;Name=TRIAE_CS42_U_TGACv1_6

在命令行获取标准输入序列的反互序列,pep序列和长度信息

最近对序列文件处理的比较多,时常要看一些核酸序列的反向互补序列,长度,可能的翻译序列.以前我常常使用seqBuider 来查看,如果能在命令行直接查看,想必是极好的. 这是一个perl脚本,不过我把它的执行路径写入环境变量后,就可以当linux命令直接使用了,很方便的. 这个脚本有四个参数.[-i -r -p -l ] 其中 -i 是必要的参数,用来接收标准输入: -r 是获得一段序列的反向互补序列(50个字符一行的格式输出): -p 是提供一段序列的ORF框架序列,即三种可能的pep翻译(50