【BioCode】将多个蛋白质序列分成单个的txt文档

代码说明:

fasta格式的蛋白质序列,一个txt里面有很多蛋白质序列,计算ss、pssm或disorder score时候都需要单条计算,需要分开。

分割前:

分割后:

show you the code:

package single;

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.*;
import java.io.IOException;
//将整个文件分成单个的TXT文件
public class Single {
    public static void getTxt(String path) throws IOException {
        try {
            FileReader reader = new FileReader(path);
            BufferedReader br = new BufferedReader(reader);
            String str = null;
            String str1 = null;
            int count = 0;
            while ((str = br.readLine()) != null) {
                System.out.println(str);
                str1 = br.readLine();
                count++;
                //E:\experiment----N-formylated\single
                FileWriter fileWritter = new FileWriter("E:\\experiment--help\\linglingbao\\new-single\\" + count + ".txt");//使用数字对每个txt编号
                BufferedWriter bufferWritter = new BufferedWriter(fileWritter);
                bufferWritter.write(str+"\n");
                bufferWritter.write(str1);
                bufferWritter.flush();
            }
System.out.println(count);
            br.close();
            reader.close();
        } catch (FileNotFoundException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

    public static void main(String[] args) {

        String path = "E:\\experiment--help\\linglingbao\\new-single\\seq.txt";
        try {
            getTxt(path);
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }
}
时间: 2024-10-29 10:45:42

【BioCode】将多个蛋白质序列分成单个的txt文档的相关文章

lucene定义自己的分词器将其分成单个字符

问题描述:将一句话拆分成单个字符,并且去掉空格. package com.mylucene; import java.io.IOException; import java.io.Reader; import org.apache.lucene.analysis.Tokenizer; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.apache.lucene.analysis.toke

EXCEL2010分成多个窗口的,解决单个窗口显示多个文档的弊病

本操作需要修改注册表,请在修改之前导出要修改的项目以备份. 1.定位到[HKEY_CLASSES_ROOT\Excel.Sheet.12\shell\Open],导出保存.展开Open,将ddeexec删除,然后选中command,双击右侧窗格的默认,将末尾的/dde改成["%1"](注意有双引号),再双击command,也是将末尾的/dde改成"%1". 2.再定位到[HKEY_CLASSES_ROOT\Excel.Sheet.8\shell\Open]用同样的方

Python抓取单个网页中所有的PDF文档

Github博文地址,此处更新可能不是很及时. 1.背景 最近发现算法以及数据结构落下了不少(其实还是大学没怎么好好学,囧rz),考虑到最近的项目结构越来越复杂了,用它来练练思路,就打算复习下数据结构与算法.结合最近在学英语,然后干脆就用英文喽.然后选定一本参考书籍<Data Structures and Algorithms in Java>.刚开始看还是蛮吃力的,慢慢来.由于之前有翻录书籍附录的习惯,于是就去书籍附带的官网看了下,发现http://ww0.java4.datastructu

Poseidon 系统是一个日志搜索平台——认证看链接ppt,本质是索引的倒排列表和原始日志数据都存在HDFS,而文档和倒排的元数据都在NOSQL里,同时针对单个filed都使用了独立索引,使用MR来索引和搜索

Poseidon 系统是一个日志搜索平台,可以在百万亿条.100PB 大小的日志数据中快速分析和检索.360 公司是一个安全公司,在追踪 APT(高级持续威胁)事件,经常需要在海量的历史日志数据中检索某些信息,例如某个恶意样本在某个时间段内的活动情况.在 Poseidon 系统出现之前,都是写 Map/Reduce 计算任务在 Hadoop 集群中做计算,一次任务所需的计算时间从数小时到数天不等,大大制约了 APT 事件的追踪效率.Poseidon 系统就是解决这个需求,能在数百万亿条规模的数据

如何对单个文本文件(TXT文件)进行去重复操作?

 不少客户咨询如何对文本文件进行去重复,实际上,有很多工具可以实现去重复的操作,大家可下载Editplus软件,就可以对TXT文本文件去重复. (1) 下载EditPlus软件,下载地址:http://download.pchome.net/utility/file/editor/down-9362-1.html (2) 安装并打开软件,找到“工具/排序”菜单: (3) 在弹出的窗口中,选择“删除重复项”去重复选项,按确定后完成去重复工作.

基础命令学习

hexdump -C f1   查看文件里面的16进制的显示, linux和win的记事本二进制格式是不同的,这样就会有些人把在windwos上面写好的脚本文档,直接移动到linux上面来,shell脚本没有问题,但是总是报错,这就是二进制格式不同造成的,我们可以通过一个命令doc2unix来在不同系统上面转换文档 [[email protected] tmp]# cat abc   这个abc是在linux上面建立的正常文档 a b c 我们通过hexdump可以查看文件里面每一个字符的16进

基于朴素贝叶斯分类器的文本分类

实验要求 题目要求 1.用MapReduce算法实现贝叶斯分类器的训练过程,并输出训练模型: 2.用输出的模型对测试集文档进行分类测试.测试过程可基于单机Java程序,也可以是MapReduce程序.输出每个测试文档的分类结果: 3.利用测试文档的真实类别,计算分类模型的Precision,Recall和F1值. 2.实验环境 实验平台:VMware Workstation10 虚拟机系统:Suse11 集群环境:主机名master  ip:192.168.226.129 从机名slave1 

倒排索引构建算法BSBI和SPIMI

参考文献: http://www.cnblogs.com/fly1988happy/archive/2012/04/01/2429000.html http://blog.csdn.net/v_july_v/article/details/7109500 我的数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm我的算法库:https://github.com/linyiqun/lyq-algorithms-lib 算法介绍 在信息搜索领域,

HTML入门基础教程相关知识

HTML入门基础教程 html是什么,什么是html通俗解答: html是hypertext markup language的缩写,即超文本标记语言.html是用于创建可从一个平台移植到另一平台的超文本文档的一种简单标记语言,经常用来创建web页面.html文件是带有格式标识符和超文本链接的内嵌代码的ascii 文本文件——html结构了解. html文本是由 html命令组成的描述性文本,html 命令可以说明文字. 图形.动画.声音.表格.链接等. html网页结构包括头部 (head).主