生物大数据处理的一点心得

在生物领域中，常常处理gff,gtf,bam,sam等格式的文件。在此我总结了几点我处理这些文件的经验。

1.善用split分割每行，这些文件基本都是用tab分割的，所以有split分割非常方便，每行最后的注释信息一般都是;分割。

2.找出你所需要的列，并找出这列所有不同的元素。因为你拿到的文件可能之前就被处理过，具有很强的不确定性。比如你拿到了一个水稻的数据，你下意识的可能会认为染色体那列只有12种可能，但往往就是这种主观错误导致你的程序运行不了，因此在处理之前一定要弄清楚每列的元素。

3.将自己常用的功能写出类或函数，这样可以节约很多时间。

4.善用各种不同语言分析，perl,python,R是生物大数据中最常用的语言，掌握好每个语言的优势，以及这个语言的生物信息学模块，这一点非常重要。大数据胜过好算法，生物信息工作者不一定要精通这些语言，但一定要学会如何高效的使用。

时间： 2024-10-29 00:24:42

生物大数据处理的一点心得的相关文章

2014年末总结：对大数据处理的一点思考

概要 2014大部分的时间都花在了Spark这一大数据领域的热点技术上,并由此离开工作多年的电信领域转入到大数据分析行业,作为一名分析领域的新军有必要对自己一年中接触到的新内容作相应的梳理. 大数据处理大数据处理的理解可以分成这几个层次: 数据处理处理的种类有哪些如何将处理落实到计算上大数据的处理处理的种类有哪些如何将处理落实到计算上面这样一列,你可能会觉着一样的啊,没区别啊,除了一个大字以外,一切似乎都一样的.粗看确实如此,从目前大数据领域的实践来看,分析需求层面几乎和原有的没有

大数据处理的关键架构

大数据如火如荼的火热着,互联网上资源又让人眼花缭乱不知如何下手,对于新手和准备成为大数据工程师的童鞋更是如此,此博文总结了网上一些知识,希望对大家有帮助. 下图是大数据处理的各个架构层: 以下一一简介各个层,使大家对这块知识有个总体把握: 一.数据存储层宽泛地讲,据对一致性(consistency)要求的强弱不同,分布式数据存储策略,可分为ACID和BASE两大阵营. ACID是指数据库事务具有的四个特性:原子性(Atomicity).一致性(Consistency).隔离性(Isolatio

【云端大数据实战】大数据误区、大数据处理步骤分析

1.背景首先感谢这次博客的主办方CSDN以及在初赛为我投票的网友们,你们的支持是Garvin前进的动力.本文思路的依据来源于本次天猫大数据竞赛长达三个月的参赛体验.博主作为一个在校的学生,可能如果不是这次比赛,很难能够拥有一套完整的云环境来对TB级的数据进行分析和实践.下面是博主的一点心得,在此抛砖引玉,希望能给大家在云端大数据处理方面带来一点启示. 2.对于大数据和云的一些误区 (1)误区一:云的计算能力是无穷的,不用考虑效率? 我们都知道,云计算的本质就是分布式计算,将现有的工作量,分割开

位图与布隆及大数据处理题型分析

1.位图由题引入: [腾讯]:2.给40亿个不重复的无符号整数,没排过序.给一个无符号整数,如何快速判断一个数是否在这40亿个数中. 如果将40亿个数按整型放入内存,显然不科学,就算内存足够,这样做也是浪费空间. 解决思路:用一个比特位表示一个数,存在的话该位上就置为1,不在的话置为0:这样40亿个数需要40亿个比特位,换算一下也就是500M,相对于16G来说,大大节省了空间. 注意:位图只适合判断,查找数据是否存在,且只能对整数进行处理. 代码如下: 1 class BitMap 2 { 3

关于div布局的一点心得

如果是嵌套的div布局,外面的div 比如是<div class="container"></div>这时候设置的是一个大的外框架,居中显示.我们要在里面嵌套div来显示内容,这时候就通过<div style="display:block;position:relative"></div>来使得div标签的位置是相对于外面最靠近它的父级标签也就是<div class="container"

一共81个，开源大数据处理工具汇总（下）

接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要有日志收集系统.消息系统.分布式服务.集群管理.RPC.基础设施.搜索引擎.Iaas和监控管理等大数据开源工具. 日志收集系统一.Facebook Scribe 贡献者:Facebook 简介:Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用.它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理.它为日志的

一共81个，开源大数据处理工具汇总（下），包括日志收集系统/集群管理/RPC等

作者:大数据女神-诺蓝(微信公号:dashujunvshen).本文是36大数据专稿,转载必须标明来源36大数据. 接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要有日志收集系统.消息系统.分布式服务.集群管理.RPC.基础设施.搜索引擎.Iaas和监控管理等大数据开源工具. 日志收集系统一.Facebook Scribe 贡献者:Facebook 简介:Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用.它能够从各种

移动web动画设计的一点心得——css3实现跑步

[原]移动web动画设计的一点心得——css3实现跑步今年3月份,由于公司业务需要,我转岗到微信产品部,离开了TID团队,人都是有感情的动物,更何况在一个团队呆了快 3 年,心中十分舍不得,鬼哥说了“天下没有不散的宴席...”,在我的世界里又多了一次离别的伤感(虽然还在隔壁工作).加入了微信产品中心后,开始新的团队生活,工作比以前忙多了,有时周六也要上班,需要更快更高效的完成任务,除了重构页面,需要主动参与边缘外的工作,承担更多.最近比较忙,给自己敲个响钟:注意身体. 说完题外话,开始近期的主

理解机器学习算法的一点心得

从Andrew ng的公开课开始,机器学习的算法我接触到的也越来越多,我觉得机器学习算法和传统算法的最大不同就是:不会要求一个问题被100%求解,也就意味着不会有完美的解法,这也是著名的"Essentially, all models are wrong, but some are useful."所表达的意思.正因为如此,机器学习算法往往不会有一个固定的算法流程,取而代之的把问题转化为最优化的问题,无论是ML(maximum likelihood),MAP(Maximum a Pos

猜你喜欢

Android Camera探究之路——起步

Android Camera探究之路--起步 Camera在手机中有着举足轻重的地位,无论是二维码还是照片.识别.都离不开摄像头,本文将对Android中的Camera进行全面解析. 权限镇楼: &l ...

java 设计模式--简单工厂

简单工厂设计模式,也就是静待工厂场景,最近小米6很火啊,我也是小米的粉丝,就拿小米6来说,有黑色,白色,蓝色,三种非常亮的颜色. 先来代码,然后有疑惑,最后解释. 简单工厂设计模式有一个类是抽象类, ...

文字排版--字体(font-family)

我们可以使用css样式为网页中的文字设置字体.字号.颜色等样式属性.下面我们来看一个例子,下面代码实现:为网页中的文字设置字体为宋体. body{font-family:"宋体"; ...

7.20 函数III&三种排序 Day13

1.选择排序将某个特定值有序的放置在最终位置上---外层循环控制最终位置的序号,内层循环从外层循环序号处向后遍历,找到最小值. 2.插入排序插入排序将某个特定值插入到值列的某个子集中,并重复该过程 ...

【Android】透明状态栏在App中的实现与接口设计

By Sodino 文章目录 1. 认识透明状态栏 2. 透明状态栏Api及特性 3. 设置透明状态栏 4. 处理消失的系统状态栏区域 5. fitsSystemWindows 6. Activity ...

使用RDS必须知道的几点

一.RDS实例升级需要注意的事项 RDS在进行实例升级的过程中会出现最长30秒左右的连接闪断,需要您提前做好准备,并设置好程序跟RDS的自动重连,避免因为升级的闪断导致您的服务不可用. 二.RDS切换 ...

Java集合(3)--ArrayList源码分析

默认初始容量为10,底层用的是对象数组实现的. public void ensureCapacity(int minCapacity).确保数组最小容量,用于添加元素的时候. 它的父类Abstract ...

my.cnf 配置文件

[client]port = 3306socket = /home/work/mysql/tmp/mysql.sock [mysqld]socket = /h ...

Android简易实战教程--第二十话《通过广播接收者，对拨打电话外加ip号》

没睡着觉,起来更篇文章吧哈哈!首先祝贺李宗伟击败我丹,虽然我是支持我丹的,但是他也不容易哈哈,值得尊敬的人!切入正题:这一篇来介绍个自定义广播接收者. 通常我们在外拨电话的时候,一般为使用网络电话.如 ...

PHP 单例模式代码片段

1 <?php 2 3 error_reporting(E_ALL | E_STRICT); 4 5 class single{ 6 7 public $hash; 8 9 static pro ...

3.QT中QCommandLineParser和QCommandLineOption解析命令行参数

1 新建项目 main.cpp #include <QCoreApplication> #include <QCommandLineParser> #include & ...

windows Form的使用

Form常用属性: BackgroundImage:设置背景图片 BackgroundImageLayout:用于组件背景图像布局 BackColor:获取或设置控件的背景色 Form常用事件的使用: ...

监控生产服务器内存使用前十

#!/usr/bin/env bash #date 20170726 #destination: st_file="/root/list.txt" log_file="/ ...

如何高效编写测试用例

背景介绍项目要马上上线,功能已完成80%,没在完整的需求文档,只有零散的Story,但由于流程及各种原因,之前一直没有测试人员的介入.现要在短时间内完成测试用例的编写,并要符合常规用例的规范及要求. ...

与可以可以

http://ypk.39.net/search/all?k=%A1%F1%B3%A4%C9%B3%C4%C4%C0%EF%D3%D0%C2%F0%B7%C8%C6%AC%C2%F4Q%A3%BA%A ...

Allegro 导入DXF文件，保留布好的线路信息

最近智能钥匙产品开发过程中,由于结构装配尺寸的偏差,需要对电路PCB外框OUTLINE进行缩小调整,并且USB插座定位孔改变. Allegro软件在线性绘制方面是有严重缺陷的,想绘制一个异形的板框比较 ...

Urllib.request用法简单介绍(Python3.3)

Urllib.request用法简单介绍(Python3.3),有需要的朋友可以参考下. urllib是Python标准库的一部分,包含urllib.request,urllib.error,urll ...

Microsoft.Owin.Hosting 实现启动webapp.dll

Microsoft.Owin.Hosting 下面是 asp.net core 实现 using System;using System.Collections.Generic;using Syste ...

近视预防

现代人越来越多地盯着屏幕看,这使得近视的人越来越多,近视的程序越来越深.或许我们可以做一个小型的装置来预防近视. 这个装置的原理如下: (1)采用超声波测距,可以测量人体跟屏幕的距离.一旦距离过近,则 ...

Kali 解决 GPG错误 KEYEXPIRED 1425567400

问题描述 Kali linux由于太长时间未更新,而出现GPG错误 KEYEXPIRED 1425567400.经检查源未出现问题可以解析,deb也不冲突,就是密钥过期了. 解决方式使用一条命令,添 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.032 s.