生物大数据处理的一点心得

在生物领域中,常常处理gff,gtf,bam,sam等格式的文件。在此我总结了几点我处理这些文件的经验。

1.善用split分割每行,这些文件基本都是用tab分割的,所以有split分割非常方便,每行最后的注释信息一般都是;分割。

2.找出你所需要的列,并找出这列所有不同的元素。因为你拿到的文件可能之前就被处理过,具有很强的不确定性。比如你拿到了一个水稻的数据,你下意识的可能会认为染色体那列只有12种可能,但往往就是这种主观错误导致你的程序运行不了,因此在处理之前一定要弄清楚每列的元素。

3.将自己常用的功能写出类或函数,这样可以节约很多时间。

4.善用各种不同语言分析,perl,python,R是生物大数据中最常用的语言,掌握好每个语言的优势,以及这个语言的生物信息学模块,这一点非常重要。大数据胜过好算法,生物信息工作者不一定要精通这些语言,但一定要学会如何高效的使用。

时间: 2024-10-29 00:24:42

生物大数据处理的一点心得的相关文章

2014年末总结:对大数据处理的一点思考

概要 2014大部分的时间都花在了Spark这一大数据领域的热点技术上,并由此离开工作多年的电信领域转入到大数据分析行业,作为一名分析领域的新军有必要对自己一年中接触到的新内容作相应的梳理. 大数据处理 大数据处理的理解可以分成这几个层次: 数据处理 处理的种类有哪些 如何将处理落实到计算上 大数据的处理 处理的种类有哪些 如何将处理落实到计算 上面这样一列,你可能会觉着一样的啊,没区别啊,除了一个大字以外,一切似乎都一样的.粗看确实如此,从目前大数据领域的实践来看,分析需求层面几乎和原有的没有

大数据处理的关键架构

大数据如火如荼的火热着,互联网上资源又让人眼花缭乱不知如何下手,对于新手和准备成为大数据工程师的童鞋更是如此,此博文总结了网上一些知识,希望对大家有帮助. 下图是大数据处理的各个架构层: 以下一一简介各个层,使大家对这块知识有个总体把握: 一.数据存储层 宽泛地讲,据对一致性(consistency)要求的强弱不同,分布式数据存储策略,可分为ACID和BASE两大阵营. ACID是指数据库事务具有的四个特性:原子性(Atomicity).一致性(Consistency).隔离性(Isolatio

【云端大数据实战】大数据误区、大数据处理步骤分析

1.背景 首先感谢这次博客的主办方CSDN以及在初赛为我投票的网友们,你们的支持是Garvin前进的动力.本文思路的依据来源于本次天猫大数据竞赛长达三个月的参赛体验.博主作为一个在校的学生,可能如果不是这次比赛,很难能够拥有一套完整的云环境来对TB级的数据进行分析和实践.下面是博主的一点心得,在此抛砖引玉,希望能给大家在云端大数据处理方面带来一点启示. 2.对于大数据和云的一些误区 (1)误区一:云的计算能力是无穷的,不用考虑效率? 我们都知道,云计算的本质就是分布式计算,将现有的工作量,分割开

位图与布隆及大数据处理题型分析

1.位图 由题引入: [腾讯]:2.给40亿个不重复的无符号整数,没排过序.给一个无符号整数,如何快速判断一个数是否在这40亿个数中. 如果将40亿个数按整型放入内存,显然不科学,就算内存足够,这样做也是浪费空间. 解决思路:用一个比特位表示一个数,存在的话该位上就置为1,不在的话置为0:这样40亿个数需要40亿个比特位,换算一下也就是500M,相对于16G来说,大大节省了空间. 注意:位图只适合判断,查找数据是否存在,且只能对整数进行处理. 代码如下: 1 class BitMap 2 { 3

关于div布局的一点心得

如果是嵌套的div布局,外面的div 比如是<div  class="container"></div>这时候设置的是一个大的外框架,居中显示.我们要在里面嵌套div来 显示内容,这时候就通过<div style="display:block;position:relative"></div>来使得div标签的位置是相对于外面最靠近它的父级标签也就是<div  class="container"

一共81个,开源大数据处理工具汇总(下)

接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要有日志收集系统.消息系统.分布式服务.集群管理.RPC.基础设施.搜索引擎.Iaas和监控管理等大数据开源工具. 日志收集系统 一.Facebook Scribe 贡献者:Facebook 简介:Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用.它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理.它为日志的

一共81个,开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等

作者:大数据女神-诺蓝(微信公号:dashujunvshen).本文是36大数据专稿,转载必须标明来源36大数据. 接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要有日志收集系统.消息系统.分布式服务.集群管理.RPC.基础设施.搜索引擎.Iaas和监控管理等大数据开源工具. 日志收集系统 一.Facebook Scribe 贡献者:Facebook 简介:Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用.它能够从各种

移动web动画设计的一点心得——css3实现跑步

[原]移动web动画设计的一点心得——css3实现跑步 今年3月份,由于公司业务需要,我转岗到微信产品部,离开了TID团队,人都是有感情的动物,更何况在一个团队呆了快 3 年,心中十分舍不得,鬼哥说了“天下没有不散的宴席...”,在我的世界里又多了一次离别的伤感(虽然还在隔壁工作).加入了微信产品中心后,开始新的团队生活,工作比以前忙多了,有时周六也要上班,需要更快更高效的完成任务,除了重构页面,需要主动参与边缘外的工作,承担更多.最近比较忙,给自己敲个响钟:注意身体. 说完题外话,开始近期的主

理解机器学习算法的一点心得

从Andrew ng的公开课开始,机器学习的算法我接触到的也越来越多,我觉得机器学习算法和传统算法的最大不同就是:不会要求一个问题被100%求解,也就意味着不会有完美的解法,这也是著名的"Essentially, all models are wrong, but some are useful."所表达的意思.正因为如此,机器学习算法往往不会有一个固定的算法流程,取而代之的把问题转化为最优化的问题,无论是ML(maximum likelihood),MAP(Maximum a Pos