在生物领域中,常常处理gff,gtf,bam,sam等格式的文件。在此我总结了几点我处理这些文件的经验。
1.善用split分割每行,这些文件基本都是用tab分割的,所以有split分割非常方便,每行最后的注释信息一般都是;分割。
2.找出你所需要的列,并找出这列所有不同的元素。因为你拿到的文件可能之前就被处理过,具有很强的不确定性。比如你拿到了一个水稻的数据,你下意识的可能会认为染色体那列只有12种可能,但往往就是这种主观错误导致你的程序运行不了,因此在处理之前一定要弄清楚每列的元素。
3.将自己常用的功能写出类或函数,这样可以节约很多时间。
4.善用各种不同语言分析,perl,python,R是生物大数据中最常用的语言,掌握好每个语言的优势,以及这个语言的生物信息学模块,这一点非常重要。大数据胜过好算法,生物信息工作者不一定要精通这些语言,但一定要学会如何高效的使用。
时间: 2024-10-29 00:24:42