Spark直接读入fastq格式的数据

输入文件： fastq格式
输出结果： kmer的频数和对应的kmer类型
系统环境Ubuntu单机版17.01
spark版本2.7
此次测试主要用到了RDD的函数foreach和zipWithIndex，zipWithIndex这个函数是可以直接对gz文件进行操作的
python的主要通过lambda函数来进行操作
测试代码如下

fastq=‘/home/yueyao/Spark/00.data/reads.left.fq.gz‘
fq_rdd = sc.textFile(fastq)
fq=fq_rdd.zipWithIndex()
def printa(a):
    print a
fq.foreach(lambda line:printa(line))

原文地址：https://www.cnblogs.com/raisok/p/10917693.html

时间： 2024-11-06 01:27:14

Spark直接读入fastq格式的数据的相关文章

第二章导入数据到SAS | 格式规范数据读取

目录 2.1 导入数据的方法 2.2 利用导入向导读入 2.3 格式规范数据读取 2.3.1 指定原始数据位置(infile) 2.3.2 读取空格分隔原始数据(列表输入) 2.3.3 读取按列排列原始数据(列输入) 2.3.4 读取非标准格式的原始数据(格式化输入) 2.3.5 混合的输入样式(列表输入+列输入+格式输入) 2.1 导入数据的方法将数据导入SAS的方法有很多,但可以归纳为四个基本类别,其中方法2.3是需要掌握的重点. 直接将数据输入SAS数据集通过VIEWTABLE窗口(打

NFC技术：读写非NDEF格式的数据

1 //向nfc标签读写MifareUltraligh格式的数据 2 public class MainActivity extends Activity { 3 private CheckBox mwriteData; 4 private NfcAdapter mNfcAdapter; 5 private PendingIntent mPendingIntent; 6 7 @Override 8 protected void onCreate(Bundle savedInstanceState

使用原生AJAX和PHP 构建和解析XML格式的数据

XML:eXtensible Markup Language,可扩展的标签语言,本身是一种字符串格式,用于描述批量复合数据, 语法特点: (1)所有的数据放在标签中 (2)整个XML字符串有且只能有一个根标签 (3)所有的标签名都可以自定义,但严格区分大小写,且开始和结束标记必须完全一样 (4)每个标签都可以自定义属性,属性必须有值,值必须用单引号/双引号括起来 (5)每个标签都可以定义任意的子标签,标签可以嵌套,但不能交叉注意:HTML和XML的区别 HTML语法随意:XML语法严格: H

mysql中存不进去json_encode格式的数据

主要是因为json_encode格式的数据,中间带有\,在存入数据库的时候,会把反斜杠删除了. 所以,想要存进去的话,需要在外层调用一下函数addslashes();这个函数会在每个反斜杠的前面添加反斜杠,如此这般就可以存进数据库了. 实例: $review_log = addslashes(json_encode($review_log));

SQLyog-直接导出JSON格式的数据

前言:以前做过的一个项目,有这样的一个需求使用搜索引擎来查询对应的区域信息,不过区域信息要先导出来,并且数据格式是JSON格式的,在程序中能实现这个需求,不过下面的这种方法更加的简单,通过SQL+SQLyog工具的特点直接将区域信息以JSON格式的形式导出来! 1:区域表的结构信息 2:区域关系表的结构信息 3:这个SQL语句是本次博文的核心,就是用他来拼出JSON格式的数据的,当然,仔细的看一下的话也比较简单,只是这种思路值得小记一笔 SELECT '{"regionId"

ASP.NET API(MVC) 对APP接口(Json格式)接收数据与返回数据的统一管理

话不多说,直接进入主题. 需求:基于Http请求接收Json格式数据,返回Json格式的数据. 整理:对接收的数据与返回数据进行统一的封装整理,方便处理接收与返回数据,并对数据进行验证,通过C#的特性对token进行验证,并通过时间戳的方式统一处理接收与返回的时间格式. 请求Json格式: { "Cmd": "login", "Token": "", "PageNo": 0, "OnePageNu

hive中导入json格式的数据（hive分区表）

hive中建立外部分区表,外部数据格式是json的如何导入呢? json格式的数据表不必含有分区字段,只需要在hdfs目录结构中体现出分区就可以了 This is all according to this guide: http://blog.cloudera.com/blog/2012/12/how-to-use-a-serde-in-apache-hive/ 1 hive> ADD JAR /home/hadoop/hive-serdes-1.0-SNAPSHOT.jar; 2 Added

scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据

在安装完scrapy以后,相信大家都会跃跃欲试想定制一个自己的爬虫吧?我也不例外,下面详细记录一下定制一个scrapy工程都需要哪些步骤.如果你还没有安装好scrapy,又或者为scrapy的安装感到头疼和不知所措,可以参考下前面的文章安装python爬虫scrapy踩过的那些坑和编程外的思考.这里就拿博客园来做例子吧,抓取博客园的博客列表并保存到json文件. 环境:CentOS 6.0 虚拟机 scrapy(如未安装可参考安装python爬虫scrapy踩过的那些坑和编程外的思考) 1.创建

Spark Structured Streaming框架(3)之数据输出源详解

Spark Structured streaming API支持的输出源有:Console.Memory.File和Foreach.其中Console在前两篇博文中已有详述,而Memory使用非常简单.本文着重介绍File和Foreach两种方式,并介绍如何在源码基本扩展新的输出方式. 1. File Structured Streaming支持将数据以File形式保存起来,其中支持的文件格式有四种:json.text.csv和parquet.其使用方式也非常简单只需设置checkpointLo