HDF5 文件格式简介

三代测序下机的原始数据不再是fastq格式了,而是换成了hdf5 格式,在做三代数据的分析之前,有必要先搞清楚hdf5 这种文件格式;

官网的链接如下:https://support.hdfgroup.org/HDF5/

HDF5 是一种灵活的文件储存格式,它相对其他的文件格式,肯定是有很多的优点,这里就不一一列举了,最值得我们关注的是,在这种格式中,数据是如何储存的。

对于hdf5 文件中的数据存储,有两个核心概念:

1)group 和 dataset

dataset 代表数据集,一个文件当中可以存放不同种类的数据集,这些数据集如何管理,就用到了group

最直观的理解,可以参考我们的文件管理系统,不同的文件位于不同的目录下:

目录就是hdf5中的group, 描述了数据集dataset的分类信息,通过group 有效的将多种dataset 进行管理和区分;

文件就是hdf5中的dataset, 表示的是具体的数据;

2)metadata

对于每一个dataset 而言,除了数据本身之外,这个数据集还会有很多的属性 attribute,。在hdf5中,还同时支持存储数据集对应的属性信息,

所有的属性信息的集合就叫做metadata;;

时间: 2024-09-29 10:36:49

HDF5 文件格式简介的相关文章

26、HDF5 文件格式简介

转载:庐州月光 http://www.cnblogs.com/xudongliang/p/6907733.html 三代测序下机的原始数据不再是fastq格式了,而是换成了hdf5 格式,在做三代数据的分析之前,有必要先搞清楚hdf5 这种文件格式; 官网的链接如下:https://support.hdfgroup.org/HDF5/ HDF5 是一种灵活的文件储存格式,它相对其他的文件格式,肯定是有很多的优点,这里就不一一列举了,最值得我们关注的是,在这种格式中,数据是如何储存的. 对于hdf

PCM文件格式简介

PCM文件:模拟音频信号经模数转换(A/D变换)直接形成的二进制序列,该文件没有附加的文件头和文件结束标志.Windows的Convert工具可以把PCM音频格式的文件转换成Microsoft的WAV格式的文件.              将音频数字化,其实就是将声音数字化.最常见的方式是透过脉冲编码调制PCM(Pulse Code Modulation) .运作原理如下:首先我们考虑声音经过麦克风,转换成一连串电压变化的信号,如下图所示.这张图的横座标为秒,纵座标为电压大小.要将这样的信号转为

HDR文件格式简介及其读写函数

转自:http://blog.csdn.net/lqhbupt/article/details/7828827 1.HDR简介HDR的全称是High-DynamicRange(高动态范围).在此,我们先解释一下什么是DynamicRange(动态范围),动态范围是指图像中所包含的从“最亮”至“最暗”的比值,也就是图像从“最亮”到“最暗”之间灰度划分的等级数:动态范围越大,所能表示的层次越丰富,所包含的色彩空间也越广.那高动态范围(HDR)顾名思义就是从“最亮”到“最暗”可以达到非常高的比值.在日

epub3 in action: epub3文件格式简介

epub3文件就是一个符合epub3标准,以epub为扩展名的zip压缩文件.epub3标准则是基于html5.css3.svg等web标准以及mathML等来展示内容.下图就是一个简单epub3文件的大致结构.      epub3规范使用OCF(open container format)标准规定的文件结构,根目录当中必须有一个mimetype文件和一个META-INF文件夹.其中,mimetype文件中只有一个行内容application/epub+zip,而META-INF中存放的则是表

MP4之文件格式简介

简单来说,MP4文件是由一个一个的box组成的,box中可以包含子box.MP4的box类型很多,还好大部分文件并不会包含所有的box,对于音视频播放来说,很多box也是可以忽略的.从这里可以查到所有boxhttp://mp4ra.org/atoms.html box 一个MP4文件中,主要需要了解的是存储音视频的metadata和音视频数据的box,metadata主要在moov box,音视频数据在mdat box中.moov和mdata的子box如下图所示 Box 所有类型的box都是从B

基于 Hive 的文件格式:RCFile 简介及其应用

转载自:https://my.oschina.net/leejun2005/blog/280896 Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势.不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高. 1.hadoop 文件格式简介 目前 hadoop 中流行的文件格式有如下几种: (1)SequenceFile SequenceFile是Hadoop API 提供的一种二进制文件

气象业务数据格式的介绍

一.Net-CDF数据格式 1.1 Net-CDF概述  NetCDF全称为network Common Data Format,中文译法为"网络通用数据格式",对程序员来说,它和zip.jpeg.bmp文件格式类似,都是一种文件格式的标准.netcdf文件开始的目的是用于存储气象科学中的数据,现在已经成为许多数据采集软件的生成文件的格式.  从数学上来说,netcdf存储的数据就是一个多自变量的单值函数.用公式来说f(x,y,z,...)=value, 函数的自变量x,y,z等在ne

C#读取Excel技术概览 (2)

5.自定义SDK,使用xmlReader文件流式处理 第四章节中,总是感觉用别人的工具要受制于人.既然我 们知道了Excel的存储方式,问题便转换成从xml中取出数据,然后放入内存得到我们想要的东西,更重要的是,官方的sdk对xml的读取采用的 Document的方式,对于大文件xml执行速度必然降低,同时对 内存,数据量都有限制,若有几十亿,好几百T的数据,这种处理方式就很难发挥作用了,所以我们决定自己做一个sdk出来,只是将原来读取xml的方式,改 为用xmlReader的方式来读取,采用文

SylixOS下IIS驱动编程

目录 1. IIS简介    1 2. 数字声音简介    1 2.1    采样频率    1 2.2    量化位数    1 2.3    声道数    1 3. WAV音频文件格式简介    2 3.1    文件格式    2 3.2    原始声音数据的组织方式    2 4. Mini2440声卡的连接方式    3 4.1    相关连线说明    3 5. SylixOS下的OSS音频驱动接口    3 6. 播放声音流程    4 7. 录音流程    5 IIS简介 IIS