[hadoop读书笔记] 第四章 Hadoop I/O操作

P92 压缩

P102 序列化

序列化:将结构化对象转为字节流便于在网上传输或写到磁盘进行永久性存储的过程

用于进程之间的通信或者数据的永久存储

反序列化:将字节流转为结构化对象的逆过程

Hadoop中的序列化:在Hadoop中,系统中多个节点上进程间的通信是通过远程过程传输RPC来实现的。

RPC协议将消息序列化成二进制流后发送到远程节点,远程节点接着将二进制流反序列化成原始信息。

Avro:一个独立于编程语言,并基于 IDL的序列化框架,非常适合用于Hadoop的大规模数据处理

时间: 2024-10-26 23:36:02

[hadoop读书笔记] 第四章 Hadoop I/O操作的相关文章

Hadoop读书笔记(四)HDFS体系结构

Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 Hadoop读书笔记(二)HDFS的shell操作:http://blog.csdn.net/caicongyang/article/details/41253927 Hadoop读书笔记(三)Java API操作HDFS:http://blog.csdn.net/caicongyang/article/details/41290955

Hadoop读书笔记(二)HDFS的shell操作

Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 1.shell操作 1.1所有的HDFS shell操作命名可以通过hadoop fs获取: [[email protected] ~]# hadoop fs Usage: java FsShell [-ls <path>] [-lsr <path>] [-du <path>] [-dus <path>

《Linux内核设计与实现》读书笔记 第四章 进程调度

第四章进程调度 进程调度程序可看做在可运行太进程之间分配有限的处理器时间资源的内核子系统.调度程序是多任务操作系统的基础.通过调度程序的合理调度,系统资源才能最大限度地发挥作用,多进程才会有并发执行的效果. 最大限度地利用处理器时间的原则是,只要有可以执行的进程,那么总会有进程在执行. 4.1多任务 多任务操作系统就是能同时并发地交互执行多个进程的操作系统.多任务能使多个进程处于堵塞或者睡眠状态.就是任务位于内存内但是不被执行,直到某一事件发生. 分类: l  非抢占式:除非进程自己主动停止运行

《利用python进行数据分析》读书笔记--第四章 numpy基础:数组和矢量计算

第四章 Numpy基础:数组和矢量计算 实话说,用numpy的主要目的在于应用矢量化运算.Numpy并没有多么高级的数据分析功能,理解Numpy和面向数组的计算能有助于理解后面的pandas.按照课本的说法,作者关心的功能主要集中于: 用于数据整理和清理.子集构造和过滤.转换等快速的矢量化运算 常用的数组解法,如排序.唯一化.集合运算等 高效的描述统计和数据聚合/摘要运算 用于异构数据集的合并/连接运算的数据对齐和关系型数据运算 将条件逻辑表述为数组表达式(而不是带有if-elif-else分支

APUE读书笔记-第四章 文件和目录

到第四章了,不知什么时候才能把这本书看完,耽误的时间太多了. 第四章是在第三章的基础上,主要描述文件系统的其他性质和文件的性质. 4.2 stat.fstat.fstatat.lstat函数 首先来看看这四个函数的原型: #include <sys/stat.h> ///usr/include/x86_64-linux-gnu/sys/ int stat (const char *__restrict __file, struct stat *__restrict __buf) int fst

[hadoop读书笔记] 第三章 HDFS

P49 当数据集的大小超过一台计算机存储能力时,就有必要对数据集分区(partition)并将分区存储到若干台独立的计算机上. 管理网络中跨多台计算机存储的系统就叫分布式文件系统  Distributed FileSystem 而基于Hadoop构建的DFS就称之为HDFS. P49-50 HDFS的设计思路:以流数据访问模式来存储超大文件,运行在商用硬件集群上. P51 HDFS 数据块:默认为64MB,是HDFS进行数据读写的最小单位,作为独立的存储单元存在. 一个打文件可以切分为多个块存储

《linux内核设计与实现》读书笔记第四章

第4章 进程调度 4.1 多任务 多任务系统可以划分为:非抢占式多任务和抢占式多任务. Linux 提供了抢占式的多任务模式. 在抢占式多任务模式下,由调度程序来决定什么时候停止一个进程的运行.这个强制的挂起动作就叫做抢占. 在非抢占式多任务模式下,除非进程自己主动停止运行,否则它会一直执行.进程主动挂起自己的操作称为让步 . 4.2 Linux 的进程调度 1.O(1)调度器调度算法对于调度那些响应时间敏感的程序有先天不足. 响应时间敏感的程序称其为交互进程. 2.O(1)调度程序性能比较:

读书笔记 第四章

本章的学习,我了解到由于Android源码是一个开源的系统,然要匹配很多设备产品,也就是说一个版本的Android源码,可以编译出针对不同产品的系统.通过选择一个目标编译项,来决定编译出针对哪个产品的系统,通过lunch命令可知,让用户输入目标编译项,我们可以选择编译项前的数字,也可以直接输入编译项的名字.Android使用Linux内核,在源码级开发过程中,有时要修改内核代码,通常内核代码是和目标设备相关的,我们使用的是模拟器的内核,即使没有硬件设备也可以完成实验.编译Android的内核,需

C primer plus 读书笔记第四章

本章的标题是字符串的格式化输入/输出,重点介绍输入和输出. 本章的第一段示例代码和上一张示例代码很相近,代码就不贴了,新出现的特性是使用了一个数组来存放字符串,C预处理命令和strlen()函数. 下面具体介绍这些概念. 1.字符串 C语言没有为字符串定义专门的变量类型,而是存储在char数组中. 注意: 1.scanf()读取字符串时,会在遇到第一个空白字符串,制表符或者换行符处停止读取.所以使用%s的scanf()只会读取一个单词而非整个句子(C语言一般用gets()来处理一般的字符串).