Hadoop HDFS详解（2）

HDFS的主要特性

　　HDFS是基于流数据模式访问和处理超大文件的需求而开发的。HDFS主要特点概括为以下几点：

1.处理超大文件。超大文件通常是指数百MB、甚至数百TB大小的文件。

2.检测和快速应对硬件故障。一般的HDFS系统是由数百台甚至上千台服务器组成，因此，故障检测和自动恢复是HDFS的一个设计目标。

3.流式数据访问。HDFS的设计建立在“一次写入，多次读取”的基础上。HDFS处理的数据规模都比较大，一般都是批处理，所以它注重的是数据的吞吐量，而不是数据的访问速度。

4.简化的一致性模型。大部分的HDFS程序操作文件时需要一次写入，多次读取。在HDFS中，一个文件一旦经过创建、写入、关闭后，一般就不需要修改了。这样简单的一致性模型，有助于提高吞吐量的数据访问模型。

而HDFS不适用于如下应用：

1.低延迟数据访问。因为HDFS关注的是数据的吞吐量，而不是数据的访问速度，所以HDFS不适用于要求低延迟的数据访问应用。

2.大量的小文件。HDFS是通过将数据分布在数据节点，并将文件的元数据保存在名字节点上来支持超大文件存储的。名字节点的内存大小决定了HDFS系统可保存的文件数量，大量的小文件会影响到名字节点的性能。

3.多用户写入修改文件。HDFS中的文件只能有一个写入者，而且写操作总是在文件末。它不支持多个写入者，也不支持在数据写入后，在文件的任意位置进行修改。

时间： 2024-08-13 23:02:17

Hadoop HDFS详解（2）的相关文章

Hadoop HDFS详解（1）

HDFS是hadoop项目的核心子项目,是Hadoop主要的一个分布式文件系统.实际上,hadoop中有一个文件系统抽象,它提供了文件系统实现的各类接口,HDFS只是这个抽象文件系统的一个实例. 文件系统 URI JAVA实现定义 Local file fs.LocalFileSystem 本地文件系统 HDFS hdfs hdfs.DistrubutedFileSystem Hadoop的分布式文件系统 HFTP hftp hdfs.HtfpFileSystem 通过HTTP方式以只读的方式

HDFS详解（3）——HDFS文件结构

HDFS中的NameNode.DataNode.Secondery NameNode是如何在磁盘上组织和存储持久化数据的?下面将分别进行介绍. 注意,这里主要介绍的是Hadoop 2.0以前的版本,Hadoop 2.0以后版本文件结构稍微有一些变化,因为目前我们还没有使用hadoop 2.0,所以后面只是稍微说一下hadoop 2.0中NameNode目录结构,其他有兴趣的可以自己再去深入的研究. NameNode的文件结构最新格式化的NameNode会创建以下目录结构: ${dfs.name

【转】Hadoop安全模式详解及配置

原文链接 http://www.iteblog.com/archives/977 在<Hadoop 1.x中fsimage和edits合并实现>文章中提到,Hadoop的NameNode在重启的时候,将会进入到安全模式.而在安全模式,HDFS只支持访问元数据的操作才会返回成功,其他的操作诸如创建.删除文件等操作都会导致失败. NameNode在重启的时候,DataNode需要向NameNode发送块的信息,NameNode只有获取到整个文件系统中有99.9%(可以配置的)的块满足最小副本才会自

Hadoop Pipeline详解[摘抄]

最近使用公司内部的一个框架写map reduce发现没有封装hadoop streaming这些东西,查了下pipeline相关的东西 Hadoop Pipeline详解 20. Aug / hadoop / 1 Comment 一.说明Hadoop 2.x相比较于1.x有了较大的改变,像MapReduce层面架构以及代码基本上是完全重写的,在HDFS层面加入了HA,Federation等特性,代码更加层次化和易读,同时加入的PB初期可能给阅读带来障碍,熟悉之后就没有太大问题了.Pipelin

Hadoop DistributedCache详解

DistributedCache是Hadoop提供的文件缓存工具,它能够自动将指定的文件分发到各个节点上,缓存到本地,供用户程序读取使用.它具有以下几个特点:缓存的文件是只读的,修改这些文件内容没有意义:用户可以调整文件可见范围(比如只能用户自己使用,所有用户都可以使用等),进而防止重复拷贝现象:按需拷贝,文件是通过HDFS作为共享数据中心分发到各节点的,且只发给任务被调度到的节点.本文将介绍DistributedCache在Hadoop 1.0和2.0中的使用方法及实现原理. Hadoop D

深入理解Java中的流---结合Hadoop进行详解

在JavaSe的基础课程当中,可以说流是一个非常重要的概念,并且在Hadoop中得到了广泛的应用,本篇博客将围绕流进行深入的详解. (一)JavaSe中流的相关概念 1.流的定义 ①在Java当中,若一个类专门用于数据传输,则这个类称为流 ②流就是程序和设备之间嫁接以来的一根用于数据传输的管道,这个设备可以是本地硬盘,可以是内存条,也可以是网络所关联的另外一台计算机等等,其中不同管道上有不同的按钮,按下不同的按钮相当于调用不同的方法,这根带按钮的用于数据传输的管道就是流,即流就是一根管道 ③流一

Hadoop WordCount详解（二）

Hadoop集群WordCount详解(二) 源代码程序 WordCount处理过程具体代码讲解 1.源代码程序 package org.apache.hadoop.examples; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.examples.WordCount.Token

安装hadoop过程详解

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz hadoop的下载文件安装jdk http://www.linuxidc.com/Linux/2014-08/105906.htm 安装hadoop 进入 /root/zby/hadoop/hadoop-1.2.1/conf 配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-si

hadoop框架详解

Hadoop学习随笔(参考:http://blog.csdn.net/mobanchengshuang/article/details/78786652) Hadoop项目主要包括以下四个模块 ◆ Hadoop Common: 为其他Hadoop模块提供基础设施 ◆ Hadoop HDFS: 一个高可靠.高吞吐量的分布式文件系统 ◆ Hadoop MapReduce: 一个分布式的离线并行计算框架 ◆ Hadoop YARN: 一个新的MapReduce框架,任务调度与资源管理 Apache H

猜你喜欢

Android 源码系列之<十一>从源码的角度深入理解AccessibilityService，打造自己的APP小外挂(下)

转载请注明出处:http://blog.csdn.net/llew2011/article/details/52843637 在上篇文章Android 源码系列之<十>从源码的角度深入理解 ...

linux系统安装详解

一.linux系统安装过程 1.总体流程及概述 POST --> Bootloader (kernel+ramdisk) --> anaconda ①安装系统也需要先加载内核,内核初始化完 ...

【随笔】一些零碎知识

全双工 && 半双工 && 单工单工就是在同一时间只允许一方向另一方传送信息,而另一方不能向一方传送,现在基本上都没有使用了. 半双工就是指一个时间段内只有一个动作发 ...

java多线程 -- 线程八锁

一个对象里面如果有多个synchronized方法,某一个时刻内,只要一个线程去调用其中的一个synchronized方法了,其它的线程都只能等待,换句话说,某一个时刻内,只能有唯一一个线程去访问这些 ...

oracle中的聚合函数count、max、min、sum、avg以及NVL函数的用法

oracle中的聚合函数count.max.min.sum.avg以及NVL函数的用法分组函数聚合函数对一组行中的某个列执行计算执行计算并返回单一的值.聚合函数忽略空值.聚合函数经常与 SELECT ...

第一阶段冲刺周期10天第10天进展报告

今天评审会开始了总结一下吧. 老师说我们的有点意思.我们确实实现了一些基本功能,不过要想让用户满足还差的多呢.我们的软件没有什么特点,一眼看去不能吸引用户,我们设置的标签有局限,并不全面:典型用户也不 ...

python 如何找到某一目录下的文件类型（三种方法）

#!/usr/bin/env python 1 import glob 2 import os 3 os.chdir(“./”) 4 for file in glob.glob(“*.py”): 5 ...

web前端工程师面试题

今天刚结束一场面试(含笔试),对自己的表现不太满意,感觉没有发挥好应有的水平,也只能怪自己平时没有及时积累和整理知识,准备也不充分. 就不扯那么多了,下面是我面试时,没能答上或者觉自己回答的不够好的题 ...

C/C++语言中的函数参数传参三种对比

学了很长时间C/C++有时指针方面还是有点乱. 希望大神发现如果下面有不对的地方请指出.我发现之所以我乱就是因为中文表述不准确的问题,比如 ,地址值和地址 #include <iostream& ...

【转】科大校长给数学系学弟学妹的忠告&本科数学参考书

1.老老实实把课本上的题目做完.其实说科大的课本难,我以为这话不完整.科大的教材,就数学系而言还是讲得挺清楚的,难的是后面的习题.事实上做1道难题的收获是做10道简单题所不能比的. 2.每门数学必修课 ...

cojs 1001. [WZOI2011 S3] 消息传递

1001. [WZOI2011 S3] 消息传递 ★★ 输入文件:messagew.in 输出文件:messagew.out 简单对比时间限制:1 s 内存限制:128 MB Prob ...

14第十四章触发器(转载)

14第十四章触发器 DML --> AFTER / FOR UPDATE , INSERT , DELETE -- 用来级联删除 --> INSTEAD OF 在时间之前触发,相 ...

xampp 配置域名本地环境搭建

1.首先修改C盘WINDOWS\system32\drivers\etc目录下的 hosts 文件,用记事本打开,加入: (是在文件的未尾加入)127.0.0.1 www.a.com127.0.0.1 ...

南阳 1185 最大最小值

最大最小值时间限制:1000 ms | 内存限制:65535 KB 难度:2 描述给出N个整数,执行M次询问. 对于每次询问,首先输入三个整数C.L.R: 如果C等于1,输出第L个数到第R个数 ...

URL打开android 应用并且附带数据

在需要被打开的activity的配置节点内添加intent-filter <intent-filter> <data android:scheme="@string/lin ...

[白领必会]您的上司关心什么如何与上司打交道

中层和高层的区别高层关心的问题工作完成了没有? 结果如何? 下一步的对策? 尽量简明扼要些. 中层考虑的问题叙述如何完成的任务遇到了什么困难自己如何克服苦难希望上司多给点时间,多听听自己的 ...

POJ 3282 Ferry Loading IV（模拟）

Description Before bridges were common, ferries were used to transport cars across rivers. River fer ...

HDU 2813

http://acm.hdu.edu.cn/showproblem.php?pid=2813 裸二分图最优匹配,需要用两个map把武将名字映射到点的序号上 #include <iostream& ...

与您共享Linux Kernel 4.8分支首个维护版本

导读 Linux Kernel 4.8正式版于10月2日由Linus Torvalds发布,带来了包括AMDGPU OverDrive支持.NVIDIA Pascal支持.AMDGPU PowerPl ...

读大道至简——编程的精义感想

时光过得真是快,转眼我就步入了大二.我对于我所学的专业,虽不敢说得上是热爱,但至少我已经喜欢上它了.想当初被这所大学录取的时候,我不是那么的欢喜,主要就是因为我没有想到我会被计算机系录取.上大学接触的 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.