HDFS优缺点

HDFS解决大数据存储的问题

HDFS优点

  • 高容错性

    数据自动保存多个副本

    副本丢失后自动恢复

  • 适合批处理

    移动计算而非数据

    数据位置暴露给计算框架

  • 适合大数据处理

    GB、TB、甚至PB级数据

    百万规模以上的文件数据量

    10K+结点

  • 可构建在廉价机器上(为啥-->因为有高容错性,即使机器挂了数据也不会丢)

    通过多副本提高可靠性

    提供了容错和恢复机制

HDFS缺点

  • 低延迟数据访问(读一些小文件的时候,寻址时间可能会比读数据还长)

 

  • 小文件存储(想办法转成大文件)

    占用namenode大量内存(元数据信息)

    寻道时间超过读取时间

  • 并发写入、文件随机修改

    一个文件只能有一个写者

    不支持内容修改,虽然2.0仅支持append,但一般生产环境不会开放(涉及到副本的修改,涉及文件大小改变切分)

时间: 2024-08-07 04:31:36

HDFS优缺点的相关文章

3. hdfs原理分析

1. HDFS (2.0)架构: 2. HDFS 设计思想: HDFS数据块(block): 文件被切分成固定大小的数据块 默认数据块大小为64MB,可配置 若文件大小不到64MB,则单独存成一个block 为何数据块如此之大 数据传输时间超过寻道时间(高吞吐率) 一个文件存储方式 按大小被切分成若干个block,存储到不同节点上 默认情况下每个block有三个副本 3. HDFS优缺点: 优点: 高容错性 数据自动保存多个副本 副本丢失后,自动恢复 适合批处理 移动计算而非数据 数据位置暴露给

Hadoop HDFS 基础使用

目录 1.HDFS 前言 ................................................................................................................................... 1 2.HDFS 相关概念和特性 ........................................................................................

HDFS 总结

HDFS是一个分布式文件存储系统 Client  提交读写请求(拆分blocksize) NameNode 全局把控(知道blocksize的地址) dataNode 存储数据(将数据存储进去,且以Pipeline的方式把数据写完) 1.如果你要把数据写到HDFS上去,的流程是 发起请求-client(接受数据,blocksize(64或182M),副本因子默认3个)-发起请求到dataNode(blocksize,副本因子)-dataNode(计算空闲的dataNode,并且按照距离的远近进行

大数据-Hadoop生态(5)-HDFS概述

HDFS产生背景 HDFS优缺点 HDFS组成架构 HDFS文件块大小 原文地址:https://www.cnblogs.com/duoduotouhenying/p/10084446.html

大数据技术之_04_Hadoop学习_01_HDFS_HDFS概述+HDFS的Shell操作(开发重点)+HDFS客户端操作(开发重点)+HDFS的数据流(面试重点)+NameNode和SecondaryNameNode(面试开发重点)

第1章 HDFS概述1.1 HDFS产出背景及定义1.2 HDFS优缺点1.3 HDFS组成架构1.4 HDFS文件块大小(面试重点)第2章 HDFS的Shell操作(开发重点)第3章 HDFS客户端操作(开发重点)3.1 HDFS客户端环境准备3.2 HDFS的API操作3.2.1 HDFS文件上传(测试参数优先级)3.2.2 HDFS文件下载3.2.3 HDFS文件夹删除3.2.4 HDFS文件名更改3.2.5 HDFS文件详情查看3.2.6 HDFS文件和文件夹判断3.3 HDFS的I/O

hadoop ——HDFS存储

一.HDFS概念 二.HDFS优缺点 三.HDFS如何存储 一.HDFS概念 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上.它所具有的高容错.高可靠性.高可扩展性.高获得性.高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利. hadoop前提和设计目标: 硬件错

大数据技术之Hadoop(HDFS)

第1章 HDFS概述 1.1 HDFS产出背景及定义 1.2 HDFS优缺点 1.3 HDFS组成架构 1.4 HDFS文件块大小(面试重点) 第2章 HDFS的Shell操作(开发重点) 1.基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类. 2.命令大全 [[email protected] hadoop-2.7.2]$ bin/hadoop fs ? [-appendToFile <localsrc> ... <dst&

HDFS常见知识点总结

一.主从结构:在一个集群中,会有部分节点充当主服务器的角色,其他服务器都是从服务器的角色,当前这种架构模式叫做主从结构. 主从结构分类: 1.一主多从 2.多主多从 Hadoop中的HDFS和YARN都是主从结构,主从结构中的主节点和从节点有多重概念方式: 1.主节点 从节点 2.master slave 3.管理者 工作者 4.leader follower Hadoop集群中各个角色的名称: 服务 主节点 从节点 HDFS NameNode DataNode YARN ResourceMan

Hadoop入门之hdfs

    大数据技术开篇之Hadoop入门[hdfs] 学习都是从了解到熟悉的过程,而学习一项新的技术的时候都是从这个技术是什么?可以干什么?怎么用?如何优化?这几点开始.今天这篇文章分为两个部分.一.hadoop概述  二.hadoop核心技术之一的hdfs的讲解. [hadoop概述] 一.hadoop是什么? Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实现了一个分