2016/06/27 HDFS概述

1.初识HDFS

    HDFS作为一个分布式文件系统,具有高容错的特点,它可以部署在廉价的通用硬件上,提供高吞吐率的数据访问(吞吐率:是对一个系统和它的部件处理传输数据请求能力的总体评价),适合那些需要处理海量数据集的应用程序。

1.1 HDFS主要特性

  • 支持超大文件。超大文件在这里指的是几百MB,几百GB甚至几TB大小的文件,一般来说,一个Hadoop文件系统会存储T(1TB = 1024GB)、P(1P = 1024T)级别的数据。Hadoop需要能够支持这种级别的大文件。
  • 检测和快速应对硬件故障。在大量通用硬件平台上构建集群时,故障,特别是硬件故障是常见的问题。一般的HDFS系统是由数百台甚至上千台存储着数据文件的服务器组成,这么的服务器意味着高故障率。因此,故障检测和自动恢复是HDFS的一个设计目标。
  • 流式数据访问。(流式数据:来一点,处理一点)HDFS处理的数据规模都比较大,应用一次需要访问大量的数据。同时,这些应用一般是批量处理,而不是用户交互处理。HDFS使应用程序能够以流的形式访问数据集,注重的是数据的吞吐量,而不是数据访问的速度。
  • 简化的一致性模型。大部分的HDFS程序操作文件时需要一次写入,多次读取。在HDFS中,一个文件一旦经过创建、写入、关闭后,一般就不需要修改了。这样简单的一致性模型,有利于提供高吞吐量的数据访问模型。

不适用:

  • 低延迟访问数据。低延迟数据,如和用户进行交互的应用,需要数据在毫秒或秒的范围内得到响应。由于Hadoop针对高数据吞吐量做了优化,而牺牲了获取数据的延迟,对于低延迟访问,可以考虑使用HBase。
  • 大量的小文件。HDFS支持超大文件,是通过将数据分布在数据节点(DataNode),并将文件的元数据保存在名字节点(NameNode)上。名字节点的内存大小,决定了HDFS文件系统可保存的文件数量,虽然现在的系统内存都比较大,但大量的小文件还是会影响名字节点的性能。
  • 多用户写入文件、修改文件。HDFS中的文件只能有一盒写入者,而且写操作总是在文件末。它不支持多个写入者,也不支持在数据写入后,在文件的任意位置进行修改。
时间: 2024-11-03 21:41:06

2016/06/27 HDFS概述的相关文章

工作周记 - 第六周 (2016/06/27 - 2016/07/01)

1.搭建定时任务quartz 本来是打算把定时任务放入后台管理中,这样目前没问题,但是弱后期加入权限管理-shiro,那么肯定有冲突的,原因是最新版的shiro会使用quartz-1.6版本,而最新的quartz已经到了2.3 有人索性把quartz版本降到了1.6,这样就没问题,我想这样不好,2.3的新功能都用不到,1.6多多少少肯定会有一定bug,所以就另开了一个项目作为定时任务,虽然现阶段的任务量少,但是后期一定会多起来,比如定时报表,定时跑批等等 这样也省的把原来的任务再分离出来,这么做

2016/06/27

C#集合相关 .count  //获取集合元素数量 .contains()//确定某元素是否存在于集合中 .sort()//升序排序 .Reverse()//翻转整个集合,搭配.Sort()可以实现降序排序 集合特点: 不需要指定元素数量,数组需要指定元素数量.集合只有一维,数组可以多维. using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threading

【谜客帝国】第78届月思主擂谜会(2016.06.30)

[谜客帝国]第78届月思主擂谜会(2016.06.30) 主持:瓷 计分:手手 1.“卧听疏雨落椒房”(12笔字)渥/月思 [注:面出<明诗杂抄>佚名作<拟宫体旧题>.] 2. 克用之子灭后梁(8笔字)林/月思 [注:典据<五代史>:李存勖灭后梁,实现其父李克用遗愿.] 3. 北宋五鬼,王相占先(2字漫画家)米二/月思 [注:典据<宋史·王钦若传>,“宰相恤恩,未有钦若比者……与丁谓.林特.陈彭年.刘承珪,时谓之‘五鬼’,奸邪险伪.”] 4.“经年多病自心惊

HDFS概述(2)————Block块大小设置

参考: HDFS概述(4)----HDFS权限 HDFS概述(3)----HDFS Federation HDFS概述(1)----HDFS架构 问题 Q: 一个常被问到的一个问题是: 如果一个HDFS上的文件大小(file size) 小于块大小(block size) ,那么HDFS会实际占用Linux file system的多大空间? A: 答案是实际的文件大小,而非一个块的大小. 以下内容转自: http://blog.csdn.net/samhacker/article/detail

http://stormzhang.com/opensource/2016/06/26/android-open-source-project-recommend1/

转载自:http://stormzhang.com/opensource/2016/06/26/android-open-source-project-recommend1/ 推荐他的所有博文~ 图片加载几乎是任何 Android 项目中必备的需求,而图片加载的开源库也越来越多,我们姑且在 GitHub 上搜索下 android image 关键字,出来的前五个按照 Star 数排序的项目如下: 可以看到前四个是大家比较熟知的图片加载库,有 UniversalImageLoader.Picass

分布式技术一周技术动态 2016.06.26

分布式系统实践 1. 微信自研生产级paxos类库PhxPaxos实现原理介绍 https://mp.weixin.qq.com/s?__biz=MzI4NDMyNTU2Mw==&mid=2247483695&idx=1&sn=91ea422913fc62579e020e941d1d059e&scene=1&srcid=0622W8Tr7wxlyNqJPBzr4iWK&key=77421cf58af4a6537009f11daea42e134e8766d15

27 GroupSock概述(一)——live555源码阅读(四)网络

27 GroupSock概述(一)——live555源码阅读(四)网络 27 GroupSock概述(一)——live555源码阅读(四)网络 简介 1.网络通用数据类型定义 2.Tunnel隧道封装 本文由乌合之众 lym瞎编,欢迎转载 blog.cnblogs.net/oloroso 本文由乌合之众 lym瞎编,欢迎转载 my.oschina.net/oloroso 简介 group是组/群的意思,socket是网络接口的代名词了.这个部分很庞大,主要是与网络相关的.而live555的网络模

Hadoop之HDFS(概述和Shell操作)

HDFS概述 HDFS组成架构 HDFS文件块大小   HDFS的Shell操作(开发重点) 1.基本语法 bin/hadoop fs 具体命令   OR  bin/hdfs dfs 具体命令 dfs是fs的实现类. 2.命令大全 $ bin/hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-

2016.03.27,英语,《Vocabulary Builder》Unit 06

equ: from Latin aequus, meaning 'equal', equalize:使相等; equivalent:[?'kw?v?l?nt], A is equivalent to B; equilateral:[?i?kw?'læt?r?l], 等边的; equation:等式 equable:['ekw?bl] adj. 平静的, 变动小的 adequacy:['æd?kw?si] n. 足够,适当. 与需要的或必须的相等. equilibrium:[?i?kw?'l?br