Hadoop文件系统详解-----(一)

Hadoop有一个抽象的文件系统概念,HDFS只是其中的一个实现。Java抽象类 org.apache.hadoop.fs.FileSystem展示了Hadoop的一个文件系统,而且有几个具体实现,如表 3-1所示。


文件系统


URI
 方案


Java实

现(全部在
 org.apache.hadoop)


描述


Local


file


fs.LocalFileSystem


针对有客户端校验和

的本地连接磁盘使用

的文件系统。针对没

有校验和的本

地文件系统使用

RawLocalFileSystem。

详情参见第4章


HDFS


hdfs


hdfs.Distributed-

FileSystem


Hadoop的分布式

文件系统。HDFS

被设计为结合使用

Map-Reduce实现高

效工作


HFTP


hftp


hdfs.HftpFileSystem


一个在HTTP上提

供对HDFS只读访

问的文件系统(虽然

其名称为HFTP,但

它与FTP无关)。通

常与distcp结合使用

(参见第3章),在运

行不同版本HDFS的

集群间复制数据


HSFTP


hsftp


hdfs.Hsftp-
 FileSystem


在HTTPS上提供对

HDFS只读访问的

文件系统(同上,与

FTP无关)


HAR


har


fs.HarFileSystem


一个构建在其他文

件系统上来存档文

件的文件系统。Hadoop

存档一般在HDFS中

的文件存档时使用,

以减少名称节点内存的使用


KFS(Cloud-Store)


kfs


fs.kfs.Kosmos-
 FleSystem


cloudstore(其前身是

Kosmos文件系统)

是相似于HDFS或是

Google的GFS的文件

系统,用C++编

写。详

情可参见http://kosmosfs.
 sourceforge.net/


FTP


ftp


fs.ftp.FTP-
 FileSystem


由FTP服务器支持的

文件系统


S3(本地)


s3n


fs.s3native.Native-
 S3FileSystem.


由Amazon S3支

持的文件

系统。可参见

http://wiki.apache.org
 /hadoop/AmazonS3


S3(基于
 块)


s3


fs.s3.S3FileSystem


由 Amazon S3支

持的文件系统,

以块格式存储文件

(与HDFS很相似)

来解决S3的5 GB

文件大小限制

Hadoop提供了许多文件系统的接口,它一般使用URI 方案来选取合适的文件系统实例交互。举例来说,我们在前一小节中研究的文件系统shell可以操作所有的Hadoop文件系统。列出本地文件系统根目录下的文件,输入以下命令:

1.  % hadoop fs -ls file:///

尽管运行那些可访问任何文件系统的MapReduce程序是可行的(有时也很方便),但在处理大量数据时,仍然需要选择一个有最优本地数据的分布式文件系统,如HDFS或者KFS。

时间: 2024-10-19 21:21:57

Hadoop文件系统详解-----(一)的相关文章

hadoop文件系统详解--(1)

Hadoop有一个抽象的文件系统概念,HDFS只是其中的一个实现.Java抽象类 org.apache.hadoop.fs.FileSystem展示了Hadoop的一个文件系统,而且有几个具体实现,如表 3-1所示. 文件系统 URI 方案 Java实 现(全部在 org.apache.hadoop) 描述 Local file fs.LocalFileSystem 针对有客户端校验和 的本地连接磁盘使用 的文件系统.针对没 有校验和的本 地文件系统使用 RawLocalFileSystem.

【转】Hadoop安全模式详解及配置

原文链接 http://www.iteblog.com/archives/977 在<Hadoop 1.x中fsimage和edits合并实现>文章中提到,Hadoop的NameNode在重启的时候,将会进入到安全模式.而在安全模式,HDFS只支持访问元数据的操作才会返回成功,其他的操作诸如创建.删除文件等操作都会导致失败. NameNode在重启的时候,DataNode需要向NameNode发送块的信息,NameNode只有获取到整个文件系统中有99.9%(可以配置的)的块满足最小副本才会自

[鸟哥linux视频教程整理]02_03_Linux根文件系统详解

一.根文件系统详解: FHS:Linux /boot: 系统启动的相关文件,如内核.initrd,以及grub(bootloader) /dev: 设备文件 块设备:随机访问 字符设备:线性访问,按字符为单位. 设备号:主设备号(major)和次设备号(minor) /etc:配置文件 /home:用户的家目录,每个用户的家目录通常默认为/home/USERNAME /root: /lib:库文件 /lib/modules:内核模块文件 动态库:.dll .so(share object) 静态

linux 下跟文件系统详解

什么是根文件系统 根文件系统首先是一种文件系统,但是相对于普通的文件系统,它的特殊之处在于,它是内核启动时所mount的第一个文件系统,内核代码映像文件保存在根文件系统中,而系统引导启动程序会在根文件系统挂载之后从中把一些基本的初始化脚本和服务等加载到内存中去运行. 我们首先从主机上所安装的Linux操作系统中了解一些根文件系统的信息.比如在笔者工作的Linux桌面系统中可以得到下面的结果: # mount /dev/hda2 on / type ext3 (rw) none on /proc

Hadoop Pipeline详解[摘抄]

最近使用公司内部的一个框架写map  reduce发现没有封装hadoop streaming这些东西,查了下pipeline相关的东西 Hadoop Pipeline详解 20. Aug / hadoop / 1 Comment 一.说明Hadoop 2.x相比较于1.x有了较大的改变,像MapReduce层面架构以及代码基本上是完全重写的,在HDFS层面加入了HA,Federation等特性,代码更加层次化和易读,同时加入的PB初期可能给阅读带来障碍,熟悉之后就没有太大问题了.Pipelin

Hadoop DistributedCache详解

DistributedCache是Hadoop提供的文件缓存工具,它能够自动将指定的文件分发到各个节点上,缓存到本地,供用户程序读取使用.它具有以下几个特点:缓存的文件是只读的,修改这些文件内容没有意义:用户可以调整文件可见范围(比如只能用户自己使用,所有用户都可以使用等),进而防止重复拷贝现象:按需拷贝,文件是通过HDFS作为共享数据中心分发到各节点的,且只发给任务被调度到的节点.本文将介绍DistributedCache在Hadoop 1.0和2.0中的使用方法及实现原理. Hadoop D

[转帖]Linux文件系统详解

Linux文件系统详解 https://www.cnblogs.com/alantu2018/p/8461749.html 贼复杂.. 从操作系统的角度详解Linux文件系统层次.文件系统分类.文件系统的存储结构.不同存储介质的区别(RAM.ROM.Flash).存储节点inode.本文参考: http://blog.chinaunix.net/uid-8698570-id-1763151.html http://www.iteye.com/topic/816268 http://soft.ch

Linux文件系统详解(文件系统层次、分类、存储结构、存储介质、文件节点inode)

从操作系统的角度详解Linux文件系统层次.文件系统分类.文件系统的存储结构.不同存储介质的区别(RAM.ROM.Flash).存储节点inode. 本文参考:http://blog.chinaunix.net/uid-8698570-id-1763151.html http://www.iteye.com/topic/816268 http://soft.chinabyte.com/os/142/12315142.shtml http://www.ibm.com/developerworks/

深入理解Java中的流---结合Hadoop进行详解

在JavaSe的基础课程当中,可以说流是一个非常重要的概念,并且在Hadoop中得到了广泛的应用,本篇博客将围绕流进行深入的详解. (一)JavaSe中流的相关概念 1.流的定义 ①在Java当中,若一个类专门用于数据传输,则这个类称为流 ②流就是程序和设备之间嫁接以来的一根用于数据传输的管道,这个设备可以是本地硬盘,可以是内存条,也可以是网络所关联的另外一台计算机等等,其中不同管道上有不同的按钮,按下不同的按钮相当于调用不同的方法,这根带按钮的用于数据传输的管道就是流,即流就是一根管道 ③流一