HDFS之JAVAAPI

JAVAAPI

上传小文件

代码

上面的例子完成了把一个字符串输出到hdfs中的/test目录中。

原理

见上传大文件的例子

上传大文件

代码

原理

客户端调用FileSystem的create方法创建文件，这个时候会远程调用NameNode，在文件系统的命名空间中创建一个新的文件，NameNode创建新文件时需要执行各种各样的检查，如NameNode是否正常工作，被创建的文件已经存在，客户端是否有在父目录中创建文件的权限等。这些检查都通过以后，NameNode会创建一个新的文件，并记录创建操作到编辑日志edit中。当创建完成一个新的空文件以后，客户端需要向NameNode节点申请数据块，执行addBlock方法。该方法执行成功以后，会返回一个LocatedBlock对象，该对象包含了新数据块的数据块标识和版本号。根据该LocatedBlock对象，客户端就可以和对应的DataNode联系，然后通过写操作，把一个一个Block写入到DataNode中。当写完一个数据包以后，DataNode节点通过调用NameNode节点的DatanodeProtocol远程接口的blockReceived方法，向NameNode提交数据块信息。当把所有的数据写完以后，就会调用close方法关闭流。

创建一个目录

代码

原理

客户端调用HDFS的FileSystem实例，也就是DistributedFileSystem的mkdir方法，该对象通过远程调用NameNode节点上的远程方法mkdir ,让NameNode执行具体的创建子目录操作。在目录树数据结构上的对应位置创建新的目录节点，同时记录这个操作并持久化到日志中。在整个操作期间，客户端和NameNode都不需要和DataNode节点交互。

删除一个文件

代码

原理

同以上的步骤，先在NameNode上执行节点名字的删除，但是DataNode上存放的数据块也必须删除。当NameNode执行delete方法时，它只标记操作涉及的需要被删除的数据块，而不会主动联系这些数据块所在的DataNode节点。当保存着这些数据块的DataNode节点向NameNode节点发送心跳时，在心跳应答里，NameNode节点会向DataNode发出指令，从而把数据删除掉。所以在执行完delete方法后的一段时间内，数据块才能被真正的删除掉。

读文件

代码

原理

客户端通过FileSystem.open()打开文件，在打开文件的时候，实际上创建了一个DFSInputStream输入流，返回给了客户端，客户端使用这个输入流读取数据，在输入流中会通过ClientProtocol.getBlockLocations方法来确定NameNode节点上标识的文件数据块的保存位置(在DataNode节点上)。完成上述步骤，客户端就知道了要读取的文件在哪个DataNode节点上，在哪个数据块中。当执行FSDataInputStream的read方法时，客户端的FSDataInputStream会和最近的数据节点建立联系。

查看某一个文件的具体位置

在这里，通过hdfs.getFileStatus(path)来得到指定路径下的文件的信息，可以得到的信息有

文件的大小、文件的复制集、文件的block、block所在的host，host的名字等信息。

查看datanode节点信息

时间： 2024-12-06 05:22:21

HDFS之JAVAAPI的相关文章

hdfs的javaAPI使用

参考博客:https://www.cnblogs.com/Eddyer/p/6641778.html 1.需求使用hdfs的javaAPI访问hdfs系统. 2.环境配置 (1)hadoop为本地模式 (2)pom文件代码如下 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId>

hdfs深入：08、hdfs的JavaAPI以及如何解决winutils的问题

如果执行hdfs文件操作的时候抛异常 winutils 如何解决: 第一步:把 F:\传智播客大数据离线阶段课程资料\3.大数据离线第三天\解决winutils的问题\hadoop-2.6.0-cdh5.14.0 这个安装包拷贝到一个没有中文没有空格的路径下面去(D:\Develop\hadoop-2.6.0-cdh5.14.0): 第二步:在windows上面配置hadoop的环境变量, PATH中添加:D:\Develop\hadoop-2.6.0-cdh5.14.0: 第三步:D:\Dev

hdfs深入：10、hdfs的javaAPI操作

看到10.hdfs的javaAPI操作, 13分19秒具体代码如下: /** * 递归遍历hdfs中所有的文件路径 */ @Test public void getAllHdfsFilePath() throws URISyntaxException, IOException { //获取fs的客户端 FileSystem fileSystem = FileSystem.get(new URI("hdfs://node01:8020"), new Configuration());

HDFS的JavaAPI

配置windows平台的Hadoop环境在 windows 上做 HDFS 客户端应用开发,需要设置 Hadoop 环境,而且要求是windows 平台编译的 Hadoop,不然会报以下的错误: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop bin

熟练掌握HDFS的Shell访问和JavaAPI访问

HDFS设计的主要目的是对海量数据进行处理,也就是说在其上能够储存很大量文件(可以储存TB级的文件).HDFS将这些文件分割之后,储存在不同的DataNode上,HDFS提供了两种数据访问接口:Shell接口和javaAPI接口,对HDFS里面的文件进行操作. Shell接口 HDFS处理文件的命令和linux命令基本相同,这里区分大小写.下面介绍HDFS操作分布式文件系统的命令. HDFS基本命令 hadoop fs -cmd 其中cmd:具体的操作,基本上与unix的命令相同 args:

利用JavaAPI访问HDFS的文件

body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI",Tahoma,Helvetica,Sans-Serif,"Microsoft YaHei", Georgia,Helvetica,Arial,sans-serif,宋体, PMingLiU,serif; font-size: 10.5pt; line-height: 1.5;}

hadoop的hdfs中的javaAPI操作

package cn.itcast.bigdata.hdfs; import java.net.URI; import java.util.Iterator; import java.util.Map.Entry; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache

【hadoop】使用javaAPI对hdfs进行文件操作

前提:1.搭建好hadoop伪分布式环境:2.安装好eclipse: 注:修改 /etc/hosts 添加 “本机IP hadoop01” , 那么代码中创建hdfs文件系统的时候的URI hdfs://hadoop01:9000 相当于 hdfs://hadoop服务器ip(例如:192.168.1.1XX):9000 import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOExcep

通过javaAPI上传文件到HDFS文件系统

import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.InputStream; import java.io.OutputStream; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.h

猜你喜欢

is_numeric()

is_numeric()用来判断是否是数字和数字字符串.如果是则返回true,如果不是则返回false. 如果过度的依赖这个函数是很不安全的. 1.如果输入为16进制时,可绕过is_numeric() ...

解决PHP Redis扩展无法加载的问题

最近在工作中需要使用PHP访问Redis,从https://github.com/phpredis/phpredis下载了phpredis,并且按照官方的说明进行了安装 phpize ./config ...

Hyperledger Fabric-CA学习

p { margin-bottom: 0.25cm; line-height: 120% } a:link { } Hyperleder Fabric系统架构核心逻辑包括MemberShip.Bloc ...

邓_ php SESSION

学会php session可以在很多地方使用,比如做一个后台登录的功能,要让程序记住用户的session,其实很简单,看了下面的文章你就明白了. PHP session用法其实很简单它可以把用户提交的 ...

数据结构课程笔记_拓扑排序

何谓拓扑排序? 由某个集合上的一个偏序得到该集合上的一个全序,这个操作叫做拓扑排序. 如何得到一个有向图的拓扑排序? 按照有向图给出的次序关系,将图中顶点排成一个线性序列,对于有向图中没有限定次序关系 ...

关于安卓的回调方法

Activity 类中定义了七个回调方法,覆盖了活动生命周期的每一个环节,下面我来一一介绍下这七个方法.1. onCreate()这个方法你已经看到过很多次了,每个活动中我们都重写了这个方法,它会在活 ...

MAC OSX 下安装 CTAGS

由于本子跟风换了骚货MBP,因而开发要迁移到MAC OSX下,mac os 下的ctags不一样,所以需要自己编译一个 Lion内置了ctags,但是不我所需要,因此得在网上去弄,最新的版本是 5.8 ...

POJ 1840 Brainman（逆序对数）

题目链接:http://poj.org/problem?id=1804 题意:给定一个序列a[],每次只允许交换相邻两个数,最少要交换多少次才能把它变成非递降序列. 思路:题目就是要求逆序对数,我们知 ...

360是怎样盈利的（整理）

1.如今主要是风险投资支持着,还有一个基本的收入来源是推销杀毒软件,比方当年卡巴斯基就是靠360给推广开来的,听说360每为卡巴斯基带来一个用户就能从卡巴斯基那里得到0.5元,眼下360上的广告非常 ...

工作中总结的常用PHP代码

[目录] ◆PHP常用的代码 ◆HTML常用代码 [值传递和引用传递] [单例模式] [魔术常量] [代码调试(自定义一个简单的debug函数)] [thinkphp多表查询] [获取客户端IP地 ...

说说这些年做的云计算和大数据项目

入行十几年了,做了不少分布计算.并行计算.内存计算.海量数据处理的项目,按照现在的分类,这些都属于云计算/大数据范畴.今天说说我做过的其中三个项目,只三个. 第一个是我们接到的视频分享 ...

Big Spatio temporal Data(R-tree Index and NN & RNN & Skyline)

一.简单介绍大数据技术产物 “大数据”一词首先出现在2008年9月<Nature>杂志发表的一篇名为“Big Data: Wikiomics”的文章上(Mitch,2008).“大数据科学 ...

update-alternatives命令

查看Java命令的位置找到/etc/alternatives/java的软链接位置它使我们可以看到一个命令的所有可选命令.执行代码: alternative的状态有两种:自动和手动.每个alter ...

Spark简述及基本架构

Spark简述 Spark发源于美国加州大学伯克利分校AMPLab的集群计算平台.它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库.流处理和图计算等多种计算范式. 特点: 1.轻 Spark ...

Web 使用反射获得一个对象的所有get方法：

问题描述: 由于想知道request中包含哪些getter方法,就想通过反射进行遍历,然后输出,结果异常,异常信息: 问题代码: try { outGetter(request); } catch ( ...

H5-音频列表音乐切换

1 <!DOCTYPE html> 2 <html lang="en"> 3 <head> 4 <meta charset="U ...

QT小技巧—更好管理项目（增加预编译头文件，并且指定moc文件的生成位置）good

预编译加速编译 QT也可以像VS那样使用预编译头文件来加速编译器的编译速度.首先在.pro文件中加入: CONFIG += precompiled_header 然后定义需要预编译的头文件: PREC ...

转： The Swift Programming Language--语言指南--基础部分

转自:http://www.cocoachina.com/ios/20140612/8776.html Swift系列文章翻译自苹果的官方文档:The Swift Programming Langua ...

8.24-8.31 Back-to-School Gift:7% off rs07 gp for Fossil Island

What I absolutely wish admitting is for them to yield the befalling of creating rs 2007 gold a mural ...

如何用一个糟糕的流程毁掉你的公司

我是技术创始人经营自己公司的坚持支持者,但是技术创始人一直以来的一种做法给自身企业造成了极大的伤害,这种做法就是把预算编制过程搞砸.是的,编预算.很荒谬吧.怎么会这样?为什么说对于工程师来说这个问题特 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.034 s.