Hadoop核心组件:四步通晓HDFS

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统,它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序,那么在实际应用中我们如何来操作使用呢?

一、HDFS操作方式:

1、  命令行操作

–FsShell:
$ hdfs dfs

2、 其他的计算框架-如spark

通过URI,比如: hdfs://nnhost:port/file…,调用HDFS的协议、主机、端口或者对外提供的服务媒、以及文件,在spark的程序中实现对HDFS的访问。

3、  其他程序:

(1)Java的API,借助于其他的一些计算框架或者分析工具都可以访问HDFS,如Sqoop加载数据到HDFS,Flume加载日志到HDFS,Impala基于HDFS进行查询

(2)REST API:通过HTP的方式访问HDFS。

二、重点关注HDFS命令行的方式:

(1)从本地磁盘拷贝文件foo.txt到HDFS的用户目录

–   文件将会拷贝到/user/username/foo.txt

(2)获取用户home目录的目录列表

(3)获取HDFS的根目录

(4)显示HDFS文件/user/fred/bar.txt内容

(5)拷贝文件到本地磁盘,命名为baz.txt

(6)在用户home目录下创建input目录

(7)删除input_old目录和所有里面的内容

三、通过HUe进行操作。

通过File Browser可以浏览和管理HDFS的目录和文件,也可以创建、移动、重命名、修改、上传、下载和删除目录和文件,以及查看文件内容

四、HDFS推荐

HDFS是所有数据的仓库,在使用HDFS的时候应该对其目录(如日志目录、数据目录)进行合理地规划和组织。最佳实践方式是定义标准目录结构以及把阶段临时的数据分开。规划示例如下:

(1)/user-用户目录,存放属于个别用户的数据和配置信息

(2)/etl-ETL阶段的数据

(3)/tmp-临时生成的用户在用户间共享的数据

(4)/data-整个组织用来分析的和处理的数据集

(5)/app-非数据文件,比如:配置文件,JAR文件,SQL文件等

掌握以上四步对于应用HDFS有着重要的作用和意义,但是大家应该根据自己的情况循序渐进,注重实践,才可以不断取得进步。我平时喜欢找一些案例进行分析,从而锻炼提升自己的技能,这个比较喜欢“大数据cn ”这个微信服务平台。但是真知更多源于实践,只有学习和了解他人的经验,才可以走的更高更远,我爱关注微信订阅号“大数据时代学习中心”,研究各位数据大牛的经验分享,对于促进我个人的技术成长有着非凡的意义。

时间: 2024-10-29 10:47:47

Hadoop核心组件:四步通晓HDFS的相关文章

王家林的云计算分布式大数据Hadoop征服之旅:HDFS&MapReduce&HBase&Hive&集群管理

一:课程简介: 作为云计算实现规范和实施标准的Hadoop恰逢其时的应运而生,使用Hadoop用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的.高效,的.可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择. 本课程会助你深入浅出的掌握Hadoop开发(包括HDFS.MapReduce.HBase.Hive等),并且在此基础上掌握Hadoop集群的配置.维

HADOOP docker(四):安装hive

1.hive简介2.安装hive2.1 环境准备2.1.1 下载安装包2.1.2 设置hive用户的环境变量2.1.3 hive服务端配置文件2.1.4 hive客户端配置文件2.1.4 分发hive配置文件2.2 启动hive2.2.1 初始化数据库2.2.2 创建HDFS目录2.2.3 启动hive3.总结 getting start: https://cwiki.apache.org/confluence/display/Hive/GettingStarted hive wiki: htt

Hadoop(四)——编程核心MapReduce(上)

上篇讲述了Hadoop的核心内容之一HDFS,是Hadoop分布式的平台基础,而这讲的MapReduce则是充分利用Hdfs分布式,提高运行效率的算法模型 ,Map(映射)和Reduce(归约)两个主要阶段都以<key,value>键值对作为输入和输出,我们需要做的就是对这些<key,value>做我们想要的处理.看似简单实则麻烦,因为这里太灵活多变. 一,好,首先来看下边两个图,看下mapreduce在Hadoop中的执行流程,以及mapreduce内部的执行流程: 以分析气象数

OpenStack部署到Hadoop的四种方案

随着企业开始同时利用云计算和大数据技术,现在应当考虑如何将这些工具结合使用.在这种情况下,企业将实现最佳的分析处理能力,同时利用私有云的快速弹性 (rapid elasticity) 和单一租赁的特性.如何协同效用和实现部署,是本文希望解决的问题. 一些基础知识 第一是OpenStack .作为目前最流行的开源云版本,它包括控制器.计算 (Nova).存储 (Swift).消息队列 (RabbitMQ) 和网络 (Quantum) 组件.图 1 提供了这些组件的一个图示(不包含 Quantum

只需四步,帮助企业做好MaxCompute成本优化

摘要: 阿里云在和很多企业交流的过程中发现他们在使用MaxCompute的时候往往会遇到一些成本相关的问题,而在与客户不但交流沟通的过程中,阿里云在成本优化方面也积累了大量的经验,因此也希望能够将这些经验沉淀下来分享给更多的企业和开发者,本文就将与大家分享帮助企业做好MaxCompute成本优化的"四步走"战略. 摘要:阿里云在和很多企业交流的过程中发现他们在使用MaxCompute的时候往往会遇到一些成本相关的问题,而在与客户不但交流沟通的过程中,阿里云在成本优化方面也积累了大量的经

如何学好编程(三)----四步成为编程精英

如何才能在编程领域迅速牛起来呢?要想成为编程达人,可以分为四步走. 第一步:海量观摩与学习,快速找到章法. 编程需要很多的知识,不同的语言有不同的语法,有不同的应用环境.学习编程的第一步,就是我们各种编程的基础知识,包括数据结构,基础语法,网络知识概念等.然后通过别人写的例子进行学习,快速理解各种语法规则等.简单点,就是多看书,多学习. 第二步:找机会大量练手,以数量取胜 编程是需要大量实践的,理论再好,不会动手也不可以.当你在第一步的基础上时,你通过海量的观摩和学习,现在就是要讲你学习的给输出

java入门第四步之应用服务器的安装(Tomcat)【转】

首先打开myeclipse,在myeclipse菜单栏下面有两个按钮: 左边的按钮是进行项目的部署的(即将项目部署到服务器上),右边的按钮是进行服务器的启动的,如果你安装了tomcat服务器,那你就可以在右边按钮点击的下拉框中 找到对应的服务器, 下面我来介绍下Tomcat服务器的安装(也不能叫安装,就是引入下): 点击菜单栏的Window---->选择Preferences----->在左边的菜单栏中选择MyEclipse---->servers----->tomcat 然后根据

四步让你的网站秒开,wordpress框架为例子,其他框架道理类似

我这里以wordpress框架制作的网站为例子,效果可以看看我的网站,香港的垃圾主机199一年2M带宽,速度也能秒开,不信试试效果33小游戏 我的是wordpress制作的网站,大家都知道WP各种臃肿卡慢,其实这些都是可以改进的,关于如何google字体和Gravatar头像被墙和精简臃肿的头部方法不做解释,自行百度. 第一步:图片压缩,延迟加载.这个给个图片超级压缩网站https://tinypng.com/图片质量基本不变,能少一半大小.其次是延迟加载,特别是内容站建议不      要一次性

四步完成ajax的使用

什么是ajax? ajax(异步javascript xml) 能够刷新局部网页数据而不是重新加载整个网页. 如何使用ajax? 第一步,创建xmlhttprequest对象,var xmlhttp =new XMLHttpRequest();XMLHttpRequest对象用来和服务器交换数据.var xhttp;if (window.XMLHttpRequest) { //现代主流浏览器 xhttp = new XMLHttpRequest(); } else { //  针对浏览器,比如I