HDFS文件的一些操作

1. hadoop fs -ls  可以查看HDFS文件

后面不加目录参数的话,默认当前用户的目录。/user/当前用户

$ hadoop fs -ls
16/05/19 10:40:10 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 3 items
drwxr-xr-x   - yy yy          0 2016-04-24 08:00 .Trash
drwx------    - yy yy          0 2016-05-06 06:00 .staging
drwxr-xr-x   - yy yy          0 2016-05-06 06:00 oozie-oozi

也可以加目录,显示指定目录的HDFS文件。

$ hadoop fs -ls /user/yy
16/05/19 10:44:07 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 3 items
drwxr-xr-x   - yy yy          0 2016-04-24 08:00 /user/yy/.Trash
drwx------    - yy yy          0 2016-05-06 06:00 /user/yy/.staging
drwxr-xr-x   - yy yy          0 2016-05-06 06:00 /user/yy/oozie-oozi

2. hadoop fs -mkdir 可以创建文件夹

$ hadoop fs -mkdir upload 

hadoop fs –rmr  可以删除文件夹/文件

3. hadoop fs -put 可以上传本机的HDFS文件

hadoop fs -put  pc/*  upload

hadoop fs -get 可以把HDFS的文件下载到本机

hadoop fs -put   upload/collect_20160518.txt   /home/yy

4. hadoop fs -cat 可以读取HDFS文件

$ hadoop fs  -cat  upload/collect_20160515.txt|head -10

5. HDFS 和hive表

查看分区: show partitions 表名;

external 外部分区表:

1)HDFS文件,要按分区存储,比如下面,分区为dt,对应的是2016-05-19下面的文件。

/user/yy/upload/wireless/2016-05-19

2)创建external表指向该存储(分区的上一层)

drop table if exists external_weblog_wireless;
create external table external_weblog_wireless
(
thedate string,
time_stamp string,
url_title string
)
partitioned by (dt string)
row format delimited fields terminated by ‘,‘
stored as textfile location ‘/user/yy/upload/wireless/‘;

3)添加新分区,指向分区目录

alter table external_weblog_wireless add partition (dt=‘2016-05-19‘) location ‘/user/yy/upload/wireless/2016-05-19‘;

4) 这种外部表分区存储,很适合增量数据。

external外部非分区表:

直接指向存储的最终location,建表即生成了数据表。

drop table if exists external_weblog_wireless;
create external table external_weblog_wireless
(
thedate string,
time_stamp string,
url_title string
)
partitioned by (dt string)
row format delimited fields terminated by ‘,‘
stored as textfile location ‘/user/yy/upload/wireless/2016-05-19‘;
时间: 2024-10-15 22:11:46

HDFS文件的一些操作的相关文章

HDFS文件操作

hadoop装好后,文件系统中没有任何目录与文件 1. 创建文件夹 hadoop fs -mkdir -p /hkx/learn 参数-p表示递归创建文件夹 2. 浏览文件 hadoop fs -ls / 3. 上传本地文件到HDFS hadoop fs -put word.txt /hkx/learn 4. 查看文件 hadoop fs -cat /hkx/learn/word.txt HDFS Shell命令介绍文章很多,这里就不一一列举了,引用一篇文章来介绍:https://segment

Hadoop之HDFS文件操作

摘要:Hadoop之HDFS文件操作常有两种方式,命令行方式和JavaAPI方式.本文介绍如何利用这两种方式对HDFS文件进行操作. 关键词:HDFS文件    命令行     Java API HDFS是一种分布式文件系统,为MapReduce这种框架下的海量数据分布式处理而设计. Hadoop之HDFS文件操作常有两种方式,一种是命令行方式,即Hadoop提供了一套与Linux文件命令类似的命令行工具:另一种是JavaAPI,即利用Hadoop的Java库,采用编程的方式操作HDFS的文件.

Hadoop学习笔记0002——HDFS文件操作

  说明:Hadoop之HDFS文件操作常有两种方式,命令行方式和JavaAPI方式. 方式一:命令行方式 Hadoop文件操作命令形式为:hadoop fs -cmd <args> 说明:cmd是具体的文件操作命令,<args>是一组数目可变的参数. Hadoop最常用的文件操作命令,包括添加文件和目录.获取文件.删除文件等. 1 添加文件和目录 HDFS有一个默认工作目录/usr/$USER,其中$USER是你的登录用户名,作者的用户名是root.该目录不能自动创建,需要执行m

Hadoop HDFS文件常用操作及注意事项

1.Copy a file from the local file system to HDFS The srcFile variable needs to contain the full name (path + file name) of the file in the local file system. The dstFile variable needs to contain the desired full name of the file in the Hadoop file s

hadoop的Hive操作hdfs文件第一天

hive的具体练习以下4个目标1. 第一普通的hdfs文件能导入到hive中以供我们查询. create table dept(deptID int,deptName string,address string); load data local inpath '/home/dyq/Documents/dept' overwrite into table dept; select * from dept; hive> select * from dept; OK NULL NULL NULL N

HDFS的命令行操作

1.namenode –format:格式化DFS 文件系统 2.secondaryNameNode: 运行DFS的 SecondaryNameNode 进程 hadoop secondarynamenode [-checkpoint  [force]] //当 EditLog超过规定大小( 默认64MB)时,启动检查 secondarynamenode的checkpoint 过程:如果启用 force选项,则强制执行checkpoint过程. [-geteditsize]           

【大数据系列】HDFS文件权限和安全模式、安装

HDFS文件权限 1.与linux文件权限类型 r:read w:write x:execute权限x对于文件忽略,对于文件夹表示是否允许访问其内容 2.如果linux系统用户sanglp使用hadoop命令创建一个文件,那么这个文件在HDFS中owner就是sanglp 3.HDFS的权限目的:阻止好人做错事,而不是阻止坏人做坏事. 安全模式 1. namenode启动的时候,首先将映像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项操作. 2. 一旦在内存中成功建立文件系

HDFS的基本shell操作

(1)分布式文件系统 随着数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 .它是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间. 而它最主要的特性就是通透性.让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般.即使系统中有某些节点脱机,整体来说系统仍然可以持续运作而不会有数据损失 分布式文件管理系

HDFS体系结构及shell操作

一.hadoop1.1.0的介绍 hadoop是适合大数据的分布式存储和计算的平台 hadoop核心组成由hdfs和mapreduce组成 hdfs是主从式结构,主节点只有一个,是namenode:从节点有很多个 分布式文件系统与HDFS (HDFS体系结构与基本概念) Distributed File System 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上  的文件,这就是分布式文件管理