HDFS文件系统空间使用情况分析

1、查看集群的空间使用状态

[[email protected] bin]$ ./hdfs dfsadmin -report

Configured Capacity: 8453768839168 (7.69 TB)

Present Capacity: 7959274510394 (7.24 TB)

DFS Remaining: 4128882869718 (3.76 TB)

DFS Used: 3830391640676 (3.48 TB)

DFS Used%: 48.12%

Under replicated blocks: 18

Blocks with corrupt replicas: 0

Missing blocks: 0

Missing blocks (with replication factor 1): 0

-------------------------------------------------

Live datanodes (5):

Name: 192.168.11.137:50010 (slave5)

Hostname: slave5

Decommission Status : Normal

Configured Capacity: 1056617381888 (984.05 GB)

DFS Used: 736041209958 (685.49 GB)

Non DFS Used: 66876043079 (62.28 GB)

DFS Remaining: 253700128851 (236.28 GB)

DFS Used%: 69.66%

DFS Remaining%: 24.01%

Configured Cache Capacity: 0 (0 B)

Cache Used: 0 (0 B)

Cache Remaining: 0 (0 B)

Cache Used%: 100.00%

Cache Remaining%: 0.00%

Xceivers: 30

Last contact: Tue Jul 03 15:06:51 CST 2018

Name: 192.168.11.134:50010 (slave2)

Hostname: slave2

Decommission Status : Normal

Configured Capacity: 2113511358464 (1.92 TB)

DFS Used: 749551308902 (698.07 GB)

Non DFS Used: 120793546401 (112.50 GB)

DFS Remaining: 1243166503161 (1.13 TB)

DFS Used%: 35.46%

DFS Remaining%: 58.82%

Configured Cache Capacity: 0 (0 B)

Cache Used: 0 (0 B)

Cache Remaining: 0 (0 B)

Cache Used%: 100.00%

Cache Remaining%: 0.00%

Xceivers: 23

Last contact: Tue Jul 03 15:06:50 CST 2018

Name: 192.168.11.133:50010 (slave1)

Hostname: slave1

Decommission Status : Normal

Configured Capacity: 2113511358464 (1.92 TB)

DFS Used: 792363753676 (737.95 GB)

Non DFS Used: 118847225403 (110.69 GB)

DFS Remaining: 1202300379385 (1.09 TB)

DFS Used%: 37.49%

DFS Remaining%: 56.89%

Configured Cache Capacity: 0 (0 B)

Cache Used: 0 (0 B)

Cache Remaining: 0 (0 B)

Cache Used%: 100.00%

Cache Remaining%: 0.00%

Xceivers: 21

Last contact: Tue Jul 03 15:06:50 CST 2018

Name: 192.168.11.135:50010 (slave3)

Hostname: slave3

Decommission Status : Normal

Configured Capacity: 2113511358464 (1.92 TB)

DFS Used: 752023101542 (700.38 GB)

Non DFS Used: 121481747963 (113.14 GB)

DFS Remaining: 1240006508959 (1.13 TB)

DFS Used%: 35.58%

DFS Remaining%: 58.67%

Configured Cache Capacity: 0 (0 B)

Cache Used: 0 (0 B)

Cache Remaining: 0 (0 B)

Cache Used%: 100.00%

Cache Remaining%: 0.00%

Xceivers: 26

Last contact: Tue Jul 03 15:06:50 CST 2018

Name: 192.168.11.136:50010 (slave4)

Hostname: slave4

Decommission Status : Normal

Configured Capacity: 1056617381888 (984.05 GB)

DFS Used: 800412266598 (745.44 GB)

Non DFS Used: 66495765928 (61.93 GB)

DFS Remaining: 189709349362 (176.68 GB)

DFS Used%: 75.75%

DFS Remaining%: 17.95%

Configured Cache Capacity: 0 (0 B)

Cache Used: 0 (0 B)

Cache Remaining: 0 (0 B)

Cache Used%: 100.00%

Cache Remaining%: 0.00%

Xceivers: 30

2、分析192.168.11.133

$ df -h

Filesystem            Size  Used Avail Use% Mounted on

/dev/mapper/VolGroup00-LVroot

17G   12G  4.9G  70% /

tmpfs                 7.8G     0  7.8G   0% /dev/shm

/dev/sda1             190M  125M   56M  70% /boot

/dev/mapper/VolGroup00-LVhome

477M  2.4M  449M   1% /home

/dev/mapper/VolGroup00-LVcloud

2.9G  247M  2.5G   9% /opt/cloud

/dev/mapper/VolGroup00-LVtmp

7.8G   19M  7.4G   1% /tmp

/dev/mapper/VolGroup00-LVvar

25G  786M   23G   4% /var

/dev/mapper/VolGroup1-LVdata1

985G  384G  551G  42% /data

/dev/mapper/VolGroup2-LVdata2

985G  365G  570G  40% /data2

数据统计:

/data和/data2为数据存放目录

总的容量 = 985G + 985G = 1970G = 1.92T

已使用容量 = 384G + 365G = 749G

未使用容量 = 551G + 570G = 1121G

未显示容量 = 1970G - (749G + 1121G)= 100G

/data目录中的hadoop和hbase的解压文件占用10G左右

dfs文件系统分析:

Name: 192.168.11.133:50010 (slave1)

Hostname: slave1

Decommission Status : Normal

Configured Capacity: 2113511358464 (1.92 TB)

DFS Used: 792363753676 (737.95 GB)

Non DFS Used: 118847225403 (110.69 GB)

DFS Remaining: 1202300379385 (1.09 TB)

DFS Used%: 37.49%

DFS Remaining%: 56.89%

Configured Cache Capacity: 0 (0 B)

Cache Used: 0 (0 B)

Cache Remaining: 0 (0 B)

Cache Used%: 100.00%

Cache Remaining%: 0.00%

Xceivers: 21

Last contact: Tue Jul 03 15:06:50 CST 2018

说明解析:

Configured Capacity:配置容量

DFS Used:DFS已使用的容量

Non DFS Used:非DFS使用的容量

DFS Remaining:DFS剩余的容量

数据统计:

Configured Capacity = 1.92 TB = 1970 GB

DFS Used = 737.95 GB

Non DFS Used = 110.69 GB

DFS Remaining = 1.09 TB = 1116.16 GB

DFS Used + Non DFS Used + DFS Remaining = 737.95 GB +  110.69 GB +  1116.16 GB = 1964.8 GB = Configured Capacity

所以得出结果:

du -h和./hdfs dfsadmin -report显示的容量对应关系为:

总的容量 ---> Configured Capacity

已使用容量 ---> DFS Used

未使用容量 ---> DFS Remaining

未显示容量 + /data下非dfs文件 ---> Non DFS Used

非dfs文件指的是不是同过dfs文件系统上传的文件,通过mv、cp等方式传输的文件。

统计192.168.11.136和192.168.11.133类似。

3、寻找消失的100G

Non DFS Used占用了110.69GB,/data下非dfs文件有10GB左右,那么剩下的100GB去哪了?

查看保留空间

# tune2fs -l /dev/mapper/VolGroup1-LVdata1

Reserved block count:     13107148

13107148 * 4 / 1024 /1024 = 49.99

# tune2fs -l /dev/mapper/VolGroup2-LVdata2

Reserved block count:     13107148

13107148 * 4 / 1024 /1024 = 49.99

消失的100G就是两个分区的保留空间之和

参考:

https://community.hortonworks.com/questions/42122/hdfs-non-dfs-used.html

https://stackoverflow.com/questions/18477983/what-exactly-non-dfs-used-means

原文地址:http://blog.51cto.com/xiaoxiaozhou/2139311

时间: 2024-08-29 08:28:48

HDFS文件系统空间使用情况分析的相关文章

在Spark shell中基于HDFS文件系统进行wordcount交互式分析

Spark是一个分布式内存计算框架,可部署在YARN或者MESOS管理的分布式系统中(Fully Distributed),也可以以Pseudo Distributed方式部署在单个机器上面,还可以以Standalone方式部署在单个机器上面.运行Spark的方式有interactive和submit方式.本文中所有的操作都是以interactive方式操作以Standalone方式部署的Spark.具体的部署方式,请参考Hadoop Ecosystem. HDFS是一个分布式的文件管理系统,其

分析oracle索引空间使用情况,以及索引是否须要重建

分析索引空间使用情况.以及索引是否须要重建 分析其它用户下的索引须要 analyze any的权限 分析索引前先查看表的大小和索引的大小,假设索引大小和表大小一样大或者大于表的大小,那么能够推断索引可能有问题.须要分析索引 查询对象大小: select owner,segment_name,segment_type,bytes/1024/1024 from dba_segments order by 4 desc 1.分析索引 SQL> analyze index AA.INDEX_AA val

分析oracle索引空间使用情况,以及索引是否需要重建

分析索引空间使用情况,以及索引是否需要重建 分析其他用户下的索引需要 analyze any的权限 分析索引前先查看表的大小和索引的大小,如果索引大小和表大小一样大或者大于表的大小,那么可以判断索引可能有问题,需要分析索引 查询对象大小: select owner,segment_name,segment_type,bytes/1024/1024 from dba_segments order by 4 desc 1.分析索引 SQL> analyze index AA.INDEX_AA val

Linux 指令详解 df 检查文件系统的磁盘空间使用情况

指令:df 检查文件系统的磁盘空间使用情况 可以查看所有已挂载磁盘的总容量.使用空间.剩余空间.挂载位置等 语法:# df [OPTION] [FILE] FILE是一个或多个路径名的可选列表,如选择这项则显示文件所在的文件系统的磁盘使用情况 Ps: 1:所有用户均有使用df命令的权限 2:默认情况下以1KB为单位显示磁盘空间 3:默认显示当前所有被挂载的文件系统的可用空间 4:超级权限用户使用df命令时会发现某个分区的容量会超过100%,原因如下: Linux系统为超级用户保留了10%的空间.

df和du显示的磁盘空间使用情况不一致的原因及处理

在Linux下查看磁盘空间使用情况,最常使用的就是du和df了.然而两者还是有很大区别的,有时候其输出结果甚至非常悬殊. 1. 如何记忆这两个命令 du-Disk Usage df-Disk Free 2. df 和du 的工作原理 2.1 du的工作原理 du命令会对待统计文件逐个调用fstat这个系统调用,获取文件大小.它的数据是基于文件获取的,所以有很大的灵活性,不一定非要针对一个分区,可以跨越多个分区操作.如果针对的目录中文件很多,du速度就会很慢了. 2.2 df的工作原理 df命令使

HDFS数据加密空间--Encryption zone

前言 之前写了许多关于数据迁移的文章,也衍生的介绍了很多HDFS中相关的工具和特性,比如DistCp,ViewFileSystem等等.但是今天本文所要讲的主题转移到了另外一个领域数据安全.数据安全一直是用户非常重视的一点,所以对于数据管理者,务必要做到以下原则: 数据不丢失,不损坏,数据内容不能被非法查阅. 本文所主要描述的方面就是上面原则中最后一点,保证数据不被非法查阅.在HDFS中,就有专门的功能来做这样的事情,Encryption zone,数据加密空间, Encryption zone

浅谈Hadoop下HDFS文件系统

Hadoop下HDFS文件系统 在这里我们对Hadoop的基本概念,历史功能就不做过多的阐述,重点在对于他的文件系统做一些了解和阐述. HDFS(Hadoop distributed file system)是一个分布式文件系统.具有高容错性(fault-tolerant),使得他能够部署在低廉的硬件上.他可以提供高吞吐率来访问应用程序的数据.HDFS放宽了可移植操作系统接口的要求.这样就可以实现以流式的形式来访问文件系统的数据. HDFS的设计目标: 检测和快速回复硬件故障 流式的数据访问 简

诡异的磁盘空间100%报警分析得出df -h与du -sh的根本性差别

前言:早晨磁盘报警刚清空完tomcat和nginx日志,使用的命令是类似echo "" > show_web-error.log或者> show_web-debug.log清空语句,然后rm -rf 掉一些tar.gz包,空出来30G空间.而且也关闭了tomcat的debug信息.刚刚又接到报警,磁盘100%了.怎么回事??1,进去df -h下,确实100%了,如下所示:[[email protected] ~]# df -h文件系统              容量  已用

利用开源日志收集软件fluentd收集日志到HDFS文件系统中

说明:本来研究开源日志的系统是flume,后来发现配置比较麻烦,网上搜索到fluentd也是开源的日志收集系统,配置简单多了,性能不错,所以就改研究这个东东了!官方主页,大家可以看看:fluentd.org,支持300+的plugins,应该是不错的! fluentd是通过hadoop中的webHDFS与HDFS进行通信的,所以在配置fluentd时,一定要保证webHDFS能正常通信,和通过webHDFS写数据到hdfs中! 原理图如下: webHDFS的相关配置与测试,请看这篇文章:http