Hadoop回收站及fs.trash参数详解

前言：

Linux系统里，个人觉得最大的不方便之一就是没有回收站的概念。rm -rf很容易造成极大的损失。而在Hadoop或者说HDFS里面，有trash(回收站)的概念，可以使得数据被误删以后，还可以找回来。

Hadoop里的trash选项默认是关闭的，所以如果要生效，需要提前将trash选项打开，修改conf里的core-site.xml即可，下面我们测试下开启前后的区别：

1.不启用trash

[[email protected] ~]$ hdfs dfs -put test.log /
[[email protected] ~]$ hdfs dfs -ls /
Found 3 items
-rw-r--r--   1 hadoop supergroup         34 2018-05-23 16:49 /test.log
drwx------   - hadoop supergroup          0 2018-05-19 15:48 /tmp
drwxr-xr-x   - hadoop supergroup          0 2018-05-19 15:48 /user
# 删除test.log 注意提示
[[email protected] ~]$ hdfs dfs -rm -r /test.log
Deleted /test.log
# 重新查看 发现test.log被删除
[[email protected] ~]$ hdfs dfs -ls /
Found 2 items
drwx------   - hadoop supergroup          0 2018-05-19 15:48 /tmp
drwxr-xr-x   - hadoop supergroup          0 2018-05-19 15:48 /user

2.启用trash

[[email protected] hadoop]$ pwd
/opt/software/hadoop-2.8.1/etc/hadoop
# 增加fs.trash参数配置 开启trash(进程不需重启)
[[email protected] hadoop]$ vi core-site.xml
    <property>
        <name>fs.trash.interval</name>
        <value>1440</value>
    </property>
    <property>
        <name>fs.trash.checkpoint.interval</name>
        <value>1440</value>
    </property>
# fs.trash.interval是在指在这个回收周期之内，文件实际上是被移动到trash的这个目录下面，而不是马上把数据删除掉。等到回收周期真正到了以后，hdfs才会将数据真正删除。默认的单位是分钟，1440分钟=60*24，刚好是一天;fs.trash.checkpoint.interval则是指垃圾回收的检查间隔，应该是小于或者等于fs.trash.interval。
# 参考官方文档：http://hadoop.apache.org/docs/r2.8.4/hadoop-project-dist/hadoop-common/core-default.xml 

[[email protected] ~]$ hdfs dfs -put test.log /
[[email protected] ~]$ hdfs dfs -ls /
Found 3 items
-rw-r--r--   1 hadoop supergroup         34 2018-05-23 16:54 /test.log
drwx------   - hadoop supergroup          0 2018-05-19 15:48 /tmp
drwxr-xr-x   - hadoop supergroup          0 2018-05-19 15:48 /user
# 删除test.log 注意提示的不同
[[email protected] ~]$ hdfs dfs -rm -r /test.log
18/05/23 16:54:55 INFO fs.TrashPolicyDefault: Moved: ‘hdfs://192.168.6.217:9000/test.log‘ to trash at: hdfs://192.168.6.217:9000/user/hadoop/.Trash/Current/test.log
# 发现删除的文件在回收站里
[hadoo[email protected] ~]$ hdfs dfs -ls /user/hadoop/.Trash/Current
Found 1 items
-rw-r--r--   1 hadoop supergroup         34 2018-05-23 16:54 /user/hadoop/.Trash/Current/test.log
# 恢复误删除的文件
[[email protected] ~]$ hdfs dfs -mv /user/hadoop/.Trash/Current/test.log /test.log
[[email protected] ~]$ hdfs dfs -ls /
Found 3 items
-rw-r--r--   1 hadoop supergroup         34 2018-05-23 16:54 /test.log
drwx------   - hadoop supergroup          0 2018-05-19 15:48 /tmp
drwxr-xr-x   - hadoop supergroup          0 2018-05-19 15:48 /user

原文地址：http://blog.51cto.com/10814168/2119624

时间： 2024-10-16 16:21:41

Hadoop回收站及fs.trash参数详解的相关文章

hadoop 学习笔记：mapreduce框架详解

hadoop 学习笔记:mapreduce框架详解开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习 hdfs时候我就发现,要理解hadoop框架的意义,hdfs和mapreduce是密不

day01_linux中与Oracle有关的内核参数详解

linux中与Oracle有关的内核参数详解在安装Oracle的时候需要调整linux的内核参数,但是各参数代表什么含义呢,下面做详细解析. Linux安装文档中给出的最小值: fs.aio-max-nr = 1048576 fs.file-max = 6815744 kernel.shmall = 2097152 kernel.shmmax = 4294967295 kernel.shmmni = 4096 kernel.sem = 250 32000 100 128 net.ipv4.ip

LINUX下ORACLE相关的内核参数详解

ORACLE相关的内核参数详解 1.kernel.sem [[email protected] ~]# cat /proc/sys/kernel/sem 250 32000 100 142 [[email protected] ~]# ipcs -sl ------ Semaphore Limits -------- max number of arrays = 142 max semaphores per array = 250 max semaphor

Linux系统IO分析工具之iotop参数详解（查看IO占用）

这篇文章主要介绍了Linux系统IO分析工具之iotop参数详解(查看IO占用),本文着重注解了iotop工具的参数,以及可操作命令,需要的朋友可以参考下简介: iotop – simple top-like I/O monitoriotop是一个用来监视磁盘I/O使用状况的 top 类工具,可监测到哪一个程序使用的磁盘IO的信息(requires 2.6.20 or later) 安装: 复制代码代码如下: yum -y install iotop 用法: 复制代码代码如下: iotop

linux中与Oracle有关的内核参数详解

工作当中遇到oracle运行时CPU占用率达到90%以上,调小以下参数值后恢复正常. fs.file-max = 65536 net.core.rmem_default=262144 net.core.rmem_max=262144 net.core.wmem_default=262144 net.core.wmem_max=262144 在安装Oracle的时候需要调整linux的内核参数,但是各参数代表什么含义呢,下面做详细解析. Linux安装文档中给出的最小值: fs.aio-max-n

带你玩转Logview: MaxCompute Logview参数详解和问题排查

摘要: 对于Logview上的诸多参数信息,究竟应该怎么"拨开云雾",发现问题所在呢?又如何通过Logview了解每个instance.task运行状态及资源占用情况,如何分析执行计划,分析query存在问题,找到Long-Tails task,让数据分析业务高效又省钱呢?本文中,阿里巴巴计算平台产品专家云花将为大家揭晓答案. 摘要:Logview是MaxCompute Job提交后查看和Debug任务的工具.通过Logview可看到一个Job的运行状态.运行结果以及运行细节和每个步骤

jquery ajax 方法及各参数详解

jquery ajax 方法及各参数详解 1.$.ajax() 只有一个参数:参数 key/value 对象,包含各配置及回调函数信息. 参数列表: 参数名类型描述 url String (默认: 当前页地址) 发送请求的地址. type String (默认: "GET") 请求方式 ("POST" 或 "GET"), 默认为 "GET".注意:其它 HTTP 请求方法,如 PUT 和 DELETE 也可以使用,但仅部分

Nginx内置变量以及日志格式变量参数详解

Nginx内置变量以及日志格式变量参数详解 $args #请求中的参数值 $query_string #同 $args $arg_NAME #GET请求中NAME的值 $is_args #如果请求中有参数,值为"?",否则为空字符串 $uri #请求中的当前URI(不带请求参数,参数位于$args),可以不同于浏览器传递的$request_uri的值,它可以通过内部重定向,或者使用index指令进行修改,$uri不包含主机名,如"/foo/bar.html". $d

MySQL配置文件mysql.ini参数详解、MySQL性能优化

MySQL配置文件mysql.ini参数详解.MySQL性能优化 my.ini(Linux系统下是my.cnf),当mysql服务器启动时它会读取这个文件,设置相关的运行环境参数. my.ini分为两块:Client Section和Server Section. Client Section用来配置MySQL客户端参数. 要查看配置参数可以用下面的命令: show variables like '%innodb%'; # 查看innodb相关配置参数 show status like