1 前言
如果大家已经对DQN有所了解,那么大家就会知道,DeepMind测试的40多款游戏中,有那么几款游戏无论怎么训练,结果都是0的游戏,也就是DQN完全无效的游戏,有什么游戏呢?
比如上图这款游戏,叫做Montezuma’s Revenge。这种游戏类似超级玛丽,难在哪里呢?需要高级的策略。比如图中要拿到钥匙,然后去开门。这对我们而言是通过先验知识得到的。但是很难想象计算机如何仅仅通过图像感知这些内容。感知不到,那么这种游戏也就无从解决。
那么这篇文章:
Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation
时间:2016年4月20号
来源: arXiv.org
尝试解决这种问题。
2 文章思路
它的思路很简单,就是弄一个两个层级的神经网络,顶层用于决策,确定下一步的目标,底层用于具体行为。
不得不说,这个想法显而易见(本人也想过啦)但是,问题的关键是
如何确定内在的目标???
作者在paper中说了这么一段话:
“We assume having access to an object detector that provides plausible object candidates.”
说白了就是人工给定目标。然后再来训练。(本质上就是嵌套两个DQN)
那就没什么意思了。
这样从直观感觉可以训练出来。
但是意义就比较小了。
小结
这篇文章比较夸大的提出层次DRL来解决稀疏反馈的问题,但是实际上并不算真正的解决,中间的目标给定太过人工,不具备通用性。也不太可能像作者说的专门为这些游戏开发一个游戏目标物体检测算法。
但是,在否则这篇文章价值的同时,它也是有一定意义的。比如对于自动驾驶汽车,之前Nvidia完全的端到端训练实现自动驾驶,但是如果中间加入一个物体检测作为顶层决策环节,或许可以大大提高控制水平。
而对于image caption这种问题,也是同样的道理。先物体检测,再进入RNN输出文字描述。
不过,个人却不喜欢这种做法。虽然会work,但不智能。