近阈值电压计算,是指让集成电路工作在近阈值电压下,这个电压值比正常电压要低,这是应对芯片功耗越来越大问题而诞生的技术,期望通过将电压降低到一定程度,在保证一定计算能力的前提下,降低功耗,减少散热,为摩尔定律继续有效和更多核技术指明道路。
虽然可以通过降低电压达到降低功耗,但与此同时会带来两个问题:
1)运行频率降低,从而计算性能降低
2)系统稳定性降低,表现在parametric variation(这是集成电路的一个属性)不再稳定,导致一些电路和软件错误大量并频繁产生
如果运行的程序对延迟有很高的要求,显然问题1会给这种程序带来故障。为此,我与朋友探讨了一个战机撞山问题:
Tom驾驶战斗机,前方遇到一座高山,为了完成爬山效果,飞机需要在适当距离处开始爬升,在飞向山峰的过程中,飞机会以毫秒级间隔实时获取距离山峰的距离,倘若此时因为计算能力的下降致使系统没有及时收集和计算反馈数据,或以低计算性能去计算复杂的方程和算法要花费更多的时间,这样带来的结果延迟导致这个时刻系统获取的距离数据出现空白,而就在此时到达了应该拉升的距离,而系统认为此时还没有到达应该拉升距离,没有做出拉升动作,致使出现撞山的危险。
其实在我们日常生活中,当我们将系统设为省电模式时,软件的运行和操作就会出现明显的延迟,而在比省电模式电压更低的近阈值环境下,这种延迟会非常厉害,甚至程序连能运行的能力都没有。但在省电模式下,一些轻量级的,写得非常好的外国软件(如notepad++)依然十分流畅,所以这也给我们启发:可以从软件的代码上去适应近阈值环境,比如尽量减少访存语句和复杂计算语句。对于如何去解决近阈值环境下计算延迟带来的程序故障(如战机撞山问题)?一般采取的策略是通过冗余(Redundancy)来降低故障概率,或采取多核计算提高计算能力(虽然多核要多一些能耗,但近阈值带来的能耗降低程度要大于这种多核增加的能耗[1])。
在近阈值环境下,有一些程序会顺利运行,也有一些程序运行困难,也有一些程序压根运行不了,这是门编程艺术和统计学问题。其实这只是我基于论文所做的设想,因为缺乏近阈值环境(即使是模拟),所以很多实际道理都看不见。所以如果能找到科学模拟近阈值环境的方法也是一件了不起的探索和成就。而我目前所进行的也是环境的搭建。
引用:
【1】L. Chang et al., “Practical Strategies for Power-Efficient Computing Technologies,” Proceedings of the IEEE, vol. 98, no. 2, February 2010.