计算机系统的RAM技术主要就是容错计算技术。所谓容错计算,就是在系统存在故障的情况下,仍能正确地执行给定的算法。为了实现这一点,必须使系统具有故障检测与诊断、功能切换与系统重组(reconfiguration)、系统恢复与重新运行、系统的重构(reintegration)与可扩展等功能,而且这些功能不能影响系统的正常运行或至少不能使系统的性能下降到不能容忍的程度。
对非容错系统,当故障导致系统发生算法执行错误并被发现后,系统要停止运行,由专门的维修人员进行检测、诊断,找到故障发生的原因。维修人员根据系统的构成将故障部件拆除,将剩下的正常部件构成一个功能有所降低的系统继续运行或将备用的正常部件装入,重新起动系统运行。但此时,发生故障时执行的算法(程序)已被破坏,系统重起后必须重新运行算法(程序)甚至重新装入算法(程序)。而容错系统中上述人的工作绝大部分由系统自行完成。
容错计算的重点是保证任务在被处理的过程中不会异常终止,以及任务完成后输出结果的正确性。可靠性是指在规定的使用条件下和规定的时间内完成规定功能的能力,通常用多少个“9”来衡量。比如人们所讲的达到 4 个“9”的可靠性,就是说任务顺利完成的概率为 99.99%;同理,5 个“9”的可靠性就是 99.999%。
严格来讲,容错计算也属于集群的范畴,只不过参与集群的计算机处理同样的任务——并行或者接力。容错计算需要投入更多的计算资源,所以造价较高。对于一些非关键的任务,人们出于成本的考虑,一般较少采用容错集群系统。
与其在家闲着,不如立即开始学习,当机遇爆发式来临时,能不能把握住,只看我们是否已经准备好了,是否足够强大。所以,现在开始,千锋900G+视频教程免费送!领取方式在下方留言即可,希望可以帮助你在“逆境”中成长,从容开启新的一年。
容错计算中接力容错又叫串行容错,由若干台计算机参与同一个任务的计算,但是同一时刻只由一台计算机处理任务,只有当这台计算机出现故障时,才由下一台计算机接力处理;类似,如果此台计算机又出现故障,那么继续由其他计算机接力;只有当全部计算机都出现故障时,任务处理才会被中断。
其实我们可以及时维修故障计算机并让其再次加入容错集群参与下一次的接力活动,这样就能最大限度地保证任务顺利完成。只有在全部计算机同时出故障(或者几乎同时出故障以至于人们还来不及维修)的情况下,租户的任务才会被中断,如供电异常(断电、电压过高或过低等)、雷击都可能导致参与容错集群的计算机同时出故所以云端的建设,供电和防雷是重中之重。
在条件允许的情况下,应采用多路市电接入,每路市电分属于供电部门不同的变压器,甚至是不同的电网,机房配备不间断电源和发电设备,这样就形成了三级供电保障:市电、不间断电源、发电设备。
原文地址:https://blog.51cto.com/14679712/2472333