郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
arXiv:1812.06127v3 [cs.LG] 11 Jul 2019
Abstract
联邦学习涉及在大规模分布式网络中训练机器学习模型。虽然联邦平均(FedAvg)是在该设置中训练非凸模型的主要优化方法,但在实际的联邦设置中,当跨统计异质设备(即每个设备以不同的方式收集数据)学习时,它的表现并没有得到很好的理解。在这项工作中,我们引入了一个处理统计异质性的框架FedProx,它将FedAvg作为一个特例。我们通过设备差异性假设为FedProx提供了收敛保证,该假设允许我们描述网络中的异构性。最后,我们对一组联邦数据集进行了详细的实证评估,验证了我们的理论分析,并证明了相对于FedAvg,广义FedProx框架在异构网络中学习更具有鲁棒性和稳定性。
1 Introduction
由电话、车辆和可穿戴传感器等远程设备组成的大型网络每天都会产生大量数据。由于用户隐私问题和系统约束(例如,通信成本、设备级计算约束和设备之间的低可用性),联合学习已经成为一种有吸引力的范例,可以将此类网络中的模型训练推向边缘[19]。
允许局部更新和低参与度的优化方法已经成为联邦学习的实际解决方案[19,25]。这些方法在设备子集上执行可变数量的本地更新,以实现灵活和高效的通信,例如,与传统的分布式梯度下降或随机梯度下降(SGD)相比较。在当前的联邦优化方法中,FedAvg[19]已经成为非凸联邦学习的最新技术。FedAvg的工作原理很简单,就是在每个通信回合中,在总设备N的子集K N上运行一定数量的SGD的epoch,E,然后通过中央服务器平均结果模型更新。
然而,FedAvg并不是为解决联邦设置中固有的统计异构性而设计的;也就是说,数据可能在设备之间分布不一致。在实际的统计异质性背景下,FedAvg被证明在经验上存在分歧(例如,19,Sec 3),而且它也缺乏理论上的收敛性保证事实上,最近探索融合保证的工作仅限于不切实际的场景,例如(1)数据在设备之间共享或以IID(独立且相同分布)的方式分布,或(2)所有设备在每一轮中都参与通信[27、29、30、31、34、38]。虽然这些假设简化了分析,但也违背了实际联邦网络的关键特性。
贡献。在这项工作中,我们提出了以下两个问题:(1)我们能否在实际的、统计上异构的联邦环境中对FedAvg有一个原则性的理解(2)我们能否从理论和经验上设计出一种改进的联邦优化算法?为此,我们提出了一个异构网络的联邦优化框架FedProx,它包含FedAvg。为了将FedProx的收敛行为描述为统计异质性的函数,我们在网络中引入了一个设备相异性假设。在这个假设下,我们为FedProx在实际的异构数据联邦设置中提供了rst收敛保证。此外,通过对大量实际联邦数据集的一组实验,我们证明了我们的理论假设反映了经验性能,并且与FedAvg相比,FedProx可以在数据跨设备异构时提高收敛的稳健性和稳定性。
2 Related Work
大规模机器学习,特别是在数据中心环境中,在过去十年中推动了许多分布式优化方法的发展[见,例如,3、6、7、16、21、22、24、26、35、36]。然而,随着手机、传感器和可穿戴设备等计算基板的功率和普及率的增长,直接通过分布式设备网络学习统计模型,而不是将数据移动到数据中心,变得越来越有吸引力。这个问题被称为联合学习,需要解决隐私、异构数据和设备以及大规模分布式计算网络的新挑战。
最近有人提出了针对联邦环境中特殊挑战的优化方法。与传统的分布式方法如ADMM[3]或mini-batch方法[7]相比,这些方法已经显示出显著的改进,它们允许不精确的局部更新,以便在大型网络中平衡通信与计算,并且允许在任何通信回合中激活一小部分设备[19,25]。例如,Smith等人。[25]提出了一种通信效率高的原-对偶优化方法,该方法通过多任务学习框架学习每个设备的独立但相关的模型。尽管该方法具有理论上的保证和实际的有效性,但这种方法不能推广到非凸问题,例如深度学习,在这种情况下不再保证强对偶性。在非凸的情况下,联邦平均(FedAvg)是一种基于平均局部随机梯度下降(SGD)更新的启发式方法,它在经验上表现得很好[19]。
不幸的是,FedAvg由于其本地更新方案、每轮活动的设备很少以及数据在网络中经常以异构的形式分布的问题,使得它的分析具有相当大的挑战性。特别是,当每个设备生成自己的本地数据时,统计异构性通常是指数据在设备之间的分布不一致。最近的工作已经朝着在更简单的非联邦设置中分析FedAvg迈出了一步。例如,在IID设置中研究了并行SGD和相关变体[18、21、24、27、29、31、35、38],它们使本地更新类似于FedAvg。然而,结果依赖于一个前提,即每个局部解算器是同一随机过程的副本(由于IID假设)。这种推理方式不适用于异构环境。尽管一些工作[10,13,30,34]最近已经探索了异构环境下的收敛保证,但是他们提出了限制性假设,即所有设备都参与每一轮通信,这在现实的联邦网络中通常是不可行的[19]。此外,它们依赖于每个设备上使用的SPECIC求解器(SGD或GD),与本文中提出的求解器不可知框架相比,并且将凸性(30)或一致有界梯度(34)的附加假设添加到它们的分析中。
也有一些启发式方法旨在通过共享本地设备数据或一些服务器端代理数据来解决统计异构性问题[11、12、37]。然而,这些方法可能是不切实际的:除了在网络带宽上施加负担之外,向服务器发送本地数据(12)违背了联合学习的密钥隐私假设,并且向所有设备发送全局共享代理数据(11, 37)需要努力仔细地生成或收集这样的辅助数据。
在这项工作中,受FedAvg的启发,我们探索了一个更广泛的框架FedProx,它能够处理异构联邦数据,同时保持类似的隐私和计算优势。我们分析了在局部函数不同假设下框架的收敛性。我们的假设受到求解线性方程组的Kaczmarz方法的启发[14],该方法的类似假设已被用于分析其他情况下的SGD变量[见,例如23、28、33]。我们提出的框架允许在异类联邦网络中提高收敛的稳健性和稳定性。
最后,我们注意到,我们所提出的工作的两个方面——FedProx中的近端和在我们的分析中所使用的有界相异假设在优化文献中已经被研究过,尽管通常具有非常不同的动机和非联合的设置。为了完整起见,我们在附录E中进一步讨论了这项背景工作。
3 Federated Optimization: Algorithms
原文地址:https://www.cnblogs.com/lucifer1997/p/11967914.html