分布式计算、统计学习与ADMM算法

在整理旧电脑时，才发现13年下半年电脑里有不少残文。老师说，东西搁下了再拿起来花费的时间和之前可能差不多。我一眼看过去这篇关于分布式计算的文章，貌似还真的没有了当时理解的深度和感觉。当时还想利用ADMM算法，把统计中常见的带惩罚的高维问题在此框架下用R重写一下，但是中途多种事情一耽搁，就早已抛之脑后。看来任何事情，真的还是需要坚持，哪怕拨点时间都是好的。先把一篇残文扔出来祭奠下过去的13年吧。公式多文字长，慎入！

业界一直在谈论大数据，对于统计而言，大数据其实意味着要不是样本量增加n→∞，要不就是维度的增加p→∞，亦或者两者同时增加，并且维度与样本量的增长速度呈线性或者指数型增长。在稀疏性的假设条件下，再加上一些正则性方法，统计学家可以证明各种加penalty的模型所给出的参数估计具有良好的统计性质，收敛速度也有保证，同时还会给出一些比较好的迭代算法，但是，他们并没有考虑真实环境下的所消耗的计算时间。虽然统计学家也希望尽量寻求迭代数目比较少的算法（比如one-step估计），但是面对真实的Gb级别以上的数据，很多时候我们还是无法直接用这些算法，原因是一般的硬件都无法支撑直接对所有数据进行运算的要求。如果想减少抽样误差，不想抽样，又想提高估计的精度，那么还是需要寻求其他思路，结合已有的模型思想来解决这些问题。在目前条件下，并行化、分布式计算是一种比较好的解决思路，利用多核和多机器的优势，这些好算法便可以大规模应用，处理大数据优势便体现出来了。对于统计而言，数据量越大当然信息越可能充分（假设冗余成分不是特别多），因为大样本性质本身就希望样本越多越好嘛。

本文是基于Stephen Boyd 2011年的文章《Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers》进行的翻译和总结。Boyd也给出了利用matlab的CVX包实现的多种优化问题的matlab示例。

1. 优化的一些基本算法思想

ADMM算法并不是一个很新的算法，他只是整合许多不少经典优化思路，然后结合现代统计学习所遇到的问题，提出了一个比较一般的比较好实施的分布式计算框架。因此必须先要了解一些基本算法思想。

1.1 Dual Ascent

对于凸函数的优化问题，对偶上升法核心思想就是引入一个对偶变量，然后利用交替优化的思路，使得两者同时达到optimal。一个凸函数的对偶函数其实就是原凸函数的一个下界，因此可以证明一个较好的性质：在强对偶性假设下，即最小化原凸函数（primal）等价于最大化对偶函数（dual），两者会同时达到optimal。这种转化可以将原来很多的参数约束条件变得少了很多，以利于做优化。具体表述如下：

minf(x)

s.t.Ax=b ?L(x,y)=f(x)+yT(Ax?b)?对偶函数（下界）g(y)=infL(x,y)

在强对偶性的假设下，primal和dual问题同时达到最优。

x?=argminL(x,y?)

因此，若对偶函数g(y)g(y)可导，便可以利用梯度上升法，交替更新参数，使得同时收敛到最优。迭代如下：

xk+1:yk+1:=argminxL(x,yk)(x-最小化步)=yk+αk?g(y)=yk+αk(Axk+1?b)(对偶变量更新，αk是步长)xk+1:=arg?minxL(x,yk)(x-最小化步)yk+1:=yk+αk?g(y)=yk+αk(Axk+1?b)(对偶变量更新，αk是步长)

当gg不可微的时候也可以将其转化下，成为一个所谓的subgradient的方法，虽然看起来不错，简单证明下即可知道xkxk和ykyk同时可达到optimal，但是上述条件要求很苛刻：f(x)f(x)要求严格凸，并且要求αα选择有比较合适。一般应用中都不会满足（比如f(x)f(x)是一个非零的仿射函数），因此dual ascent不会直接应用。

时间： 2024-12-24 21:55:05

分布式计算、统计学习与ADMM算法

1. 优化的一些基本算法思想

1.1 Dual Ascent

分布式计算、统计学习与ADMM算法的相关文章

?统计学习精要(The Elements of Statistical Learning)?课堂笔记（一）

?统计学习精要(The Elements of Statistical Learning)?课堂笔记（三）

统计学习概念

统计学习方法一：基础

?统计学习精要(The Elements of Statistical Learning)?课堂笔记（二）

统计学习基础(HGL的读书笔记)

统计学习精要

模式匹配之surf----特征点检测学习_2(surf算法)

scikit-learning教程（二）统计学习科学数据处理的教程