（转帖）linux内核SMP负载均衡浅析

需求
在《linux进程调度浅析》一文中提到，在SMP（对称多处理器）环境下，每个CPU对应一个run_queue（可执行队列）。如果一个进程处于TASK_RUNNING状态（可执行状态），则它会被加入到其中一个run_queue（且同一时刻仅会被加入到一个run_queue），以便让调度程序安排它在这个run_queue对应的CPU上面运行。
一个CPU对应一个run_queue这样的设计，其好处是：
1、一个持续处于TASK_RUNNING状态的进程总是趋于在同一个CPU上面运行（其间，这个进程可能被抢占、然后又被调度），这有利于进程的数据被CPU所缓存，提高运行效率；
2、各个CPU上的调度程序只访问自己的run_queue，避免了竞争；
然而，这样的设计也可能使得各个run_queue里面的进程不均衡，造成“一些CPU闲着、一些CPU忙不过来”混乱局面。为了解决这个问题，load_balance（负载均衡）就登场了。

load_balance所需要做的事情就是，在一定的时机，通过将进程从一个run_queue迁移到另一个run_queue，来保持CPU之间的负载均衡。
这里的“均衡”二字如何定义？load_balance又具体要做哪些事情呢？对于不同调度策略（实时进程 OR 普通进程），有着不同的逻辑，需要分开来看。

实时进程的负载均衡
实时进程的调度是严格按照优先级来进行的。在单CPU环境下，CPU上运行着的总是优先级最高的进程，直到这个进程离开TASK_RUNNING状态，新任的“优先级最高的进程”才开始得到运行。直到所有实时进程都离开TASK_RUNNING状态，其他普通进程才有机会得到运行。（暂时忽略sched_rt_runtime_us和sched_rt_period_us的影响，见《linux组调度浅析》。）
推广到SMP环境，假设有N个CPU，N个CPU上分别运行着的也必须是优先级最高的top-N个进程。如果实时进程不足N个，那么剩下的CPU才分给普通进程去使用。对于实时进程来说，这就是所谓的“均衡”。
实时进程的优先级关系是很严格的，当优先级最高的top-N个进程发生变化时，内核必须马上响应：
1、如果这top-N个进程当中，有一个离开TASK_RUNNING状态、或因为优先级被调低而退出top-N集团，则原先处于(N+1)位的那个进程将进入top-N。内核需要遍历所有的run_queue，把这个新任的top-N进程找出来，然后立马让它开始运行；
2、反之，如果一个top-N之外的实时进程的优先级被调高，以至于挤占了原先处于第N位的进程，则内核需要遍历所有的run_queue，把这个被挤出top-N的进程找出来，将它正在占用的CPU让给新进top-N的那个进程去运行；
在这几种情况下，新进入top-N的进程和退出top-N的进程可能原本并不在同一个CPU上，那么在它得到运行之前，内核会先将其迁移到退出top-N的进程所在的CPU上。
具体来说，内核通过pull_rt_task和push_rt_task两个函数来完成实时进程的迁移：

pull_rt_task - 把其他CPU的run_queue中的实时进程pull过来，放到当前CPU的run_queue中。被pull过来的实时进程要满足以下条件：
1、进程是其所在的run_queue中优先级第二高的（优先级最高的进程必定正在运行，不需要移动）；
2、进程的优先级比当前run_queue中最高优先级的进程还要高；
3、进程允许在当前CPU上运行（没有亲和性限制）；
该函数会在以下时间点被调用：
1、发生调度之前，如果prev进程（将要被替换下去的进程）是实时进程，且优先级高于当前run_queue中优先级最高的实时进程（这说明prev进程已经离开TASK_RUNNING状态了，否则它不会让位于比它优先级低的进程）；
2、正在运行的实时进程优先级被调低时（比如通过sched_setparam系统调用）；
3、正在运行的实时进程变成普通进程时（比如通过sched_setscheduler系统调用）；

push_rt_task - 把当前run_queue中多余的实时进程推给其他run_queue。需要满足以下条件：
1、每次push一个进程，这个进程的优先级在当前run_queue中是第二高的（优先级最高的进程必定正在运行，不需要移动）；
2、目标run_queue上正在运行的不是实时进程（是普通进程），或者是top-N中优先级最低的实时进程，且优先级低于被push的进程；
3、被push的进程允许在目标CPU上运行（没有亲和性限制）；
4、满足条件的目标run_queue可能存在多个（可能多个CPU上都没有实时进程在运行），应该选择与当前CPU最具亲缘性的一组CPU中的第一个CPU所对应的run_queue作为push的目标（顺着sched_domain--调度域--逐步往上，找到第一个包含目标CPU的sched_domain。见后面关于sched_domain的描述）；
该函数会在以下时间点被调用：
1、非正在运行的普通进程变成实时进程时（比如通过sched_setscheduler系统调用）；
2、发生调度之后（这时候可能有一个实时进程被更高优先级的实时进程抢占了）；
3、实时进程被唤醒之后，如果不能马上在当前CPU上运行（它不是当前CPU上优先级最高的进程）；

看起来，实时进程的负载均衡对于每个CPU一个run_queue这种模式似乎有些别扭，每次需要选择一个实时进程，总是需要遍历所有的run_queue，在尚未能得到运行的实时进程之中找到优先级最高的那一个。其实，如果所有CPU共用同一个run_queue，就没有这么多的烦恼了。为什么不这样做呢？
1、在CPU对run_queue的竞争方面，“每个CPU去竞争每一个run_queue”比“每个CPU去竞争一个总的run_queue”略微好一些，因为竞争的粒度更小了；
2、在进程的移动方面，每个CPU一个run_queue这种模式其实也不能很好的把进程留在同一个CPU上，因为严格的优先级关系使得进程必须在出现不均衡时立刻被移动。不过，一些特殊情况下进程的迁移还是有一定选择面的。比如优先级相同的时候就可以尽量不做迁移、push_rt_task的时候可以选择跟当前CPU最为亲近的CPU去迁移。

普通进程的负载均衡
可以看出，实时进程的负载均衡性能是不会太好的。为了满足严格的优先级关系，丝毫的不均衡都是不能容忍的。所以一旦top-N的平衡关系发生变化，内核就必须即时完成负载均衡，形成新的top-N的平衡关系。这可能会使得每个CPU频繁去竞争run_queue、进程频繁被迁移。
而普通进程则并不要求严格的优先级关系，可以容忍一定程度的不均衡。所以普通进程的负载均衡可以不必在进程发生变化时即时完成，而采用一些异步调整的策略。
普通进程的负载均衡在以下情况下会被触发：
1、当前进程离开TASK_RUNNING状态（进入睡眠或退出），而对应的run_queue中已无进程可用时。这时触发负载均衡，试图从别的run_queue中pull一个进程过来运行；
2、每隔一定的时间，启动负载均衡过程，试图发现并解决系统中不均衡；
另外，对于调用exec的进程，它的地址空间已经完全重建了，当前CPU上已经不会再缓存对它有用的信息。这时内核也会考虑负载均衡，为它们找一个合适的CPU。

那么，对于普通进程来说，“均衡”到底意味着什么呢？
在单CPU环境下，处于TASK_RUNNING状态的进程会以其优先级为权重，瓜分CPU时间。优先级越高的进程，权重越高，分得的CPU时间也就越多。在CFS调度（完全公平调度，针对普通进程的调度程序）中，这里的权重被称作load。假设某个进程的load为m，所有处于TASK_RUNNING状态的进程的load之和为M，那么这个进程所能分到的CPU时间是m/M。比如系统中有两个TASK_RUNNING状态的进程，一个load为1、一个load为2，总的load是1+2=3。则它们分到的CPU时间分别是1/3和2/3。
推广到SMP环境，假设有N个CPU，那么一个load为m的进程所能分到的CPU时间应该是N*m/M（如果不是，则要么这个进程挤占了别的进程的CPU时间、要么是被别的进程挤占）。对于普通进程来说，这就是所谓的“均衡”。
那么，如何让进程能够分到N*m/M的CPU时间呢？其实，只需要把所有进程的load平分到每一个run_queue上，使得每个run_queue的load（它上面的进程的load之和）都等于M/N，这样就好了。于是，每个run_queue的load就成了是否“均衡”的判断依据。

下面看看load_balance里面做些什么。注意，不管load_balance是怎样被触发的，它总是在某个CPU上被执行。而load_balance过程被实现得非常简单，只需要从最繁忙（load最高）的run_queue中pull几个进程到当前run_queue中（只pull，不push），使得当前run_queue与最繁忙的run_queue得到均衡（使它们的load接近于所有run_queue的平均load），仅此而已。load_balance并不需要考虑所有run_queue全局的均衡，但是当load_balance在各个CPU上分别得到运行之后，全局的均衡也就实现了。这样的实现极大程度减小了负载均衡的开销。

load_balance的过程大致如下：
1、找出最繁忙的一个run_queue；
2、如果找到的run_queue比本地run_queue繁忙，且本地run_queue的繁忙程度低于平均水平，那么迁移几个进程过来，使两个run_queue的load接近平均水平。反之则什么都不做；

在比较两个run_queue繁忙程度的问题上，其实是很有讲究的。这个地方很容易想当然地理解为：把run_queue中所有进程的load加起来，比较一下就OK了。而实际上，需要比较的往往并不是实时的load。
这就好比我们用top命令查看CPU占用率一样，top命令默认1秒刷新一次，每次刷新你将看到这1秒内所有进程各自对CPU的占用情况。这里的占用率是个统计值，假设有一个进程在这1秒内持续运行了100毫秒，那么我们认为它占用了10%的CPU。如果把1秒刷新一次改成1毫秒刷新一次呢？那么我们将有90%的机率看到这个进程占用0%的CPU、10%的机率占用100%的CPU。而无论是0%、还是100%，都不是这个进程真实的CPU占用率的体现。必须把一段时间以内的CPU占用率综合起来看，才能得到我们需要的那个值。
run_queue的load值也是这样。有些进程可能频繁地在TASK_RUNNING和非TASK_RUNNING状态之间变换，导致run_queue的load值不断抖动。光看某一时刻的load值，我们是体会不到run_queue的负载情况的，必须将一段时间内的load值综合起来看才行。于是，run_queue结构中维护了一个保存load值的数组：
unsigned long cpu_load[CPU_LOAD_IDX_MAX] （目前CPU_LOAD_IDX_MAX值为5）
每个CPU上，每个tick的时钟中断会调用到update_cpu_load函数，来更新该CPU所对应的run_queue的cpu_load值。这个函数值得罗列一下：

/* this_load就是run_queue实时的load值 */
unsigned long this_load = this_rq-<load.weight;
for (i = 0, scale = 1; i < CPU LOAD_IDX_MAX i scale ="scale)" br style=‘font-size:14px;font-style:normal;font-weight:normal;color:rgb(69, 69, 69);‘ />   unsigned long old_load = this_rq-<cpu_load[i];
   unsigned long new_load = this_load;
   /* 因为最终结果是要除以scale的，这里相当于上取整 */
   if (new_load < old_load)
       new_load += scale-1;
   /* cpu_load[i] = old_load + (new_load - old_load) / 2^i */
   this_rq-<cpu_load[i] = (old_load*(scale-1) + new_load) << i;
}

cpu_load[i] = old_load + (new_load - old_load) / 2^i。i值越大，cpu_load[i]受load的实时值的影响越小，代表着越长时间内的平均负载情况。而cpu_load[0]就是实时的load。

尽管我们需要的是一段时间内的综合的负载情况，但是，为什么不是保存一个最合适的统计值，而要保存这么多的值呢？这是为了便于在不同场景下选择不同的load。如果希望进行进程迁移，那么应该选择较小的i值，因为此时的cpu_load[i]抖动比较大，容易发现不均衡；反之，如果希望保持稳定，那么应该选择较大的i值。
那么，什么时候倾向于进行迁移、什么时候又倾向于保持稳定呢？这要从两个维度来看：
第一个维度，是当前CPU的状态。这里会考虑三种CPU状态：
1、CPU刚进入IDLE（比如说CPU上唯一的TASK_RUNNING状态的进程睡眠去了），这时候是很渴望马上弄一个进程过来运行的，应该选择较小的i值；
2、CPU处于IDLE，这时候还是很渴望弄一个进程过来运行的，但是可能已经尝试过几次都无果了，故选择略大一点的i值；
3、CPU非IDLE，有进程正在运行，这时候就不太希望进程迁移了，会选择较大的i值；
第二个维度，是CPU的亲缘性。离得越近的CPU，进程迁移所造成的缓存失效的影响越小，应该选择较小的i值。比如两个CPU是同一物理CPU的同一核心通过SMT（超线程技术）虚拟出来的，那么它们的缓存大部分是共享的。进程在它们之间迁移代价较小。反之则应该选择较大的i值。（后面将会看到linux通过调度域来管理CPU的亲缘性。）
至于具体的i的取值，就是具体策略的问题了，应该是根据经验或实验结果得出来的，这里就不赘述了。

调度域
前面已经多次提到了调度域（sched_domain）。在复杂的SMP系统中，为了描述CPU与CPU之间的亲缘关系，引入了调度域。
两个CPU之间的亲缘关系主要有以下几种：
1、超线程。超线程CPU是一个可以“同时”执行几个线程的CPU。就像操作系统通过进程调度能够让多个进程“同时”在一个CPU上运行一样，超线程CPU也是通过这样的分时复用技术来实现几个线程的“同时”执行的。这样做之所以能够提高执行效率，是因为CPU的速度比内存速度快很多（一个数量级以上）。如果cache不能命中，CPU在等待内存的时间内将无事可做，可以切换到其他线程去执行。这样的多个线程对于操作系统来说就相当于多个CPU，它们共享着大部分的cache，非常之亲近；
2、同一物理CPU上的不同核心。现在的多核CPU大多属于这种情况，每个CPU核心都有独立执行程序的能力，而它们之间也会共享着一些cache；
3、同一NUMA结点上的CPU；
4、不同NUMA结点上的CPU；
在NUMA（非一致性内存体系）中，CPU和RAM以“结点”为单位分组。当CPU访问与它同在一个结点的“本地”RAM芯片时，几乎不会有竞争，访问速度通常很快。相反的，CPU访问它所属结点之外的“远程”RAM芯片就会非常慢。
（调度域可以支持非常复杂的硬件系统，但是我们通常遇到的SMP一般是：一个物理CPU包含N个核心。这种情况下，所有CPU之间的亲缘性都是相同的，引入调度域的意义其实并不大。）

进程在两个很亲近的CPU之间迁移，代价较小，因为还有一部分cache可以继续使用；在属于同一NUMA结点上的两个CPU之间迁移，虽然cache会全部丢失，但是好歹内存访问的速度是相同的；如果进程在属于不同NUMA结点的两个CPU之间迁移，那么这个进程将在新NUMA结点的CPU上被执行，却还是要访问旧NUMA结点的内存（进程可以迁移，内存却没法迁移），速度就要慢很多了。

通过调度域的描述，内核就可以知道CPU与CPU的亲缘关系。对于关系远的CPU，尽量少在它们之间迁移进程；而对于关系近的CPU，则可以容忍较多一些的进程迁移。
对于实时进程的负载均衡，调度域的作用比较小，主要是在push_rt_task将当前run_queue中的实时进程推到其他run_queue时，如果有多个run_queue可以接收实时进程，则按照调度域的描述，选择亲缘性最高的那个CPU对应的run_queue（如果这样的CPU有多个，那么约定选择编号最小那一个）。所以，下面着重讨论普通进程的负载均衡。

首先，调度域具体是如何描述CPU之间的亲缘关系的呢？假设系统中有两个物理CPU、每个物理CPU有两个核心、每个核心又通过超线程技术虚拟出两个CPU，则调度域的结构如下：

1、一个调度域是若干CPU的集合，这些CPU都是满足一定的亲缘关系的（比如至少是属于同一NUMA结点的）；
2、调度域之间存在层次关系，一个调度域可能包括多个子调度域，每个子调度域包含了父调度域的一个CPU子集，并且子调度域中的CPU满足比父调度域更严格的亲缘关系（比如父调度域中的CPU至少是属于同一NUMA结点的，子调度域中的CPU至少是属于同一物理CPU的）；
3、每个CPU分别具有其对应的一组sched_domain结构，这些调度域处于不同层次，但是都包含了这个CPU；
4、每个调度域被依次划分成多个组，每个组代表调度域的一个CPU子集；
5、最低层次的调度域包含了亲缘性最近的几个CPU、而最低层次的调度组则只包含一个CPU；

对于普通进程的负载均衡来说，在一个CPU上，每次触发load_balance总是在某个sched_domain上进行的。低层次的sched_domain包含的CPU有着较高的亲缘性，将以较高的频率被触发load_balance；而高层次的sched_domain包含的CPU有着较低的亲缘性，将以较低的频率被触发load_balance。为了实现这个，sched_domain里面记录着每次load_balance的时间间隔，以及下次触发load_balance的时间。
前面讨论过，普通进程的load_balance第一步是需要找出一个最繁忙的CPU，实际上这是通过两个步骤来实现的：
1、找出sched_domain下最繁忙的一个sched_group（组内的CPU对应的run_queue的load之和最高）；
2、从该sched_group下找出最繁忙的CPU；
可见，load_balance实际上是实现了对应sched_domain下的sched_group之间的平衡。较高层次的sched_domain包含了很多CPU，但是在这个sched_domain上的load_balance并不直接解决这些CPU之间的负载均衡，而只是解决sched_group之间的平衡（这又是load_balance的一大简化）。而最底层的sched_group是跟CPU一一对应的，所以最终还是实现了CPU之间的平衡。

其他问题
CPU亲和力
linux下的进程可以通过sched_setaffinity系统调用设置进程亲和力，限定进程只能在某些特定的CPU上运行。负载均衡必须考虑遵守这个限制（前面也多次提到）。

迁移线程
前面说到，在普通进程的load_balance过程中，如果负载不均衡，当前CPU会试图从最繁忙的run_queue中pull几个进程到自己的run_queue来。
但是如果进程迁移失败呢？当失败达到一定次数的时候，内核会试图让目标CPU主动push几个进程过来，这个过程叫做active_load_balance。这里的“一定次数”也是跟调度域的层次有关的，越低层次，则“一定次数”的值越小，越容易触发active_load_balance。
这里需要先解释一下，为什么load_balance的过程中迁移进程会失败呢？最繁忙run_queue中的进程，如果符合以下限制，则不能迁移：
1、进程的CPU亲和力限制了它不能在当前CPU上运行；
2、进程正在目标CPU上运行（正在运行的进程显然是不能直接迁移的）；
（此外，如果进程在目标CPU上前一次运行的时间距离当前时间很小，那么该进程被cache的数据可能还有很多未被淘汰，则称该进程的cache还是热的。对于cache热的进程，也尽量不要迁移它们。但是在满足触发active_load_balance的条件之前，还是会先试图迁移它们。）
对于CPU亲和力有限制的进程（限制1），即使active_load_balance被触发，目标CPU也不能把它push过来。所以，实际上，触发active_load_balance的目的是要尝试把当时正在目标CPU上运行的那个进程弄过来（针对限制2）。

在每个CPU上都会运行一个迁移线程，active_load_balance要做的事情就是唤醒目标CPU上的迁移线程，让它执行active_load_balance的回调函数。在这个回调函数中尝试把原先因为正在运行而未能迁移的那个进程push过来。为什么load_balance的时候不能迁移，active_load_balance的回调函数中就可以了呢？因为这个回调函数是运行在目标CPU的迁移线程上的。一个CPU在同一时刻只能运行一个进程，既然这个迁移线程正在运行，那么期望被迁移的那个进程肯定不是正在被执行的，限制2被打破。

当然，在active_load_balance被触发，到回调函数在目标CPU上被执行之间，目标CPU上的TASK_RUNNING状态的进程可能发生一些变化，所以回调函数发起迁移的进程未必就只有之前因为限制2而未能被迁移的那一个，可能更多，也可能一个没有。

时间： 2024-10-12 21:49:19

（转帖）linux内核SMP负载均衡浅析

（转帖）linux内核SMP负载均衡浅析的相关文章

LINUX内核CPU负载均衡机制【转】

【转贴】Linux系统NGINX负载均衡404错误处理方法

Linux多网卡负载均衡 : bond

Linux 之nginx 负载均衡集群

linux+nginx+tomcat负载均衡，实现session同步

LVS (Linux Virtual Server) 负载均衡

Linux集群-负载均衡lvs介绍及lvs-nat实现https

Linux高可用负载均衡集群理解

[转帖]Linux内核为大规模支持100Gb/s网卡准备好了吗？并没有