OpenMP 中的线程任务调度

OpenMP中任务调度主要针对并行的for循环，当循环中每次迭代的计算量不相等时，如果简单地给各个线程分配相同次数的迭代，则可能会造成各个线程计算负载的不平衡，影响程序的整体性能。

如下面的代码中，如果每个线程执行的任务数量平均分配，有的线程会结束早，有的线程结束晚：

 1 #include<stdio.h>
 2 #include<omp.h>
 3
 4 int main(){
 5     int a[100][100] = {0};
 6 #pragma omp parallel for
 7     for (int i =0; i < 100; i++){
 8         for(int j = i; j < 100; j++ )
 9             a[i][j] = ((i%7)*(j%13)%23);
10     }
11     return 0;
12 }

为此，OpenMP提供了schedule子句来实现任务的调度。

schedule子句：

　　schedule(type[, size])，

　　参数type是指调度的类型，可以取值为static，dynamic，guided，runtime四种值。其中runtime允许在运行时确定调度类型，因此实际调度策略只有前面三种。

　　参数size表示每次调度的迭代数量，必须是整数。该参数是可选的。当type的值是runtime时，不能够使用该参数。

1.静态调度static

　　大部分编译器在没有使用schedule子句的时候，默认是static调度。static在编译的时候就已经确定了，那些循环由哪些线程执行。

　　当不使用size 时，将给每个线程分配┌N/t┐个迭代。当使用size时，将每次给线程分配size次迭代。

　　如下面代码：

 1 #include<stdio.h>
 2 #include<omp.h>
 3 int main(){
 4     int a[100][100] = {0};
 5 #pragma omp parallel for schedule(static)
 6 //#pragma omp parallel for schedule(static,5)
 7     for (int i =0; i < 100; i++){
 8         printf("id=%d i=%d\n",omp_get_thread_num(),i);
 9     }
10     return 0;
11 }

　在四核机器上执行：

　　(1)当不使用参数时，100/4=25，0-24由1号线程执行；25-49由2号线程执行；50-74由3号线程执行；75-99由4号线程执行

　　(1)当不使用参数时，x(x=0,1,2,3)线程执行((n/5)%4)任务。其中n=0-99。

2.动态调度dynamic

　　动态调度依赖于运行时的状态动态确定线程所执行的迭代，也就是线程执行完已经分配的任务后，会去领取还有的任务。由于线程启动和执行完的时间不确定，所以迭代被分配到哪个线程是无法事先知道的。

　　当不使用size 时，是将迭代逐个地分配到各个线程。当使用size 时，逐个分配size个迭代给各个线程。

　　如下面代码：

 1 #include<stdio.h>
 2 #include<omp.h>
 3 int main(){
 4     int a[100][100] = {0};
 5 #pragma omp parallel for schedule(dynamic)
 6 //#pragma omp parallel for schedule(dynamic,5)
 7     for (int i =0; i < 100; i++){
 8         printf("id=%d i=%d\n",omp_get_thread_num(),i);
 9     }
10     return 0;
11 }

3.启发式调度guided

　　采用启发式调度方法进行调度，每次分配给线程迭代次数不同，开始比较大，以后逐渐减小。

　　size表示每次分配的迭代次数的最小值，由于每次分配的迭代次数会逐渐减少，少到size时，将不再减少。如果不知道size的大小，那么默认size为1，即一直减少到1。具体采用哪一种启发式算法，需要参考具体的编译器和相关手册的信息。

三种运行方式总结：

静态调度static：每次哪些循环由那个线程执行时固定的，编译调试。由于每个线程的任务是固定的，但是可能有的循环任务执行快，有的慢，不能达到最优。

动态调度dynamic：根据线程的执行快慢，已经完成任务的线程会自动请求新的任务或者任务块，每次领取的任务块是固定的。

启发式调度guided：每个任务分配的任务是先大后小，指数下降。当有大量任务需要循环时，刚开始为线程分配大量任务，最后任务不多时，给每个线程少量任务，可以达到线程任务均衡。

如下面的代码中，如果每个线程执行的任务数量平均分配，有的线程会结束早，有的线程结束晚：

 1 #include<stdio.h>
 2 #include<omp.h>
 3
 4 int main(){
 5     int a[100][100] = {0};
 6 #pragma omp parallel for
 7     for (int i =0; i < 100; i++){
 8         for(int j = i; j < 100; j++ )
 9             a[i][j] = ((i%7)*(j%13)%23);
10     }
11     return 0;
12 }

为此，OpenMP提供了schedule子句来实现任务的调度。

schedule子句：

　　schedule(type[, size])，

　　参数type是指调度的类型，可以取值为static，dynamic，guided，runtime四种值。其中runtime允许在运行时确定调度类型，因此实际调度策略只有前面三种。

　　参数size表示每次调度的迭代数量，必须是整数。该参数是可选的。当type的值是runtime时，不能够使用该参数。

1.静态调度static

　　大部分编译器在没有使用schedule子句的时候，默认是static调度。static在编译的时候就已经确定了，那些循环由哪些线程执行。

　　当不使用size 时，将给每个线程分配┌N/t┐个迭代。当使用size时，将每次给线程分配size次迭代。

　　如下面代码：

 1 #include<stdio.h>
 2 #include<omp.h>
 3 int main(){
 4     int a[100][100] = {0};
 5 #pragma omp parallel for schedule(static)
 6 //#pragma omp parallel for schedule(static,5)
 7     for (int i =0; i < 100; i++){
 8         printf("id=%d i=%d\n",omp_get_thread_num(),i);
 9     }
10     return 0;
11 }

　　在四核机器上执行：

　　(1)当不使用参数时，100/4=25，0-24由1号线程执行；25-49由2号线程执行；50-74由3号线程执行；75-99由4号线程执行

　　(1)当不使用参数时，x(x=0,1,2,3)线程执行((n/5)%4)任务。其中n=0-99。

2.动态调度dynamic

　　当不使用size 时，是将迭代逐个地分配到各个线程。当使用size 时，逐个分配size个迭代给各个线程。

　　如下面代码：

 1 #include<stdio.h>
 2 #include<omp.h>
 3 int main(){
 4     int a[100][100] = {0};
 5 #pragma omp parallel for schedule(dynamic)
 6 //#pragma omp parallel for schedule(dynamic,5)
 7     for (int i =0; i < 100; i++){
 8         printf("id=%d i=%d\n",omp_get_thread_num(),i);
 9     }
10     return 0;
11 }

3.启发式调度guided

　　采用启发式调度方法进行调度，每次分配给线程迭代次数不同，开始比较大，以后逐渐减小。

三种运行方式总结：

动态调度dynamic：根据线程的执行快慢，已经完成任务的线程会自动请求新的任务或者任务块，每次领取的任务块是固定的。

原文地址：https://www.cnblogs.com/mfryf/p/12307667.html

时间： 2024-10-10 10:31:42

OpenMP 中的线程任务调度的相关文章

并行计算之OpenMP中的任务调度

本文参考<OpenMP中的任务调度>博文,主要讲的是OpenMP中的schedule子句用法. 一.应用需求在OpenMP并行计算中,任务调度主要用于并行的for循环.当for循环中每次迭代的计算量相差较大时,如果简单的为每次迭代分配相同的线程,就会导致线程任务不均衡,CPU资源没有被充分利用,影响程序执行性能.例如下面这种情况: int i, j; int a[100][100] = {0}; for ( i = 0; i < 100; ++i ) { for( j = i; j &

Java 中的线程管理概念梳理

在Java中,"线程"指java.lang.Thread类的一个实例以及线程的执行,主要使用的线程池是ThreadPoolExecutor以及ScheduledThreadPoolExecutor,要使用固定线程上限的线程池. 用synchronized 修饰静态方法时,表示任何两个不同线程的调用互斥:修饰成员函数时,表示同一对象的多线程方法调用互斥:当然了,synchronized 后的参数可以是任意对象.Synchronized保证了synchronized块中变量的可见性,而vo

[转]OpenMP中的private/firstprivate/lastprivate/threadprivate之间的比较

转自:http://blog.csdn.net/gengshenghong/article/details/6985431 private/firstprivate/lastprivate/threadprivate,首先要知道的是,它们分为两大类,一类是private/firstprivate/lastprivate子句,另一类是threadprivate,为指令.(PS:有些地方把threadprivate说成是子句,但是实际来讲,它是一个指令.)可以参考http://blog.csdn.n

JAVA基础篇七（Java,C++中的线程）

讲到线程,Java的线程目前只知道从thread继承,并用start函数启动线程,稍后会多了解JAVA线程相关知识,补充到这一章中. C++的线程在读硕期间用到过多次,下面首先总结一下: 1.C++线程 (1)MFC多线程这种方式我没用过,所以这里只是提一下,主要在MFC中,一般用全局函数AfxBeginThread()来创建并初始化一个线程的运行,该函数有两种重载形式,分别用于创建工作者线程和用户界面线程. (2)phtread POSIX线程(POSIX threads),简称Pthrea

线程池中的线程的排序问题

1 package org.zln.thread.poolqueue; 2 3 import org.slf4j.Logger; 4 import org.slf4j.LoggerFactory; 5 6 import java.util.Comparator; 7 import java.util.UUID; 8 import java.util.concurrent.*; 9 10 /** 11 * 线程池中的线程的排序问题 12 * Created by sherry on 16/11/4

QT中的线程与事件循环理解（2）

1. Qt多线程与Qobject的关系每一个 Qt 应用程序至少有一个事件循环,就是调用了QCoreApplication::exec()的那个事件循环.不过,QThread也可以开启事件循环.只不过这是一个受限于线程内部的事件循环.因此我们将处于调用main()函数的那个线程,并且由QCoreApplication::exec()创建开启的那个事件循环成为主事件循环,或者直接叫主循环.注意,QCoreApplication::exec()只能在调用main()函数的线程调用.主循环所在的线程

分布式系统中的线程与进程

进程虽然进程构成了分布式系统中的基本组成单元,但是操作系统提供的用于构建分布式系统的进程在粒度上还是太大了,而就粒度而言,将每个进程细分为若干控制线程的形式则更加合适. 为了程序执行的需要,操作系统创建多个虚拟处理器,每个虚拟处理器运行一个程序.为了保持对这些虚拟处理器的跟踪,操作系统中有一张进程表.其包含的条目中存储着CPU寄存器值.内存映像.打开的文件.统计信息.特权信息等. 操作系统特别注意确保独立的进程不会有意或无意地破坏其他独立进程运行的正确性.也就是说,多个进程并发地共享同一个CP

Java中的线程池

综述在我们的开发中经常会使用到多线程.例如在Android中,由于主线程的诸多限制,像网络请求等一些耗时的操作我们必须在子线程中运行.我们往往会通过new Thread来开启一个子线程,待子线程操作完成以后通过Handler切换到主线程中运行.这么以来我们无法管理我们所创建的子线程,并且无限制的创建子线程,它们相互之间竞争,很有可能由于占用过多资源而导致死机或者OOM.所以在Java中为我们提供了线程池来管理我们所创建的线程. 线程池的使用采用线程池的好处在这里我们首先来说一下采用线程池的

Spring中的线程池ThreadPoolTaskExecutor

1.直接调用Spring框架中的ThreadPoolTaskExecutor ThreadPoolTaskExecutor poolTaskExecutor = new ThreadPoolTaskExecutor(); //线程池所使用的缓冲队列 poolTaskExecutor.setQueueCapacity(200); //线程池维护线程的最少数量 poolTaskExecutor.setCorePoolSize(5); //线程池维护线程的最大数量 poolTaskExecutor.s