OpenMp多线程编程计时问题

在做矩阵乘法并行化测试的时候，在利用<time.h>的clock()计时时出现了一点问题。

首先看串行的程序：

// matrix_cpu.c
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#define NUM 2048

void matrixMul(float *A, float *B, float *C, int M, int K, int N)
{
    int i, j, k;
    for(i = 0; i < M; i++)
    {
        for(j = 0; j < N; j++)
        {
            float sum = 0.0f;
            for(k = 0; k < K; k++)
            {
                sum += A[i*k+k] * B[k*N+j];
            }
            C[i*N+j] = sum;
        }
    }
}

int main(int argc, char* argv[])
{
    float *A, *B, *C;
    clock_t start, finish;
    double duration;

    A = (float *) malloc (sizeof(float) * NUM * NUM);
    B = (float *) malloc (sizeof(float) * NUM * NUM);
    C = (float *) malloc (sizeof(float) * NUM * NUM);
    memset(A, 0, sizeof(float) * NUM * NUM);
    memset(B, 0, sizeof(float) * NUM * NUM);
    memset(C, 0, sizeof(float) * NUM * NUM);
    
    printf("Start...\n");

    start = clock();
    matrixMul(A, B, C, NUM, NUM, NUM);
    finish = clock();
    
    duration = (double)(finish - start) / CLOCKS_PER_SEC;
    printf("Time: %fs\n", duration);
    return 0;
}

在编译后，运行该程序，得到如下结果：

[[email protected] matrix]$ ./matrix_cpu
Start...
Time: 26.130000s

由于CPU是至强E5-2650，所以算得比较快（但目前仍然是串行，也就是说单核单线程），这样也要26秒了（在博主的i5-4200 ThinkPad上用时是171秒）。

加上time命令再运行一遍，结果如下：

[[email protected] matrix]$ time ./matrix_cpu
Start...
Time: 26.770000s

real	0m28.073s
user	0m26.779s
sys	0m0.019s

可以看到，时间与程序中统计的差不多，实际执行时间由于加了malloc等的时间所以长了一点，但还是合情合理的。

那么，再来看并行的OpenMP程序：

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#define NUM 2048
#define THREAD_NUM 2

void matrixMul(float *A, float *B, float *C, int M, int K, int N)
{
    int i, j, k;
#pragma omp parallel for private(j,k) num_threads(THREAD_NUM)
    for(i = 0; i < M; i++)
    {
        for(j = 0; j < N; j++)
        {
            float sum = 0.0f;
            #pragma ivdep
            for(k = 0; k < K; k++)
            {
                sum += A[i*k+k] * B[k*N+j];
            }
            C[i*N+j] = sum;
        }
    }
}

int main(int argc, char* argv[])
{
    float *A, *B, *C;
    clock_t start, finish;
    double duration;

    A = (float *) malloc (sizeof(float) * NUM * NUM);
    B = (float *) malloc (sizeof(float) * NUM * NUM);
    C = (float *) malloc (sizeof(float) * NUM * NUM);
    memset(A, 0, sizeof(float) * NUM * NUM);
    memset(B, 0, sizeof(float) * NUM * NUM);
    memset(C, 0, sizeof(float) * NUM * NUM);

    printf("Start...\n");

    start = clock();
    matrixMul(A, B, C, NUM, NUM, NUM);
    finish = clock();

    duration = (double)(finish - start) / CLOCKS_PER_SEC;
    printf("Time: %fs\n", duration);
    return 0;
}

可以看到，该OpenMP程序只使用了两个线程，那么运行时间理论上来说能减半。

在编译后，运行该程序，得到如下结果：

[[email protected] matrix]$ ./matrix_omp
Start...
Time: 26.550000s

这就奇怪了，明明心里面数了一下大概花了15秒，但是为什么计时还是26秒呢？

再加上time命令运行一遍：

[[email protected] matrix]$ time ./matrix_omp
Start...
Time: 26.440000s

real	0m13.438s
user	0m26.457s
sys	0m0.016s

可以看到，实际的运行时间是13秒，但是user却超过了13秒，且几乎是real的两倍。

查了一下，发现了这样的解释：

real: 墙上时间，即程序从开启到结束的实际运行时间
user: 执行用户代码所花的实际时间（不包括内核调用），指进程执行所消耗的实际CPU时间
sys：该程序在内核调用上花的时间

在，单线程串行的时候，只有一个线程在运行，那么user所代表的就是一个cpu的时间。然而，当到多线程的情况下，一个进程可能有多个线程并行执行，但是user把所有的线程时间都加起来了，也就是算了一个总时间，这样，user的时间也就基本上等于单线程时的user时间。

这样，我们把线程数调到4，再运行代码（大概7秒）：

[[email protected] matrix]$ ./matrix_omp
Start...
Time: 27.270000s
[[email protected] matrix]$ time ./matrix_omp
Start...
Time: 27.170000s

real	0m7.486s
user	0m27.176s
sys	0m0.018s

可以发现，实际运行时间7秒，CPU总时间27秒，差不多：

再把线程数调到16，再运行代码（大概2秒多）：

[[email protected] matrix]$ ./matrix_omp
Start...
Time: 33.980000s
[[email protected] matrix]$ time ./matrix_omp
Start...
Time: 33.530000s

real	0m2.241s
user	0m33.479s
sys	0m0.075s

可以发现，CPU总时间有增加的趋势，不过实际时间还是大有减少。E5-2650是8核心16线程，再往上加线程时间反而会增长。

总结：在多线程的情况下，还是用time命令看时间吧。

时间： 2024-08-25 09:51:19

OpenMp多线程编程计时问题的相关文章

openMP多线程编程

OpenMP(Open Muti-Processing) OpenMP缺点: 1:作为高层抽象,OpenMp并不适合需要复杂的线程间同步和互斥的场合: 2:另一个缺点是不能在非共享内存系统(如计算机集群)上使用.在这样的系统上,MPI使用较多. 关于openMP实现临界区与互斥锁可参考 reference3 windows系统下使用 ==========================WINDOWS系统中使用========================== 基本使用: 在visual

5天玩转C#并行和多线程编程

5天玩转C#并行和多线程编程系列文章目录 5天玩转C#并行和多线程编程 —— 第一天认识Parallel 5天玩转C#并行和多线程编程 —— 第二天并行集合和PLinq 5天玩转C#并行和多线程编程 —— 第三天认识和使用Task 5天玩转C#并行和多线程编程 —— 第四天 Task进阶 5天玩转C#并行和多线程编程 —— 第五天多线程编程大总结随着多核时代的到来,并行开发越来越展示出它的强大威力!使用并行程序,充分的利用系统资源,提高程序的性能.在.net 4.0中,微软给我们提供了

Java多线程编程要点

Java多线程编程要点认识Thread和Runnable Java中实现多线程有两种途径:继承Thread类或者实现Runnable接口.Runnable是接口,建议用接口的方式生成线程,因为接口可以实现多继承, 况且Runnable只有一个run方法,很适合继承.在使用Thread的时候只需继承Thread,并且new一个实例出来,调用 start()方法即可以启动一个线程. Thread Test = new Thread(); Test.start(); 在使用Runnable的时候需

每天进步一点点——论fork()函数与Linux中的多线程编程

转载请说明出处:http://blog.csdn.net/cywosp/article/details/27316803 一.fork()函数在操作系统的基本概念中进程是程序的一次运行,且是拥有资源的最小单位和调度单位(在引入线程的操作系统中,线程是最小的调度单位).在Linux系统中创建进程有两种方式:一是由操作系统创建,二是由父进程创建进程(通常为子进程).系统调用函数fork()是创建一个新进程的唯一方式,当然vfork()也能够创建进程,可是实际上其还是调用了fork()函数.fork

Siege——多线程编程最佳实例

在英语中,“Siege”意为围攻.包围.同时Siege也是一款使用纯C语言编写的开源WEB压测工具,适合在GNU/Linux上运行,并且具有较强的可移植性.之所以说它是多线程编程的最佳实例,主要原因是Siege的实现原理中大量运用了多线程的各种概念.Siege代码中用到了互斥锁.条件变量.线程池.线程信号等很多经典多线程操作,因此对于学习多线程编程也大有裨益.最近花了一些时间学习到了Siege的源代码,本文将介绍一下Siege压测工具的内部原理,主要供系统测试同学.以及学习多线程编程的同学们参考

多线程编程核心技术总结（读周志明书籍的总结）

多线程编程核心技术总结 1.Java多线程基本技能 1.1进程和线程的概念: 进程是独立的程序,线程是在进程中独立运行的子任务. 1.2使用多线程 1.2.1实现方法:继承Thread类,重写Runnable接口. 1.2.2线程安全问题:并发修改公共的实例变量,i++,i-- 1.3线程Thread类的一些方法: currentThread() 放回代码段正在被那个线程调用 isAlive() 判断线程是否处于活动状态 sleep() 使得当前线程退出CPU片段,等待获取锁 1.4停止线程 1

Java基础知识—多线程编程（五）

概述 Java 给多线程编程提供了内置的支持.一个多线程程序包含两个或多个能并发运行的部分.程序的每一部分都称作一个线程,并且每个线程定义了一个独立的执行路径.使用多线程也是为了充分的利用服务器资源,提高工作效率. 线程生命周期线程是一个动态执行的过程,它也有一个从产生到死亡的过程. 新建状态: 使用 new 关键字和 Thread 类或其子类建立一个线程对象后,该线程对象就处于新建状态.它保持这个状态直到程序 start() 这个线程. 就绪状态: 当线程对象调用了start()方法之后,该

第73课 Qt中的多线程编程

1. QThread类 (1)QThread是一个跨平台的多线程解决方案 (2)QThread以简洁易用的方式实现多线程编程 2. QThread中的关键成员函数 (1)virtual void run() :线程函数,用于定义线程功能(执行流). (2)void start():启动函数,将线程入口地址设置为run函数.启动线程,新线程开始执行run函数. (3)int exec():进入事件循环,直至调用exit().返回线程退出事件循环的返回码. (4)void terminate():强

多线程编程(进程和线程）

多线程编程(进程和线程) 1.进程:指一个内存中运行的应用程序,每个进程都有自己独立的一块内存空间,一个进程可以启动多个线程. 2.线程:指程序中一个执行流程,一个进程中可以运行多个线程. 一.创建线程(两种方式) 二.线程的5种状态( New,Runnable,Running,Block,Dead ): 三.线程的优先级四.守护线程 /精灵线程/后台线程五.方法六.同步代码锁(synchronized) 一.创建线程(两种方式): 方式1:采用继承Thread的方法第一,继承 Thre