Linux 下多线程排序的实现

对于计算密集型的任务,如果能采用合理的多线程处理,能够大大的提升计算效率。这篇博文实现了多线程排序,同时讲解了一些需要注意的问题。

首先,说一下总体的思路:将元素分成n段,使用快速排序多个线程并行处理。最后需要等待这些线程都将分段排好序之后,进行类似归并排序的过程。

这样时间复杂度算下来是(假设我是4核的机器) O(n+n/4log(n/4)),比O(nlogn)大概快了一倍的样子。(请带入数值具体计算)

先来介绍一下pthread_barrier系列函数。

函数原型:
#include <pthread.h>
int pthread_barrier_init(pthread_barrier_t *restrict barrier, const pthread_barrierattr_t *restrict attr, unsigned count);
int pthread_barrier_wait(pthread_barrier_t *barrier);
int pthread_barrier_destroy(pthread_barrier_t *barrier);

参数解释:

pthread_barrier_t,是一个计数锁,对该锁的操作都包含在三个函数内部,我们不用关心也无法直接操作。只需要实例化一个对象丢给它就好。

pthread_barrierattr_t,锁的属性设置,设为NULL让函数使用默认属性即可。

count,你要指定的等待个数。

通俗解释:

pthread_barrier_*其实只做且只能做一件事,就是充当栏杆(barrier意为栏杆)。形象的说就是把先后到达的多个线程挡在同一栏杆前,直到所有线程到齐,然后撤下栏杆同时放行。1)init函数负责指定要等待的线程个数;2) wait()函数由每个线程主动调用,它告诉栏杆“我到起跑线前了”。wait()执行末尾栏杆会检查是否所有人都到栏杆前了,如果是,栏杆就消失所有线程继续执行下一句代码;如果不是,则所有已到wait()的线程停在该函数不动,剩下没执行到wait()的线程继续执行;3)destroy函数释放init申请的资源。

单线程排序:

#include <unistd.h>
#include <sys/time.h>
#include <pthread.h>
#include <string.h>
#include <string>
#include <cstdio>
#include <iostream>
#include <errno.h>
#include <stdlib.h>
#include <algorithm>
using namespace std;

//错误检查函数
inline void ERR_EXIT(const string &msg,int retnum)
{
    if(retnum!=0)
    {
        cerr<<msg<<": "<<strerror(retnum)<<endl;
        exit(EXIT_FAILURE);
    }
}
#define NUMMAX 8000000L
long int nums[NUMMAX];

int main()
{
    srandom(time(NULL));
    for(unsigned long i=0;i<NUMMAX;i++)
        nums[i]=random();

    //计时开始
    gettimeofday(&start,NULL);
    sort(nums,nums+NUMMAX);
    gettimeofday(&end,NULL);

    //计算用时
    long long startusec=start.tv_sec*1000000+start.tv_usec;
    long long endusec=end.tv_sec*1000000+end.tv_usec;
    double elapsed=(double)(endusec-startusec)/1000000.0;
    printf("sort took %.4f seconds\n",elapsed);

    FILE *fp=fopen("save.txt","w+");
    for(unsigned long i=0;i<NUMMAX;i++)
        fprintf(fp,"%ld ",nums[i]);
    return 0;
}

排序时间花费如下:

多线程排序:

#include <unistd.h>
#include <sys/time.h>
#include <pthread.h>
#include <string.h>
#include <string>
#include <cstdio>
#include <iostream>
#include <errno.h>
#include <climits>
#include <stdlib.h>
#include <algorithm>
using namespace std;

//错误检查函数
inline void ERR_EXIT(const string &msg,int retnum)
{
    if(retnum!=0)
    {
        cerr<<msg<<": "<<strerror(retnum)<<endl;
        exit(EXIT_FAILURE);
    }
}
#define NUMMAX 8000000L
#define NTHR 4
#define TNUM (NUMMAX/NTHR)
long int nums[NUMMAX];
long int snums[NUMMAX];
pthread_barrier_t b;

void * workThread(void *args)
{
    long index=(long)args;
    sort(nums+index,nums+index+TNUM);
    pthread_barrier_wait(&b);
    pthread_exit(NULL);
}

void merge()
{
    long index[NTHR];
    for(long i=0;i<NTHR;i++)
        index[i]=i*TNUM;

    for(long i=0;i<NUMMAX;i++)
    {
         long min_index;
         long min_num=LONG_MAX;
         for(long j=0;j<NTHR;j++)
         {
             if((index[j]<(j+1)*TNUM)&&(nums[index[j]]<min_num))
             {
                 min_num=nums[index[j]];
                 min_index=j;
             }
         }
         snums[i]=nums[index[min_index]];
         index[min_index]++;
    }

}
int main()
{
    srandom(time(NULL));
    for(unsigned long i=0;i<NUMMAX;i++)
        nums[i]=random();

    struct timeval start,end;
    pthread_t tid;
    //计时开始
    gettimeofday(&start,NULL);
    pthread_barrier_init(&b,NULL,NTHR+1);
    for(unsigned long i=0;i<NTHR;i++)
        pthread_create(&tid,NULL,workThread,(void*)(i*TNUM));

    pthread_barrier_wait(&b);
    merge();
    gettimeofday(&end,NULL);

    //计算用时
    long long startusec=start.tv_sec*1000000+start.tv_usec;
    long long endusec=end.tv_sec*1000000+end.tv_usec;
    double elapsed=(double)(endusec-startusec)/1000000.0;
    printf("sort took %.4f seconds\n",elapsed);

    FILE *fp=fopen("save.txt","w+");
    for(unsigned long i=0;i<NUMMAX;i++)
        fprintf(fp,"%ld ",snums[i]);
    return 0;
}

运行结果如下:

线程数为2时:

线程数为4时:

线程数为8时:

由于我的电脑是4核的CPU,所以能够看到当线程数是4时的运 算时间最短,恰好达到并行的结果。当线程数再多时,就会有线程之间额外切换的开销。

时间: 2024-10-10 19:46:00

Linux 下多线程排序的实现的相关文章

linux下多线程下载工具axel的编译安装

axel 是Linux 命令行下多线程的下载工具,支持断点续传,速度通常情况下是Wget的几倍 官方主页:http://axel.alioth.debian.org/ 源码下载: #curl -O http://pkgs.fedoraproject.org/repo/pkgs/axel/axel2.4.tar.gz/a2a762fce0c96781965c8f9786a3d09d/axel-2.4.tar.gz 编译安装: # tar -xvf axel-2.4.tar.gz  && cd

linux下多线程编程

最近研究mysql源码,各种锁,各种互斥,好在我去年认真学了<unix环境高级编程>, 虽然已经忘得差不多了,但是学过始终是学过,拿起来也快.写这篇文章的目的就是总结linux 下多线程编程,作为日后的参考资料. 本文将介绍linux系统下多线程编程中,线程同步的各种方法.包括: 互斥量(mutex) 读写锁 条件变量 信号量 文件互斥 在介绍不同的线程同步的方法之前,先简单的介绍一下进程和线程的概念, 它们的优缺点,线程相关的API,读者——写者问题和哲学家就餐问题. 基础知识 1. 进程和

linux下多线程的调试

多线程调试的基本命令(均在gdb命令行使用): info threads ---- 显示当前可调试的所有线程.每一个线程都有自己的线程ID,显示结果中前面有*的表示当前调试的线程. eg: (gdb)info threads ID    Target ID 3     Thread 0x------(LWP 1235) 2    Thread 0x------(LWP 1234) *1    Thread 0x------(LWP 1233)    //当前活动的线程 最前面的数字1.2.3表示

Linux下多线程下载工具 - Axel

Axel 是 Linux 下一个不错的HTTP/FTP高速下载工具.支持多线程下载.断点续传,且可以从多个地址或者从一个地址的多个连接来下载同一个文件.适合网速不给力时多线程下载提高下载速度.比如在国内VPS或服务器上下载lnmp一键安装包用Axel就比wget快. CentOS安装Axel: 目前yum源上没有Axel,我们可以到http://pkgs.repoforge.org/axel/下载rpm包安装. 32位CentOS执行下面命令: wget -c http://pkgs.repof

linux下多线程断点下载工具-alex

今天要下载一下14G左右的文件,用wget约10小时,后来发现linux下有个多线程支持断点续传的下载工具alex,试了一下,下载速度大大增加. 包地址:http://pkgs.repoforge.org/axel/ 安装 下载rpm文件并安装: $ wget http://pkgs.repoforge.org/axel/axel-2.4-1.el6.rf.x86_64.rpm $ rpm -i axel-2.4-1.el6.rf.x86_64.rpm 主要参数 -n x:启动x个线程下载 -s

Linux下多线程下载工具MWget和Axel使用介绍

linux运维在操作linux过程中,用得最多的linux下载工具想必一定是wget,没有看到哪一台服务器没装过wget的,或许有人使用ftp下载,也有人使用多线程的axel以及ProZilla,毫无疑问这两个工具都非常的出色,但是对于习惯使用wget的人来说显得不适应,于是老外便开发了多线程版本的wget工具mwget,m表示multi多线程的意思. mwget官方地址:http://sourceforge.net/projects/kmphpfm/?source=dlp # cd /usr/

Linux下多线程2——多线程的优点

使用多线程的理由1: 使用多线程的理由之一是和进程相比,它是一种非常"节俭"的多任务操作方式.我们知道,在 Linux 系统下,启动一个新的进程必须分配给它独立的地址空 间,建立众多的数据表来维护它的代码段.堆栈段和数据段,这是一种"昂贵"的多任务工作方式.而运行于一个进程中的多个线程,它们彼此之间使用相同的地址 空间,共享大部分数据,启动一个线程所花费的空间远远小于启动一个进程所花费的空间,而且,线程间彼此切换所需的时间也远远小于进程间切换所需要的时间.使用多线程

为什么linux下多线程程序如此消耗虚拟内存【转】

转自:http://blog.csdn.net/chen19870707/article/details/43202679 权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[-] 探索 灵光一现 刨根问底 意外发现 Author:Echo Chen(陈斌) Email:[email protected] Blog:Blog.csdn.net/chen19870707 Date:Jan.27th, 2015 最近游戏已上线运营,进行服务器内存优化,发现一个非常奇妙的问题,我们的认证服

为什么linux下多线程程序如此消耗虚拟内存

Author:Echo Chen(陈斌) Email:[email protected] Blog:Blog.csdn.net/chen19870707 Date:Jan.27th, 2015 最近游戏已上线运营,进行服务器内存优化,发现一个非常奇妙的问题,我们的认证服务器(AuthServer)负责跟第三方渠道SDK打交道(登陆和充值),由于采用了curl阻塞的方式,所以这里开了128个线程,奇怪的是每次刚启动的时候占用的虚拟内存在2.3G,然后每次处理消息就增加64M,增加到4.4G就不再增