day-3 聊聊python多线程编程那些事

  python一开始给我的印象是容易入门,适合应用开发,编程简洁,第三方库多等等诸多优点,并吸引我去深入学习。直到学习完多线程编程,在自己环境上验证完这句话:python解释器引入GIL锁以后,多CPU场景下,也不再是并行方式运行,甚至比串行性能更差。不免有些落差,一开始就注定了这门语言迟早是有天花板的,对于一些并行要求高的系统,python可能不再成为首选,甚至是完全不考虑。但是事情也并不是绝对悲观的,我们已经看到有一大批人正在致力优化这个特性,新版本较老版本也有了一定改进,一些核心模块我们也可以选用其它模块开发等等措施。

1、python多线程编程

threading是python实现多线程编程的常用库,有两种方式可以实现多线程:1、调用库接口传入功能函数和参数执行;2、自定义线程类继承threading.Thread,然后重写__init__和run方法。

1、调用库接口传入功能函数和参数执行

import threading
import queue
import time

‘‘‘
实现功能:定义一个FIFO的queue,10个元素,3个线程同时来获取
‘‘‘

# 初始化FIFO队列
q = queue.Queue()
for i in range(10):
    q.put(i)
print("%s : Init queue,size:%d"%(time.ctime(),q.qsize()))

# 线程功能函数,获取队列数据
def run(q,threadid):
    is_empty = False
    while not is_empty:
        if not q.empty():
            data  = q.get()
            print("Thread %d get:%d"%(threadid,data))
            time.sleep(1)
        else:
            is_empty = True

# 定义线程列表
thread_handler_lists = []
# 初始化线程
for i in range(3):
    thread = threading.Thread(target=run,args = (q,i))
    thread.start()
    thread_handler_lists.append(thread)
# 等待线程执行完毕
for thread_handler in thread_handler_lists:
    thread_handler.join()

print("%s : End of progress"%(time.ctime()))

2、自定义线程类继承threading.Thread,然后重写__init__和run方法

  和其它语言一样,为了保证多线程间数据一致性,threading库自带锁功能,涉及3个接口:

thread_lock = threading.Lock()    创建一个锁对象

thread_lock.acquire()                         获取锁

thread_lock.release()                         释放锁

  注意:由于python模块queue已经实现多线程安全,实际编码中,不再需要进行锁的操作,此处只是进行编程演示。

import threading
import queue
import time

‘‘‘
实现功能:定义一个FIFO的queue,10个元素,3个线程同时来获取
queue线程安全的队列,因此不需要加
thread_lock.acquire()
thread_lock.release()

‘‘‘

# 自定义一个线程类,继承threading.Thread,重写__init__和run方法即可
class MyThread(threading.Thread):
    def __init__(self,threadid,name,q):
        threading.Thread.__init__(self)
        self.threadid = threadid
        self.name = name
        self.q =q
        print("%s : Init %s success."%(time.ctime(),self.name))

    def run(self):
        is_empty = False
        while not is_empty:
            thread_lock.acquire()
            if not q.empty():
                data  = self.q.get()
                print("Thread %d get:%d"%(self.threadid,data))
                time.sleep(1)
                thread_lock.release()
            else:
                is_empty = True
                thread_lock.release()

# 定义一个锁
thread_lock = threading.Lock()
# 定义一个FIFO队列
q = queue.Queue()
# 定义线程列表
thread_name_list = ["Thread-1","Thread-2","Thread-3"]
thread_handler_lists = []

# 初始化队列
thread_lock.acquire()
for i in range(10):
    q.put(i)
thread_lock.release()
print("%s : Init queue,size:%d"%(time.ctime(),q.qsize()))

# 初始化线程
thread_id = 1
for thread_name in thread_name_list:
    thread = MyThread(thread_id,thread_name,q)
    thread.start()
    thread_handler_lists.append(thread)
    thread_id += 1

# 等待线程执行完毕
for thread_handler in thread_handler_lists:
    thread_handler.join()

print("%s : End of progress"%(time.ctime()))

  

2、python多线程机制分析

  讨论前,我们先梳理几个概念:

  并行并发

  并发的关键是你有处理多个任务的能力,不一定要同时。而并行的关键是你有同时处理多个任务的能力。我认为它们最关键的点就是:是否是『同时』,或者说并行是并发的子集。

  GIL

  GIL:全局解释锁,python解释器级别的锁,为了保证程序本身运行正常,例如python的自动垃圾回收机制,在我们程序运行的同时,也在进行垃圾清理工作。

  下图试图模拟A进程中3个线程的执行情况:

    

    1、  t1、t2、t3线程处于就绪状态,同时向python解释器获取GIL锁

    2、  假设t1获取到GIL锁,被python分配给任意CPU执行,处于运行状态

    3、  Python基于某种调度方式(例如pcode),会让t1释放GIL锁,重新处于就绪状态

    4、  重复1步骤,假设这时t2获取到GIL锁,运行过程同上,被python分配给任意CPU执行,处于运行状态,Python基于某种调度方式(例如pcode),会让t2释放GIL锁,重新处于就绪状态

    5、  最后可以推得t1、t2、t3按如下1、2、3、4方式串行运行

因此,尽管t1、t2、t3为三个线程,理论上可以并行运行,但实际上python解释器引入GIL锁以后,多CPU场景下,也不再是并行方式运行,甚至比串行性能更差,下面我们做个测试:

我们写两个计算函数,测试单线程和多线程的时间开销,代码如下:

import threading
import time

# 定义两个计算量大的函数
def sum():
    sum = 0
    for i in range(100000000):
        sum += i

def mul():
    sum = 0
    for i in range(10000000):
        sum *= i

# 单线程时间测试
starttime = time.time()
sum()
mul()
endtime = time.time()
period = endtime - starttime
print("The single thread cost:%d"%(period))

# 多线程时间测试
starttime = time.time()
l = []
t1 = threading.Thread(target = sum)
t2 = threading.Thread(target = sum)
l.append(t1)
l.append(t2)
for i in l:
    i.start()
for i in l:
    i.join()
endtime = time.time()
period = endtime - starttime
print("The mutiple thread cost:%d"%(period))

print("End of program.")

测试发现,多线程的时间开销居然比单线程还要大

这个结果有点让人不可接受,那有没有办法优化?答案是有的,比如把多线程变成多进程,但是考虑到进程开销问题,实际编程中,不能开过多进程,另外进程+协程也可以提高一定性能,这里暂时不再深入分析。

有兴趣可以继续阅读下链接博客:http://cenalulu.github.io/python/gil-in-python/

原文地址:https://www.cnblogs.com/python-frog/p/8640676.html

时间: 2024-08-11 23:53:29

day-3 聊聊python多线程编程那些事的相关文章

python 多线程编程

一)线程基础 1.创建线程: thread模块提供了start_new_thread函数,用以创建线程.start_new_thread函数成功创建后还能够对其进行操作. 其函数原型: start_new_thread(function,atgs[,kwargs]) 其參数含义例如以下: function: 在线程中运行的函数名 args:元组形式的參数列表. kwargs: 可选參数,以字典的形式指定參数 方法一:通过使用thread模块中的函数创建新线程. >>> import th

Python多线程编程

原文 运行几个线程和同时运行几个不同的程序类似,它有以下好处: 一个进程内的多个线程和主线程分享相同的数据空间,比分开不同的过程更容易分享信息或者彼此通信. 线程有时叫做轻量化过程,而且他们不要求更多的内存开支:它们比过程便宜. 一个线程的顺序是:启动,执行和停止.有一个指令指针跟踪线程正在运行的上下文在哪里. 它可以被抢占(中断) 它能暂时被挂起(也叫做休眠),而别的线程在运行--这也叫做yielding(让步). 开始一个新线程: 要生成一个线程,需要调用在thread模块中方法如下: th

python多线程编程—同步原语入门(锁Lock、信号量(Bounded)Semaphore)

摘录python核心编程 一般的,多线程代码中,总有一些特定的函数或者代码块不希望(或不应该)被多个线程同时执行(比如两个线程运行的顺序发生变化,就可能造成代码的执行轨迹或者行为不相同,或者产生不一致的数据),比如修改数据库.更新文件或其他会产生竞态条件的类似情况.此时就需要同步了. 同步:任意数量的线程可以访问临界区的代码,但在给定的时刻又只有一个线程可以通过时. 这里介绍两个基本的同步类型原语:锁/互斥.信号量 锁 锁有两种状态:锁定和未锁定.与之对应的是两个函数:获得锁和释放锁. 当多线程

python多线程编程(2): 使用互斥锁同步线程

上一节的例子中,每个线程互相独立,相互之间没有任何关系.现在假设这样一个例子:有一个全局的计数num,每个线程获取这个全局的计数,根据num进行一些处理,然后将num加1.很容易写出这样的代码: # encoding: UTF-8import threadingimport time class MyThread(threading.Thread): def run(self): global num time.sleep(1) num = num+1 msg = self.name+' set

python多线程编程-queue模块和生产者-消费者问题

摘录python核心编程 本例中演示生产者-消费者模型:商品或服务的生产者生产商品,然后将其放到类似队列的数据结构中.生产商品中的时间是不确定的,同样消费者消费商品的时间也是不确定的. 使用queue模块(python2.x版本中,叫Queue)来提供线程间通信的机制,从而让线程之间可以分享数据.具体而言,就是创建一个队列,让生产者(线程)在其中放入新的商品,而消费者(线程)消费这些商品. 下表是queue模块的部分属性: 属性 描述 queue模块的类 Queue(maxsize=0) 创建一

thread模块—Python多线程编程

Thread 模块 *注:在实际使用过程中不建议使用 thread 进行多线程编程,本文档只为学习(或熟悉)多线程使用. Thread 模块除了派生线程外,还提供了基本的同步数据结构,称为锁对象(lock object,也叫原语锁.互斥锁.互斥和二进制信号量). 常用线程函数以及 LockType 锁对象的方法: 函数/方法 描述 thread 模块的函数   start_new_thread(function, args, kwargs=None) 派生一个新的线程,使用给定的 args 和可

Python多线程编程之多线程加锁

Python语言本身是支持多线程的,不像PHP语言. 下面的例子是多个线程做同一批任务,任务总是有task_num个,每次线程做一个任务(print),做完后继续取任务,直到所有任务完成为止. 1 #coding:utf-8 2 import threading 3 4 start_task = 0 5 task_num = 10000 6 mu = threading.Lock() ###通过工厂方法获取一个新的锁对象 7 8 class MyThread(threading.Thread):

python多线程编程(5): 队列同步

前面介绍了互斥锁和条件变量解决线程间的同步问题,并使用条件变量同步机制解决了生产者与消费者问题. 让我们考虑更复杂的一种场景:产品是各不相同的.这时只记录一个数量就不够了,还需要记录每个产品的细节.很容易想到需要用一个容器将这些产品记录下来. Python的Queue模块中提供了同步的.线程安全的队列类,包括FIFO(先入先出)队列Queue,LIFO(后入先出)队列LifoQueue,和优先级队列PriorityQueue.这些队列都实现了锁原语,能够在多线程中直接使用.可以使用队列来实现线程

python多线程编程(1)

虚拟机层面 Python虚拟机使用GIL(Global Interpreter Lock,全局解释器锁)来互斥线程对共享资源的访问,暂时无法利用多处理器的优势. 语言层面 在语言层面,Python对多线程提供了很好的支持,Python中多线程相关的模块包括:thread,threading,Queue.可以方便地支持创建线程.互斥锁.信号量.同步等特性. thread:多线程的底层支持模块,一般不建议使用. threading:对thread进行了封装,将一些线程的操作对象化,提供下列类: Th