1. python中的多进程编程概念:由于Python是跨平台的,自然也应该提供一个跨平台的多进程支持。multiprocessing模块就是跨平台版本的多进程模块。multiprocessing模块提供了一个Process类来代表一个进程对象。
2. python中的多线程编程具体做法:当我们引入该multiprocessing模块后,对需要进行调用的函数创建进程:b= Process(target=函数名, args=(实参,)),因为process是一个类,所以b就是一个target函数的进程对象,我们也可以在里面添加name属性进行定义这个进程的名字,但python一般都是自动给这个进程一个名字,b.start()通过调用start()函数进行启动进程来执行函数,p.join()通过调用join()函数来说明当需要调用执行的函数调用完毕以后紧接着执行后面的语句代码,这个函数的左右就好像一个承接作用。
3. python中的进程池:如果需要对一个函数进行传入多个不同的实参,可以通过进程池来创建多个子进程。具体做法:from multiprocessing import Pool先引入进程池,b= Pool(n)创建进程池对象,里面的n表示可以同时进行n个进程,一定要记住多进程调用时,进程之间是交替执行的,b.apply_async(函数名, args=(实参,))创建进程,多次调用apply_async()创建多个子进程,p.close()多进程执行完毕后通过调用close()来结束进程并表示不能继续添加新的Process了,p.join()承接作用。
4. Process之间肯定是需要通信的,操作系统提供了很多机制来实现进程间的通信。Python的multiprocessing模块包装了底层的机制,提供了Queue、Pipes等多种方式来交换数据,以Queue为例,我们可以写两个函数,一个是read函数,一个是write函数,引入Queue以后,我们b=Queue()来创建一个b队列对象,然后在read函数中用a=b.get(true)来取出队列b中的值,在write函数中通过b.put(value)将value写入队列b中,这样以后,我们再创建俩个进程,然后start()调用执行,这俩个进程之间就可以用Queue来进行通信了。
5. 在Unix/Linux下,可以使用fork()调用实现多进程。要实现跨平台的多进程,可以使用multiprocessing模块。进程间通信是通过Queue、Pipes等实现的。
6. python中的多线程编程:Python的标准库提供了两个模块:_thread和threading,_thread是低级模块,threading是高级模块,对_thread进行了封装。绝大多数情况下,我们只需要使用threading这个高级模块
7. python中的多进程编程做法:与多进程编程类似,b= threading.Thread(target=函数名, name=线程别名),t.start()启动线程执行函数,t.join()承接作用
8. 多线程和多进程最大的不同在于,多进程中,同一个变量,各自有一份拷贝存在于每个进程中,互不影响,而多线程中,所有变量都由所有线程共享,所以任何一个变量都可以被任何一个线程修改,因此,线程之间共享数据最大的危险在于多个线程同时改一个变量,把内容给改乱了。(这里的变量指的是模块中的全局变量)
9. 多线程中的lock,b= threading.Lock()来创建锁对象b,对于与全局变量有关的函数中定义锁机制lock.acquire(),也就是多线程在执行这个函数时都要先得到这个锁,然后才能进行下面的语句代码,否则进入排队队列进行等待,执行完函数后lock.release()来进行释放锁,给等待队列中的线程继续执行,这样就避免了线程在交替执行时全局变量的不稳定性。
10. 多线程编程,模型复杂,容易发生冲突,必须用锁加以隔离,同时,又要小心死锁的发生。Python解释器由于设计时有GIL全局锁,导致了多线程无法利用多核。多线程的并发在Python中就是一个美丽的梦。
11. 在多线程环境下,每个线程都有自己的数据。一个线程使用自己的局部变量比使用全局变量好,因为局部变量只有线程自己能看见,不会影响其他线程,而全局变量的修改必须加锁。前面我们已经直到用lock进行多线程中的全局变量进行加锁,但是,python有提供了另一种方法,可以对全局变量不加锁,单个线程里的"全局变量",就是线程里的所有函数都可访问,但其它线程无法访问的变量...它叫做Threadlocal。
12.Threadloca的使用方法:我们通过b= threading.local()来创建b全局变量,而b又是一个ThreadLocal对象,在各个函数中可以定义b.a,b.c,b.e这些线程中的局部变量,是b的属性,就好像b是线程的全局变量,后面的b.a,b.e是线程的全局子变量,我们可以把他们全部看成是某个线程的全局变量,这样在多线程交替执行的时候,每个线程都能用自己的全局变量,就避免了源程序中的全局变量共享的问题。
13. 首先,要实现多任务,通常我们会设计Master-Worker模式,Master负责分配任务,Worker负责执行任务,因此,多任务环境下,通常是一个Master,多个Worker。如果用多进程实现Master-Worker,主进程就是Master,其他进程就是Worker。如果用多线程实现Master-Worker,主线程就是Master,其他线程就是Worker。
14. 多进程优缺点:多进程模式最大的优点就是稳定性高,因为一个子进程崩溃了,不会影响主进程和其他子进程。(当然主进程挂了所有进程就全挂了,但是Master进程只负责分配任务,挂掉的概率低)
多进程模式的缺点是创建进程的代价大,在Unix/Linux系统下,用fork调用还行,在Windows下创建进程开销巨大。另外,操作系统能同时运行的进程数也是有限的,在内存和CPU的限制下,如果有几千个进程同时运行,操作系统连调度都会成问题
15. 多线程优缺点:多线程模式通常比多进程快一点,但是也快不到哪去,而且,多线程模式致命的缺点就是任何一个线程挂掉都可能直接造成整个进程崩溃,因为所有线程共享进程的内存。在Windows上,如果一个线程执行的代码出了问题,你经常可以看到这样的提示:“该程序执行了非法操作,即将关闭”,其实往往是某个线程出了问题,但是操作系统会强制结束整个进程。在Windows下,多线程的效率比多进程要高。
16. 无论是多进程还是多线程,只要数量一多,效率肯定上不去,为什么呢?因为多线程多进程是交替执行的,所以会有切换过程,这个切换过程虽然很快,但是也需要耗费时间。如果有几千个任务同时进行,操作系统可能就主要忙着切换任务,根本没有多少时间去执行任务了,这种情况最常见的就是硬盘狂响,点窗口无反应,系统处于假死状态。所以,多任务一旦多到一个限度,就会消耗掉系统所有的资源,结果效率急剧下降,所有任务都做不好。
17. 计算密集型任务:计算密集型任务的特点是要进行大量的计算,消耗CPU资源,比如计算圆周率、对视频进行高清解码等等,全靠CPU的运算能力。这种计算密集型任务虽然也可以用多任务完成,但是任务越多,花在任务切换的时间就越多,CPU执行任务的效率就越低,所以,要最高效地利用CPU,计算密集型任务同时进行的数量应当等于CPU的核心数。计算密集型任务由于主要消耗CPU资源,因此,代码运行效率至关重要。Python这样的脚本语言运行效率很低,完全不适合计算密集型任务。对于计算密集型任务,最好用C语言编写。
18. IO密集型任务:涉及到网络、磁盘IO的任务都是IO密集型任务,这类任务的特点是CPU消耗很少,任务的大部分时间都在等待IO操作完成(因为IO的速度远远低于CPU和内存的速度)。对于IO密集型任务,任务越多,CPU效率越高,但也有一个限度。常见的大部分任务都是IO密集型任务,比如Web应用。IO密集型任务执行期间,99%的时间都花在IO上,花在CPU上的时间很少,因此,用运行速度极快的C语言替换用Python这样运行速度极低的脚本语言,完全无法提升运行效率。对于IO密集型任务,最合适的语言就是开发效率最高(代码量最少)的语言,脚本语言是首选,C语言最差
19. if __name__ == ‘__main__‘:的作用是:判断该模块是否是直接执行还是在被调用到另外一个模块中进行执行,
如果我们是直接执行某个.py文件的时候,该文件中那么”__name__ == ‘__main__‘“是True,但是我们如果从另外一个.py文件通过import导入该文件的时候,这时__name__的值就是我们这个py文件的名字而不是__main__。这个功能还有一个用处:调试代码的时候,在”if __name__ == ‘__main__‘“中加入一些我们的调试代码,我们可以让外部模块
调用的时候不执行我们的调试代码,但是如果我们想排查问题的时候,直接执行该模块文件,调试代码能够正常运行!
版权声明:本文为博主原创文章,未经博主允许不得转载。