Python异步IO --- 轻松管理10k+并发连接

前言

异步操作在计算机软硬件体系中是一个普遍概念,根源在于参与协作的各实体处理速度上有明显差异。软件开发中遇到的多数情况是CPU与IO的速度不匹配,所以异步IO存在于各种编程框架中,客户端比如浏览器,服务端比如node.js。本文主要分析Python异步IO。

Python 3.4标准库有一个新模块asyncio,用来支持异步IO,不过目前API状态是provisional,意味着不保证向后兼容性,甚至可能从标准库中移除(可能性极低)。如果关注PEP和Python-Dev会发现该模块酝酿了很长时间,可能后续有API和实现上的调整,但毋庸置疑asyncio非常实用且功能强大,值得学习和深究。

示例

asyncio主要应对TCP/UDP socket通信,从容管理大量连接,而无需创建大量线程,提高系统运行效率。此处将官方文档的一个示例做简单改造,实现一个HTTP长连接benchmark工具,用于诊断WEB服务器长连接处理能力。

功能概述:

每隔10毫秒创建10个连接,直到目标连接数(比如10k),同时每个连接都会规律性的向服务器发送HEAD请求,以维持HTTP keepavlie。

代码如下:

点击(此处)折叠或打开

  1. import argparse
  2. import asyncio
  3. import functools
  4. import logging
  5. import random
  6. import urllib.parse
  7. loop = asyncio.get_event_loop()
  8. @asyncio.coroutine
  9. def print_http_headers(no, url, keepalive):
  10. url = urllib.parse.urlsplit(url)
  11. wait_for = functools.partial(asyncio.wait_for, timeout=3, loop=loop)
  12. query = (‘HEAD {url.path} HTTP/1.1\r\n‘
  13. ‘Host: {url.hostname}\r\n‘
  14. ‘\r\n‘).format(url=url).encode(‘utf-8‘)
  15. rd, wr = yield from wait_for(asyncio.open_connection(url.hostname, 80))
  16. while True:
  17. wr.write(query)
  18. while True:
  19. line = yield from wait_for(rd.readline())
  20. if not line: # end of connection
  21. wr.close()
  22. return no
  23. line = line.decode(‘utf-8‘).rstrip()
  24. if not line: # end of header
  25. break
  26. logging.debug(‘(%d) HTTP header> %s‘ % (no, line))
  27. yield from asyncio.sleep(random.randint(1, keepalive//2))
  28. @asyncio.coroutine
  29. def do_requests(args):
  30. conn_pool = set()
  31. waiter = asyncio.Future()
  32. def _on_complete(fut):
  33. conn_pool.remove(fut)
  34. exc, res = fut.exception(), fut.result()
  35. if exc is not None:
  36. logging.info(‘conn#{} exception‘.format(exc))
  37. else:
  38. logging.info(‘conn#{} result‘.format(res))
  39. if not conn_pool:
  40. waiter.set_result(‘event loop is done‘)
  41. for i in range(args.connections):
  42. fut = asyncio.async(print_http_headers(i, args.url, args.keepalive))
  43. fut.add_done_callback(_on_complete)
  44. conn_pool.add(fut)
  45. if i % 10 == 0:
  46. yield from asyncio.sleep(0.01)
  47. logging.info((yield from waiter))
  48. def main():
  49. parser = argparse.ArgumentParser(description=‘asyncli‘)
  50. parser.add_argument(‘url‘, help=‘page address‘)
  51. parser.add_argument(‘-c‘, ‘--connections‘, type=int, default=1,
  52. help=‘number of connections simultaneously‘)
  53. parser.add_argument(‘-k‘, ‘--keepalive‘, type=int, default=60,
  54. help=‘HTTP keepalive timeout‘)
  55. args = parser.parse_args()
  56. logging.basicConfig(level=logging.INFO, format=‘%(asctime)s %(message)s‘)
  57. loop.run_until_complete(do_requests(args))
  58. loop.close()
  59. if __name__ == ‘__main__‘:
  60. main()

测试与分析

硬件:CPU 2.3GHz / 2 cores,RAM 2GB

软件:CentOS 6.5(kernel 2.6.32), Python 3.3 (pip install asyncio), nginx 1.4.7

参数设置:ulimit -n 10240;nginx worker的连接数改为10240

启动WEB服务器,只需一个worker进程:

  1. # ../sbin/nginx
  2. # ps ax | grep nginx
  3. 2007 ? Ss 0:00 nginx: master process ../sbin/nginx
  4. 2008 ? S 0:00 nginx: worker process

启动benchmark工具, 发起10k个连接,目标URL是nginx的默认测试页面:

  1. $ python asyncli.py http://10.211.55.8/ -c 10000

nginx日志统计平均每秒请求数:

  1. # tail -1000000 access.log | awk ‘{ print $4 }‘ | sort | uniq -c | awk ‘{ cnt+=1; sum+=$1 } END { printf "avg = %d\n", sum/cnt }‘
  2. avg = 548

top部分输出:

  1. VIRT   RES   SHR  S %CPU  %MEM   TIME+  COMMAND
  2. 657m   115m  3860 R 60.2  6.2   4:30.02  python
  3. 54208  10m   848  R 7.0   0.6   0:30.79  nginx

总结:

1. Python实现简洁明了。不到80行代码,只用到标准库,逻辑直观,想象下C/C++标准库实现这些功能,顿觉“人生苦短,我用Python”。

2. Python运行效率不理想。当连接建立后,客户端和服务端的数据收发逻辑差不多,看上面top输出,Python的CPU和RAM占用基本都是nginx的10倍,意味着效率相差100倍(CPU x RAM),侧面说明了Python与C的效率差距。这个对比虽然有些极端,毕竟nginx不仅用C且为CPU/RAM占用做了深度优化,但相似任务效率相差两个数量级,除非是BUG,说明架构设计的出发点就是不同的,Python优先可读易用而性能次之,nginx就是一个高度优化的WEB服务器,开发一个module都比较麻烦,要复用它的异步框架,简直难上加难。开发效率与运行效率的权衡,永远都存在。

3. 单线程异步IO v.s. 多线程同步IO。上面的例子是单线程异步IO,其实不写demo就知道多线程同步IO效率低得多,每个线程一个连接?10k个线程,仅线程栈就占用600+MB(64KB * 10000)内存,加上线程上下文切换和GIL,基本就是噩梦。

ayncio核心概念

以下是学习asyncio时需要理解的四个核心概念,更多细节请看<参考资料>

1. event loop。单线程实现异步的关键就在于这个高层事件循环,它是同步执行的。

2. future。异步IO有很多异步任务构成,而每个异步任务都由一个future控制。

3. coroutine。每个异步任务具体的执行逻辑由一个coroutine来体现。

4. generator(yield & yield from) 。在asyncio中大量使用,是不可忽视的语法细节。

参考资料

1. asyncio – Asynchronous I/O, event loop, coroutines and tasks, https://docs.python.org/3/library/asyncio.html

2. PEP 3156, Asynchronous IO Support Rebooted: the "asyncio” Module, http://legacy.python.org/dev/peps/pep-3156/

3. PEP 380, Syntax for Delegating to a Subgenerator, http://legacy.python.org/dev/peps/pep-0380/

4. PEP 342, Coroutines via Enhanced Generators, http://legacy.python.org/dev/peps/pep-0342/

5. PEP 255, Simple Generators, http://legacy.python.org/dev/peps/pep-0255/

6. asyncio source code, http://hg.python.org/cpython/file/3.4/Lib/asyncio/

时间: 2024-10-12 23:29:26

Python异步IO --- 轻松管理10k+并发连接的相关文章

Python异步IO

在IO操作的过程中,当前线程被挂起,而其他需要CPU执行的代码就无法被当前线程执行了. 我们可以使用多线程或者多进程来并发执行代码,为多个用户服务. 但是,一旦线程数量过多,CPU的时间就花在线程切换上了,真正运行代码的时间就少了,结果导致性能严重下降. 异步IO:当代码需要执行一个耗时的IO操作时,它只发出IO指令,并不等待IO结果,然后就去执行其他代码了.一段时间后,当IO返回结果时,再通知CPU进行处理. 对于大多数IO密集型的应用程序,使用异步IO将大大提升系统的多任务处理能力. 1.

Python异步IO之协程(一):从yield from到async的使用

引言:协程(coroutine)是Python中一直较为难理解的知识,但其在多任务协作中体现的效率又极为的突出.众所周知,Python中执行多任务还可以通过多进程或一个进程中的多线程来执行,但两者之中均存在一些缺点.因此,我们引出了协程. Tips 欲看完整代码请见:我的GitHub 为什么需要协程?首先,我们需要知道同步和异步是什么东东,不知道的看详解.简单来说:[同步]:就是发出一个“调用”时,在没有得到结果之前,该“调用”就不返回,“调用者”需要一直等待该“调用”结束,才能进行下一步工作.

Python 异步IO、IO多路复用

事件驱动模型 1 <!DOCTYPE html> 2 <html lang="en"> 3 <head> 4 <meta charset="UTF-8"> 5 <title>Title</title> 6 7 </head> 8 <body> 9 10 <p onclick="fun()">点我呀</p> 11 12 13 &l

python 异步IO\数据库\队列\缓存

协程 协程,又称微线程,纤程.英文名Coroutine.一句话说明什么是线程:协程是一种用户态的轻量级线程. 协程拥有自己的寄存器上下文和栈.协程调度切换时,将寄存器上下文和栈保存到其他地方,在切回来的时候,恢复先前保存的寄存器上下文和栈.因此: 协程能保留上一次调用时的状态(即所有局部状态的一个特定组合),每次过程重入时,就相当于进入上一次调用的状态,换种说法:进入上一次离开时所处逻辑流的位置. 协程的好处: 无需线程上下文切换的开销 无需原子操作锁定及同步的开销 方便切换控制流,简化编程模型

Python异步IO之协程(二):使用asyncio的不同方法实现协程

引言:在上一章中我们介绍了从yield from的来源到async的使用,并在最后以asyncio.wait()方法实现协程,下面我们通过不同控制结构来实现协程,让我们一起来看看他们的不同作用吧- 在多个协程中的线性控制流很容易通过内置的关键词await来管理.使用asyncio模块中的方法可以实现更多复杂的结构,它可以并发地完成多个协程. 一.asyncio.wait() 你可以将一个操作分成多个部分并分开执行,而wait(tasks)可以被用于中断任务集合(tasks)中的某个被事件循环轮询

Python 异步IO

前言 1. 什么是"多任务"的操作系统? 简单地说,就是操作系统可以同时运行多个任务. 2. 单核CPU是如何执行多任务的? 操作系统轮流让多个任务交替执行,任务1执行0.01s,切换到任务2,任务2执行0.01s,再切换到任务3,执行0.01s--这样反复执行下去.表面上看,每个任务都是交替执行的,但是,由于CPU的执行速度实在是太快了,我们感觉就像所有任务都在同时执行一样.真正的并行执行多任务只能在多核CPU上实现,但是,由于任务数量远远多于CPU的核心数量,所以,操作系统也会自动

转-python异步IO-asyncio

原文连接 http://blog.chinaunix.net/uid-190176-id-4223282.html 前言 异步操作在计算机软硬件体系中是一个普遍概念,根源在于参与协作的各实体处理速度上有明显差异.软件开发中遇到的多数情况是CPU与IO的速度不匹配,所以异步IO存在于各种编程框架中,客户端比如浏览器,服务端比如node.js.本文主要分析Python异步IO. Python 3.4标准库有一个新模块asyncio,用来支持异步IO,不过目前API状态是provisional,意味着

python 协程, 异步IO Select 和 selectors 模块 多并发演示

主要内容 Gevent协程 Select\Poll\Epoll异步IO与事件驱动 selectors 模块 多并发演示 协程 协程,又称微线程,纤程.英文名Coroutine.一句话说明什么是线程:协程是一种用户态的轻量级线程. 协程拥有自己的寄存器上下文和栈.协程调度切换时,将寄存器上下文和栈保存到其他地方,在切回来的时候,恢复先前保存的寄存器上下文和栈.因此: 协程能保留上一次调用时的状态(即所有局部状态的一个特定组合),每次过程重入时,就相当于进入上一次调用的状态,换种说法:进入上一次离开

Python高级编程和异步IO并发编程

Python高级编程和异步IO并发编程网盘地址:https://pan.baidu.com/s/1eB-BsUacBRhKxh7qXwndMQ 密码: tgba备用地址(腾讯微云):https://share.weiyun.com/5Z3x9V0 密码:7cdnb2 针对Python高级编程和异步IO并发编程,把每个Python高级知识点从起因到原理讲透的课程全网难寻 第1章 课程简介第2章 python中一切皆对象第3章 魔法函数第4章 深入类和对象第5章 自定义序列类第6章 深入python