Python Tornado框架(TCP层)

Tornado在TCP层里的工作机制

上一节是关于应用层的协议 HTTP,它依赖于传输层协议 TCP,例如服务器是如何绑定端口的?HTTP 服务器的 handle_stream 是在什么时候被调用的呢?本节聚焦在 TCP 层次的实现,以便和上节的程序流程衔接起来。

首先是关于 TCP 协议。这是一个面向连接的可靠交付的协议。由于是面向连接,所以在服务器端需要分配内存来记忆客户端连接,同样客户端也需要记录服务器。由于保证可靠交付,所以引入了很多保证可靠性的机制,比如定时重传机制,SYN/ACK 机制等,相当复杂。所以,在每个系统里的 TCP 协议软件都是相当复杂的,本文不打算深入谈这些(我也谈不了多少,呵呵)。但我们还是得对 TCP 有个了解。先上一张图(UNIX 网络编程)-- 状态转换图。

除外,来一段TCP服务器端编程经典三段式代码(C实现):

// 创建监听socket
int sfd = socket(AF_INET, SOCK_STREAM, 0);
// 绑定socket到地址-端口, 并在该socket上开始监听。listen的第二个参数叫backlog,和连接队列有关
bind(sfd,(struct sockaddr *)(&s_addr), sizeof(struct sockaddr)) && listen(sfd, 10);
while(1) cfd = accept(sfd, (struct sockaddr *)(&cli_addr), &addr_size);

以上,忽略所有错误处理和变量声明,顾名思义吧…… 更多详细,可以搜 Linux TCP 服务器编程。所以,对于 TCP 编程的总结就是:创建一个监听 socket,然后把它绑定到端口和地址上并开始监听,然后不停 accept。这也是 tornado 的 TCPServer 要做的工作。

TCPServer 类的定义在 tcpserver.py。它有两种用法:bind+start 或者 listen。

第一种用法可用于多线程,但在 TCP 方面两者是一样的。就以 listen 为例吧。TCPServer 的__init__没什么注意的,就是记住了 ioloop 这个单例,这个下节再分析(它是tornado异步性能的关键)。listen 方法接收两个参数端口和地址,代码如下

def listen(self, port, address=""):
	"""Starts accepting connections on the given port.

	This method may be called more than once to listen on multiple ports.
	`listen` takes effect immediately; it is not necessary to call
	`TCPServer.start` afterwards.  It is, however, necessary to start
	the `.IOLoop`.
	"""
	sockets = bind_sockets(port, address=address)
	self.add_sockets(sockets)

以上。首先 bind_sockets 方法接收地址和端口创建 sockets 列表并绑定地址端口并监听(完成了TCP三部曲的前两部),add_sockets 在这些 sockets 上注册 read/timeout 事件。有关高性能并发服务器编程可以参照UNIX网络编程里给的几种编程模型,tornado 可以看作是单线程事件驱动模式的服务器,TCP 三部曲中的第三部就被分隔到了事件回调里,因此肯定要在所有的文件 fd(包括sockets)上监听事件。在做完这些事情后就可以安心的调用 ioloop 单例的 start 方法开始循环监听事件了。具体细节可以参照现代高性能 web 服务器(nginx/lightttpd等)的事件模型,后面也会涉及一点。

简言之,基于事件驱动的服务器(tornado)要干的事就是:创建 socket,绑定到端口并 listen,然后注册事件和对应的回调,在回调里accept 新请求。

bind_sockets 方法在 netutil 里被定义,没什么难的,创建监听 socket 后为了异步,设置 socket 为非阻塞(这样由它 accept 派生的socket 也是非阻塞的),然后绑定并监听之。add_sockets 方法接收 socket 列表,对于列表中的 socket,用 fd 作键记录下来,并调用add_accept_handler 方法。它也是在 netutil 里定义的,代码如下:

def add_accept_handler(sock, callback, io_loop=None):
    """Adds an `.IOLoop` event handler to accept new connections on ``sock``.

    When a connection is accepted, ``callback(connection, address)`` will
    be run (``connection`` is a socket object, and ``address`` is the
    address of the other end of the connection).  Note that this signature
    is different from the ``callback(fd, events)`` signature used for
    `.IOLoop` handlers.
    """
    if io_loop is None:
        io_loop = IOLoop.current()

    def accept_handler(fd, events):
        while True:
            try:
                connection, address = sock.accept()
            except socket.error as e:
                if e.args[0] in (errno.EWOULDBLOCK, errno.EAGAIN):
                    return
                raise
            callback(connection, address)
    io_loop.add_handler(sock.fileno(), accept_handler, IOLoop.READ)

需要注意的一个参数是 callback,现在指向的是 TCPServer 的 _handle_connection 方法。add_accept_handler 方法的流程:首先是确保ioloop对象。然后调用 add_handler 向 loloop 对象注册在fd上的read事件和回调函数accept_handler。该回调函数是现成定义的,属于IOLoop层次的回调,每当事件发生时就会调用。回调内容也就是accept得到新socket和客户端地址,然后调用callback向上层传递事件。从上面的分析可知,当read事件发生时,accept_handler被调用,进而callback=_handle_connection被调用。

_handle_connection就比较简单了,跳过那些ssl的处理,简化为两句stream = IOStream(connection, io_loop=self.io_loop)和self.handle_stream()。这里IOStream代表了IO层,以后再说,反正读写是不愁了。接着是调用handle_stream。我们可以看到,不论应用层是什么协议(或者自定义协议),当有新连接到来时走的流程是差不多的,都要经历一番上诉的回调,不同之处就在于这个handle_stream方法。这个方法是由子类自定义覆盖的,它的HTTP实现已经在上一节看过了。

到此,和上节的代码流程接上轨了。当事件发生时是如何回调的呢?app.py里的IOLoop.instance().start()又是怎样的流程呢?明天继续,看tornado异步高性能的根本所在

Tornado TCPServer类的设计解读

前文已经说过,HTTPServer是派生自TCPServer,从协议层次上讲,这再自然不过。

从TCPServer的实现上看,它是一个通用的server框架,基本是按照BSD socket的思想设计的。create-bind-listen三段式一个都不少。

从helloworld.py往下追,可以看到:

  1. helloworld.py中的main函数创建了HTTPServer.
  2. HTTPServer继承自TCPServer,在HTTPServer的构造函数中直接调用了TCPServer的构造函数。

接下来我们就去看看TCPServer这个类的实现,它的代码放在tornado/tcpserver.py中。tcpserver.py只有两百多行,不算多。所有代码都是在实现TCPServer这个类。

TCPServer

在TCPServer类的注释中,首先强调了它是一个non-blocking, single-threaded TCP Server。

怎么理解呢?

non-blocking,就是说,这个服务器没有使用阻塞式API。

什么是阻塞式设计?举个例子,在BSD Socket里,recv函数默认是阻塞式的。使用recv读取客户端数据时,如果对方并未发送数据,则这个API就会一直阻塞那里不返回。这样服务器的设计不得不使用多线程或者多进程方式,避免因为一个API的阻塞导致服务器没法做其它事。阻塞式API是很常见的,我们可以简单认为,阻塞式设计就是“不管有没有数据,服务器都派API去读,读不到,API就不会回来交差”。

非阻塞,对recv来说,区别在于没有数据可读时,它不会在那死等,它直接就返回了。你可能会认为这办法比阻塞式还要矬,因为服务器无法预知有没有数据可读,不得不反复派recv函数去读。这不是浪费大量的CPU资源么?

当然不会这么傻。tornado这里说的非阻塞要高级得多,基本上是另一种思路:服务器并不主动读取数据,它和操作系统合作,实现了一种“监视器”,TCP连接就是它的监视对象。当某个连接上有数据到来时,操作系统会按事先的约定通知服务器:某某号连接上有数据到来,你去处理一下。服务器这时候才派API去取数据。服务器不用创建大量线程来阻塞式的处理每个连接,也不用不停派API去检查连接上有没有数据,它只需要坐那里等操作系统的通知,这保证了recv API出手就不会落空。

tornado另一个被强调的特征是single-threaded,这是因为我们的“监视器”非常高效,可以在一个线程里监视成千上万个连接的状态,基本上不需要再动用线程来分流。实测表明,它比阻塞式多线程或者多进程设计更加高效——当然,这依赖于操作系统的大力配合,现在主流操作系统都提供了非常高端大气上档次的“监视器”机制,比如epoll、kqueue。

作者提到这个类一般不直接被实例化,而是由它派生出子类,再用子类实例化。

为了强化这个设计思想,作者定义了一个未直接实现的接口,叫handle_stream()。

def handle_stream(self, stream, address):
    """Override to handle a new `.IOStream` from an incoming connection."""
    raise NotImplementedError()

这倒是个不错的技巧,强制让子类覆盖本方法,不然就报错给你看!

TCPServer是支持SSL的。由于Python的强大,支持SSL一点都不费事。要启动一个支持SSL的TCPServer,只需要告诉它你的certifile和keyfile就行。

TCPServer(ssl_options={"certfile": os.path.join(data_dir, "mydomain.crt"),
	"keyfile": os.path.join(data_dir, "mydomain.key"),})

关于这两个文件的来龙去脉,可以去Google“数字证书原理”这篇文章。

TCPServer的三种形式

TCPServer的初始化有三种形式。

1. 单进程形式

server = TCPServer()
server.listen(8888)
IOLoop.instance().start()

我们在helloworld.py中看到的就是这种用法,不再赘述。

2. 多进程形式。

server = TCPServer()
server.bind(8888)
server.start(0)  # Forks multiple sub-processes
IOLoop.instance().start(

区别主要在server.start(0)这里。后面分析listen()与start()两个成员函数时,就会看到它们是怎么跟进程结合的。

注意:这种模式启动时,不能把IOLoop对象传递给TCPServer的构造函数,这样会导致TCPServer直接按单进程启动。

3. 高级多进程形式。

sockets = bind_sockets(8888)
tornado.process.fork_processes(0)
server = TCPServer()
server.add_sockets(sockets)
IOLoop.instance().start()

高级意味着复杂。从上面代码看,虽然只多了一两行,实际里面的流程有比较大的差别。

这种方式的主要优点就是 tornado.process.fork_processes(0)这句,它为进程的创建提供了更多的灵活性。当然现在说了也是糊涂,后面钻进这些代码后,我们再来验证这里的说法。

以上内容都是TCPServer类的doc string中提到的。后面小节开始看code。

时间: 2024-10-10 04:48:47

Python Tornado框架(TCP层)的相关文章

python tornado框架实现CRUD

1.本例采用postgresql数据库,创建数据表 user_tbl create table user_tbl(name varchar(20),signup_date date); 2.webapi接口 (1)tornado框架配置 t_tornado.py #-*- coding:UTF-8 -*- import tornado.httpserver import tornado.ioloop import tornado.options import tornado.web from t

Python Tornado框架(ioloop对象分析)

网上都说nginx和lighthttpd是高性能web服务器,而tornado也是著名的高抗负载应用,它们间有什么相似处呢?上节提到的ioloop对象是如何循环的呢?往下看. 首先关于TCP服务器的开发上节已经提过,很明显那个三段式的示例是个效率很低的(因为只有一个连接被端开新连接才能被接受).要想开发高性能的服务器,就得在这accept上下功夫. 首先,新连接的到来一般是经典的三次握手,只有当服务器收到一个SYN时才说明有一个新连接(还没建立),这时监听fd是可读的可以调用accept,此前服

python tornado框架使用

处理方法 t_handler.py from tornado.web import RequestHandler class IndexHandler(RequestHandler): def get(self): name=self.get_argument('name','world') self.write('hello '+name) class AddHandler(RequestHandler): def get(self): val1=self.get_argument('val1

Python Tornado框架的初步使用-hello,world

Tornado的搭建很简单,使用pip,或者下载源码均可.   我们先看一个最简单的程序: import tornado.ioloop import tornado.web class MainHandler(tornado.web.RequestHandler): def get(self): self.write("<h1>Hello World<h1>") application = tornado.web.Application([(r"/&q

Python Tornado之四(Http层)

前面小节在分析 handler 时提到,handler 的读写实际是依靠 httprequest 来完成的.今天就分析 tornado 在 HTTP 这一层上的实现,类包括 HTTPRequest, HTTPServer 和 HTTPConnection. 首先,HTTP 协议是建立在面向连接的可靠连接协议 TCP 协议之上,是应用层协议,亦即它的协议内容会涉及网络业务逻辑,而与网络连接处理等底层细节关系不大,因此今天只会提到少量 socket 内容,具体的 TCP 细节留待后面说.http 协

异步非阻塞IO的Python Web框架--Tornado

Tornado的全称是Torado Web Server,从名字上就可知它可用作Web服务器,但同时它也是一个Python Web的开发框架.最初是在FriendFeed公司的网站上使用,FaceBook收购之后便进行了开源. 作为Web框架,是一个轻量级的Web框架,类似于另一个Python web 框架Web.py,其拥有异步非阻塞IO的处理方式. 作为Web服务器,Tornado有较为出色的抗负载能力,官方用nginx反向代理的方式部署Tornado和其它Python web应用框架进行对

[转载]知乎技术方案初探——基于Python的Tornado框架

原文出处:http://nonfu.me/p/5935.html 知乎的整个网站架构图如下: 知乎技术方案 知乎是国内很少的使用Python开发的一个网站,也很多值得我们学习的地方,从知乎让我们也可以了解到一些新的WEB技术. 一.Python框架 知乎目前使用的是Tornado 框架.Tornado 全称Tornado Web Server,是一个用Python 语言写成的Web 服务器兼Web 应用框架,由 FriendFeed 公司在自己的网站FriendFeed 中使用,被faceboo

Python Web框架Tornado的异步处理代码示例

1. What is Tornado Tornado是一个轻量级但高性能的Python web框架,与另一个流行的Python web框架Django相比,tornado不提供操作数据库的ORM接口及严格的MVC开发模式,但可以提供基本的web server功能,故它是轻量级的:它借助non-blocking and event-driven的I/O模型(epoll或kqueue)实现了一套异步网络库,故它是高性能的. Tornado的轻量级+高性能特性使得它特别适用于提供web api的场合,

Python Web框架Tornado的异步处理代码演示样例

1. What is Tornado Tornado是一个轻量级但高性能的Python web框架,与还有一个流行的Python web框架Django相比.tornado不提供操作数据库的ORM接口及严格的MVC开发模式,但能够提供主要的web server功能.故它是轻量级的:它借助non-blocking and event-driven的I/O模型(epoll或kqueue)实现了一套异步网络库,故它是高性能的. Tornado的轻量级+高性能特性使得它特别适用于提供web api的场合