从PHP客户端看MongoDB通信协议(转)

MongoDB 的 PHP 客户端有一个 MongoCursor 类,它是用于获取一次查询结果集的句柄(或者叫游标),这个简单的取数据操作,内部实现其实不是那么简单。本文就通过对 MongoCursor 类一些操作进行分析,向大家揭开 MongoDB 客户端服务器通信的一些内部细节。

  getNext与网络请求

  通常来说,每一次find操作都会返回一个MongoCursor对象,在这个对象上调用getNext方法,就能够获得一条结果数据。循环调用getNext方法就能获取多条数据。下面我们就来看看其内部取数据的具体逻辑。

  首先我们用最简单的方法来生成一个MongoCursor对象:

$m = new Mongo(); 
$collection = $m->demoDb->demoCollection; 
$cursor = $collection->find();

  当我们调用 find 方法的时候,会生成一个 MongoCursor 对象,而这时候只是生成一个内存中的对象而已,并不会把我们的 find 查询发送到服务端,因为在生成 MongoCursor 对象后,我们还可能对它做一些其它操作,比如 sort,limit 等等。这就对查询条件进行了改变。

  那什么时候 PHP 会对 MongoDB 发起 find 的网络请求呢,是在 MongoCursor 调用 getNext 方法的时候。比如我们在上面代码的基础上,再执行 sort 和 getNext 两个方法:

$cursor->sort( array( ‘name‘ => 1 ) ); 
$result = $cursor->getNext();

  这时候第二行代码就会触发 find 的网络请求,具体请求的内容如下图,下图是对这次请求的二进制协议进行解析后的数据结构展示:

  从上面图中我们可以看到,Number to Return 字段是0,MongoDB 协议里0表示不做限制,获取全部数据。所以这一次的 find 操作会把所有这个 collection 中的所有数据都拿到。而我们调用一次 getNext 实际上只拿到一条数据。那是不是说我们每调一次 getNext,PHP 就会进行一次网络请求获取一条数据呢?结果当然是否定的,这样效率未免也太低了。那好,那是不是 PHP 在第一次调用 getNext 就把所有数据拿回来,存在内存中,然后后续的 getNext 调用都在本地内存里取就行了呢?结果还是否定的,这样数据量大点 PHP 就容易被暴菊了吧。

  所以事实上是怎么做的呢?我们来看下面一张图:

  图上的 Number Returned 的值是101,也就是说 MongoDB 给我们返回了101条数据,这个101实际上就是服务器默认的 batchSize 大小。也就是说在没有指定返回多少条的情况下,会默认返回101条数据。这101条数据会存在 PHP 的内存中,这样后续的100次 getNext 调用,都不会再进行网络请求,而是直接从内存中返回数据。

  如果我们在上面的 getNext 后再进行下面的调用。

// skip the other 100 docs 
for ($i = 0; $i < 100; $i++) { $cursor->getNext(); } 
// request document 102: 
$result = $cursor->getNext();

  上面先循环调用了100次 getNext,内存中的101项数据就都已经被取光了,然后当我们再次调用 getNext 去获取第102条数据的时候,PHP 内存中已经没有数据可以提供了,这时候又会再发起一次向 MongoDB 服务器的请求,去获取更多的数据。客户端这次会发起如下请求:

  这次我们看到,请求的码变成了 Get More。也就是在上次的基础上获取更多数据。这时候实际 MongoDB 不会再按一个特定的条数返回数据,而是按一个特定的大小,目前是4M,也就是说,这一次,MongoDB 会返回最多4M的数据。对上面的请求,MongoDB 的返回如下:

  这次返回结果中,标识了是从第101条开始,共返回了34673条数据。大小是4194378,正好是4M。

  设置batchSize

  上面我们说了,MongoDB 默认的 batchSize 是101条,这个条数实际上我们可以通过客户端来设定的。在 PHP 中,通过 batchSize 函数来进行设置。比如我们用下面命令设定 batchSize 为25:

$cursor = $collection->find()->sort( array( ‘name‘ => 1 ) ); 
$cursor->batchSize(25); 
$result = $cursor->getNext();

  上面代码调用了一次 getNext,按上面讲到的,会一次性批量取N条数据回客户端。上面代码运行时产生的网络请求如下:

  我们可以看到,Number to Return被设置为了25。

  如果我们再循环执行getNext函数25次,加上上面代码一共执行26次,那么因为第一次只返回了25条记录,所以第26次调用getNext函数时会再一次触发网络请求。请求体如下:

  由于我们设定了 batchSize 为25,所以这一次要求返回的也只有25条。服务端返回的数据也就只有25条。

  使用limit

  除了 batchSize 函数以外,还有一个方法可以控制每次网络请求批量返回的记录条数,那就是在 MongoCursor 上调用 limit 函数,直接设置需要获取的记录条数。

  比如下面代码,我们通过设置 limit 查询前50000条记录:

$cursor = $c->find()->sort( array( ‘name‘ => 1 ) ); 
$cursor->limit( 50000 ); 
$res = $cursor->getNext();

  上面代码会发出下面的请求

  我们看到,要求返回的数目是50000条,那么MongoDB服务器是不是就乖乖返回50000条数据了呢。让我们直接来看一下具体的返回数据包

  很遗憾,MongoDB 服务端只返回了34678条,而不是我们理想中的50000条,其实原因也很简单,从 Message Length 的值就能看出来,因为目前请求包已经达到4M大小了,这个上限无法逾越。所以只能返回34678条数据了。

  而同时,客户端在收到返回的数据包时,发现只有34678条数据,不够自己要求的50000条,还差 50000 – 34678 = 15322 条,所以会再发起一次请求,要求服务器返回剩余的15322条记录。如下:

  batchSize 和 limit 相组合

  有时候我们可能会需要取很多条数据,比如上面的,通过设置limit为50000来获取50000条数据,而取这50000条数据的获取可能会超出我们设置的 MongoCursor 的 timeout 限制,抛出 Cursor 超时的异常。这时候我们可以在设置 limit 的同时,设置 batchSize 来控制每两次请求服务器的时间间隔。以免由于获取大量数据导致的 MongoCursor 超时。

  比如下面的例子里,我们要获取128条数据,但是通过设置 batchSize 来控制每次只从服务器取回50条。这样在后续的 getNext 调用中,就会发生三次网络请求,分别请求数目是50条,50条,28条。

$cursor = $c->find()->sort( array( ‘name‘ => 1 ) ); 
$cursor->limit( 128 )->batchSize( 50 ); 
$res = $cursor->getNext(); 
// retrieve the other 127 documents that we still want 
for ($i = 0; $i < 127; $i++) { $cursor->getNext(); }

  关于 batchSize 函数的小问题

  上面我们说了通过设置 batchSiz e来控制客户端与 MongoDB 服务器的数据交换。但是这里有一个特例,当 batchSize 被设置为1,或者是负数时,MongoDB 只会返回第一次请求的数据包,然后直接关闭掉这个连接。也就是说,如果我们执行下面的命令:

$cursor = $c->find()->sort( array( ‘name‘ => 1 ) ); 
$cursor->batchSize( 1 )->limit( 10 ); 
$cursor->getNext(); 
var_dump( $cursor->getNext() );

  会发现最后一个 var_dump 打出来的总是 NULL。因为每一次按 batchSize 的设置只返回了1条数据,然后连接就关闭了。

  而我们只需要稍做修改,将 batchSize 改成2,情况就大为不同

$cursor = $c->find()->sort( array( ‘name‘ => 1 ) ); 
$cursor->batchSize( 2 )->limit( 10 ); 
$cursor->getNext(); // item 1 
$cursor->getNext(); // item 2 
var_dump( $cursor->getNext() ); // item 3

  可以看到,虽然第一次网络返回包被设置只返回两条数据,但是每三次调 getNext 时还是返回数据了,也就是说还是从服务器第二次获取到数据了。

  实际上,通过上面的实验结果,我们已经大致对 MongoDB 客户端服务器通信协议有了大致的了解,更详细的内容我们可以直接在 MongoDB 官方文档中找到(Mongo Wire Protocal)。

原文出处:http://blog.nosqlfan.com/html/3996.html

时间: 2024-12-21 06:42:30

从PHP客户端看MongoDB通信协议(转)的相关文章

最近在看Mongodb

最近在看Mongodb,发现真是好用,NoSQL类型的数据库相对于传统的mysql等,因为没有许多附加的特性,而显得异常的好用.这种感觉就是json和xml的区别,没有xml强大,但是够轻量级,去掉很多很少用到的功能,大大提升了性能.赞~ 使用起来也是异常方便. 从http://www.mongodb.org/downloads下载二进制文件(或者可以从官方的github直接下载源码编译,相对于直接是二进制的稳定版,开发版有更多新的特性,可以直接看官方的文档). 很简单,在下载文件的bin目录同

刨根问底:从INode客户端看如何培养兴趣 (续)

背景: 自从4月22号撰写了--<刨根问底:从INode客户端看如何培养兴趣>到今天过去三个月多了!无论是评论,邮件还是当面交流,好多人给予了我回馈,在此由衷感谢那些持续关注我博客的人们,你们是最美的(夸人不带这样的哈)! 情景再现: 今天中午坤哥(周坤)又来和我交流!大概意思是:自己笔记本的INode客户端日志文件2G左右,删除之后很快就会再产生! 之前解决方案: 在上篇博客中我给出的两个解决方案:①手动删除:②写批处理文件放到开机启动项中! 但是两者都不是很完美:①手动删浪费时间!②批处理

孤荷凌寒自学python第五十六天通过compass客户端和mongodb shell 命令来连接远端MongoDb数据库

(完整学习过程屏幕记录视频地址在文末) 今天是学习mongoDB数据库的第二天.仍然感觉付出的时间与收获完全不成正比,万事开头的时候,总是那么困难,不过今天历尽困难总算还是成功在本地连接上了远端的mongoDB数据库(就是我注册的官方的试用版本的数据库,就在官方网站服务器上.) 一.首先在官方网站为我注册的账号新建的项目[Clusters0]中添加了一个测试数据库(database),命名空间为:ghlhfirst(具体添加过程不是很复杂,但要通过文字描述又比较有难度,而且最开始要找到这个添加过

JAVA-查看MongoDB中的数据(包含List集合)

package com.xinsight.server; import java.net.UnknownHostException; import java.util.ArrayList; import java.util.List; import com.mongodb.BasicDBObject; import com.mongodb.DB; import com.mongodb.DBCollection; import com.mongodb.DBCursor; import com.mo

JAVA-查看MongoDB中的数据(包含Map集合)

package com.xinsight.server; import java.net.UnknownHostException; import java.util.HashMap; import com.mongodb.BasicDBObject; import com.mongodb.DB; import com.mongodb.DBCollection; import com.mongodb.DBCursor; import com.mongodb.Mongo; /** *查找Mongo

刨根问底:从INode客户端看如何培养兴趣

    前言:     好消息:本人姓张,名小二,性别男,今天正式开通刨根问底系列,望大家以后多多关照.     关于兴趣这个东东在网络天地系列中一直在提,但是由于兴趣是个比较抽象的东东,所以一直没有形式化的展现出来.一直在思考以一种什么样的形式能将我体会到的隐性东西给显性化的展示给大家.正当我苦苦寻觅之时,一次偶然的发现探索之旅让我茅塞顿开.真可谓:众里寻他千百度,暮然回首,那人却在灯火阑珊处.     究竟是什么样的旅途让我如此痴迷痴狂那???观众朋友们请勿走开下面的内容更精彩!!! 探索之

MongoDB资料汇总(转)

原文:MongoDB资料汇总 上一篇Redis资料汇总专题很受大家欢迎,这里将MongoDB的系列资料也进行了简单整理.希望能对大家有用. 最后更新时间:2013-04-22 1.MongoDB是什么 MongoDB介绍PPT分享 MongoDB GridFS介绍PPT两则 初识 MongoDB GridFS MongoDB GridFS 介绍 一个NoSQL与MongoDB的介绍PPT MongoDB:下一代MySQL? 写给Python程序员的MongoDB介绍 又一篇给Python程序员的

Linux 安装MongoDB 并设置防火墙,使用远程客户端访问

1. 下载 MongoDB 提供了 linux 各发行版本 64 位的安装包  下载地址:https://www.mongodb.com/download-center#community 2. 安装 1 tar -zxvf mongodb-linux-x86_64-3.0.6.tgz # 解压 2 3 mv mongodb-linux-x86_64-3.0.6/ /usr/local/mongodb # 将解压包拷贝到指定目录 MongoDB 的可执行文件位于 bin 目录下,所以可以将其添加

MongoDB Linux下的安装和启动

1. 下载MongoDB,此处下载的版本是:mongodb-linux-i686-1.8.1.tgz.tar. http://fastdl.mongodb.org/linux/mongodb-linux-i686-1.8.1.tgz 2. 解压文件到某目录下,然后重命名: [root@localhost src]# tar -xzvf mongodb-linux-i686-1.8.1.tgz.tar [root@localhost src]# mv mongodb-linux-i686-1.8.