在之前的两篇文章<Mongodb中数据聚合之基本聚合函数count、distinct、group>和<Mongodb中数据聚合之MapReduce>中,我们已经对数据聚合提供了两种实现方式,今天,在这篇文章中,我们讲讲在Mongodb中的另外一种数据聚合实现方式——聚合管道aggregate。
面对着广大用户对数据统计的需求,Mongodb从2.2版本之后便引入了新的功能聚合框架(aggregation framework),它是数据聚合的新框架,这个概念类似于数据处理中的管道。每个文档通过一个由多个节点组成的管道,每个节点都有自己的特殊的作用(分组、过滤等),文档经过由多个节点组成的管道后最终得到输出结果。管道基本的功能有两种:(1)对文档进行过滤,筛选出符合条件的文档;(2)对文档进行变换,改变文档的输出结构。
聚合管道的使用方式:db.collection.aggregate();
对于管道中的多个节点可以使用以下几种管道操作符,下面对各种管道操作符的功能进行描述:
$project:修改文档的结构(重命名、增加或删除域),也可以用于创建计算结果以及嵌套文档。
$match:过滤数据,只输出符合条件的文档。
$limit:限制MongoDB聚合管道返回的文档数。
$skip:在聚合管道中跳过指定数量的文档。
$unwind:将文档中的某一个数组类型字段拆分成多条,每条包含数组中的一个值。
$group:将集合中的文档分组,可用于统计结果。
$sort:文档排序输出。
$geoNear:输出接近某一地理位置的有序文档。
举两个简单的例子:
db.article.aggregate( { $project : { title : 1 , author : 1 , }} );
db.articles.aggregate( [ { $match : { score : { $gt : 70, $lte : 90 } } }, { $group: { _id: user, count: { $sum: 1 } } } ] );
下面对聚合管道使用过程中需要注意的地方进行说明:
(1)管道的是具有先后顺序的。
(2)$group操作目前是在内存中处理的,因此,不能对大量的文档进行使用该种方式进行分组操作;
(3)使用$unwind对数组中的字段值进行拆分时需要注意不能忘记写$符号,如{$unwind:"$tags"},tags字段前面有个$号;
(4)MongoDB 24.对内存做了优化,如果$sort出现在$limit之前,$sort只会对前$limit个文档进行操作,在内存中也只会保留前$limit个文档,节省了内存
(5)$sort操作是在内存中进行的,如果其占有的内存超过物理内存的10%,程序会产生错误
(6)管道的输出结果大小不能大于16M,超过会出现错误。
(7)如果一个管道操作符在执行过程中所占用的内存超过系统内存容量的10%,则会报错;
(8)聚合管道可以提供很好的性能和一致的接口,使用起来比较简单,对于一些简单的固定的聚集操作可以使用管道,但是对于一些复杂的、大量数据集的聚合任务还是使用MapReduce。
至此,关于Mongodb数据库内的数据聚合操作的简单描述便结束了,如果大家想更深入的学习了解,我觉得官网才是最好的教材,