如何在Mongodb集合中统计去重之后的数据

比方说我们有个Mongodb集合,

以这个简单的集合为例,我们需要集合中包含多少不同的手机号码,首先想到的应该就是使用distinct关键字,

db.tokencaller.distinct(‘Caller‘).length

如果想查看具体的而不同的手机号码,那么可以省略后面的length属性,因为db.tokencaller.distinct(‘Caller‘)返回的是由所有去重手机号码组成的数组。

但是,这种方式对于所有情况都是满足的嘛?并不如此,如果要统计的集合记录数较大,如千万级别的,那么在这么统计的时候往往会报10044错误,提示信息“exception : distinct too big , 16mb cap”. 后面我们将通过其他方式进行解决。

另外一种方式可以使用runCommand结合distinct进行使用,

db.runCommand({"distinct":"tokencaller","key":"Caller"})

可见在values上显示了去重之后的手机号码,,看结果是一个Json格式的,于是尝试了下看看能不能取出values的大小,因为如果对于大数据量的集合来说,直接显示去重的号码明显不合适,于是尝试了下面的写法:

发现是可以的,于是对大数据量使用了这种方式看看是否能取出结果,发现不存在length属性,想了想应该跟mongodb的客户端版本有关系吧,还待验证!!!

两种方式都不行,于是试了下mapReduce方式,具体如下:

然后我们会发现,他会将查询出来的结果输出到一个称为“callerstatis”的结合,如下所示:

然后使用db.callerstatis.count()就可以知道有多少不同的手机号码了。

使用这种方式,我们同样在大数据量的集合上试了一下,可惜还是失败了!!!!(桑心T_T),如果有谁有好的方法,麻烦也告诉我一下,小的感激不尽啊^_^

时间: 2024-08-01 09:26:00

如何在Mongodb集合中统计去重之后的数据的相关文章

2.1 如何在列表,字典,集合中根据条件帅选数据

#!/usr/bin/env python # -*- coding:utf-8 -*- #2.1 如何在列表,字典,集合中根据天剑筛选数据 # 帅选列表中符合条件的项 data = [1,5,-3,-2,6,8,0,9] res = [] for x in data: if x >=0: res.append(x) # print(res) #2 from random import randint data = [randint(-10,10) for _ in xrange(10)] m

如何在Oracle表中默认添加加密的数据

就是给Q字段设置啊,这个就是jlfalfdkj2kljflsdkl==chr(20),jlfalfdkj2kljflsdkl是字符原始值,通过加密后得到的 alter table 123 add constraint c_default default 'jlfalfdkj2kljflsdkl==chr(10)' for Q

MongoDB数据库中更新与删除数据

在MongoDB数据库中,可以使用Collection对象的update方法更新集合中的数据文档.使用方法如下所示: collection.update(selector, document, [options], [callback]); selector参数:该参数值为一个对象,用于查询需要更新的数据文档.该参数值指定的方法和我们前面使用的find方法中使用的selector参数值的指定方法完全相同. document参数:该参数值为一个对象,用于指定用来更新的数据文档. options参数

MongoDB查询集合中的文档

MongoDB查询集合中的文档 参考资料:http://blog.csdn.net/qq_36040184/article/details/54355085 测试: 集合中插入数据 > db.chenji.insert({"name":"张三","年纪":"三年级","年龄":"14"}) WriteResult({ "nInserted" : 1 }) >

MongoDB 查看集合的统计信息

和 RDBMS 一样, MongoDB 同样存储集合的统计信息,通过调用命令 db.collection.stats() 可以方便的查看集合的统计信息. --1 查看集合 things 的统计信息 rs0:PRIMARY> db.things.stats(); { "ns" : "test.things", "count" : 30, "size" : 1440, "avgObjSize" : 48,

漫谈redis在运维数据分析中的去重统计方式

今天,我和大家分享下redis在运维数据分析中的去重统计方式.为了避免混淆,本文中对于redis的数据结构做如下约定: SET:saddkey member ZSET:zaddkeyscoremember HYPERLOGLOG:pfaddkeyelement STRING:setbitkeyoffset value 名词约定: 维度:比如版本.操作系统类型.操作系统版本.运营商.设备型号.网络类型等 复合维度:由两个或多个维度交错产生的维度,比如某个版本下的某个设备型号. 去重统计在数据化运维

list集合中指定字段去重

在开发中,有时会需要指定字段去重,以下为实现方法: 假设有个房地产权的类,其中宗地代码ZDDM值重复,而我们在前端页面显示时,只需要一条数据,因为公共字段都一样: IEqualityComparer需引入程序集——using System.Collections; //集合指定字段去重(宗地代码) List<FDCQClient> resultFDCQ = new List<FDCQClient>(); var resultdis=resultFDCQ.Distinct(new M

键盘录入一个文件夹路径,统计该文件夹(包含子文件夹)中每种类型的文件及个数,注意:用文件类型(后缀名,不包含.(点),如:&quot;java&quot;,&quot;txt&quot;)作为key, 用个数作为value,放入到map集合中,遍历map集合

package cn.it.zuoye5; import java.io.File;import java.util.HashMap;import java.util.Iterator;import java.util.Map;import java.util.Scanner;import java.util.Set; /** 键盘录入一个文件夹路径,统计该文件夹(包含子文件夹)中每种类型的文件及个数,注意:用文件类型(后缀名,不包含.(点),如:"java","txt&qu

mongodb 删除集合中的所有文档

db.test.remove() -->  无参数将删除该集合中的所有文档