使用Counter进行计数统计

使用Counter进行计数统计

想必大家对计数统计都不陌生吧!,简单的说就是统计某一项出现的次数。实际应用中很多需求都需要用到这个模型,如检测样本中某一值出现的次数、日志分析某一消息出现的频率分析文件中相同字符串出现的概率等。这类似的需求有很多种实现方法。我们逐一来看一下使用不同数据结构是的实现方式

一、使用dict

? 首先来看看dict这种方法实现,废话不多说,先看看这个小小的骚操作,后面的操作会让你大大底爽一下,彻底的让你满足,请看表演:

some_data = ['a', '2', 2, 4, 5, '2', 'b', 4, 7, 'a', '5', 'd', 'a', 'z'] # 创建列表
count_frq = dict() # 创建列表

# 词频统计
for item in some_data:

    if item in count_frq:
        count_frq[item] += 1
    else:
        count_frq[item] = 1

print(count_frq)

结果:

{‘a‘: 3, ‘2‘: 2, 2: 1, 4: 2, 5: 1, ‘b‘: 1, 7: 1, ‘5‘: 1, ‘d‘: 1, ‘z‘: 1}

二、使用set和list方法

再看看这个常用的小方法

some_data = ['a', '2', 2, 4, 5, '2', 'b', 4, 7, 'a', '5', 'd', 'a', 'z']
count_set = set(some_data) # 去重
count_list = []

for item in count_set:
    count_list.append((item, some_data.count(item)))  # 添加

print(count_list)

结果:

[(‘5‘, 1), (2, 1), (‘2‘, 2), (4, 2), (5, 1), (7, 1), (‘a‘, 3), (‘z‘, 1), (‘b‘, 1), (‘d‘, 1)]

三、collections使用

上面的方法都比较简单,但有没有更优雅,更骚气的,更Pythonic的解决方法呢?请看下面的引入defaultdict

1.1 defaultdict

from collections import defaultdict

some_data = ['a', '2', 2, 4, 5, '2', 'b', 4, 7, 'a', '5', 'd', 'a', 'z']
count_frq = defaultdict(int)  # defaultdict(int) 

# 统计计数
for item in some_data:
    count_frq[item] += 1

print(count_frq)

结果:

dict_items([(‘a‘, 3), (‘2‘, 2), (2, 1), (4, 2), (5, 1), (‘b‘, 1), (7, 1), (‘5‘, 1), (‘d‘, 1), (‘z‘, 1)])

1.2 Counter

Counter 类是自Python2.7起增加的,属于字典类的子类,是一个容器对象,主要用来统计# 散列对象,支持集合操作 +、-、&、|,其中&和|操作分别返回两个Counter对象各元素# 的最大值和最小值。他提供3中不同的方式来初始化,正点来了,看看这个神奇的操作,代码行度大大缩减:

from collections import Counter 

some_data = ['a', '2', 2, 4, 5, '2', 'b', 4, 7, 'a', '5', 'd', 'a', 'z']

count_counter = Counter(some_data)  # 统计

print(count_counter) # 结果就出来,就问你强不强

结果:

Counter({‘a‘: 3, ‘2‘: 2, 4: 2, 2: 1, 5: 1, ‘b‘: 1, 7: 1, ‘5‘: 1, ‘d‘: 1, ‘z‘: 1})

  • Counter不仅可以对列表就行统计,他可以对任何可以迭代的对象进行统计如下:
  1. 可迭代的对象字符串

    Counter("success")  # 可迭代对象
    print(Counter("success"))
    

    结果:

    Counter({‘s‘: 3, ‘c‘: 2, ‘u‘: 1, ‘e‘: 1})

  2. 关键字参数
Counter(s=3, c=2, e=1, u=1) # 关键字参数
print(Counter(s=3, c=2, e=1, u=1))

结果:

Counter({‘s‘: 3, ‘c‘: 2, ‘e‘: 1, ‘u‘: 1})

  1. 字典
Counter({'s': 3, 'c': 2, 'e': 1, 'u': 1})
print(Counter({'s': 3, 'c': 2, 'e': 1, 'u': 1}))

结果:

Counter({‘s‘: 3, ‘c‘: 2, ‘e‘: 1, ‘u‘: 1})

  • 可以使用elements()方法获取Counter中的key值

    print(list(Counter(some_data).elements())) # 根据值打印key的次数

    结果:

    [‘a‘, ‘a‘, ‘a‘, ‘2‘, ‘2‘, 2, 4, 4, 5, ‘b‘, 7, ‘5‘, ‘d‘, ‘z‘]

  • 看看一个更骚气的方法,利用most_commo()方法可以找前N个出现频率最高的元素以及他们对应的次数。
    count = Counter(some_data).most_common(2) # 获取前两个频率最高
    print(count)

    结果:

    [(‘a‘, 3), (‘2‘, 2)]

  • 当访问不存在的元素是,默认返回0而不是抛出keyError异常
    print(Counter(some_data)["y"])

    结果:

    0

  • update()方法用于被统计对象元素的更新,原有Counter计数器对象与新增元素的统计计数值相加而不是直接替换她们
    c = Counter("success")
    print(c)

    结果:

    Counter({‘s‘: 3, ‘c‘: 2, ‘u‘: 1, ‘e‘: 1})

    在此基础上进行更新

    c.update("successfully")
    
    print(c)

    Counter({‘s‘: 6, ‘c‘: 4, ‘u‘: 3, ‘e‘: 2, ‘l‘: 2, ‘f‘: 1, ‘y‘: 1})

  • subtract()方法用于实现计数器对象中元素统计值相减,输入输出的统计值允许为0或者负数(在更新的基础上进行相减)
    c = Counter("success")
    print(c)

    结果:

    Counter({‘s‘: 3, ‘c‘: 2, ‘u‘: 1, ‘e‘: 1, ‘f‘: 0, ‘l‘: 0, ‘y‘: 0})

用兴趣的可以自己研究下哦!

原文地址:https://www.cnblogs.com/randysun/p/11291786.html

时间: 2024-08-10 14:56:47

使用Counter进行计数统计的相关文章

Python:使用Counter进行计数统计

计数统计就是统计某一项出现的次数.实际应用中很多需求需要用到这个模型.比如测试样本中某一指出现的次数.日志分析中某一消息出现的频率等等'这种类似的需求有很多实现方法.下面就列举几条. (1)使用dict 看下面代码 #coding=utf-8 data = ['a','2',2,4,5,'2','b',4,7,'a',5,'d','a','z'] count_frq = dict() for one in data:      if one in count_frq:           cou

Android Demo之旅 Activity、Service、BroadCast实现计数统计

时间匆匆,转眼就是大半个月过去了,学习android的道理上艰苦而漫长呀!!自己写了很多的小demo,总结总结,也在博客里面留点足迹吧! 源代码下载:http://download.csdn.net/detail/harderxin/7761401     参考实例:老罗博客 实现功能:统计计数,我们可能有很多种方式来实现它,但是这个实例运用了Activity.Service.BroadcastReceiver在android中三个大知识点,所以觉得它比较有参考价值: 可学知识点:1)Activ

Python代码优化及技巧笔记(一)

前言 这里是记录一些本人在开发过程中遇到的一些细节问题,与君共勉. 版权说明 著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处.作者:Coding-Naga链接:http://blog.csdn.net/lemon_tree12138/article/details/50736887 来源:CSDN 1.Python实现全排列 方案一: a = [1, 2, 3, 4, 5, 6, 7, 8, 9] result = list(itertools.permutations(a,

Python:线程、进程与协程(3)——Queue模块及源码分析

Queue模块是提供队列操作的模块,队列是线程间最常用的交换数据的形式.该模块提供了三种队列: Queue.Queue(maxsize):先进先出,maxsize是队列的大小,其值为非正数时为无线循环队列 Queue.LifoQueue(maxsize):后进先出,相当于栈 Queue.PriorityQueue(maxsize):优先级队列. 其中LifoQueue,PriorityQueue是Queue的子类.三者拥有以下共同的方法: qsize():返回近似的队列大小.为什么要加"近似&q

基数排序与桶排序,计数排序【详解】

桶排序简单入门篇^-^ 在我们生活的这个世界中到处都是被排序过的东东.站队的时候会按照身高排序,考试的名次需要按照分数排序,网上购物的时候会按照价格排序,电子邮箱中的邮件按照时间排序……总之很多东东都需要排序,可以说排序是无处不在.现在我们举个具体的例子来介绍一下排序算法. 首先出场的是我们的主人公小哼,上面这个可爱的娃就是啦.期末考试完了老师要将同学们的分数按照从高到低排序.小哼的班上只有5个同学,这5个同学分别考了5分.3分.5分.2分和8分,哎,考得真是惨不忍睹(满分是10分).接下来将分

python_如何统计序列中元素

问题1: 随机数列[12,5,8,7,8,9,4,8,5,...] 中出现次数最高的3个元素,他们出现的次数 问题2: 对某英文文章的单词,进行词频统计,找出出现次数最搞得10个单词,他们出现的次数是多少? 上面问题都是以字典的形式保存结果 如何解决问题1? 方法1: #!/usr/bin/python3 from random import randint def count_seq(data): # 初始化统计结果字典,data中的key作为结果字典的key,0作为每个key的初始值 res

CString是否使用了引用计数

Owed by: 春夜喜雨 http://blog.csdn.net/chunyexiyu 转载请标明来源 问题: CString是否使用了引用计数? 答案是肯定的.平常使用的时候确实没有查觉这方面,包括我们可以把CString强制转为TCAHR*来使用,效果也都正常. CString强制转为TCAHR*为什么能正常,原因是什么呢? 原因是单纯从数据结构上来看,它仅有一个变量: m_pszData 但它动态申请的内存结构是这样的 [CStringData结构][存储字符串] 而m_pszData

利用redis setbit和bitmap统计用户数

公司的统计系统接到一个需求,统计时间段内发生过某行为的用户总数.并且时间段的长度是可变的.公司业务用户数量巨大,而且统计系统是实时统计,所以数据的存储.计算效率都需要一个比较好的方案.下面是互联网上的一篇文章,利用redis bitmap. getspool.com的重要统计数据是实时计算的.Redis的bitmap让我们可以实时的进行类似的统计,并且极其节省空间.在模拟1亿2千8百万用户的模拟环境下,在一台MacBookPro上,典型的统计如“日用户数”(dailyunique users)

使用Redis bitmaps进行快速、简单、实时统计

http://bbs.itcast.cn/thread-17267-1-1.html getspool.com的重要统计数据是实时计算的.Redis的bitmap让我们可以实时的进行类似的统计,并且极其节省空间.在模拟1亿2千8百万用户的模拟环境下,在一台MacBookPro上,典型的统计如“日用户数”(dailyunique users) 的时间消耗小于50ms, 占用16MB内存.Spool现在还没有1亿2千8百万用户,但是我们的方案可以应对这样的规模.我们想分享这是如何做到的,也许能帮到其