Python Pandas GroupBy

 global root
        # 合并Excel表格
        filearray = []
        filelocation = glob.glob(root + "\*.xls")
        for filename in filelocation:
            filearray.append(filename)
        res = pd.read_excel(filearray[0])
        for i in range(1, len(filearray)):
            A = pd.read_excel(filearray[i])
            res = pd.concat([res, A], ignore_index=False, sort=True)
        # 分组统计排序
        # 通过reset_index()函数将groupby()的分组结果转成DataFrame对象
        #1.groupby(["宝贝标题"] :groupby统计文档中"宝贝标题"同样的行出现了多少次.
        #2.groupby(["宝贝标题"])["宝贝总数量"]..sum() :计算分组中宝贝总数量的和
        #3.res.groupby(["宝贝标题"])["宝贝总数量"].sum().reset_index() 重置列名字
        print(res.groupby(["宝贝标题"])["宝贝总数量"].sum())
        df = res.groupby(["宝贝标题"])["宝贝总数量"].sum().reset_index()
        df1 = df.sort_values(by=‘宝贝总数量‘, ascending=False)
        self.textEdit.setText(str(df1))
        # 调用SaveExcel函数，将统计排行结果保存到Excel
        SaveExcel(df1, self.rButton2.isChecked())

记录一下，以后有统计数据业务的时候看看

原文地址：https://www.cnblogs.com/guomeng888/p/11437867.html

时间： 2024-11-05 21:53:51

Python Pandas GroupBy的相关文章

Python pandas 0.19.1 Indexing and Selecting Data文档翻译

最近在写个性化推荐的论文,经常用到Python来处理数据,被pandas和numpy中的数据选取和索引问题绕的比较迷糊,索性把这篇官方文档翻译出来,方便自查和学习,翻译过程中难免很多不到位的地方,但大致能看懂,错误之处欢迎指正~ Python pandas 0.19.1 Indexing and Selecting Data 原文链接 http://pandas.pydata.org/pandas-docs/stable/indexing.html 数据索引和选取 pandas对象中的轴标签信息

Python pandas 'HDFStore requires PyTables' Issue

Python pandas 'HDFStore requires PyTables' Issue 在运行mobike.py过程中,一直报错,原因是pip install tables命令中安装的pytables文件其实是存在问题的,后续有人修正了这个问题并发布了新的tables库因此在安装的时候 pip install tables==3.3.0 Python pandas 'HDFStore requires PyTables' Issue

python & pandas链接mysql数据库

Python&pandas与mysql连接 1.python 与mysql 连接及操作,直接上代码,简单直接高效: 1 import MySQLdb 2 3 try: 4 5 conn = MySQLdb.connect(host='localhost',user='root',passwd='×××××',db='test',charset='utf8') 6 7 cur = conn.cursor() 8 9 cur.execute('create table user(id int,nam

python pandas 中文件的读写——read_csv（）读取文件

read_csv()读取文件1.python读取文件的几种方式read_csv 从文件,url,文件型对象中加载带分隔符的数据.默认分隔符为逗号read_table 从文件,url,文件型对象中加载带分隔符的数据.默认分隔符为制表符(“\t”)read_fwf 读取定宽列格式数据(也就是没有分隔符)read_cliboard 读取剪切板中的数据,可以看做read_table的剪切板.在将网页转换为表格时很有用2.读取文件的简单实现程序代码: df=pd.read_csv('D:/project/

[Python Cookbook] Pandas Groupby

Groupby Count # Party's Frequency of donations nyc.groupby('Party')['contb receipt amt'].count() The command returns a series where the index is the name of a Party and the value is the count of that Party. Note that the series is ordered by the name

python pandas 使用

摘要一.创建对象二.查看数据三.选择和设置四.缺失值处理五.相关操作六.聚合七.重排(Reshaping) 八.时间序列九.Categorical类型十.画图十一.导入和保存数据内容 # coding=utf-8import pandas as pdimport numpy as np### 一.创建对象## 1.可以传递一个list对象创建一个Series,Pandas会默认创建整型索引s = pd.Series([1, 3, 5, np.nan, 6, 8])#

Python Pandas 分析郁达夫《故都的秋》

最近刚学这块,如果有错误的地方还请大家担待. 本文用到的Python包: Ipython, Numpy, Pandas, Matplotlib 故都的秋原文参考:http://www.xiexingcun.com/mingjiaxiejing/302.htm 1. 郁达夫在文章结尾的落款处点明了日期. 一九三四年八月,在北平但是1934年的数据我暂时找不到,只好拿2004年的代替,月份锁定在8月(公历参考知乎民国时期的人知道公元纪年吗?). 2. 可是啊,北国的秋,却特别地来得清,来得静

使用Python Pandas处理亿级数据

在数据分析领域,最热门的莫过于Python和R语言,此前有一篇文章<别老扯什么Hadoop了,你的数据根本不够大>指出:只有在超过5TB数据量的规模下,Hadoop才是一个合理的技术选择.这次拿到近亿条日志数据,千万级数据已经是关系型数据库的查询分析瓶颈,之前使用过Hadoop对大量文本进行分类,这次决定采用Python来处理数据: 硬件环境 CPU:3.5 GHz Intel Core i7 内存:32 GB HDDR 3 1600 MHz 硬盘:3 TB Fusion Drive 数据分析

Python之groupby

# -*- coding: utf-8 -*-"""Created on Sat Jun 30 10:09:47 2018测试分组groupby@author: zhen"""from pandas import DataFrame"""data = [ [1,2,2,1] [2,2,2,2] [1,3,3,2] [2,2,2,4]]"""# 创建测试数据,将字典转换成为数据框df =