【数据分析&数据挖掘】pandas去空方法——删除法&保留法

 1 import pandas as pd
 2
 3 # 加载数据
 4 detail = pd.read_excel("./meal_order_detail.xlsx")
 5 print("detail: \n", detail)
 6 print("detail的列名称: \n", detail.columns)
 7
 8 # 1、删除法
 9 # 先进性判断,哪些列都是空的
10 drop_list = []
11 for column in detail.columns:
12     print(column)
13     # 统计每一列非空数据的数量
14     res = detail.loc[:, column].count()
15     print("res: \n", res)
16     if res == 0:
17         drop_list.append(column)
18
19 print(drop_list)
20
21 # 再进行删除:
22 detail.drop(labels=drop_list, axis=1, inplace=True)
23 print("删除全部为空列之后的结果: \n" ,detail.shape)
24
25 # 2、保留法
26 # 先进性判断,哪些列不全为空
27 save_list = []
28 for column in detail.columns:
29     print("detail.columns: \n", detail.columns)
30     print("columns: \n", column)
31     # 统计每一列非空数据的数量
32     res = detail.loc[:, column].count()
33     # print("res: \n", res)
34     if res != 0:
35         save_list.append(column)
36
37 print(save_list)
38
39 # 将不全为空的列的数据重新赋值给detail
40 detail = detail.loc[:, save_list]
41
42 print("datail: \n", detail)
43 print("保留全部为空列之后的结果: \n", detail.shape)

原文地址:https://www.cnblogs.com/Tree0108/p/12116070.html

时间: 2024-11-04 11:55:01

【数据分析&数据挖掘】pandas去空方法——删除法&保留法的相关文章

Python数据分析之pandas学习

Python中的pandas模块进行数据分析. 接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利用pandas的DataFrames进行统计分析5.利用pandas实现SQL操作6.利用pandas进行缺失值的处理7.利用pandas实现Excel的数据透视表功能8.多层索引的使用 一.数据结构介绍 在pandas中有两类非常重要的数据结构,即序列Series和数据框DataFrame.Ser

【转】数据分析/数据挖掘 入门级选手建议

1.数据分析和数据挖掘联系和区别 联系:都是搞数据的 区别:数据分析偏统计,可视化,出报表和报告,需要较强的表达能力.数据挖掘偏算法,重模型,需要很深的代码功底,要码代码,很多= =. 2.怎么入门 请百度"如何成为一名数据分析师"或者"如何成为一名数据挖掘工程师".英文好上Quora,不行上知乎,看看入门资料. 3.选哪些书 看入门资料给你提供的书,有电子版下电子版,没电子版买纸质书,花不了多少钱. 4.用什么语言 数据分析:excel是必须,R是基本,pytho

【数据分析&数据挖掘】计算每日营业额&最火菜品统计

1 import pandas as pd 2 import numpy as np 3 4 # 计算每日营业额 加载数据 5 detail = pd.read_excel("./meal_order_detail.xlsx") 6 print("detail: \n", detail) 7 print("detail的列名称: \n", detail.columns) 8 9 # 1.计算出每个产品的营业额 10 detail.loc[:, &

训练创新思维的方法:曼陀罗思考法

回顾10多年来走过的软件之路除了在经验上有一点积累.掌握了不少的技术之外似乎仍然一无所有,我并不是在传播负能量,这种一无所有指的并不是物质或是生活上的,而是在事业道路上.软件发展在于创新而这么多年来的工作却一直只是在跟随,自己意淫一下觉得比别人好的也只不过是跟随的速度会比较认识的人快那么一点点,时光推移到底什么东西是完全属于自己的呢 ?我也曾与不少至友讨论此问题,貌似也让大家陷入一些思考中.我们不缺技术.也不缺乏经验缺的可能是一种思想和意识那就是“持续创新的思维”.以前总认为自己在这方面是缺根筋

如何利用数据挖掘进行分析的方法

ps:作为目前人工智能和数据库领域研究的热点问题,数据挖掘从数据库的大量数据中揭示出隐含的.先前未知的并有潜在价值的信息的非平凡过程. 数据挖掘(Data Mining,DM),又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的.先前未知的并有潜在价值的信息的非平凡过程.数据挖掘是一种决策支持过程,它主要基于人工智能.机器学习.模式识别.统计学.数据库.可视化技

Python中的结构化数据分析利器-Pandas简介

Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分.Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持. Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis).panel data是经济学中关于多维数

[数据分析工具] Pandas 功能介绍(二)

条件过滤 我们需要看第一季度的数据是怎样的,就需要使用条件过滤 体感的舒适适湿度是40-70,我们试着过滤出体感舒适湿度的数据 最后整合上面两种条件,在一季度体感湿度比较舒适的数据 列排序 数据按照某列进行排序 “by”参数可以使用字符串,也可以是列表,ascending 的参数也可以是单个值或者列表 ascending 默认值是 True 列中的每行上的 apply 函数 在前一篇的增加列的部分,根据风速计算人体感觉是否舒适,为了功能的演示,在这里使用 DataFrame 的 apply 方法

Python openpyxl、pandas操作Excel方法简介与具体实例

本篇重点讲解windows系统下 Python3.5中第三方excel操作库-openpyxl: 其实Python第三方库有很多可以操作Excel,如:xlrd,xlwt,xlwings甚至注明的数据分析模块Pandas也提供pandas.read_excel.pandas.DataFrame.to_excel功能. 那么openpyxl的库有哪些优缺点呢: 优势: 1.openpyxl提供对pandas的dataframe对象完美支持: 2.openpyxl支持后台静默打开excel文件: 3

pandas的Categorical方法

对于数据样本的标签,如果我们事先不知道这个样本有多少类别,那么可以对数据集的类别列进行统计,这时我们用pandas的Categorical方法就非常快的实现. 1.说明: 你的数据最好是一个series,之后,pd.Categorical(series),得到分类的对象,使用categories或者codes进行查看 2.操作: pd.Categorical( list ).codes 这样就可以直接得到原始数据的对应的序号列表,通过这样的处理可以将类别信息转化成数值信息 ,这样就可以应用到模型