【数据分析&数据挖掘】pandas的统计分析

 1 # 在numpy 里面有统计分析, 对数值型数据进行统计指标
 2 # np.max  np.min  np.mean np.std‘
 3
 4 import pandas  as pd
 5 import numpy as np
 6
 7 # 1、加载数据
 8 detail = pd.read_excel("../day05/meal_order_detail.xlsx")
 9 # print("detail :\n", detail)
10 print("detail 的类型:\n", type(detail))
11 print("detail 列索引名称:\n", detail.columns)
12 print("detail 的元素的数据类型:\n", detail.dtypes)
13
14 # 在pandas里面对数值型数据进行统计分析
15 # 获取 amounts counts 的统计指标
16 print("获取最大值:\n",detail.loc[:,["amounts","counts"]].max())
17 print("获取最小值:\n",detail.loc[:,["amounts","counts"]].min())
18 print("获取均值:\n",detail.loc[:,["amounts","counts"]].mean())
19 print("获取中位数:\n",detail.loc[:,["amounts","counts"]].median())
20 print("获取标准差:\n",detail.loc[:,["amounts","counts"]].std())
21 print("获取方差:\n",detail.loc[:,["amounts","counts"]].var())
22 print("获取非空数据的数量:\n",detail.loc[:,["amounts","counts"]].count())
23 print("获取最大值的位置:\n",detail.loc[:,["amounts","counts"]].idxmax())  # np.argmax()
24 print("获取最小值的位置:\n",detail.loc[:,["amounts","counts"]].idxmin()) # np.argmin()
25
26
27 # 返回一个众数的dataframe
28 res = detail.loc[:,["amounts","counts"]].mode()
29 print("res: \n", res)
30 print("获取amounts众数\n",res["amounts"])
31 print("获取counts众数\n",res["counts"])
32 print("获取众数的类型\n",type(res))
33 # 返回一个 众数的 series
34 print("获取众数\n",detail.loc[:,"amounts"].mode())
35
36 # 获取分位数
37 # 默认获取 50% 的分位数---即 中位数
38 print("获取分位数:\n", detail.loc[:, ["amounts", "counts"]].quantile())
39 # # 获取四分位数 --通过给q 传参来获取四分位数
40 print("获取分位数:\n", detail.loc[:, ["amounts", "counts"]].quantile(q=np.arange(0, 1 + 0.25, 0.25)))
41
42
43 # 获取describe 统计分析
44 # 返回8中结果
45 # 非空数量
46 # 均值
47 # 标准差
48 # 最小值
49 # 分位数
50 # 最大值
51 print("获取describe 统计分析:\n", detail.loc[:, ["amounts", "counts"]].describe())
52
53 # 也可以对非数值型数据进行统计分析 ---使用describe对于非数值型数据进行统计分析
54 # 返回4种结果
55 # 非空数据的数量
56 # 去重之后的数据数量
57 # 众数
58 # 众数出现的次数
59 # 在统计分析之前将数据转化为类别型数据---category
60 # 可以使用astype 来修改数据类型
61 detail.loc[:, "dishes_name"] = detail.loc[:, "dishes_name"].astype("category")
62 # #
63 # # #
64 print("修改数据类型之后的detail :\n", detail.dtypes)
65 # #
66 print("获取非数值型数据的describe 统计分析:\n", detail.loc[:, "dishes_name"].describe())
67
68 # 1、利用统计分析,以及dataframe的删除方式,删除detail里面数据全是空的列
69 # 2、梳理pandas的xmind
70 # 3、掌握numpy、matplotlib、pandas 的所学操作

原文地址:https://www.cnblogs.com/Tree0108/p/12116029.html

时间: 2024-10-23 03:17:29

【数据分析&数据挖掘】pandas的统计分析的相关文章

06-机器学习.数据分析.数据挖掘的区别于联系

数据分析:数据分析是指用适当的统计分析方法对手机的大量数据进行分析,并提取有用的信息,以及形成结论,从而对数据进行详细的研究和概括过程.在实际工作中,数据分析可帮助人们做出判断;数据分析一般而言可以分为统计分析.探索性数据分析和验证性数据分析三大类. 数据挖掘:一般指从大量的数据中通过算法搜索隐藏于其中的信息的过程.通常通过统计,检索.机器学习.模式匹配等诸多方法来实现这个过程. 机器学习:是数据分析和数据挖掘的一种比较常用.比较好的手段.. 原文地址:https://www.cnblogs.c

【转】数据分析/数据挖掘 入门级选手建议

1.数据分析和数据挖掘联系和区别 联系:都是搞数据的 区别:数据分析偏统计,可视化,出报表和报告,需要较强的表达能力.数据挖掘偏算法,重模型,需要很深的代码功底,要码代码,很多= =. 2.怎么入门 请百度"如何成为一名数据分析师"或者"如何成为一名数据挖掘工程师".英文好上Quora,不行上知乎,看看入门资料. 3.选哪些书 看入门资料给你提供的书,有电子版下电子版,没电子版买纸质书,花不了多少钱. 4.用什么语言 数据分析:excel是必须,R是基本,pytho

[数据分析工具] Pandas 功能介绍(二)

条件过滤 我们需要看第一季度的数据是怎样的,就需要使用条件过滤 体感的舒适适湿度是40-70,我们试着过滤出体感舒适湿度的数据 最后整合上面两种条件,在一季度体感湿度比较舒适的数据 列排序 数据按照某列进行排序 “by”参数可以使用字符串,也可以是列表,ascending 的参数也可以是单个值或者列表 ascending 默认值是 True 列中的每行上的 apply 函数 在前一篇的增加列的部分,根据风速计算人体感觉是否舒适,为了功能的演示,在这里使用 DataFrame 的 apply 方法

Python 数据分析:Pandas 缺省值的判断

Python 数据分析:Pandas 缺省值的判断 背景 我们从数据库中取出数据存入 Pandas None 转换成 NaN 或 NaT.但是,我们将 Pandas 数据写入数据库时又需要转换成 None,不然就会报错.因此,我们就需要处理 Pandas 的缺省值. 样本数据 id name password sn sex age amount content remark login_date login_at created_at 0 1 123456789.0 NaN NaN NaN 20

【数据分析&数据挖掘】数组的统计分析

1 import numpy as np 2 3 # 创建一个数组 4 arr = np.array([[1, 2],[3, 4]]) 5 print("arr: \n", arr) 6 7 # 对数组进行统计分析 8 # sum mean std var min max argmin argmax cumsum cumprod 9 # 按照行的方向 10 print("arr的统计和: \n", np.sum(arr, axis=0)) 11 print(&quo

【数据分析&数据挖掘】pandas——文件的读取与保存

1 import pandas as pd 2 3 # 文本数据---人能够识别的有序的文件 4 # csv 文件---以逗号分隔的,文本文件 5 # pd.read_csv() 6 # filepath_or_buffer 文件路径 + 名称 7 # sep delimiter 都是分隔符 8 # header='infer', 自动识别列索引名称 9 # names 可以自行指定 列名称 10 # index_col ---可以去指定把那一列,哪几列 作为行索引名称 11 # usecols

【数据分析&数据挖掘】pandas数据合并

1 import pandas as pd 2 3 # 加载数据 4 data_1 = pd.read_excel("./concat合并数据.xlsx", sheetname=0) 5 data_2 = pd.read_excel("./concat合并数据.xlsx", sheetname=1) 6 7 print("data_1: \n", data_1) 8 print("data_2: \n", data_2) 9

【数据分析&数据挖掘】numpy、pandas&matplotlib

1 import numpy as np 2 import pandas as pd 3 4 """ 5 numpy --科学计算库 6 核心---ndarray 7 本质: 存储单一数据类型的 内存连续的 N维数组 8 C F 风格存储 9 10 matplotlib ---数据可视化的库 11 能绘制2-D 与 3-D 图形 12 13 pandas ----进行数据处理的库 14 里面封装了部分numpy 与matplotlib 功能 15 结构核心: 16 常用两种结

【数据分析&数据挖掘】pandas时间数据

1 import pandas as pd 2 """ 3 pandas默认支持的时间点类型——Timestamp 4 pandas默认支持的时间序列类型——DatetimeIndex 5 numpy默认支持的时间点数据类型——datetime64 6 """ 7 8 # 可以使用pd.to_datetime 将时间点转化为pandas默认支持的时间点类型 9 res = pd.to_datetime("2019-11-11"