1、 查看数值数据的整体分布情况
datafram.describe()
输出:
age
count 1463.000000
mean 22.948052
std 8.385384
min 13.000000
25% 17.000000
50% 20.000000
75% 27.000000
max 64.000000
其中的25%,50%这些是百分位数。
百分位数的定义为:
统计学术语,如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组n个观测值按数值大小排列。如,处于p%位置的值称第p百分位数。
例子:
百分位通常用第几百分位来表示,如第五百分位,它表示在所有测量数据中,测量值的累计频次达5%。以身高为例,身高分布的第五百分位表示有5%的人的身高小于此测量值,95%的身高大于此测量值。
百分位数则是对应于百分位的实际数值。
2、pandas的dataframe修改字段的类型
比如age字段是string,但是要改成int类型 user_age_df[[‘age‘]].astype(float)
原文地址:https://www.cnblogs.com/earendil/p/9166362.html
时间: 2024-10-06 12:45:56