Pandas中的qcut和cut

qcut与cut的主要区别:

  qcut:传入参数,要将数据分成多少组,即组的个数,具体的组距是由代码计算

  cut:传入参数,是分组依据。具体见示例  

1、qcut方法,参考链接:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.qcut.html

  1).参数:pandas.qcut(xqlabels=Noneretbins=Falseprecision=3duplicates=‘raise‘)

    >>>x 要进行分组的数据,数据类型为一维数组,或Series对象

    >>>q 组数,即要将数据分成几组,后边举例说明

    >>>labels 可以理解为组标签,这里注意标签个数要和组数相等

    >>>retbins 默认为False,当为False时,返回值是Categorical类型(具有value_counts()方法),为True是返回值是元组

  2).举例

    

2.cut方法,官网链接:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.cut.html

  1).参数:pandas.cut(xbinsright=Truelabels=Noneretbins=Falseprecision=3include_lowest=Falseduplicates=‘raise‘)

  2).举例

    

    

原文地址:https://www.cnblogs.com/houzichiguodong/p/9097790.html

时间: 2024-11-15 06:33:28

Pandas中的qcut和cut的相关文章

Pandas中DateFrame修改列名

Pandas中DateFrame修改列名 在做数据挖掘的时候,想改一个DataFrame的column名称,所以就查了一下,总结如下: 数据如下: >>>import pandas as pd >>>a = pd.DataFrame({'A':[1,2,3], 'B':[4,5,6], 'C':[7,8,9]}) >>> a A B C 0 1 4 7 1 2 5 8 2 3 6 9 方法一:暴力方法 >>>a.columns = [

pandas中选取某行为缺失值的数据,并返回

1.df.dropna() 可以返回去掉NaN的df结果集. 2.pandas中dataframe取差集: df=pd.DataFrame({"name":[1,2,3,np.NaN,8],"value":[3,4,np.NaN,9,0]}) drop_na_df=df.dropna() na_symbols_df=pd.DataFrame(list(set(df["name"])^set(drop_na_df["name"]

pandas中的分组技术

目录 1  分组操作 1.1  按照列进行分组 1.2  按照字典进行分组 1.3  根据函数进行分组 1.4  按照list组合 1.5  按照索引级别进行分组 2  分组运算 2.1  agg 2.2  transform 2.3  apply 3  利用groupby技术多进程处理DataFrame 我们在这里要讲一个很常用的技术, 就是所谓的分组技术, 这个在数据库中是非常常用的, 要去求某些分组的统计量, 那么我们需要知道在pandas里面, 这些分组技术是怎么实现的. 分组操作 我们

pandas中DataFrame

python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFrame数据及属性 df_obj = DataFrame() #创建DataFrame对象 df_obj.dtypes #查看各行的数据格式 df_obj['列名'].astype(int)#转换某列的数据类型 df_obj.head() #查看前几行的数据,默认前5行 df_obj.tail() #查看后几

Pandas中数据的处理

有两种丢失数据 --None --np.nan(NaN) None是python自带的,其类型为python object.因此,None不能参与到任何计算中 Object类型的运算比int类型的运算慢的多 计算不同数据类型求和时间 %timeit np.arange(1e5,dtype=xxx).sum() %timeit是指python表达式或语句的执行时间 Pandas中的none与np.nan都视作np.nan 数据清洗 df.loc[index,column] ------>元素索引,

python数据分析pandas中的DataFrame数据清洗

pandas中的DataFrame中的空数据处理方法: 方法一:直接删除 1.查看行或列是否有空格(以下的df为DataFrame类型,axis=0,代表列,axis=1代表行,以下的返回值都是行或列索引加上布尔值)• isnull方法 • 查看行:df.isnull().any(axis=1)  • 查看列:df.isnull().any(axis=0)• notnull方法:• 查看行:df.notnull().all(axis=1)• 查看列:df.notnull().all(axis=0

pandas中的axis参数(看其他人的博客中产生的疑问点,用自己的话解析出来)

axis有两个值:axis=0或者axis=1 看到很多资料都不太理解,把我个人理解说一下: 下面这张图,在很多资料中都看到了,我只能说先死记住 axis=0,代表跨行(注意看这张图的axis=0的箭头向下指),axis=1,代表跨列(注意看这张图的axis=1的箭头向右指,水平方向) 二维数据拥有两个轴: 0轴沿着行垂直往下走,1轴沿着列水平走 也可以说: 1.使用axis=0表示沿着行标签/索引值(index) 向下执行     #如果你学了pandas中的sreies就知道index了 2

pandas中对日期型数据进行处理

因为数据不方便展示,直接上代码. 将字符串转为datetime64[ns]格式: pd.to_datetime('2019-12-20') or pd.to_datetime('20191220') 以上两种方式都可以转为日期格式 还可以直接将一列直接转为日期格式,如下:(字符串格式必须和以上两种相同) data['交易日期'] = pd.to_datetime(data['交易日期']) pandas中还可以对日期格式进行加减操作,如: from pandas.tseries.offsets

pandas中没有了'rolling_mean' 'rolling_std'

rolmean = pd.rolling_mean(timeseries, window=12) rolstd = pd.rolling_std(timeseries, window=12) expwighted_avg = pd.ewma(ts_log, halflife=12) 会有报错 AttributeError: module 'pandas' has no attribute 'rolling_mean' AttributeError: module 'pandas' has no