一些Pandas常用方法

Series(列)方法describe(),对于不同类型的变量的列,有不同返回值(http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html)

>>> s = pd.Series([1, 2, 3])
>>> s.describe()
count    3.0
mean     2.0
std      1.0
min      1.0
25%      1.5
50%      2.0
75%      2.5
max      3.0
>>> s = pd.Series([‘a‘, ‘a‘, ‘b‘, ‘c‘])
>>> s.describe()
count     4
unique    3
top       a
freq      2
dtype: object

列方法Series.value_counts(normalize=Falsesort=Trueascending=Falsebins=Nonedropna=True)

返回各值的频数,如果normalize=True返回各个值的频率

crosstab方法pandas.crosstab(indexcolumnsvalues=Nonerownames=Nonecolnames=Noneaggfunc=Nonemargins=Falsedropna=Truenormalize=False)

作用Compute a simple cross-tabulation of two (or more) factors. By default computes a frequency table of the factors unless an array of values and an aggregation function are passed

举例

>>> a
array([foo, foo, foo, foo, bar, bar,
       bar, bar, foo, foo, foo], dtype=object)
>>> b
array([one, one, one, two, one, one,
       one, two, two, two, one], dtype=object)
>>> c
array([dull, dull, shiny, dull, dull, shiny,
       shiny, dull, shiny, shiny, shiny], dtype=object)
>>> crosstab(a, [b, c], rownames=[‘a‘], colnames=[‘b‘, ‘c‘])
b    one          two
c    dull  shiny  dull  shiny
a
bar  1     2      1     0
foo  2     2      1     2
>>> foo = pd.Categorical([‘a‘, ‘b‘], categories=[‘a‘, ‘b‘, ‘c‘])
>>> bar = pd.Categorical([‘d‘, ‘e‘], categories=[‘d‘, ‘e‘, ‘f‘])
>>> crosstab(foo, bar)  # ‘c‘ and ‘f‘ are not represented in the data,
                        # but they still will be counted in the output
col_0  d  e  f
row_0
a      1  0  0
b      0  1  0
c      0  0  0
时间: 2024-10-29 07:21:00

一些Pandas常用方法的相关文章

python中pandas常用方法

# coding:utf-8__author__ = 'weekyin'import numpy as npimport pandas as pddatas = pd.date_range('20140729', periods=6)# 先创建一个时间索引,所谓的索引(index)就是每一行数据的id,可以标识每一行的唯一值print datas# 为了快速入门,我们看一下如何创建一个6X4的数据:randn函数用于创建随机数,参数表示行数和列数,dates是上一步创建的索引列df = pd.D

pandas常用方法总结

In [49]: frame2 Out[49]: year state pop debt one 2000 Ohio 1.5 NaN two 2001 Ohio 1.7 NaN three 2002 Ohio 3.6 NaN four 2001 Nevada 2.4 NaN five 2002 Nevada 2.9 NaN six 2003 Nevada 3.2 NaN取一列的值可以frame2.state或者frame2['state']frame2['debt'] = 16.5可以填充一列

pandas常用方法示例 2

from pandas import DataFrame import numpy as np import pandas as pd t={ "age": [18, 30, np.nan, 40, np.nan, 30], "city": ["BeiJing", "ShangHai", "GuangZhou", "ShenZhen", 'BeiJing', "ShangHai

Py修行路 Pandas 模块基本用法

pandas 安装方法:pip3 install pandas pandas是一个强大的Python数据分析的工具包,它是基于NumPy构建的模块. pandas的主要功能: 具备对其功能的数据结构DataFrame.Series 集成时间序列功能 提供丰富的数学运算和操作(实质是NumPy提供的) 灵活处理缺失数据(NaN) 引用方法:import pandas as pd Series Series是一种类似于一维数组的对象,由一组数据和一组与之相关的数据标签(索引)组成.索引可以自定义如果

数据分析模块Numpy Pandas

如何使用Python进行量化投资 自己编写:NumPy+pandas+Matplotlib+…… 在线平台:聚宽.优矿.米筐.Quantopian.…… 开源框架:RQAlpha.QUANTAXIS.…… IPython:安装:pip install ipython TAB键自动完成 ?命令(内省.命名空间搜索) 执行系统命令(!) %run命令执行文件代码 %paste %cpaste命令执行剪贴板代码 与编辑器和IDE交互 魔术命令:%timeit %pdb … 使用命令历史 输入与输出变量

numpy 与 pandas

numpy: import numpy as np np.array([1,2,3]) 创建数组 np.arange(10).reshape(2,5) 类似于range(起始,终止,步长),可以加reshape(2,5)定义形状.必须是相乘等于前面的size np.linsapace(1,10,10) 参数为:起始,终止,平分多少个 zeros((2,4)) 根据指定形状和dtype创建全0数组 ones((2,4)) 根据指定形状和dtype创建全1数组 empty((2,4)) 根据指定形状

数据分析--pandas的基本使用

一.pandas概述 1.pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的. 2.pandas的主要功能 具备对其功能的数据结构DataFrame.Series 集成时间序列功能 提供丰富的数学运算和操作 灵活处理缺失数据 3.python中操作方式: 安装方法:pip install pandas 引用方法:import pandas as pd 4.也可以通过安装anaconda软件操作,里面包含(numpy,pandas以及Matplotlib多个库),本片文章

Ipython Numpy pandas

Ipython:交互式的Python命令行 TAB:自动完成 ?:内省,命令空间搜索 !:执行系统命令 %run:命令执行文件代码 Ipython常用魔术命令: %quickref:显示Ipython的快速参考 %magic:显示所有魔术命令的详细文档 %debug:从最新的异常追踪的底部进入交互式命令调试器 %hist:打印命令的输入(可选输出)历史 %pdb:在异常发生后自动进入调试器 %paste:执行剪贴板中的Python代码 %cpaste:打开一个特殊提示符以便手工粘贴待执行的Pyt

day32 Python与金融量化分析(二)

第一部分:金融与量化投资 股票: 股票是股份公司发给出资人的一种凭证,股票的持有者就是股份公司的股东. 股票的面值与市值 面值表示票面金额 市值表示市场价值 上市/IPO: 企业通过证券交易所公开向社会增发股票以募集资金 股票的作用: 出资证明.证明股东身份.对公司经营发表意见 公司分红.交易获利 股票的分类 股票按业绩分类: 蓝筹股:资本雄厚.信誉优良的公司的股票 绩优股:业绩优良公司的股票 ST股:特别处理股票,连续两年亏损或每股净资产低于股票面值 股票按上市地区分类: A股:中国大陆上市,