4、numpy+pandas速查手册

《Python数据分析常用手册》一、NumPy和Pandas篇

一、常用链接:

1.Python官网:https://www.python.org/
2.各种库的whl离线安装包:http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn

3.数据分析常用库的离线安装包(pip+wheels)(百度云):http://pan.baidu.com/s/1dEMXbfN 密码:bbs2

二、常用库

1.NumPy

  NumPy是高性能科学计算和数据分析的基础包。部分功能如下:

    • ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。
    • 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。
    • 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。
    • 线性代数、随机数生成以及傅里叶变换功能。
    • 用于集成C、C++、Fortran等语言编写的代码的工具。

  首先要导入numpy库:import numpy as np

  A NumPy函数和属性:

类型 类型代码 说明
int8、uint8 i1、u1 有符号和无符号8位整型(1字节)
int16、uint16 i2、u2 有符号和无符号16位整型(2字节)
int32、uint32 i4、u4 有符号和无符号32位整型(4字节)
int64、uint64 i8、u8 有符号和无符号64位整型(8字节)
float16 f2 半精度浮点数
float32 f4、f 单精度浮点数
float64 f8、d 双精度浮点数
float128 f16、g 扩展精度浮点数
complex64 c8 分别用两个32位表示的复数
complex128 c16 分别用两个64位表示的复数
complex256 c32 分别用两个128位表示的复数
bool ? 布尔型
object O python对象
string Sn 固定长度字符串,每个字符1字节,如S10
unicode Un 固定长度Unicode,字节数由系统决定,如U10

表2.1.A.1 NumPy类型

生成函数 作用

np.array( x)

np.array( x, dtype)


将输入数据转化为一个ndarray

将输入数据转化为一个类型为type的ndarray

np.asarray( array ) 将输入数据转化为一个新的(copy)ndarray

np.ones( N )

np.ones( N, dtype)

np.ones_like( ndarray )


生成一个N长度的一维全一ndarray

生成一个N长度类型是dtype的一维全一ndarray

生成一个形状与参数相同的全一ndarray


np.zeros( N)

np.zeros( N, dtype)

np.zeros_like(ndarray)


生成一个N长度的一维全零ndarray

生成一个N长度类型位dtype的一维全零ndarray

类似np.ones_like( ndarray )


np.empty( N )

np.empty( N, dtype)

np.empty(ndarray)


生成一个N长度的未初始化一维ndarray

生成一个N长度类型是dtype的未初始化一维ndarray

类似np.ones_like( ndarray )


np.eye( N )

np.identity( N )


创建一个N * N的单位矩阵(对角线为1,其余为0)


np.arange( num)

np.arange( begin, end)

np.arange( begin, end, step)


生成一个从0到num-1步数为1的一维ndarray

生成一个从begin到end-1步数为1的一维ndarray

生成一个从begin到end-step的步数为step的一维ndarray


np.mershgrid(ndarray, ndarray,...)


生成一个ndarray * ndarray * ...的多维ndarray


np.where(cond, ndarray1, ndarray2)


根据条件cond,选取ndarray1或者ndarray2,返回一个新的ndarray


np.in1d(ndarray, [x,y,...])


检查ndarray中的元素是否等于[x,y,...]中的一个,返回bool数组

   
矩阵函数 说明

np.diag( ndarray)

np.diag( [x,y,...])


以一维数组的形式返回方阵的对角线(或非对角线)元素

将一维数组转化为方阵(非对角线元素为0)

np.dot(ndarray, ndarray) 矩阵乘法
np.trace( ndarray) 计算对角线元素的和
   
   

排序函数


说明


np.sort( ndarray)


排序,返回副本


np.unique(ndarray)


返回ndarray中的元素,排除重复元素之后,并进行排序


np.intersect1d( ndarray1, ndarray2)

np.union1d( ndarray1, ndarray2)

np.setdiff1d( ndarray1, ndarray2)

np.setxor1d( ndarray1, ndarray2)


返回二者的交集并排序。

返回二者的并集并排序。

返回二者的差。

返回二者的对称差

   
一元计算函数 说明

np.abs(ndarray)

np.fabs(ndarray)


计算绝对值

计算绝对值(非复数)


np.mean(ndarray)


求平均值


np.sqrt(ndarray)


计算x^0.5


np.square(ndarray)


计算x^2


np.exp(ndarray)


计算e^x


log、log10、log2、log1p


计算自然对数、底为10的log、底为2的log、底为(1+x)的log


np.sign(ndarray)


计算正负号:1(正)、0(0)、-1(负)


np.ceil(ndarray)

np.floor(ndarray)

np.rint(ndarray)


计算大于等于改值的最小整数

计算小于等于该值的最大整数

四舍五入到最近的整数,保留dtype


np.modf(ndarray)


将数组的小数和整数部分以两个独立的数组方式返回


np.isnan(ndarray)


返回一个判断是否是NaN的bool型数组


np.isfinite(ndarray)

np.isinf(ndarray)


返回一个判断是否是有穷(非inf,非NaN)的bool型数组

返回一个判断是否是无穷的bool型数组


cos、cosh、sin、sinh、tan、tanh


普通型和双曲型三角函数


arccos、arccosh、arcsin、arcsinh、arctan、arctanh


反三角函数和双曲型反三角函数


np.logical_not(ndarray)


计算各元素not x的真值,相当于-ndarray


多元计算函数


说明


np.add(ndarray, ndarray)

np.subtract(ndarray, ndarray)

np.multiply(ndarray, ndarray)

np.divide(ndarray, ndarray)

np.floor_divide(ndarray, ndarray)

np.power(ndarray, ndarray)

np.mod(ndarray, ndarray)


相加

相减

乘法

除法

圆整除法(丢弃余数)

次方

求模


np.maximum(ndarray, ndarray)

np.fmax(ndarray, ndarray)

np.minimun(ndarray, ndarray)

np.fmin(ndarray, ndarray)


求最大值

求最大值(忽略NaN)

求最小值

求最小值(忽略NaN)


np.copysign(ndarray, ndarray)


将参数2中的符号赋予参数1


np.greater(ndarray, ndarray)

np.greater_equal(ndarray, ndarray)

np.less(ndarray, ndarray)

np.less_equal(ndarray, ndarray)

np.equal(ndarray, ndarray)

np.not_equal(ndarray, ndarray)


>

>=

<

<=

==

!=


logical_and(ndarray, ndarray)

logical_or(ndarray, ndarray)

logical_xor(ndarray, ndarray)


&

|

^

np.dot( ndarray, ndarray) 计算两个ndarray的矩阵内积
np.ix_([x,y,m,n],...) 生成一个索引器,用于Fancy indexing(花式索引)
   
文件读写 说明
np.save(string, ndarray) 将ndarray保存到文件名为 [string].npy 的文件中(无压缩)
np.savez(string, ndarray1, ndarray2, ...) 将所有的ndarray压缩保存到文件名为[string].npy的文件中
np.savetxt(sring, ndarray, fmt, newline=‘\n‘) 将ndarray写入文件,格式为fmt
np.load(string) 读取文件名string的文件内容并转化为ndarray对象(或字典对象)
np.loadtxt(string, delimiter) 读取文件名string的文件内容,以delimiter为分隔符转化为ndarray

表2.1.A.2 np常用函数

  B NumPy.ndarray函数和属性:

ndarray.ndim 获取ndarray的维数
ndarray.shape 获取ndarray各个维度的长度
ndarray.dtype 获取ndarray中元素的数据类型
ndarray.T 简单转置矩阵ndarray

表2.1.B.1 ndarray属性

函数 说明
ndarray.astype(dtype) 转换类型,若转换失败则会出现TypeError
ndarray.copy() 复制一份ndarray(新的内存空间)
ndarray.reshape((N,M,...)) 将ndarray转化为N*M*...的多维ndarray(非copy)
ndarray.transpose((xIndex,yIndex,...)) 根据维索引xIndex,yIndex...进行矩阵转置,依赖于shape,不能用于一维矩阵(非copy)
ndarray.swapaxes(xIndex,yIndex) 交换维度(非copy)
   
计算函数 说明
ndarray.mean( axis=0 ) 求平均值 
ndarray.sum( axis= 0) 求和 

ndarray.cumsum( axis=0)

ndarray.cumprod( axis=0)


累加

累乘


ndarray.std()

ndarray.var()


方差

标准差


ndarray.max()

ndarray.min()


最大值

最小值


ndarray.argmax()

ndarray.argmin()


最大值索引

最小值索引


ndarray.any()

ndarray.all()


是否至少有一个True

是否全部为True


ndarray.dot( ndarray)


计算矩阵内积


排序函数


说明


ndarray.sort(axis=0)


排序,返回源数据

表2.1.B.2 ndarray函数

ndarray[n] 选取第n+1个元素
ndarray[n:m] 选取第n+1到第m个元素
ndarray[:] 选取全部元素
ndarray[n:] 选取第n+1到最后一个元素
ndarray[:n] 选取第0到第n个元素

ndarray[ bool_ndarray ]

注:bool_ndarray表示bool类型的ndarray

选取为true的元素

ndarray[[x,y,m,n]]...

选取顺序和序列为x、y、m、n的ndarray

ndarray[n,m]

ndarray[n][m]

选取第n+1行第m+1个元素

ndarray[n,m,...]

ndarray[n][m]....

选取n行n列....的元素

表2.1.B.3 ndarray索引/切片方式

  C NumPy.random函数和属性:

函数 说明

seed()

seed(int)

seed(ndarray)

确定随机数生成种子

permutation(int)

permutation(ndarray)


返回一个一维从0~9的序列的随机排列

返回一个序列的随机排列

shuffle(ndarray) 对一个序列就地随机排列

rand(int)

randint(begin,end,num=1)


产生int个均匀分布的样本值

从给定的begin和end随机选取num个整数

randn(N, M, ...) 生成一个N*M*...的正态分布(平均值为0,标准差为1)的ndarray
normal(size=(N,M,...)) 生成一个N*M*...的正态(高斯)分布的ndarray 
beta(ndarray1,ndarray2) 产生beta分布的样本值,参数必须大于0 
 chisquare() 产生卡方分布的样本值 
 gamma() 产生gamma分布的样本值 
 uniform() 产生在[0,1)中均匀分布的样本值 

 2.1.C.1 random常用函数

  D NumPy.linalg函数和属性:

函数 说明
det(ndarray) 计算矩阵列式
eig(ndarray) 计算方阵的本征值和本征向量

inv(ndarray)

pinv(ndarray)


计算方阵的逆

计算方阵的Moore-Penrose伪逆

qr(ndarray) 计算qr分解 
svd(ndarray) 计算奇异值分解svd
solve(ndarray) 解线性方程组Ax = b,其中A为方阵 
lstsq(ndarray) 计算Ax=b的最小二乘解 

 2.1.D.1 linalg常用函数

2.Pandas

pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

  >>> from pandas import Series, DataFrame

  >>> import pandas as pd

  A.pandas

函数 说明

pd.isnull(series)

pd.notnull(series)


判断是否为空(NaN)

判断是否不为空(not NaN)

   
   

2.2.A.1 pandas常用函数

  B.Series

    Series可以运用ndarray或字典的几乎所有索引操作和函数,融合了字典和ndarray的优点。

属性 说明
values 获取数组
index 获取索引
name values的name
index.name 索引的name

2.2.B.1 Series常用属性

函数 说明
Series([x,y,...])Series({‘a‘:x,‘b‘:y,...}, index=param1) 生成一个Series
Series.copy() 复制一个Series 

Series.reindex([x,y,...], fill_value=NaN)

Series.reindex([x,y,...], method=NaN)

Series.reindex(columns=[x,y,...])


重返回一个适应新索引的新对象,将缺失值填充为fill_value

返回适应新索引的新对象,填充方式为method

对列进行重新索引

Series.drop(index) 丢弃指定项
Series.map(f) 应用元素级函数 
   
排序函数 说明
Series.sort_index(ascending=True) 根据索引返回已排序的新对象
Series.order(ascending=True) 根据值返回已排序的对象,NaN值在末尾
Series.rank(method=‘average‘, ascending=True, axis=0) 为各组分配一个平均排名

df.argmax()

df.argmin()


返回含有最大值的索引位置

返回含有最小值的索引位置

2.2.B.2 Series常用函数

    reindex的method选项:

      ffill, bfill     向前填充/向后填充

      pad, backfill   向前搬运,向后搬运

    rank的method选项

      ‘average‘    在相等分组中,为各个值分配平均排名

      ‘max‘,‘min‘   使用整个分组中的最小排名

      ‘first‘      按值在原始数据中出现的顺序排名

  C.DataFrame

    DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。

    DataFrame可以通过类似字典的方式或者.columnname的方式将列获取为一个Series。行也可以通过位置或名称的方式进行获取。

    为不存在的列赋值会创建新列。

    >>> del frame[‘xxx‘]  # 删除列

属性 说明
values DataFrame的值
index 行索引
index.name 行索引的名字
columns 列索引
columns.name 列索引的名字
ix 返回行的DataFrame
ix[[x,y,...], [x,y,...]] 对行重新索引,然后对列重新索引
T frame行列转置
   

2.2.C.1 DataFrame常用属性

函数 说明

DataFrame(dict, columns=dict.index, index=[dict.columnnum])

DataFrame(二维ndarray)

DataFrame(由数组、列表或元组组成的字典)

DataFrame(NumPy的结构化/记录数组)

DataFrame(由Series组成的字典)

DataFrame(由字典组成的字典)

DataFrame(字典或Series的列表)

DataFrame(由列表或元组组成的列表)

DataFrame(DataFrame)

DataFrame(NumPy的MaskedArray)


构建DataFrame

数据矩阵,还可以传入行标和列标

每个序列会变成DataFrame的一列。所有序列的长度必须相同

类似于“由数组组成的字典”

每个Series会成为一列。如果没有显式制定索引,则各Series的索引会被合并成结果的行索引

各内层字典会成为一列。键会被合并成结果的行索引。

各项将会成为DataFrame的一行。索引的并集会成为DataFrame的列标。

类似于二维ndarray

沿用DataFrame

类似于二维ndarray,但掩码结果会变成NA/缺失值


df.reindex([x,y,...], fill_value=NaN, limit)

df.reindex([x,y,...], method=NaN)

df.reindex([x,y,...], columns=[x,y,...],copy=True)


返回一个适应新索引的新对象,将缺失值填充为fill_value,最大填充量为limit

返回适应新索引的新对象,填充方式为method

同时对行和列进行重新索引,默认复制新对象。

df.drop(index, axis=0) 丢弃指定轴上的指定项。
   
排序函数 说明

df.sort_index(axis=0, ascending=True)

df.sort_index(by=[a,b,...])

根据索引排序
   
汇总统计函数 说明
df.count() 非NaN的数量
df.describe() 一次性产生多个汇总统计

df.min()

df.min()


最小值

最大值


df.idxmax(axis=0, skipna=True)

df.idxmin(axis=0, skipna=True)


返回含有最大值的index的Series

返回含有最小值的index的Series

df.quantile(axis=0) 计算样本的分位数

df.sum(axis=0, skipna=True, level=NaN)

df.mean(axis=0, skipna=True, level=NaN)

df.median(axis=0, skipna=True, level=NaN)

df.mad(axis=0, skipna=True, level=NaN)

df.var(axis=0, skipna=True, level=NaN)

df.std(axis=0, skipna=True, level=NaN)

df.skew(axis=0, skipna=True, level=NaN)

df.kurt(axis=0, skipna=True, level=NaN)

df.cumsum(axis=0, skipna=True, level=NaN)

df.cummin(axis=0, skipna=True, level=NaN)

df.cummax(axis=0, skipna=True, level=NaN)

df.cumprod(axis=0, skipna=True, level=NaN)

df.diff(axis=0)

df.pct_change(axis=0)


返回一个含有求和小计的Series

返回一个含有平均值的Series

返回一个含有算术中位数的Series

返回一个根据平均值计算平均绝对离差的Series

返回一个方差的Series

返回一个标准差的Series

返回样本值的偏度(三阶距)

返回样本值的峰度(四阶距)

返回样本的累计和

返回样本的累计最大值

返回样本的累计最小值

返回样本的累计积

返回样本的一阶差分

返回样本的百分比数变化

   
   
计算函数 说明 

df.add(df2, fill_value=NaN, axist=1)

df.sub(df2, fill_value=NaN, axist=1)

df.div(df2, fill_value=NaN, axist=1)

df.mul(df2, fill_value=NaN, axist=1)


元素级相加,对齐时找不到元素默认用fill_value

元素级相减,对齐时找不到元素默认用fill_value

元素级相除,对齐时找不到元素默认用fill_value

元素级相乘,对齐时找不到元素默认用fill_value

df.apply(f, axis=0) 将f函数应用到由各行各列所形成的一维数组上
df.applymap(f) 将f函数应用到各个元素上
df.cumsum(axis=0, skipna=True) 累加,返回累加后的dataframe

2.2.C.2 Dataframe常用函数

索引方式 说明
df[val] 选取DataFrame的单个列或一组列
df.ix[val] 选取Dataframe的单个行或一组行
df.ix[:,val] 选取单个列或列子集
df.ix[val1,val2] 将一个或多个轴匹配到新索引
reindex方法 将一个或多个轴匹配到新索引
xs方法 根据标签选取单行或者单列,返回一个Series
icol、irow方法 根据整数位置选取单列或单行,并返回一个Series
get_value、set_value 根据行标签和列标签选取单个值

2.2.C.3 Dataframe常用索引方式

    运算:

      默认情况下,Dataframe和Series之间的算术运算会将Series的索引匹配到的Dataframe的列,沿着列一直向下传播。若索引找不到,则会重新索引产生并集。

  D.Index

    pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等)。构建Series或DataFrame时,所用到的任何数组或其他序列的标签都会被转换成一个Index。Index对象不可修改,从而在多个数据结构之间安全共享。

主要的Index对象 说明
Index 最广泛的Index对象,将轴标签表示为一个由Python对象组成的NumPy数组
Int64Index 针对整数的特殊Index
MultiIndex “层次化”索引对象,表示单个轴上的多层索引。可以看做由元组组成的数组
DatetimeIndex 存储纳秒级时间戳(用NumPy的Datetime64类型表示)
PeriodIndex 针对Period数据(时间间隔)的特殊Index

2.2.D.1 主要的Index属性

函数 说明
Index([x,y,...]) 创建索引
append(Index) 连接另一个Index对象,产生一个新的Index
diff(Index) 计算差集,产生一个新的Index
intersection(Index) 计算交集
union(Index) 计算并集
isin(Index) 检查是否存在与参数索引中,返回bool型数组
delete(i) 删除索引i处元素,得到新的Index
drop(str) 删除传入的值,得到新Index
insert(i,str) 将元素插入到索引i处,得到新Index
is_monotonic() 当各元素大于前一个元素时,返回true
is_unique() 当Index没有重复值时,返回true
unique() 计算Index中唯一值的数组

2.2.D.2 常用Index函数

原文地址:https://www.cnblogs.com/wanshuai/p/9176119.html

时间: 2024-10-07 22:55:18

4、numpy+pandas速查手册的相关文章

Pandas速查手册中文版

本文翻译自文章: Pandas Cheat Sheet - Python for Data Science ,同时添加了部分注解. 对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包.它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置方法相比时有了很大的优势. 如果你想学习Pandas,建议先看两个网站. (1)官网: Python Data Analysis Library (2)十分钟入门Pandas

Pandas速查手册中文版(转)

关键缩写和包导入 在这个速查手册中,我们使用如下缩写: df:任意的Pandas DataFrame对象 同时我们需要做如下的引入: import pandas as pd 导入数据 pd.read_csv(filename):从CSV文件导入数据 pd.read_table(filename):从限定分隔符的文本文件导入数据 pd.read_excel(filename):从Excel文件导入数据 pd.read_sql(query, connection_object):从SQL表/库导入数

pandas速查手册(中文版)

本文翻译自文章:Pandas Cheat Sheet - Python for Data Science 对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包.它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置方法相比时有了很大的优势. 如果你想学习Pandas,建议先看两个网站. (1)官网:Python Data Analysis Library (2)十分钟入门Pandas:10 Minutes to

25个有用和方便的 WordPress 速查手册

如果你是一个 WordPress 编码器或开发人员,下载一些方便的 WordPress 备忘单寻找你的工作然后你在正确的地方.我们已经列出了25个有用的和方便的 WordPress 速查手册.WordPress 备忘单后将帮助你发展你的 WordPress 主题和插件以及这些有助于搜索引擎优化你的博客.享受! ! 1. WP-CheatSheet 2. Complete WordPress Cheat Sheet 3. Cheat Sheet SEO for WordPress 4. WordP

《zw版&#183;Halcon-delphi系列原创教程》 zw版-Halcon常用函数Top100中文速查手册

<zw版·Halcon-delphi系列原创教程> zw版-Halcon常用函数Top100中文速查手册 Halcon函数库非常庞大,v11版有1900多个算子(函数). 这个Top版,对最常用的函数,做了中文说明,目前约250条,以后会逐步优化.增减. 目标是,类似常用英文单词500一样,做成<Halcon常用函数300条>.<halcon常用函数500条>等版本,方便大 家学习. 考虑到通用性,函数采用的是Halcon手册格式,没有转成delphi版,请大家注意.

Linux/Unix 系统分析命令速查手册

1.Hardware CPU information: cat /proc/cpuinfo 物理core个数: 统计core 逻辑CPU个数:统计processor Memory information: free -m 其中-+buffer是针对OS/App来说的. Disk information: fdisk -l df -h IO 性能: iostat -d -x -k 1 10 此命令属于sysstat包 观察await 平均io operation等待时间 观察%util 一秒中IO

R之data.table速查手册

R语言data.table速查手册 介绍 R中的data.table包提供了一个data.frame的高级版本,让你的程序做数据整型的运算速度大大的增加.data.table已经在金融,基因工程学等领域大放光彩.他尤其适合那些需要处理大型数据集(比如 1GB 到100GB)需要在内存中处理数据的人.不过这个包的一些符号并不是很容易掌握,因为这些操作方式在R中比较少见.这也是这篇文章的目的,为了给大家提供一个速查的手册. data.table的通用格式: DT[i, j, by],对于数据集DT,

HTML基础教程(17)——HTML 4.01速查手册

自 W3School 的 HTML 快速参考.可以打印它,以备日常使用. HTML Basic Document <html> <head> <title>Document name goes here</title> </head> <body> Visible text goes here </body> </html> Text Elements <p>This is a paragraph&

8086汇编指令速查手册

一.常用指令 二.算术运算指令 三.逻辑运算指令四.串指令 五.程序跳转指令------------------------------------------ 计算机寄存器分类简介: 32位CPU所含有的寄存器有:4个数据寄存器(EAX.EBX.ECX和EDX)2个变址和指针寄存器(ESI和EDI) 2个指针寄存器(ESP和EBP) 6个段寄存器(ES.CS.SS.DS.FS和GS)1个指令指针寄存器(EIP) 1个标志寄存器(EFlags) 1.数据寄存器数据寄存器主要用来保存操作数和运算结