numpy 与 pandas

numpy:

import numpy as np

np.array([1,2,3]) 创建数组
np.arange(10).reshape(2,5) 类似于range(起始，终止，步长)，可以加reshape(2,5)定义形状。必须是相乘等于前面的size
np.linsapace(1,10,10) 参数为：起始，终止，平分多少个
zeros((2,4)) 根据指定形状和dtype创建全0数组
ones((2,4)) 根据指定形状和dtype创建全1数组
empty((2,4)) 根据指定形状和dtype创建空数组（随机值）
eye(5) 根据指定边长和dtype创建单位矩阵 5*5的矩阵，从0开始的的对角线为1，其他为0
arr[0:2,1:3] 多维数据的切片逗号前是行，后面是列

布尔型索引：

给一个数组，选出数组中所有大于5的数和偶数。
答案：arr[(a>5) & (a%2==0)] 或是| 非是~
花式索引*
对于一个数组，选出其第1，3，4，6，7个元素，组成新的二维数组。
答案：arr[[1,3,4,6,7]]
对一个二维数组，选出其第一列和第三列，组成新的二维数组。
答案：a[:,[1,3]] 解读：行全取，列要1,3

常见通用函数：

二元函数：

浮点数特殊值：

浮点数：float
浮点数有两个特殊值：
nan(Not a Number)：不等于任何浮点数（nan != nan）例如：0/0 或者负数开根号
inf(infinity)：比任何浮点数都大例如：4/0 为无限大
在数据分析中，nan常被用作表示数据缺失值

常用函数：

sum 求和
cumsum 求前缀和
mean 求平均数
std 求标准差
var 求方差
min 求最小值
max 求最大值
argmin 求最小值索引
argmax 求最大值索引

随机数生成函数在np.random子包内
常用函数

rand 给定形状产生随机数组（0到1之间的数）
randint 给定形状产生随机整数
choice 给定形状产生随机选择
shuffle 与random.shuffle相同
uniform 给定形状产生随机数组

pandas：

pandas的主要功能
具备对其功能的数据结构DataFrame、Series
集成时间序列功能
提供丰富的数学运算和操作
灵活处理缺失数据

Series

Series是一种类似于一位数组的对象，由一组数据和一组与之相关的数据标签（索引）组成。
创建方式：

pd.Series([4,7,-5,3])
结果：	0 4
1 7
2 -5
3 3
pd.Series([4,7,-5,3],index=[‘a‘,‘b‘,‘c‘,‘d‘])
结果：	a 4
b 7
c -5
d 3
pd.Series({‘a‘:1, ‘b‘:2})
结果：	a 1
b 2
pd.Series(0, index=[‘a‘,‘b‘,‘c‘,‘d’])
a 0
结果：	b 0
c 0
d 0

获取值数组和索引数组：values属性和index属性
Series比较像列表（数组）和字典的结合体。

Series支持数组的特性：

从ndarray创建Series：Series(arr)
与标量运算：sr*2
两个Series运算：sr1+sr2
索引：sr[0], sr[[1,2,4]]
切片：sr[0:2]（切片依然是视图形式）
通用函数：np.abs(sr)
布尔值过滤：sr[sr>0]
统计函数：mean() sum() cumsum()

Series支持字典的特性（标签）：

loc
从字典创建Series：Series(dic),
in运算：’a’ in sr、for x in sr
键索引：sr[‘a‘], sr[[‘a‘, ‘b‘, ‘d‘]]
键切片：sr[‘a‘:‘c‘]
其他函数：get(‘a‘, default=0)等

loc属性以标签解释
iloc属性以下标解释

如何在两个Series对象相加时将缺失值设为0？

sr1.add(sr2, fill_value=0)
Series缺失数据 NaN
dropna() 过滤掉值为NaN的行
fillna() 填充缺失数据
isnull() 返回布尔数组，缺失值对应为True ：布尔值索引
notnull() 返回布尔数组，缺失值对应为False
过滤缺失数据：sr.dropna() 或 sr[data.notnull()]
填充缺失数据：fillna(0)

DataFrame

创建方式：
pd.DataFrame({‘one‘:[1,2,3,4],‘two‘:[4,3,2,1]})
pd.DataFrame({‘one‘:pd.Series([1,2,3],index=[‘a‘,‘b‘,‘c‘]), ‘two‘:pd.Series([1,2,3,4],index=[‘b‘,‘a‘,‘c‘,‘d‘])})

DataFrame使用索引切片

方法1：两个中括号，先取列再取行。 df[‘A‘][0]
方法2（推荐）：使用loc/iloc属性，一个中括号，逗号隔开，先取行再取列。
loc属性：解释为标签
iloc属性：解释为下标
向DataFrame对象中写入值时只使用方法2
行/列索引部分可以是常规索引、切片、布尔值索引、花式索引任意搭配。（注意：两部分都是花式索引时结果可能与预料的不同）

通过标签获取：

df[‘A‘]
df[[‘A‘, ‘B‘]]
df[‘A‘][0]
df[0:10][[‘A‘, ‘C‘]]
df.loc[:,[‘A‘,‘B‘]]
df.loc[:,‘A‘:‘C‘]
df.loc[0,‘A‘]
df.loc[0:10,[‘A‘,‘C‘]]

通过位置获取：

df.iloc[3]
df.iloc[3,3]
df.iloc[0:3,4:6]
df.iloc[1:5,:]
df.iloc[[1,2,4],[0,3]]

通过布尔值过滤：

df[df[‘A‘]>0]
df[df[‘A‘].isin([1,3,5])]
df[df<0] = 0

DataFrame数据对齐与缺失数据
DataFrame处理缺失数据的相关方法：

dropna(axis=0,where=‘any‘,…)
fillna()
isnull()
notnull()

pandas常用方法（适用Series和DataFrame）：

mean(axis=0,skipna=False)
sum(axis=1)
sort_index(axis, …, ascending) 按行或列索引排序
sort_values(by, axis, ascending) 按值排序
NumPy的通用函数同样适用于pandas
apply(func, axis=0) 将自定义函数应用在各行或者各列上，func可返回标量或者Series
applymap(func) 将函数应用在DataFrame各个元素上
map(func) 将函数应用在Series各个元素上

时间： 2024-11-09 02:38:47

numpy 与 pandas的相关文章

【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识

前面几篇文章采用的案例的方法进行介绍的,这篇文章主要介绍Python常用的扩展包,同时结合数据挖掘相关知识介绍该包具体的用法,主要介绍Numpy.Pandas和Matplotlib三个包.目录: 一.Python常用扩展包二.Numpy科学计算包三.Pandas数据分析包四.Matplotlib绘图包前文推荐: [Python数据挖掘课程]一.安装Python及爬虫入门介绍 [Python数据挖掘课程]二.K

NumPy和Pandas常用库

NumPy和Pandas常用库 1.NumPy NumPy是高性能科学计算和数据分析的基础包.部分功能如下: ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组. 用于对整组数据进行快速运算的标准数学函数(无需编写循环). 用于读写磁盘数据的工具以及用于操作内存映射文件的工具. 线性代数.随机数生成以及傅里叶变换功能. 用于集成C.C++.Fortran等语言编写的代码的工具. 首先要导入numpy库:import numpy as np A NumPy函数和属性: 类型

如何快速地从mongo中提取数据到numpy以及pandas中去

mongo数据通常过于庞大,很难一下子放进内存里进行分析,如果直接在python里使用字典来存贮每一个文档,使用list来存储数据的话,将很快是内存沾满.型号拥有numpy和pandas import numpy import pymongo c = pymongo.MongoClient() collection = c.mydb.collection num = collection.count() arrays = [ numpy.zeros(num) for i in range(5)

python安装numpy和pandas

最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了.首要条件,python版本必须是2.7以上. linux首先安装依赖包 yum -y install blas blas-devel lapack-devel lapack yum -y install seaborn scipy yum -y install freetype freetype-devel libpng lib

【转载】python安装numpy和pandas

转载:原文地址 http://www.cnblogs.com/lxmhhy/p/6029465.html 最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了.首要条件,python版本必须是2.7以上. linux首先安装依赖包 yum -y install blas blas-devel lapack-devel lapack yum -y install seaborn sc

Python下载numpy和pandas踩过的大坑

Python下载numpy和pandas踩过的大坑最直接的安装方法是在python的scripts中执行 pip install pandas后,能出现Successfull是最好的,这也代表你已完成pandas的安装.下面的内容对你也没有用了.但是一般执行完后,dos窗口会出现各种报错.(Ps:我也是在网上找了各种各样的解决办法,看的人头大.下面是我的解决方法) 出现报错: E:\Python34\Scripts>pip install pandasCollecting pandas U

python中numpy和pandas介绍

numpy和pandas是python中用于处理数据的两个库.numpy介绍:numpy用于处理array,且array中数据类型必须一致.下面以代码备注的方式介绍. #START import numpy as np v=np.array([1,2,3,4,5,6,7,8]) //array中以list的方式展现 m=np.array([[1,2,3,4,5,6,7,8], [8,7,6,5,4,3,2,1]]) h=np.array([[1,2,3,4,5,6,7,8], [8,7,6,5,

python2.7安装numpy、pandas、matplotlib库

我装的是python2.7 然后pip的版本是18.1,最近使用pip install **安装包的时候总是会提示 You are using pip version 18.1, however version 19.1.1 is available. 可以在python安装目录的Scripts文件夹下打开powershell,然后通过指令 easy_install.exe pip==19.1.1 更新到提示的pip最新版本更新成功后,再次查看pip版本,已经是最新的19.1.1了安装num

numpy、pandas、matplotlib的用法

一. 数组要比列表效率高很多 numpy高效的处理数据,提供数组的支持,python默认没有数组.pandas.scipy.matplotlib都依赖numpy. pandas主要用于数据挖掘,探索,分析 maiplotlib用于作图,可视化 scipy进行数值计算,如:积分,傅里叶变换,微积分 statsmodels用于统计分析 Gensim用于文本挖掘 sklearn机器学习, keras深度学习二. numpy和mkl 下载安装 pandas和maiplotlib网络安装 scipy 下

《Python数据分析常用手册》一、NumPy和Pandas篇

一.常用链接: 1.Python官网:https://www.python.org/ 2.各种库的whl离线安装包:http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn 3.数据分析常用库的离线安装包(pip+wheels)(百度云):http://pan.baidu.com/s/1dEMXbfN 密码:bbs2 二.常用库 1.NumPy NumPy是高性能科学计算和数据分析的基础包.部分功能如下: ndarray, 具有矢量算术运算和