python中数据分析常用函数整理

一. apply函数

作用:对 DataFrame 的某行/列应用函数之后,Apply 返回一些值。函数既可以使用默认的,也可以自定义。注意:在第二个输出中应用 head() 函数,因为它包含了很多行。

#创建一个新函数
def num_missing(x):
  return sum(x.isnull())

#应用每一列
print "Missing values per column:"
print data.apply(num_missing, axis=0) #axis=0 defines that function is to be applied on each column

#应用每一行
print "\nMissing values per row:"
print data.apply(num_missing, axis=1).head() #axis=1 defines that function is to be applied on each row

二. loc函数

作用:选择属性子集

subSalesDf=salesDf.loc[0:4,‘购药时间‘:‘销售数量‘]

三. rename函数

作用:列重命名

colNameDict = {‘购药时间‘:‘销售时间‘}                  #将‘购药时间’改为‘销售时间’
salesDf.rename(columns = colNameDict,inplace=True)

四. dropna函数

作用:删除缺失值,how=‘any‘意为在给定的任何一列中有缺失值就删除

salesDf=salesDf.dropna(subset=[‘销售时间‘,‘社保卡号‘],how=‘any‘) #删除列(销售时间,社保卡号)中为空的行

五. pd.to_datetime函数

作用:字符串类型的数据转换成日期格式。传入的格式是原始数据的日期格式——format=‘%Y-%m-%d‘固定写法:Y表示年、m表示月、d表示日。

salesDf.loc[:,‘销售时间‘]=pd.to_datetime(salesDf.loc[:,‘销售时间‘],
                                    format=‘%Y-%m-%d‘,
                                    errors=‘coerce‘)

errors=‘coerce‘: 如果原始数据不符合日期的格式,转换后的值为空值NaT。所以转换之后我们还要运行一次删除空值的代码,因为不符合格式的日期被转变为了空值需要删除。

salesDf=salesDf.dropna(subset=[‘销售时间‘,‘社保卡号‘],how=‘any‘)

六.  pd.sort_values

作用:对数据进行排序,by表示按那几列进行排序,ascending=True 表示升序排列,ascending=False表示降序排列

salesDf=salesDf.sort_values(by=‘销售时间‘,     #按销售日期进行升序排列
                    ascending=True)

七. reset_index函数

作用:生成从0到N按顺序的索引值

salesDf=salesDf.reset_index(drop=True)

八. describe函数

作用:查看数据框中所有数据每列的描述统计信息:(count:总数,mean:平均数,std:标准差,min:最小值,25%:下四分位数,50%:中位数,75%:上四分位数,max:最大值)

salesDf.describe()

九. 删除异常值

作用:假设最小值出现了小于0的情况,分析应该是记录过程中出现错误所致。

第一步:设置查询条件,这一步返回True和false

querySer=salesDf.loc[:,‘销售数量‘]>0

第二步:应用查询条件

salesDf=salesDf.loc[querySer,:]

十. drop_duplicates函数

作用:将重复的数据删除,同一个人发生的所有消费算作一次消费,根据列名(销售时间,社区卡号),如果这两个列值同时相同,只保留1条

kpi1_Df=salesDf.drop_duplicates(
    subset=[‘销售时间‘, ‘社保卡号‘]
)

十一. groupby

作用:根据某一列分组

gb=groupDf.groupby(groupDf.index.month)

对分组后的数据应用函数

mounthDf=gb.sum()

十二. 不适=使用for循环的列表生成器

作用:当一个列表中的元素是由另外一个列表中对应元素经过运算得到时,可以省去for循环,适用一行代码生成模型

x = [2,3,4,5]
out = [item*2 for item in x]
print(out)

十三. Lambda 表达式

作用:不使用def关键字,也没有return。Lambda 表达式创造的函数和普通的 def 构建的函数没什么不同,只不过函数体只有单独一个表达式而已。

double=lambda x: x*2 #double是函数名,x是参数
print(double(3))

十四. map 和 filter 函数

1. map

作用:可以与Lambda表达式同时使用,map() 函数接收一个列表,和一个函数(可以是Lambda表达式),它对列表里的每个元素调用一个函数进行处理,再将结果放进一个新列表里。

result=list(map(double,x))
print(result)

2. filter

作用:它接收一个列表,和一个规则函数,在对列表里的每个元素调用这个规则函数之后,它把所有返回值为假的元素从列表中剔除,然后返回这个过滤后的子列表。

result2=list(filter(lambda a:a>4,x))

十五. arrange 函数

作用:arange() 函数按照指定的步长返回一个等差数列。除开始和结束值之外,你还可以自定义步长和数据类型。请注意,给定的结束值参数是不会被包含在结果内的。

result= np.arange(start,stop,step)

十六. linspace 函数

作用:将给定区间进行若干等分以后的等分点组成的数列。所以你传入的参数包括开始值、结束值,以及具体多少等分。linspace() 将这个区间进行等分后,把开始值、结束值和每个等分点都放进一个 NumPy 数组里。这在做数据可视化以及绘制坐标轴的时候都很有用。

result4=np.linspace(2.0,3.0,num=5)

十七. 矩阵合并函数

1.Concat

作用:把一个或多个数据表按行(或列)的方向简单堆叠起来(看你传入的 axis 参数是 0 还是 1 咯)。

2. merge

作用:merge() 将会以用户指定的某个名字相同的列为主键进行对齐,把两个或多个数据表融合到一起。

3. join

join()和 merge() 很相似,只不过 join() 是按数据表的索引进行对齐,而不是按某一个相同的列。当某个表缺少某个索引的时候,对应的值为空(NaN)。

十八. pivot_table 函数

作用:它能帮你对一个数据表进行格式化,并输出一个像 Excel 工作表一样的表格。实际使用中,透视表将根据一个或多个键对数据进行分组统计,将函数传入参数 aggfunc 中,数据将会按你指定的函数进行统计,并将结果分配到表格中。

pivot_table(data, values=None, index=None, columns=None,aggfunc=‘mean‘, fill_value=None, margins=False, dropna=True, margins_name=‘All‘)

原文地址:https://www.cnblogs.com/HondaHsu/p/12664901.html

时间: 2024-08-01 03:00:15

python中数据分析常用函数整理的相关文章

[cocos2d-js教程】cocos2d-js中一些常用函数整理

本文由qinning199原创,转载请注明:http://www.cocos2dx.net/post/223 1.cc.rectIntersectsRect(ra,rb) 判断两个矩形是否相交,若相交,返回true 用例: var rectA = cc.rect(0,0,5,10); var rectB = cc.rect(4,9,5,10); var r = cc.rectIntersectsRect(rectA, rectB); if(!r) throw "Fail rectIntersec

Python常用函数整理

主要内容: 字符串函数.集合函数.列表函数和字典函数. Python常用函数 字符串函数 方法 说明 capitalize() 返回首字母的大写副本 find(string) 返回字符串中首次出现参数string的索引,如果字符串中没有参数string则返回-1 find(s,beg) 返回字符串中索引beg之后首次出现参数s的索引,如果字符串中索引beg之后没有参数s则返回-1 find(s,beg,end) 返回字符串中索引beg与end之间首次出现参数s的索引,如果字符串中索引beg和en

Python中关于Lambda函数的使用总结

lambda表达式是一种匿名函数,对应python中的自定义函数def,是定义某个函数时比较高级的一种写法.作为python初学者,本文整理了lambda的一些基本用法和特点. lambda和def的对应关系 定义func函数,计算给定数x的平方 def func(x): return x*x 等价于 func = lambda x: x*x 其中func是函数名,x是输入参数,x*x是输出结果 输入参数可以有多个,可以接收不定参数如*args或者**kwargs. f = lambda x,

Python中set集合的整理

set集合函数主要用来去除重复: 比如一个列表有多个重复值,可以用set搞掉 >>> l = [1,2,3,4,5,4,3,21] >>> >>> l [1, 2, 3, 4, 5, 4, 3, 21] >>> >>> >>> set(l) set([1, 2, 3, 4, 5, 21]) >>> set  可以做交集,并集,差集 set的增删改 增:>>> a

2015-8-25-关于后端的知识以及常用函数整理

首先结构一般是分为B/S(Browser/Server)和C/S(Client/Server)的,我们所用的是基于B/S结构的. 其中这里的B主要是一些控件的组成的页面,主要是由JScript控制的, 其中的S主要是由SSL代码控制的,又分为Server Script和Data Sources,首先来说说两者的一些区别(Server Script用SS代替,Data Sources用DS代替): 对于我们这个LIMS系统来说,最常用的操作就是对数据库的增.删.改.查,其中的“查”,也就是从数据库

NIOS II常用函数整理-感谢slam原创

IO操作函数函数原型:IORD(BASE, REGNUM) 输入参数:BASE为寄存器的基地址,REGNUM为寄存器的偏移量函数说明:从基地址为BASE的设备中读取寄存器中偏移量为REGNUM的单元里面的值.寄存器的值在地址总线的范围之内.返回值: - 函数原型:IOWR(BASE, REGNUM, DATA)输入参数:BASE为寄存器的基地址,REGNUM为寄存器的偏移量,DATA为要写入的数据函数说明:往偏移量为REGNUM寄存器中写入数据.寄存器的值在地址总线的范围之内.返回值: - 函数

numpy函数库中一些常用函数的记录

numpy函数库中一些常用函数的记录 最近才开始接触python,python中为我们提供了大量的库,不太熟悉,因此在<机器学习实战>的学习中,对遇到的一些函数的用法进行记录. (1)mat( ) numpy函数库中存在两种不同的数据类型(矩阵matrix和数组array),都可以用于处理行列表示的数字元素.虽然他们看起来很相似,但是在这两个数据类型上执行相同的数学运算可以得到不同的结果,其中numpy函数库中matrix与MATLAB中matrices等价. 调用mat( )函数可以将数组转

pandas 常用函数整理

pandas常用函数整理,作为个人笔记. 仅标记函数大概用途做索引用,具体使用方式请参照pandas官方技术文档. 约定 from pandas import Series, DataFrame import pandas as pd import numpy as np 带.的为Series或者DataFrame对象的方法,只列举了部分关键字参数. 1.基础 .values 获取值,返回array对象 .index 获取(行)索引,返回索引对象 Series( index=) 创建Series

python之6-1常用函数

1.休眠函数 import time time.sleep(n) n可以是整数或者小数,单位是秒 2.打开文件函数 open('n','m',k) n是文件路径,如果只有文件名,则是py程序所在文件夹 m是打开赋予的权限 k是缓冲,0表示不用缓冲,其他数字表示缓冲数量 r  默认模式,文本模式读 rb     二进制文件 w或wt 文本模式写,打开前文件存储被清空 wb    二进制写,文件存储同样被清空 a  追加模式,只能写在文件末尾 a+ 可读写模式,写只能写在文件末尾 w+ 可读写,与a