Python学习教程(Python学习路线):Pandas库基础分析-详解时间序列的处理

Python学习教程(Python学习路线):Pandas库基础分析-详解时间序列的处理

在使用Python进行数据分析时,经常会遇到时间日期格式处理和转换,特别是分析和挖掘与时间相关的数据,比如量化交易就是从历史数据中寻找股价的变化规律。Python中自带的处理时间的模块有datetime,NumPy库也提供了相应的方法,Pandas作为Python环境下的数据分析库,更是提供了强大的日期数据处理的功能,是处理时间序列的利器。

1、生成日期序列

主要提供pd.data_range()和pd.period_range()两个方法,给定参数有起始时间、结束时间、生成时期的数目及时间频率(freq=‘M’月,‘D’天,‘W’,周,‘Y’年)等。

两种主要区别在于pd.date_range()生成的是DatetimeIndex格式的日期序列;pd.period_range()生成的是PeriodIndex格式的日期序列。

以下通过生成月时间序列和周时间序列来对比下:

date_rng = pd.date_range(‘2019-01-01‘, freq=‘M‘, periods=12)print(f‘month date_range():
{date_rng}‘)"""date_range():DatetimeIndex([‘2019-01-31‘, ‘2019-02-28‘, ‘2019-03-31‘, ‘2019-04-30‘, ‘2019-05-31‘, ‘2019-06-30‘, ‘2019-07-31‘, ‘2019-08-31‘, ‘2019-09-30‘, ‘2019-10-31‘, ‘2019-11-30‘, ‘2019-12-31‘], dtype=‘datetime64[ns]‘, freq=‘M‘)"""period_rng = pd.period_range(‘2019/01/01‘, freq=‘M‘, periods=12)print(f‘month period_range():
{period_rng}‘)"""period_range():PeriodIndex([‘2019-01‘, ‘2019-02‘, ‘2019-03‘, ‘2019-04‘, ‘2019-05‘, ‘2019-06‘, ‘2019-07‘, ‘2019-08‘, ‘2019-09‘, ‘2019-10‘, ‘2019-11‘, ‘2019-12‘], dtype=‘period[M]‘, freq=‘M‘)"""date_rng = pd.date_range(‘2019-01-01‘, freq=‘W-SUN‘, periods=12)print(f‘week date_range():
{date_rng}‘)"""week date_range():DatetimeIndex([‘2019-01-06‘, ‘2019-01-13‘, ‘2019-01-20‘, ‘2019-01-27‘, ‘2019-02-03‘, ‘2019-02-10‘, ‘2019-02-17‘, ‘2019-02-24‘, ‘2019-03-03‘, ‘2019-03-10‘, ‘2019-03-17‘, ‘2019-03-24‘], dtype=‘datetime64[ns]‘, freq=‘W-SUN‘)"""period_rng=pd.period_range(‘2019-01-01‘,freq=‘W-SUN‘,periods=12)print(f‘week period_range():
{period_rng}‘)"""week period_range():PeriodIndex([‘2018-12-31/2019-01-06‘, ‘2019-01-07/2019-01-13‘, ‘2019-01-14/2019-01-20‘, ‘2019-01-21/2019-01-27‘, ‘2019-01-28/2019-02-03‘, ‘2019-02-04/2019-02-10‘, ‘2019-02-11/2019-02-17‘, ‘2019-02-18/2019-02-24‘, ‘2019-02-25/2019-03-03‘, ‘2019-03-04/2019-03-10‘, ‘2019-03-11/2019-03-17‘, ‘2019-03-18/2019-03-24‘], dtype=‘period[W-SUN]‘, freq=‘W-SUN‘)"""date_rng = pd.date_range(‘2019-01-01 00:00:00‘, freq=‘H‘, periods=12)print(f‘hour date_range():
{date_rng}‘)"""hour date_range():DatetimeIndex([‘2019-01-01 00:00:00‘, ‘2019-01-01 01:00:00‘, ‘2019-01-01 02:00:00‘, ‘2019-01-01 03:00:00‘, ‘2019-01-01 04:00:00‘, ‘2019-01-01 05:00:00‘, ‘2019-01-01 06:00:00‘, ‘2019-01-01 07:00:00‘, ‘2019-01-01 08:00:00‘, ‘2019-01-01 09:00:00‘, ‘2019-01-01 10:00:00‘, ‘2019-01-01 11:00:00‘], dtype=‘datetime64[ns]‘, freq=‘H‘)"""period_rng=pd.period_range(‘2019-01-01 00:00:00‘,freq=‘H‘,periods=12)print(f‘hour period_range():
{period_rng}‘)"""hour period_range():PeriodIndex([‘2019-01-01 00:00‘, ‘2019-01-01 01:00‘, ‘2019-01-01 02:00‘, ‘2019-01-01 03:00‘, ‘2019-01-01 04:00‘, ‘2019-01-01 05:00‘, ‘2019-01-01 06:00‘, ‘2019-01-01 07:00‘, ‘2019-01-01 08:00‘, ‘2019-01-01 09:00‘, ‘2019-01-01 10:00‘, ‘2019-01-01 11:00‘], dtype=‘period[H]‘, freq=‘H‘)"""

2、生成Timestamp对象及转换

创建一个Timestamp时间戳对象有pd.Timestamp()方法和pd.to_datetime()方法。如下所示:

ts=pd.Timestamp(2019,1,1)print(f‘pd.Timestamp()-1:{ts}‘)#pd.Timestamp()-1:2019-01-01 00:00:00ts=pd.Timestamp(dt(2019,1,1,hour=0,minute=1,second=1))print(f‘pd.Timestamp()-2:{ts}‘)#pd.Timestamp()-2:2019-01-01 00:01:01ts=pd.Timestamp("2019-1-1 0:1:1")print(f‘pd.Timestamp()-3:{ts}‘)#pd.Timestamp()-3:2019-01-01 00:01:01print(f‘pd.Timestamp()-type:{type(ts)}‘)#pd.Timestamp()-type:<class ‘pandas._libs.tslibs.timestamps.Timestamp‘>#dt=pd.to_datetime(2019,1,1) 不支持dt=pd.to_datetime(dt(2019,1,1,hour=0,minute=1,second=1))print(f‘pd.to_datetime()-1:{dt}‘)#pd.to_datetime()-1:2019-01-01 00:01:01dt=pd.to_datetime("2019-1-1 0:1:1")print(f‘pd.to_datetime()-2:{dt}‘)#pd.to_datetime()-2:2019-01-01 00:01:01print(f‘pd.to_datetime()-type:{type(dt)}‘)#pd.to_datetime()-type:<class ‘pandas._libs.tslibs.timestamps.Timestamp‘>#pd.to_datetime生成自定义时间序列dtlist=pd.to_datetime(["2019-1-1 0:1:1", "2019-3-1 0:1:1"])print(f‘pd.to_datetime()-list:{dtlist}‘)#pd.to_datetime()-list:DatetimeIndex([‘2019-01-01 00:01:01‘, ‘2019-03-01 00:01:01‘], dtype=‘datetime64[ns]‘, freq=None)#时间戳转换为period月时期pr = ts.to_period(‘M‘)print(f‘ts.to_period():{pr}‘)#ts.to_period():2019-01print(f‘pd.to_period()-type:{type(pr)}‘)#pd.to_period()-type:<class ‘pandas._libs.tslibs.period.Period‘>

3、生成period对象及转换

#定义时期periodper=pd.Period(‘2019‘)print(f‘pd.Period():{per}‘)#pd.Period():2019per_del=pd.Period(‘2019‘)-pd.Period(‘2018‘)print(f‘2019和2018间隔{per_del}年‘)#可以直接+、-整数(代表年)#2019和2018间隔1年#时期转换为时间戳print(per.to_timestamp(how=‘end‘))#2019-12-31 00:00:00print(per.to_timestamp(how=‘start‘))#2019-01-01 00:00:00

4、生成时间间隔Timedelta

#生成时间间隔Timedeltaprint(pd.Timedelta(days=5, minutes=50, seconds=20, milliseconds=10, microseconds=10, nanoseconds=10))#5 days 00:50:20.010010#获取当前时间now=pd.datetime.now()#计算当前时间往后50天的日期dt=now+pd.Timedelta(days=50)print(f‘当前时间是{now}, 50天后时间是{dt}‘)#当前时间是2019-06-08 17:59:31.726065, 50天后时间是2019-07-28 17:59:31.726065#只显示年月日print(dt.strftime(‘%Y-%m-%d‘))#2019-07-28

5、重采样及频率转换

#asfreq 按季度显示索引值#‘DatetimeIndex‘ object has no attribute ‘asfreq‘date=pd.date_range(‘1/1/2018‘, periods=20, freq=‘D‘)tsdat_series=pd.Series(range(20),index=date)tsp_series=tsdat_series.to_period(‘D‘)print(tsp_series.index.asfreq(‘Q‘))date=pd.period_range(‘1/1/2018‘, periods=20, freq=‘D‘)tsper_series=pd.Series(range(20),index=date)print(tsper_series.index.asfreq(‘Q‘))"""PeriodIndex([‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘, ‘2018Q1‘], dtype=‘period[Q-DEC]‘, freq=‘Q-DEC‘)"""#resample 按季度统计并显示print(tsdat_series.resample(‘Q‘).sum().to_period(‘Q‘))"""2018Q1 190Freq: Q-DEC, dtype: int64"""#groupby 按周进行汇总求平均值print(tsdat_series.groupby(lambda x:x.weekday).mean())"""0 7.01 8.02 9.03 10.04 11.05 12.06 9.5dtype: float64"""

之前也跟大家有讲过pandas的相关教程,大家有不理解的地方可回过头复习一下,更多的Python学习教程Python学习路线会继续跟大家分享!

原文地址:https://www.cnblogs.com/cherry-tang/p/11002173.html

时间: 2024-10-14 16:33:25

Python学习教程(Python学习路线):Pandas库基础分析-详解时间序列的处理的相关文章

Python学习教程_Python学习路线:Python3里你不知道的秘密特性

Python学习教程_Python学习路线:Python3里你不知道的秘密特性 概述 到2020年,Python2的官方维护期就要结束了,越来越多的Python项目从Python2切换到了Python3.其实在实际工作中,很多伙伴都还是在用Python2的思维写Python3的代码.给大家总结一下Python3一些新的更方便的特性!希望你们看完后也能高效率的编写代码 f-strings (3.6+) 在Python里面,我们经常使用format函数来格式化字符串,例如: user = "Jane

python基础教程_学习笔记15:标准库:一些最爱——fileinput

标准库:一些最爱 fileinput 重要的函数 函数 描述 input([files[,inplace[,backup]]) 便于遍历多个输入流中的行 filename() 返回当前文件的名称 lineno() 返回当前(累计)的名称 filelineno() 返回当前文件的行数 isfirstline() 检查当前行是否是文件的第一行 isstdin() 检查最后一行是否来自sys.stdin nextfile() 关闭当前文件,移动到下一个文件 close() 关闭序列 fileinput

python基础教程_学习笔记16:标准库:一些最爱——random

标准库:一些最爱 random random模块包括返回随机数的函数,可以用于模拟或者用于任何产生随机输出的程序. 事实上,所产生的数字都是伪随机数,它们以一个可预测的系统作为基础,除非是为了强加密的目标,否则这些随机数还是足够随机的.如果真的需要随机性,可以使用os模块的urandom函数. 重要函数 函数 描述 random() 返回0<=n<1之间的随机实数n,其中0<n<=1 getrandbits(n) 以长整型形式返回n个随机位(二进制数) uniform(a,b) 返

python基础教程_学习笔记17:标准库:一些最爱——time

标准库:一些最爱 time time模块所包含的函数能够实现以下功能: 获取当前时间.操作系统时间和日期.从字符串读取时间以及格式化时间为字符串. 日期可以用实数(从"新纪元"的1月1日0点开始计算到现在的秒数,新纪元是一个与平台相关的年份,对unix来说是1970年),或者是包含有9个整数的元组. 日期元组的字段含义 如元组: (2008,1,21,12,2,56,0,21,0) 表示2008年1月21日12时2分56秒,星期一,且是当年的第21天(无夏令时). 索引 字段 值 0

python基础教程_学习笔记14:标准库:一些最爱——re

标准库:一些最爱 re re模块包含对正则表达式的支持,因为曾经系统学习过正则表达式,所以基础内容略过,直接看python对于正则表达式的支持. 正则表达式的学习,见<Mastering Regular Expressions>(精通正则表达式) re模块的内容 最重要的一些函数 函数 描述 compile(pattern[,flags]) 根据包含正则表达式的字符串创建模式对象 search(pattern,string[,flags]) 在字符串中寻找模式 match(pattern,st

python基础教程_学习笔记20:标准库:一些最爱——os

标准库:一些最爱 os os模块为你提供了访问多个操作系统服务的功能. os和它的子模块os.path还包括一些用于检查.构造.删除目录和文件的函数,以及一些处理路径的函数. os模块中一些重要函数和变量 函数/变量 描述 environ 对环境变量进行映射 system(command) 在子shell中执行操作系统命令 sep 路径中的分隔符 pathsep 分隔路径的分隔符 linesep 行分隔符('\n','\r','\r\n') urandom(n) 返回n字节的加密强随机数据 os

python基础教程_学习笔记13:标准库:一些最爱——sys

标准库:一些最爱 sys sys这个模块让你能够访问与python解释器联系紧密的变量和函数. sys模块中一些重要的函数和变量 函数/变量 描述 argv 命令行参数,包括脚本名称 exit([arg]) 退出当前程序,可选参数为给定的返回值或者错误信息 modules 映射模块名字到载入模块的字典 path 查找模块所在目录的目录名列表 platform 类似sunos5或者win32的平台标识符 stdin 标准输入流--一个类文件对象 stdout 标准输出流--一个类文件对象 stde

python基础教程_学习笔记19:标准库:一些最爱——集合、堆和双端队列

标准库:一些最爱 集合.堆和双端队列 集合 集合Set类位于sets模块中. >>> range(10) [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] >>> set(range(10)) set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 集合是由序列(或其他可迭代的对象)构建的.主要用于检查成员资格,因此,副本是被忽略的: >>> range(10)*2 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9

python基础教程_学习笔记18:标准库:一些最爱——shelve

标准库:一些最爱 shelve Shelve唯一有趣的函数是open.在调用它的时候(使用文件名作为参数),它会返回一个Shelf对象,可以用它来存储内容.只需要把它当作普通的字典(但是键一定要作为字符串)来操作即可,在完成工作之后,调用它的close方法. 意识到shelve.open函数返回的对象并不是普通的映射是很重要的. >>> import shelve >>> s=shelve.open('a.txt') >>> s['x']=['a','