五个 Python 常用数据分析库

前言

Python 是常用是数据分析工具,常用的数据分析库有很多,下面主要介绍如下五个分析库:NumPy、Pandas、SciPy、StatsModels、Matplotlib。

NumPy

NumPy 是一个非常常用的数据分析库,更准确点说是一个数学计算库,包括下面的 Pandas 也依赖于 NumPy。话说为什么用 NumPy,他有什么优点?

  1. 众多内置的数学计算:文章你看到这里,说明你要做的工作大概率是和人工智能、机器学习或数据分析相关的工作,这些工作不是简单的代码逻辑的堆叠,而更多的数学的应用,时常需要矩阵计算、基本线性代数操作、随机模拟和傅里叶变换等,NumPy 内置就可以精心这些操作,而不需要你徒手进行傅里叶展开。
  2. 快:举个例子,矩阵 a 和 b 的乘法,可以直接写成 a * b(元素乘积)或 a @ b(矩阵乘积),会比你徒手写循环要快,原因你可能猜到了,那就是预编译成 C 代码或者用到更好的缓存策略等,有这样的优点,你没有什么理由不用。
  3. 代码简单:矩阵相乘上面的写法就比循环更易读,更少的代码也意味着更少的 Bug。

做数据分析,人生苦短,都已经用了 Python,那不妨了解一下 NumPy,你会有更深的理解。

Pandas

Pandas,Python Data Analysis Library,这是一个为数据建模分析而生的工具库,Pandas 包含许多数据模型,也吸纳了很多其他库的优势,比如上文就提到 Pandas 依赖于 NumPy,这里也建议了解了 NumPy 后再去学习 Pandas。Pandas 提供了大量的数据处理的函数和方法,尤其对大型数据集有其独特的优势,且由于其创建有着金融方面的背景,因此其在时间序列分析或经济学方面也有其独特的优势。

Matplotlib

Matplotlib 是一个 2D 绘图库。一堆数据摆在面前,或者是一个巨大的数据表格摆在面前,去分析其中数据特征,这样的任务对于人眼来说有点难度,但是如果转化为图形,则又是另一番感觉了。几行代码就可以画出精确的直方图、条形图、误差图或散点图,这样的工具对于数据分析来说就是神器呀。

上面就是 Python 数据分析三大支柱(当然,有人会说其他的库或工具也很好用,确实我不否认这一点,但是我个人及一部分人仍然认为上面三个库是 Python 数据分析三大支柱),下面继续分析其他三个也很好用值得了解学习的工具库。

SciPy

很多人也想把 SciPy 列为支柱工具包,可见其还是很重要的。SciPy 也依赖于 NumPy,SciPy 是一个科学计算工具库,其中也包含很多的高阶抽象和物理模型,在积分、差值、信号处理等。

StatsModels

StatsModels 包含了许多的统计模型,线性模型、广义线性模型、方差分析、时间序列(Pandas 也可以做,因为 StatsModels 又依赖于 Pandas)和线性混合效用模型等,在统计方面有其独特的优势。

后记

对于 Python 的数据分析库,我不得不说,他们之间真的是紧密的联系在了一起,往往官网也都是相互有链接索引,互相推荐,真的是抱团取暖呀。并且他们之间有些功能还略有重复,但又各有侧重,对于这一点,这也是难免的,因为数据分析一些基础的操作都是一致的,哪一个库又都不可能把那些基础的功能屏蔽掉。对我们来说,我们往往是都需要有一定的了解,在不同的工作或任务中,使用不同的工具库。

对于学习步骤,我的建议是先看看三大支柱(NumPy、Pandas 和 Matplotlib)的文档,学会基本使用后,具体的 API 以后的学习过程中慢慢去掌握。

原文地址:https://www.cnblogs.com/renyuzhuo/p/12222578.html

时间: 2024-07-31 14:01:42

五个 Python 常用数据分析库的相关文章

Python常用的库简单介绍一下

Python常用的库简单介绍一下fuzzywuzzy ,字符串模糊匹配. esmre ,正则表达式的加速器. colorama 主要用来给文本添加各种颜色,并且非常简单易用. Prettytable 主要用于在终端或浏览器端构建格式化的输出. difflib ,[Python]标准库,计算文本差异 . Levenshtein ,快速计算字符串相似度. Chardet 字符编码探测器,可以自动检测文本.网页.xml的编码. shortuuid ,一组简洁URL/UUID函数库. ftfy ,Uni

python常用第三方库(转载)

Python标准库与第三方库详解(转载) 转载地址: http://www.codeweblog.com/python%e6%a0%87%e5%87%86%e5%ba%93%e4%b8%8e%e7%ac%ac%e4%b8%89%e6%96%b9%e5%ba%93%e8%af%a6%e8%a7%a3/ 这篇文章主要介绍了Python标准库与第三方库,需要的朋友可以参考下 本文详细罗列并说明了Python的标准库与第三方库如下,供对此有需要的朋友进行参考: Tkinter---- Python默认的

python常用标准库和第三方库

python 常用的标准库及第三方库标准库Python拥有一个强大的标准库.Python语言的核心只包含数字.字符串.列表.字典.文件等常见类型和函数,而由Python标准库提供了系统管理.网络通信.文本处理.数据库接口.图形系统.XML处理等额外的功能.Python标准库的主要功能有:1.文本处理,包含文本格式化.正则表达式匹配.文本差异计算与合并.Unicode支持,二进制数据处理等功能2.文件处理,包含文件操作.创建临时文件.文件压缩与归档.操作配置文件等功能3.操作系统功能,包含线程与进

Python 金融数据分析库及相关框架

BackTest框架库: PyAlgoTrade ZipLine 金融数据分析库: pandas

第十章 Python常用标准库使用(必会)

本章涉及标准库: 1.sys 2.os 3.glob 4.math 5.random 6.platform 7.pikle与cPikle 8.subprocess 9.Queue 10.StringIO 11.logging 12.ConfigParser 13.urllib与urllib2 14.json 15.time 16.datetime 10.1 sys 1)sys.argv 命令行参数. argv[0] #代表本身名字 argv[1] #第一个参数 argv[2] #第二个参数 ar

python 常用的库

本节大纲: 模块介绍 time &datetime模块 random os sys shutil json & picle shelve xml处理 yaml处理 configparser hashlib subprocess logging模块 re正则表达式 模块,用一砣代码实现了某个功能的代码集合. 类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合.而对于一个复杂的功能来,可能需要多个函数才能完成(函数又可以在不同的.p

python常用标准库

-------------------系统内建函数------------------- 1.字符串 str='这是一个字符串数据测试数据'对应 str[0]:获取str字符串中下标为0的字符. str[3]:获取str字符串中下标为3的字符. str[0:3]:获取到字符串中从下标为0到下标为3的字符串. str.find():返回指定str字符串中是否存在指定的字符串数据信息:如果存在则返回字符串首字母的下标,如果不存在则返回-1. str.index():返回指定str字符串中是否存在指定

Python常用三方库安装

//一个类似Matlab的Plot绘制数据图的库. >python -m pip install matplotlib //NumPy为Python提供了很多高级的数学方法 >python -m pip install NumPy //wxPython.Python的一个GUI(图形用户界面)工具 >python -m pip install wxPython 原文地址:https://www.cnblogs.com/airscrat/p/12048312.html

Python常用第三方库

Pillow图像处理库 requests 访问网络资源 chardet 用于检测编码 import chardet print(chardet.detect(b'Hello,world')) #{'encoding': 'ascii', 'confidence': 1.0, 'language': ''} import chardet data='离离原上草,一岁一枯荣'.encode('gbk') print(chardet.detect(data)) #{'encoding': 'GB231