工具
来源 https://www.cnblogs.com/babycomeon/p/12258536.html
关于数据分析的工具这个就是一个仁者见仁智者见智的事情了,工具实在是太多了,从 Excel 到各种各样的数据, SQL 语句, R 语言以及我们计划在未来介绍的 Python 。
具体工具的选择更多是看使用场景,如果在数据量不大的情况下,如果你正好对 Excel 的使用比较熟悉,那么 Excel 就是最优解,这个毋庸置疑。
如果数据量已经非常大了,存储在各种各样的结构化数据库中,那么 SQL 语言就是不可或缺的工具,在如果数据量已经非常大了,存储在大数据集群上,那么使用 R 语言或者 Python 或许是一个不错的选择。
在 Python 中,有三个工具包被称为数据分析三剑客: Pandas 、 Numpy 、 Matplotlib 。
Pandas
Pandas 是什么?
Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。
利器之一 DataFrame:
DataFrame是Pandas中的一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典。
利器之一 Series:
它是一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。
Numpy
Numpy 是什么?
NumPy是使用Python进行科学计算的基础软件包。除其他外,它包括:
- 功能强大的N维数组对象。
- 精密广播功能函数。
- 集成 C/C+和Fortran 代码的工具。
- 强大的线性代数、傅立叶变换和随机数功能。
利器之一 Ndarray:
NumPy 最重要的一个特点是其 N 维数组对象 ndarray,它是一系列同类型数据的集合,以 0 下标为开始进行集合中元素的索引。ndarray 对象是用于存放同类型元素的多维数组。ndarray 中的每个元素在内存中都有相同存储大小的区域。
利器之一 切片和索引:
ndarray对象的内容可以通过索引或切片来访问和修改,与 Python 中 list 的切片操作一样。ndarray 数组可以基于 0 - n 的下标进行索引,切片对象可以通过内置的 slice 函数,并设置 start, stop 及 step 参数进行,从原数组中切割出一个新数组。
Matplotlib
官网:https://www.matplotlib.org/
中文网:https://www.matplotlib.org.cn/
Matplotlib 是什么?
Matplotlib 是一个 Python 的 2D 绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。
Matplotlib 能帮你?
绘制线图、散点图、等高线图、条形图、柱状图、3D 图形、、甚至是图形动画等等。
ECharts
ECharts是一款由百度前端技术部开发的,基于Javascript的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。
提供大量常用的数据可视化图表,底层基于ZRender(一个全新的轻量级canvas类库),创建了坐标系,图例,提示,工具箱等基础组件,并在此上构建出折线图(区域图)、柱状图(条状图)、散点图(气泡图)、饼图(环形图)、K线图、地图、力导向布局图以及和弦图,同时支持任意维度的堆积和多图表混合展现。
原文地址:https://www.cnblogs.com/qiu-hua/p/12661296.html