(数据科学学习手札62)详解seaborn中的kdeplot、rugplot、distplot与jointplot

一、简介

  seaborn是Python中基于matplotlib的具有更多可视化功能和更优美绘图风格的绘图模块,当我们想要探索单个或一对数据分布上的特征时,可以使用到seaborn中内置的若干函数对数据的分布进行多种多样的可视化,本文以jupyter notebook为编辑工具,针对seaborn中的kdeplot、rugplot、distplot和jointplot,对其参数设置和具体用法进行详细介绍。

二、kdeplot

  seaborn中的kdeplot可用于对单变量和双变量进行核密度估计并可视化,其主要参数如下:

  data:一维数组,单变量时作为唯一的变量

  data2:格式同data2,单变量时不输入,双变量作为第2个输入变量

  shade:bool型变量,用于控制是否对核密度估计曲线下的面积进行色彩填充,True代表填充

  vertical:bool型变量,在单变量输入时有效,用于控制是否颠倒x-y轴位置

  kernel:字符型输入,用于控制核密度估计的方法,默认为‘gau‘,即高斯核,特别地在2维变量的情况下仅支持高斯核方法

  legend:bool型变量,用于控制是否在图像上添加图例

  cumulative:bool型变量,用于控制是否绘制核密度估计的累计分布,默认为False

  shade_lowest:bool型变量,用于控制是否为核密度估计中最低的范围着色,主要用于在同一个坐标轴中比较多个不同分布总体,默认为True

  cbar:bool型变量,用于控制是否在绘制二维核密度估计图时在图像右侧边添加比色卡

  color:字符型变量,用于控制核密度曲线色彩,同plt.plot()中的color参数,如‘r‘代表红色

  cmap:字符型变量,用于控制核密度区域的递进色彩方案,同plt.plot()中的cmap参数,如‘Blues‘代表蓝色系

  n_levels:int型,在而为变量时有效,用于控制核密度估计的区间个数,反映在图像上的闭环层数

  下面我们来看几个示例来熟悉kdeplot中上述参数的实际使用方法:

  首先我们需要准备数据,本文使用seaborn中自带的鸢尾花数据作为示例数据,因为在jupyter notebook中运行代码,所以加上魔术命令%matplotlib inline使得图像得以在notebook中显示

import seaborn as sns
sns.set(color_codes=True)
import matplotlib.pyplot as plt
%matplotlib inline
#加载seaborn自带的鸢尾花数据集,格式为数据框
iris = sns.load_dataset(‘iris‘)
#分离出setosa类的花对应的属性值
setosa = iris.loc[iris.species == "setosa"].reset_index(drop=True)
#分离出virginica类的花对应的属性值
virginica = iris.loc[iris.species == "virginica"].reset_index(drop=True)

  首先我们不修改其他参数只传入数据来观察绘制出的图像:

#绘制iris中petal_width参数的核密度估计图
ax = sns.kdeplot(iris.petal_width)

  加上红色填充颜色,并禁止图例显示:

ax = sns.kdeplot(iris.petal_width,shade=True,color=‘r‘)

  修改为核密度分布:

ax = sns.kdeplot(iris.petal_width,
                 shade=True,
                 color=‘r‘,
                 cumulative=True)

  交换x-y轴位置:

ax = sns.kdeplot(iris.petal_width,
                 shade=True,
                 color=‘r‘,
                 vertical=True)

  下面我们来绘制双变量联合核密度估计图:

#绘制setosa花的petal_width与petal_length的联合核密度估计图
ax = sns.kdeplot(setosa.petal_width,
                 setosa.petal_length)

  修改调色方案为蓝色,并设置shade_lowest=True:

ax = sns.kdeplot(setosa.petal_width,
                 setosa.petal_length,
                 cmap=‘Blues‘,
                 shade=True,
                 shade_lowest=True)

  在上图基础上修改shade_lowest=False:

ax = sns.kdeplot(setosa.petal_width,
                 setosa.petal_length,
                 cmap=‘Blues‘,
                 shade=True,
                 shade_lowest=False)

可以看到这时最低密度估计曲线之外的区域没有被调色方案所浸染。

  将核密度曲线区间个数修改为5:

ax = sns.kdeplot(setosa.petal_width,
                 setosa.petal_length,
                 cmap=‘Blues‘,
                 shade=True,
                 shade_lowest=False,
                 n_levels=5)

可以看到这时的核密度区间要粗略很多。

  在同一个子图中绘制两个不同一维总体的核密度估计图,这里为了把它们区分开分别定义了label参数以显示在图例中:

ax1 = sns.kdeplot(setosa.petal_width,label=‘setosa.petal_width‘)
ax2 = sns.kdeplot(virginica.petal_width,label=‘virginica.petal_width‘)

  在同一个子图中绘制两个不同二维总体的核密度估计图:

ax1 = sns.kdeplot(setosa.sepal_width,setosa.sepal_length,
                  cmap=‘Blues‘,
                  shade=True,
                  shade_lowest=False)
ax2 = sns.kdeplot(virginica.sepal_width,virginica.sepal_length,
                  cmap=‘Greens‘,
                  shade=True,
                  shade_lowest=False)

三、rugplot

  rugplot的功能非常朴素,用于绘制出一维数组中数据点实际的分布位置情况,即不添加任何数学意义上的拟合,单纯的将记录值在坐标轴上表现出来,相对于kdeplot,其可以展示原始的数据离散分布情况,其主要参数如下:

  a:一维数组,传入观测值向量

  height:设置每个观测点对应的小短条的高度,默认为0.05

  axis:字符型变量,观测值对应小短条所在的轴,默认为‘x‘,即x轴

  

  使用默认参数进行绘制:

ax = sns.rugplot(iris.petal_length)

  调换所处的坐标轴:

ax = sns.rugplot(iris.petal_length,axis=‘y‘)

  修改小短条高度和颜色:

ax = sns.rugplot(iris.petal_length,
                 color=‘r‘,
                 height=0.2)

三、distplot

  seaborn中的distplot主要功能是绘制单变量的直方图,且还可以在直方图的基础上施加kdeplot和rugplot的部分内容,是一个功能非常强大且实用的函数,其主要参数如下:

  a:一维数组形式,传入待分析的单个变量

  bins:int型变量,用于确定直方图中显示直方的数量,默认为None,这时bins的具体个数由Freedman-Diaconis准则来确定

  hist:bool型变量,控制是否绘制直方图,默认为True

  kde:bool型变量,控制是否绘制核密度估计曲线,默认为True

  rug:bool型变量,控制是否绘制对应rugplot的部分,默认为False

  fit:传入scipy.stats中的分布类型,用于在观察变量上抽取相关统计特征来强行拟合指定的分布,下文的例子中会有具体说明,默认为None,即不进行拟合

  hist_kws,kde_kws,rug_kws:这几个变量都接受字典形式的输入,键值对分别对应各自原生函数中的参数名称与参数值,在下文中会有示例

  color:用于控制除了fit部分拟合出的曲线之外的所有对象的色彩

  vertical:bool型,控制是否颠倒x-y轴,默认为False,即不颠倒

  norm_hist:bool型变量,用于控制直方图高度代表的意义,为True直方图高度表示对应的密度,为False时代表的是对应的直方区间内记录值个数,默认为False

  label:控制图像中的图例标签显示内容

  

  使用默认参数进行绘制:

ax = sns.distplot(iris.petal_length)

  修改所有对象的颜色,绘制rugplot部分,并修改bins为20:

ax = sns.distplot(iris.petal_length,color=‘r‘,
                 rug=True,
                 bins=20)

  在上图的基础上强行拟合卡方分布并利用参数字典设置fit曲线为绿色:

from scipy.stats import chi2
ax = sns.distplot(iris.petal_length,color=‘r‘,
                 rug=True,
                 bins=20,
                 fit=chi2,
                 fit_kws={‘color‘:‘g‘})

  修改norm_hist参数为False使得纵轴显示的不再是密度而是频数(注意这里必须关闭kde和fit绘图的部分,否则纵轴依然显示密度),利用hist_kws传入字典调整直方图部分色彩和透明度,利用rug_kws传入字典调整rugplot部分小短条色彩:

ax = sns.distplot(iris.petal_length,color=‘r‘,
                 rug=True,
                 kde=False,
                 bins=20,
                 fit=None,
                 hist_kws={‘alpha‘:0.6,‘color‘:‘orange‘},
                 rug_kws={‘color‘:‘g‘},
                 norm_hist=False)

四、jointplot

  之所以按照kdeplot-rugplot-distplot的顺序来介绍是因为distplot中涉及到kdeplot与rugplot中的相关内容,而本文最后要介绍的函数jointplot中聚合了前面所涉及到的众多内容,用于对成对变量的相关情况、联合分布以及各自的分布在一张图上集中呈现,其主要参数如下:

  x,y:代表待分析的成对变量,有两种模式,第一种模式:在参数data传入数据框时,x、y均传入字符串,指代数据框中的变量名;第二种模式:在参数data为None时,x、y直接传入两个一维数组,不依赖数据框

  data:与上一段中的说明相对应,代表数据框,默认为None

  kind:字符型变量,用于控制展示成对变量相关情况的主图中的样式

  color:控制图像中对象的色彩

  height:控制图像为正方形时的边长

  ratio:int型,调节联合图与边缘图的相对比例,越大则边缘图越矮,默认为5

  space:int型,用于控制联合图与边缘图的空白大小

  xlim,ylim:设置x轴与y轴显示范围

  joint_kws,marginal_kws,annot_kws:传入参数字典来分别精细化控制每个组件

  

  在默认参数设置下绘制成对变量联合图:

ax = sns.jointplot(x=‘sepal_length‘,y=‘sepal_width‘,data=setosa)

值得一提的是,jointplot还贴心的在图像上说明了成对变量之间的皮尔逊简单相关系数以及相关性检验的p值结果。

  将kind参数设置为‘reg‘,为联合图添加线性回归拟合直线与核密度估计结果:

ax = sns.jointplot(x=‘sepal_length‘,y=‘sepal_width‘,data=setosa,
                  kind=‘reg‘)

  修改kind为‘hex‘来为联合图生成六边形核密度估计:

ax = sns.jointplot(x=‘sepal_length‘,y=‘sepal_width‘,data=setosa,
                  kind=‘hex‘)

  修改kind为‘kde‘来将直方图和散点图转换为核密度估计图,并将边际轴的留白大小设定为0:

ax = sns.jointplot(x=‘sepal_length‘,y=‘sepal_width‘,data=setosa,
                   kind=‘kde‘,
                   space=0,
                   color=‘g‘)

  jointplot还支持图层叠加,如下面的例子,我们首先绘制出的联合图中kind限制为拟合线性回归直线,在此基础上利用.plot_joint方法叠加核密度估计图层:

ax = (sns.jointplot(x=‘sepal_length‘,y=‘sepal_width‘,data=setosa,
                   color=‘g‘,
                   kind=‘reg‘)).plot_joint(sns.kdeplot, zorder=0, n_levels=10)

根据你的具体需要还可以叠加出更加丰富的图像。

  调大ratio参数使得边缘图更加小巧:

ax = sns.jointplot(x=‘sepal_length‘,y=‘sepal_width‘,data=setosa,
                   kind=‘kde‘,
                   space=0,
                   color=‘g‘,
                   ratio=15)

  利用边缘图形参数字典为边缘图形添加rugplot的内容,并修改直方个数为15:

ax = sns.jointplot(x=‘sepal_length‘,y=‘sepal_width‘,data=setosa,
                   marginal_kws=dict(bins=15, rug=True),
                   linewidth=1,space=0)

  实际上,如果你足够了解matplotlib与seaborn,可以通过各种组合得到信息量更丰富特别的图像!

  以上就是本文的全部内容,如有笔误望指出!

原文地址:https://www.cnblogs.com/feffery/p/11128113.html

时间: 2024-08-02 09:44:03

(数据科学学习手札62)详解seaborn中的kdeplot、rugplot、distplot与jointplot的相关文章

(数据科学学习手札32)Python中re模块的详细介绍

一.简介 关于正则表达式,我在前一篇(数据科学学习手札31)中已经做了详细介绍,本篇将对Python中自带模块re的常用功能进行总结: re作为Python中专为正则表达式相关功能做出支持的模块,提供了一系列方法来完成几乎全部类型的文本信息的处理工作,下面一一介绍: 二.re.compile() 在前一篇文章中我们使用过这个方法,它通过编译正则表达式参数,来返回一个目标对象的匹配模式,进而提高了正则表达式的效率,主要参数如下: pattern:输入的欲编译正则表达式,需将正则表达式包裹在''内传

(数据科学学习手札47)基于Python的网络数据采集实战(2)

一.简介 马上大四了,最近在暑期实习,在数据挖掘的主业之外,也帮助同事做了很多网络数据采集的内容,接下来的数篇文章就将一一罗列出来,来续写几个月前开的这个网络数据采集实战的坑. 二.马蜂窝评论数据采集实战 2.1 数据要求 这次我们需要采集的数据是知名旅游网站马蜂窝下重庆区域内所有景点的用户评论数据,如下图所示: 思路是,先获取所有景点的poi ID,即每一个景点主页url地址中的唯一数字: 这一步和(数据科学学习手札33)基于Python的网络数据采集实战(1)中做法类似,即在下述界面: 翻页

(数据科学学习手札55)利用ggthemr来美化ggplot2图像

一.简介 R中的ggplot2是一个非常强大灵活的数据可视化包,熟悉其绘图规则后便可以自由地生成各种可视化图像,但其默认的色彩和样式在很多时候难免有些过于朴素,本文将要介绍的ggthemr包专门针对原生ggplot2图像进行美化,掌握它之后你就可以创作出更具特色和美感的数据可视化作品. 二.基础内容 2.1 安装 不同于常规的R包,ggthemr并没有在CRAN上发布,因此我们需要使用devtools中的install_github()直接从github上安装它,参照github上ggthemr

(数据科学学习手札70)面向数据科学的Python多进程简介及应用

本文对应脚本已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 一.简介 进程是计算机系统中资源分配的最小单位,也是操作系统可以控制的最小单位,在数据科学中很多涉及大量计算.CPU密集型的任务都可以通过多进程并行运算的方式大幅度提升运算效率从而节省时间开销,而在Python中实现多进程有多种方式,本文就将针对其中较为易用的几种方式进行介绍. 二.利用multiprocessing实现多进程 multiprocessin

(数据科学学习手札81)conda+jupyter玩转数据科学环境搭建

本文示例yaml文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 我们在使用Python进行数据分析时,很多时候都在解决环境搭建的问题,不同版本.依赖包等问题经常给数据科学工作流的搭建和运转带来各种各样令人头疼的问题,本文就将基于笔者自己摸索出的经验,以geopandas环境的搭建为例,教你使用conda+jupyter轻松搞定环境的搭建.管理与拓展. 图1 2 虚拟环境的搭建与使用 2.1 使用con

(数据科学学习手札23)决策树分类原理详解&Python与R实现

决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法.由于这种决策分支画成图形很像一棵树的枝干,故称决策树.在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系. 一.初识决策树 决策树是一种树形结构,一般的,一棵决策树包含一个根结点,若干个内部结点和若干个叶结点: 叶结点:树的一个方向的最末端,表示结果的输出: 根结点:初始样

(数据科学学习手札39)RNN与LSTM基础内容详解

一.简介 循环神经网络(recurrent neural network,RNN),是一类专门用于处理序列数据(时间序列.文本语句.语音等)的神经网络,尤其是可以处理可变长度的序列:在与传统的时间序列分析进行比较的过程之中,RNN因为其梯度弥散等问题对长序列表现得不是很好,而据此提出的一系列变种则展现出很明显的优势,最具有代表性的就是LSTM(long short-term  memory),而本文就从标准的循环神经网络结构和原理出发,再到LSTM的网络结构和原理,对其有一个基本的认识和阐述:

(数据科学学习手札19)R中基本统计分析技巧总结

在获取数据,并且完成数据的清洗之后,首要的事就是对整个数据集进行探索性的研究,这个过程中会利用到各种描述性统计量和推断性统计量来初探变量间和变量内部的基本关系,本篇笔者便基于R,对一些常用的数据探索方法进行总结: 1.描述性统计量部分 1.1 计算描述性统计量的常规方法 summary() summary()函数提供了最小值.最大值.四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计: > #挂载鸢尾花数据 > data(iris) > #计算鸢尾花各变量的基本描述统计量 &

(数据科学学习手札65)利用Python实现Shp格式向GeoJSON的转换

一.简介 Shp格式是GIS中非常重要的数据格式,主要在Arcgis中使用,但在进行很多基于网页的空间数据可视化时,通常只接受GeoJSON格式的数据,众所周知JSON(JavaScript Object Nonation)是利用键值对+嵌套来表示数据的一种格式,以其轻量.易解析的优点,被广泛使用与各种领域,而GeoJSON就是指在一套规定的语法规则下用JSON格式存储矢量数据,本文就将针对GeoJSON的语法规则,以及如何利用Python完成Shp格式到GeoJSON格式的转换进行介绍. 二.