(数据科学学习手札55)利用ggthemr来美化ggplot2图像

一、简介

  R中的ggplot2是一个非常强大灵活的数据可视化包,熟悉其绘图规则后便可以自由地生成各种可视化图像,但其默认的色彩和样式在很多时候难免有些过于朴素,本文将要介绍的ggthemr包专门针对原生ggplot2图像进行美化,掌握它之后你就可以创作出更具特色和美感的数据可视化作品。

二、基础内容

2.1 安装

  不同于常规的R包,ggthemr并没有在CRAN上发布,因此我们需要使用devtools中的install_github()直接从github上安装它,参照github上ggthemr的项目说明页:

library(devtools)

install_github(‘cttobin/ggthemr‘)

  笔者在遵循上述步骤时不太顺利,遇到了如下错误:

  不过不用担心,按照上述的错误提示,我们打开对应目录,找到了对应的压缩包:

实际上我们通过上述语句已经将ggthemr的压缩包下载到本地如上图所示,所以我们可以很容易地使用手动安装本地压缩包的形式来完成ggthemr的安装(注意要吧.tar格式改为.tar.gz格式,我想这可能是install_github()安装失败的原因):

  经过上述步骤我们便完成了ggthemr的安装准备工作;

2.2 傻瓜式用法

  在我之前写得某篇文章中使用过Python中matplotlib.pyplot.style,仅仅使用style.use()这个语句,便可傻瓜式地载入各种精美的自适应绘图主题,在ggthemr中也有类似的功能,我们在利用ggplot2创建图像的语句之前,加上ggthemr(‘主题名称‘),便可简单套用多种内建主题,下面是几个简单的例子:

rm(list=ls())
library(ggplot2)
library(ggthemr)

data(mpg)
data <- mpg

#chalk风格
ggthemr(‘chalk‘)
p1 <- ggplot(data=data, aes(displ, hwy))+
  geom_point(mapping = aes(shape=factor(cyl)))+
  geom_smooth(mapping = aes(displ,hwy,colour=factor(cyl)))
print(p1)

#dust风格
ggthemr(‘dust‘)
p2 <- ggplot(data=data, aes(displ, hwy))+
  geom_point(mapping = aes(shape=factor(cyl)))+
  geom_smooth(mapping = aes(displ,hwy,colour=factor(cyl)))
print(p2)

#flat风格
ggthemr(‘flat‘)
p3 <- ggplot(data=data, aes(displ, hwy))+
  geom_point(mapping = aes(shape=factor(cyl)))+
  geom_smooth(mapping = aes(displ,hwy,colour=factor(cyl)))
print(p3)

  而官方文档中提到可以用ggthemr_reset()来恢复ggplot2默认风格,但笔者经过实践发现这个函数并不能彻底抹除之前施加的主题模式,因此这里不细说,读者们可以自行尝试;

三、自定义主题

  尽管ggthemr内建了很多风格迥异的主题,有的过于花哨,有的又过于商务硬朗,除了直接套用这些主题,我们还可以自己创建新的主题以加入自己对构图的想法:

3.1 Palettes(调色板)

  palette决定了图像中所有元素的颜色,包括所有图层、背景、网格线等,而swatch则专门用于控制图层元素的配色方案,我们使用define_palette()来构造自定义调色方案,其主要参数如下:

swatch:一个颜色向量,用于定义图层元素的配色方案(要注意图像中需要用到的色彩数量要小于等于swatch的向量长度,否则会报错)

gradient:一个长度为2的向量,lower位置和upper位置用于控制梯度色彩的上下限

background:设置背景色彩

text:设置文本部分的字体颜色

line:设置坐标轴颜色

gridline:控制网格线的颜色

  下面我们自定义一个色彩简单的主题:

demo <- define_palette(
  swatch = c(‘black‘, ‘red‘, ‘green‘, ‘blue‘, ‘brown‘, ‘purple‘, ‘yellow‘),
  gradient = c(lower = ‘red‘, upper = ‘green‘)
)

ggthemr(demo)

  下面来看看应用上述主题之后的图像效果:

rm(list=ls())
library(ggplot2)
library(ggthemr)

data(mpg)
data <- mpg

demo <- define_palette(
  swatch = c(‘black‘, ‘red‘, ‘green‘, ‘blue‘, ‘brown‘, ‘purple‘, ‘yellow‘),
  gradient = c(lower = ‘red‘, upper = ‘green‘)
)

ggthemr(demo)
p <- ggplot(data=data, aes(displ, hwy))+
  geom_point(mapping = aes(shape=factor(cyl)))+
  geom_smooth(mapping = aes(displ,hwy,colour=factor(cyl)))
print(p)

  因为我们的demo主题中还设置了色彩梯度,下面我们绘制密度图(此例来自我的(数据科学学习手札38)ggplot2基本图形简述):

data <- data.frame(matrix(rnorm(200),nrow=100))
p <- ggplot(data, aes(x = X1, y = X2)) +
  stat_density2d(aes(fill = ..density..), geom = "raster", contour = F)
p

  可以看到,密度图中色彩在预设的红色与绿色之间过渡;

3.2 ggthemr()的其他关键参数

  前文中我们使用函数ggthemr()来挂载主题,而除了最关键的主题参数之外,ggthemr()还有若干控制其他图像样式的参数,如下:

layout:用于网格线样式,有clean、clear、minimal、plain、scientific可选,默认clear

spacing:用于控制图像在图床上的紧凑程度,越高意味着图像被挤压得越严重,默认1.6,下面分别为0,1,2时的示例:

text_size:用于控制文本部分字体大小,默认12

type:用于控制背景区域填充的形式,当‘inner‘时如下:

当设置为‘outer‘时如下:

line_weight:设置坐标轴和网格线的宽度,默认0.5

set_theme:逻辑型变量,控制是否启动palette传入的主题,默认为TRUE

3.3 微调图像对比度

  ggthemr中十分贴心地提供了调节图像对比度的函数,具体如下:

darken_swatch() / lighten_swatch(): 暗化或亮化所有图形元素的对比度

darken_gradient() / lighten_gradient(): 暗化或亮化所有梯度元素的对比度

darken_palette() / lighten_palette(): 暗化或亮化所有元素的对比度

  下面是简单的示例:

rm(list=ls())
library(ggplot2)
library(ggthemr)

data(mpg)
data <- mpg

ggthemr(‘chalk‘)
p1 <- ggplot(data=data, aes(displ, hwy))+
  geom_point(mapping = aes(shape=factor(cyl)))+
  geom_smooth(mapping = aes(displ,hwy,colour=factor(cyl)))
print(p1)

  下面我们来分别调低和调高全局色彩对比度:

darken_palette(amount = 0.5)
print(p1)

lighten_palette(amount = 0.5)
print(p1)

  

  以上就是本文的全部内容,如有笔误望指出。

参考资料:https://github.com/cttobin/ggthemr

原文地址:https://www.cnblogs.com/feffery/p/10393566.html

时间: 2024-10-13 05:25:25

(数据科学学习手札55)利用ggthemr来美化ggplot2图像的相关文章

(数据科学学习手札32)Python中re模块的详细介绍

一.简介 关于正则表达式,我在前一篇(数据科学学习手札31)中已经做了详细介绍,本篇将对Python中自带模块re的常用功能进行总结: re作为Python中专为正则表达式相关功能做出支持的模块,提供了一系列方法来完成几乎全部类型的文本信息的处理工作,下面一一介绍: 二.re.compile() 在前一篇文章中我们使用过这个方法,它通过编译正则表达式参数,来返回一个目标对象的匹配模式,进而提高了正则表达式的效率,主要参数如下: pattern:输入的欲编译正则表达式,需将正则表达式包裹在''内传

(数据科学学习手札47)基于Python的网络数据采集实战(2)

一.简介 马上大四了,最近在暑期实习,在数据挖掘的主业之外,也帮助同事做了很多网络数据采集的内容,接下来的数篇文章就将一一罗列出来,来续写几个月前开的这个网络数据采集实战的坑. 二.马蜂窝评论数据采集实战 2.1 数据要求 这次我们需要采集的数据是知名旅游网站马蜂窝下重庆区域内所有景点的用户评论数据,如下图所示: 思路是,先获取所有景点的poi ID,即每一个景点主页url地址中的唯一数字: 这一步和(数据科学学习手札33)基于Python的网络数据采集实战(1)中做法类似,即在下述界面: 翻页

(数据科学学习手札70)面向数据科学的Python多进程简介及应用

本文对应脚本已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 一.简介 进程是计算机系统中资源分配的最小单位,也是操作系统可以控制的最小单位,在数据科学中很多涉及大量计算.CPU密集型的任务都可以通过多进程并行运算的方式大幅度提升运算效率从而节省时间开销,而在Python中实现多进程有多种方式,本文就将针对其中较为易用的几种方式进行介绍. 二.利用multiprocessing实现多进程 multiprocessin

(数据科学学习手札81)conda+jupyter玩转数据科学环境搭建

本文示例yaml文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 我们在使用Python进行数据分析时,很多时候都在解决环境搭建的问题,不同版本.依赖包等问题经常给数据科学工作流的搭建和运转带来各种各样令人头疼的问题,本文就将基于笔者自己摸索出的经验,以geopandas环境的搭建为例,教你使用conda+jupyter轻松搞定环境的搭建.管理与拓展. 图1 2 虚拟环境的搭建与使用 2.1 使用con

(数据科学学习手札65)利用Python实现Shp格式向GeoJSON的转换

一.简介 Shp格式是GIS中非常重要的数据格式,主要在Arcgis中使用,但在进行很多基于网页的空间数据可视化时,通常只接受GeoJSON格式的数据,众所周知JSON(JavaScript Object Nonation)是利用键值对+嵌套来表示数据的一种格式,以其轻量.易解析的优点,被广泛使用与各种领域,而GeoJSON就是指在一套规定的语法规则下用JSON格式存储矢量数据,本文就将针对GeoJSON的语法规则,以及如何利用Python完成Shp格式到GeoJSON格式的转换进行介绍. 二.

(数据科学学习手札19)R中基本统计分析技巧总结

在获取数据,并且完成数据的清洗之后,首要的事就是对整个数据集进行探索性的研究,这个过程中会利用到各种描述性统计量和推断性统计量来初探变量间和变量内部的基本关系,本篇笔者便基于R,对一些常用的数据探索方法进行总结: 1.描述性统计量部分 1.1 计算描述性统计量的常规方法 summary() summary()函数提供了最小值.最大值.四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计: > #挂载鸢尾花数据 > data(iris) > #计算鸢尾花各变量的基本描述统计量 &

(数据科学学习手札23)决策树分类原理详解&amp;Python与R实现

决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法.由于这种决策分支画成图形很像一棵树的枝干,故称决策树.在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系. 一.初识决策树 决策树是一种树形结构,一般的,一棵决策树包含一个根结点,若干个内部结点和若干个叶结点: 叶结点:树的一个方向的最末端,表示结果的输出: 根结点:初始样

(数据科学学习手札39)RNN与LSTM基础内容详解

一.简介 循环神经网络(recurrent neural network,RNN),是一类专门用于处理序列数据(时间序列.文本语句.语音等)的神经网络,尤其是可以处理可变长度的序列:在与传统的时间序列分析进行比较的过程之中,RNN因为其梯度弥散等问题对长序列表现得不是很好,而据此提出的一系列变种则展现出很明显的优势,最具有代表性的就是LSTM(long short-term  memory),而本文就从标准的循环神经网络结构和原理出发,再到LSTM的网络结构和原理,对其有一个基本的认识和阐述:

(数据科学学习手札62)详解seaborn中的kdeplot、rugplot、distplot与jointplot

一.简介 seaborn是Python中基于matplotlib的具有更多可视化功能和更优美绘图风格的绘图模块,当我们想要探索单个或一对数据分布上的特征时,可以使用到seaborn中内置的若干函数对数据的分布进行多种多样的可视化,本文以jupyter notebook为编辑工具,针对seaborn中的kdeplot.rugplot.distplot和jointplot,对其参数设置和具体用法进行详细介绍. 二.kdeplot seaborn中的kdeplot可用于对单变量和双变量进行核密度估计并