R语言数据挖掘 — 决策树直观绘图

R语言数据挖掘 — 决策树直观绘图

1 前言

今天发现一个特别漂亮的决策树绘图方法,特此记录下来,作图工具是R语言,方法特别简单,图形直观美丽大方让我眼界大开。

2 安装包准备

绘制这些漂亮的图需要安装下面的包:

library(rpart)
library(rattle)
library(rpart.plot)
library(RColorBrewer)

上面是加载语言,这些包都要 install.packages 安装

3 测试代码

model <- rpart(Species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width, data = iris,  method="class")

fancyRpartPlot(model)

4 效果

看到没有,太漂亮了,相信它这些包还有其他作用,先记录下来,以后会用到的!

5 参考链接

http://trevorstephens.com/post/72923766261/titanic-getting-started-with-r-part-3-decision

个人微信公众号

欢迎关注本人微信公众号,会定时发送关于大数据、机器学习、Java、Linux 等技术的学习文章,而且是一个系列一个系列的发布,无任何广告,纯属个人兴趣。

时间: 2024-10-15 02:19:18

R语言数据挖掘 — 决策树直观绘图的相关文章

R语言数据挖掘实战系列(1)

R语言数据挖掘实战(1) 一.数据挖掘基础 数据挖掘:从数据中"淘金",从大量数据(包括文本)中挖掘出隐含的.未知的.对决策有潜在价值的关系.模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法.工具和过程. 数据挖掘的任务 利用分类与预测.聚类分析.关联规则.时序模式.偏差检测.智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力. 数据挖掘建模过程 定义挖掘目标,即决定到底想干什么? 数据取样.抽取一个与挖掘目标相关的样本数据子集.抽取数据的

R语言数据挖掘实战系列(5)

R语言数据挖掘实战系列(5)--挖掘建模 一.分类与预测 分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值. 1.实现过程 (1)分类 分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别.分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便地计算,所以分类属于有监督的学习. (2)预测 预测是建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制.

R语言学习笔记2——绘图

R语言提供了非常强大的图形绘制功能.下面来看一个例子: > dose <- c(20, 30, 40, 45, 60)> drugA <- c(16, 20, 27, 40, 60)> drugB <- c(15, 18, 25, 31, 40) > plot(dose, drugA, type="b") > plot(dose, drugB, type="b") 该例中,我们引入了R语言中第一个绘图函数plot.pl

15、R语言聚类树的绘图原理

聚类广泛用于数据分析.去年研究了一下R语言聚类树的绘图原理.以芯片分析为例,我们来给一些样品做聚类分析.聚类的方法有很多种,我们选择Pearson距离.ward方法. 选择的样品有: "GSM658287.CEL", "GSM658288.CEL", "GSM658289.CEL", "GSM658290.CEL", "GSM658291.CEL", "GSM658292.CEL", &

R语言数据挖掘实战系列(2)

二.R语言简介 R语言是一种为统计计算和图形显示而设计的语言环境,具有免费.多平台支持,同时可以从各种类型的数据源中导入数据,具有较高的开放性以及高水准的制图功能.R是一个体系庞大的应用软件,主要包括核心的R标准包和各专业领域的其他包.R在数据分析.数据挖掘领域具有特别优势. R安装 R可在其主页(https://www.r-project.org/)上获得,根据所选择的平台进行下载安装.安装完成之后启动R.为了方便使用R,可使用免费的图形界面编辑器RStudio,可从https://www.r

R语言数据挖掘实战系列(3)

三.数据探索 通过检验数据集的数据质量.绘制图表.计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索. 数据质量分析 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据.常见的脏数据包括:缺失值.异常值.不一致的值.重复数据及含有特殊符号的数据. 缺失值分析 数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失.产生的原因有(1)有些信息暂时无法获取,或者获取信息的代价太大:(2)有些信息是被遗漏的:(3)属性不

R语言数据挖掘相关包总结-转帖

与数据挖掘有关或者有帮助的R包和函数的集合. 1.聚类 常用的包: fpc,cluster,pvclust,mclust 基于划分的方法: kmeans, pam, pamk, clara 基于层次的方法: hclust, pvclust, agnes, diana 基于模型的方法: mclust 基于密度的方法: dbscan 基于画图的方法: plotcluster, plot.hclust 基于验证的方法: cluster.stats 2.分类 常用的包: rpart,party,rand

R语言:ggplot2精细化绘图——以实用商业化图表绘图为例

本文旨在介绍R语言中ggplot2包的一些精细化操作,主要适用于对R画图有一定了解,需要更精细化作图的人,尤其是那些刚从excel转ggplot2的各位,有比较频繁的作图需求的人.不讨论那些样式非常酷炫的图表,以实用的商业化图表为主.包括以下结构: 1.画图前的准备:自定义ggplot2格式刷 2.画图前的准备:数据塑形利器dplyr / tidyr介绍 3.常用的商业用图: 1)简单柱形图+文本(单一变量) 2)分面柱形图(facet_wrap/facet_grid) 3)簇型柱形图(posi

R语言数据挖掘中的,“回归分析”是如何操作的?

回归分析是对多个自变量(又称为预测变量)建立一个函数来预测因变量(又称为响应变量的值). 例如,银行根据房屋贷款申请人的年龄.收入.开支.职业.负担人口,以及整体信用限额等因素,来评估申请人的房贷风险. 线性回归 线性回归是利用预测变量的一个线性组合函数,来预测响应变量的统计分析方法,该线性回归模型的形式如下: y = c0 + c1x1 + c2x2 + -+ ckxk; x1, x2,- xk为预测变量,y为对预测的响应变量. 下面将在澳大利亚消费者价格指数(CPI)的数据上使用函数lm做线