R语言数据挖掘相关包总结-转帖

与数据挖掘有关或者有帮助的R包和函数的集合。
1、聚类
常用的包: fpc,cluster,pvclust,mclust
基于划分的方法: kmeans, pam, pamk, clara
基于层次的方法: hclust, pvclust, agnes, diana
基于模型的方法: mclust
基于密度的方法: dbscan
基于画图的方法: plotcluster, plot.hclust
基于验证的方法: cluster.stats

2、分类
常用的包:
rpart,party,randomForest,rpartOrdinal,tree,marginTree,
maptree,survival
决策树: rpart, ctree
随机森林: cforest, randomForest
回归, Logistic回归, Poisson回归: glm, predict, residuals
生存分析: survfit, survdiff, coxph

3、关联规则与频繁项集
常用的包:
arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则
DRM:回归和分类数据的重复关联模型
APRIORI算法,广度RST算法:apriori, drm
ECLAT算法: 采用等价类,RST深度搜索和集合的交集: eclat

4、序列模式
常用的包: arulesSequences
SPADE算法: cSPADE
5、时间序列
常用的包: timsac
时间序列构建函数: ts
成分分解: decomp, decompose, stl, tsr

6、统计
常用的包: Base R, nlme
方差分析: aov, anova
密度分析: density
假设检验: t.test, prop.test, anova, aov
线性混合模型:lme
主成分分析和因子分析:princomp

7、图表
条形图: barplot
饼图: pie
散点图: dotchart
直方图: hist
密度图: densityplot
蜡烛图, 箱形图 boxplot
QQ (quantile-quantile) 图: qqnorm, qqplot, qqline
Bi-variate plot: coplot
树: rpart
Parallel coordinates: parallel, paracoor, parcoord
热图, contour: contour, filled.contour
其他图: stripplot, sunflowerplot, interaction.plot, matplot, fourfoldplot,
assocplot, mosaicplot
保存的图表格式: pdf, postscript, win.metafile, jpeg, bmp, png

8、数据操作
缺失值:na.omit
变量标准化:scale
变量转置:t
抽样:sample
堆栈:stack, unstack
其他:aggregate, merge, reshape

9、与数据挖掘软件Weka做接口
RWeka: 通过这个接口,可以在R中使用Weka的所有算法。

时间: 2024-11-08 22:34:19

R语言数据挖掘相关包总结-转帖的相关文章

R语言数据挖掘实战系列(5)

R语言数据挖掘实战系列(5)--挖掘建模 一.分类与预测 分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值. 1.实现过程 (1)分类 分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别.分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便地计算,所以分类属于有监督的学习. (2)预测 预测是建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制.

R语言数据挖掘实战系列(1)

R语言数据挖掘实战(1) 一.数据挖掘基础 数据挖掘:从数据中"淘金",从大量数据(包括文本)中挖掘出隐含的.未知的.对决策有潜在价值的关系.模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法.工具和过程. 数据挖掘的任务 利用分类与预测.聚类分析.关联规则.时序模式.偏差检测.智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力. 数据挖掘建模过程 定义挖掘目标,即决定到底想干什么? 数据取样.抽取一个与挖掘目标相关的样本数据子集.抽取数据的

R语言中文分词包jiebaR

前言 本文挖掘是数据挖掘中一个非常重要的部分,有非常广阔的使用场景,比如我们可以对新闻事件进行分析,了解国家大事:也可以对微博信息进行分析,通过社交舆情看看大家的关注点.通过文本挖掘找到文章中的隐藏信息,对文章的结构进行分析,判断是不是同一个作者写文章:同时可以对邮件分析,结合bayes算法判断哪些是垃圾邮件,哪些是有用的邮件. 本文挖掘的第一步,就是要进行分词,分词将直接影响文本挖掘的效果.R语言在分词方面有很好的支持,接下来就给大家介绍一个不错的R语言中文分词包"结巴分词"(jie

R语言数据挖掘 — 决策树直观绘图

R语言数据挖掘 - 决策树直观绘图 1 前言 今天发现一个特别漂亮的决策树绘图方法,特此记录下来,作图工具是R语言,方法特别简单,图形直观美丽大方让我眼界大开. 2 安装包准备 绘制这些漂亮的图需要安装下面的包: library(rpart) library(rattle) library(rpart.plot) library(RColorBrewer) 上面是加载语言,这些包都要 install.packages 安装 3 测试代码 model <- rpart(Species ~ Sepa

R语言 文本挖掘 tm包 使用

#清除内存空间 rm(list=ls()) #导入tm包 library(tm) library(SnowballC) #查看tm包的文档 #vignette("tm") ##1.Data Import 导入自带的路透社的20篇xml文档 #找到/texts/crude的目录,作为DirSource的输入,读取20篇xml文档 reut21578 <- system.file("texts", "crude", package = &quo

R语言下解决包不能安装的问题

目的:这次主要是为了安装Rcpp包, 方法:install.packages("Rcpp") 结果:出错,,于是,我从官网下载Rcpp_0.11.2.tar.gz,在终端输入 R CMD INSTALL Rcpp_0.11.2.tar.gz,提示我的R语言版本太低,需要3.0以上 改进:卸载R语言2.15版本后,重新安装 1: wget http://cran.r-project.org/src/base/R-2/R-3.1.0.tar.gz 2: tar -xzvf R-3.1.0.

R语言:recommenderlab包的总结与应用案例

R语言:recommenderlab包的总结与应用案例 1. 推荐系统:recommenderlab包整体思路 recommenderlab包提供了一个可以用评分数据和0-1数据来发展和测试推荐算法的框架.它提供了几种基础算法,并可利用注册机制允许用户使用自己的算法recommender包的数据类型采用S4类构造. (1)评分矩阵数据接口:使用抽象的raringMatrix为评分数据提供接口.raringMatrix采用了很多类似矩阵对象的操作,如 dim(),dimnames() ,rowCo

R语言︱H2o深度学习的一些R语言实践——H2o包

R语言H2o包的几个应用案例 笔者寄语:受启发想了解H2o平台的一些R语言实现,网上已有一篇H2o的demo文件.笔者在这多贴一些案例,并且把自己实践的一些小例子贴出来. 关于H2o平台长啥样,可以看H2o的官网,关于深度学习长啥样,可以看一些教程,比如ParallelR博客之中的解析. 下面主要是贴几个案例,让大家看看. ------------------------------------------------------------ Matt︱R语言调用深度学习架构系列引文 R语言︱H

R语言进行相关矩阵分析及其可视化

原文链接:http://tecdat.cn/?p=6488 数据准备 # Select columns of interest mydata <- mtcars %>% select(mpg, disp, hp, drat, wt, qsec) # Add some missing values mydata$hp[3] <- NA # Inspect the data head(mydata, 3) ## mpg disp hp drat wt qsec ## Mazda RX4 21