R语言常用数据挖掘包

今天发现一个很不错的博客(http://www.RDataMining.com),博主致力于研究R语言在数据挖掘方面的应用,正好近期很想系统的学习一下R语言和数据挖掘的整个流程,看了这个博客的内容,心里久久不能平静。决定从今天开始 ...

今天发现一个很不错的博客(http://www.RDataMining.com), 博主致力于研究R语言在数据挖掘方面的应用,正好近期很想系统的学习一下R语言和数据挖掘的整个流程,看了这个博客的内容,心里久久不能平静。决定从今天 开始,只要晚上能在11点之前把碗洗好,就花一个小时的时间学习博客上的内容,并把学习过程中记不住的信息记录下来,顺便把离英语四级的差距尽量缩小。

下面列出了可用于数据挖掘的R包和函数的集合。其中一些不是专门为了数据挖掘而开发,但数据挖掘过程中这些包能帮我们不少忙,所以也包含进来。

1、聚类

  • 常用的包: fpc,cluster,pvclust,mclust
  • 基于划分的方法: kmeans, pam, pamk, clara
  • 基于层次的方法: hclust, pvclust, agnes, diana
  • 基于模型的方法: mclust
  • 基于密度的方法: dbscan
  • 基于画图的方法: plotcluster, plot.hclust
  • 基于验证的方法: cluster.stats

2、分类

  • 常用的包:

    rpart,party,randomForest,rpartOrdinal,tree,marginTree,

    maptree,survival

  • 决策树: rpart, ctree
  • 随机森林: cforest, randomForest
  • 回归, Logistic回归, Poisson回归: glm, predict, residuals
  • 生存分析: survfit, survdiff, coxph

3、关联规则与频繁项集

  • 常用的包:

    arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则

    DRM:回归和分类数据的重复关联模型

  • APRIORI算法,广度RST算法:apriori, drm
  • ECLAT算法: 采用等价类,RST深度搜索和集合的交集: eclat

4、序列模式

  • 常用的包: arulesSequences
  • SPADE算法: cSPADE

5、时间序列

  • 常用的包: timsac
  • 时间序列构建函数: ts
  • 成分分解: decomp, decompose, stl, tsr

6、统计

  • 常用的包: Base R, nlme
  • 方差分析: aov, anova
  • 密度分析: density
  • 假设检验: t.test, prop.test, anova, aov
  • 线性混合模型:lme
  • 主成分分析和因子分析:princomp

7、图表

  • 条形图: barplot
  • 饼图: pie
  • 散点图: dotchart
  • 直方图: hist
  • 密度图: densityplot
  • 蜡烛图, 箱形图 boxplot
  • QQ (quantile-quantile) 图: qqnorm, qqplot, qqline
  • Bi-variate plot: coplot
  • 树: rpart
  • Parallel coordinates: parallel, paracoor, parcoord
  • 热图, contour: contour, filled.contour
  • 其他图: stripplot, sunflowerplot, interaction.plot, matplot, fourfoldplot,
    assocplot, mosaicplot
  • 保存的图表格式: pdf, postscript, win.metafile, jpeg, bmp, png

8、数据操作

  • 缺失值:na.omit
  • 变量标准化:scale
  • 变量转置:t
  • 抽样:sample
  • 堆栈:stack, unstack
  • 其他:aggregate, merge, reshape

9、与数据挖掘软件Weka做接口

  • RWeka: 通过这个接口,可以在R中使用Weka的所有算法。
时间: 2024-07-29 20:50:02

R语言常用数据挖掘包的相关文章

R语言 文本挖掘 tm包 使用

#清除内存空间 rm(list=ls()) #导入tm包 library(tm) library(SnowballC) #查看tm包的文档 #vignette("tm") ##1.Data Import 导入自带的路透社的20篇xml文档 #找到/texts/crude的目录,作为DirSource的输入,读取20篇xml文档 reut21578 <- system.file("texts", "crude", package = &quo

R语言中文分词包jiebaR

前言 本文挖掘是数据挖掘中一个非常重要的部分,有非常广阔的使用场景,比如我们可以对新闻事件进行分析,了解国家大事:也可以对微博信息进行分析,通过社交舆情看看大家的关注点.通过文本挖掘找到文章中的隐藏信息,对文章的结构进行分析,判断是不是同一个作者写文章:同时可以对邮件分析,结合bayes算法判断哪些是垃圾邮件,哪些是有用的邮件. 本文挖掘的第一步,就是要进行分词,分词将直接影响文本挖掘的效果.R语言在分词方面有很好的支持,接下来就给大家介绍一个不错的R语言中文分词包"结巴分词"(jie

R语言常用基础知识

seq(from = 1, to = 1, by = ((to - from)/(length.out - 1)),    length.out = NULL, along.with = NULL, ...) 举例----------Examples----------seq(0, 1, length.out=11) seq(stats::rnorm(20)) #  seq(1, 9, by = 2)     #  seq(1, 9, by = pi)    #  seq(1, 6, by =

R语言下解决包不能安装的问题

目的:这次主要是为了安装Rcpp包, 方法:install.packages("Rcpp") 结果:出错,,于是,我从官网下载Rcpp_0.11.2.tar.gz,在终端输入 R CMD INSTALL Rcpp_0.11.2.tar.gz,提示我的R语言版本太低,需要3.0以上 改进:卸载R语言2.15版本后,重新安装 1: wget http://cran.r-project.org/src/base/R-2/R-3.1.0.tar.gz 2: tar -xzvf R-3.1.0.

R语言:recommenderlab包的总结与应用案例

R语言:recommenderlab包的总结与应用案例 1. 推荐系统:recommenderlab包整体思路 recommenderlab包提供了一个可以用评分数据和0-1数据来发展和测试推荐算法的框架.它提供了几种基础算法,并可利用注册机制允许用户使用自己的算法recommender包的数据类型采用S4类构造. (1)评分矩阵数据接口:使用抽象的raringMatrix为评分数据提供接口.raringMatrix采用了很多类似矩阵对象的操作,如 dim(),dimnames() ,rowCo

R语言︱H2o深度学习的一些R语言实践——H2o包

R语言H2o包的几个应用案例 笔者寄语:受启发想了解H2o平台的一些R语言实现,网上已有一篇H2o的demo文件.笔者在这多贴一些案例,并且把自己实践的一些小例子贴出来. 关于H2o平台长啥样,可以看H2o的官网,关于深度学习长啥样,可以看一些教程,比如ParallelR博客之中的解析. 下面主要是贴几个案例,让大家看看. ------------------------------------------------------------ Matt︱R语言调用深度学习架构系列引文 R语言︱H

R语言学习路线和常用数据挖掘包(转)

对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来.当然,这不是最好的学习方式,最好的方式是——看书.目前,市面上介绍R语言的书籍很多,中文英文都有.那么,众多书籍中,一个生手应该从哪一本着手呢?入门之后如何才能把自己练就成某个方面的高手呢?相信这是很多人心中的疑问.有这种疑问的人有福了,因为笔者将根据自己的经历总结一下R语言书籍的学习路线图以使Ruser少走些弯路. 本文分为6个部分,分别介绍初级入门,高级入门,绘图与可

R中常用数据挖掘算法包

数据挖掘主要分为4类,即预测.分类.聚类和关联,根据不同的挖掘目的选择相应的算法.下面对R语言中常用的数据挖掘包做一个汇总: 连续因变量的预测: stats包 lm函数,实现多元线性回归 stats包 glm函数,实现广义线性回归 stats包 nls函数,实现非线性最小二乘回归 rpart包 rpart函数,基于CART算法的分类回归树模型 RWeka包 M5P函数,模型树算法,集线性回归和CART算法的优点 adabag包 bagging函数,基于rpart算法的集成算法 adabag包 b

R语言字符串处理包stringr

前言 用R语言处理字符串,总觉得很麻烦,即不能用向量的方法进行分割,也不能用循环遍历索引.grep()家族函数常常记不住,paste()函数默认以空格分割,各种不顺手啊!随着使用R语言的场景越来越多,字符串处理是必不可少的.给大家推荐一个由 Hadley Wickham 开发的一个灵活的字符串处理包stringr. 目录 stringr介绍 stringr安装 stringr的API介绍 整体文章:http://blog.fens.me/r-stringr/