R-大数据分析挖掘(5-R基础回顾)

(一)R函数

  R是一种解析型语言,输入后可直接获取结果

函数(输入参数,参数)

  R的函数分为“高级”和“低级函数”
    •?高级函数可调用低级函数
    •?高级函数称为泛型函数

  •?函数名  <-­‐  funcion(数据,参数=1,默认值){
    •?    异常处理
    •?    表达式
  •?    return  返回值
  •?}

(二)R赋值与注释

  •?2+2  
  •?a  <  -­‐2
  •?c  <-­‐  a+b

  •?#注释

(三)对象起名

  •?1.区分大小写,China与china不同
  •?2.不能用数字作为变量,对象也不能用数字开头
  •?3.保留字
  –?NA,NaN,Pi,LETTERS,leBers,month  等

(四)元素的类型

  •?数值型,Numeric
  •?字符串,Character
  •?逻辑型,Logical
  •?因子型,Factor
  •?复数型,Complex  如2+3i

  •?向量(vector),一系列元素
    –? c(1,2,3);c(“a”,”a”,”b”,”b”,”c”)
  •?因子(factor)   因子是一个分类变量
  •?c(“a”,”a”,”b”,”b”,”c”)
  •?矩阵(matrix),二维的数据表,是一个数组的特例

  •?数组(array)
    –?数组是k维的数据表(k  in  1:n  ,n  为正整数)
  •?数据框(dataframe)
    –?是由一个或几个向量和因子构成,他们必须是等长的,但可以是不同但数据类型
  •?列表
  –?列表可以包含任何类型的对象
  –?可以包含向量、矩阵、高维数组也可以包含lixt

运算符

  •?数学运算
    –?+,-­‐  ===
  •?比较运算 返回true  or  false
    –?>,<,<=,>=,==
  •?逻辑运算
    –?!,&,&&,|,||

外部数据读取

  •?read.table()
  •?read.csv()  读取csv或者
  •?可以直接通过某些程序包读取excel等格式数据

  •?read.csv(‘file’,header=T)
    –?header=T  表示将数据的第一行作为标题

类的判断

  •?mode()  判断存储类型
  •?class(),判断数据的类

    •?is.numeric()
    •?is.logical()
    •?is.charactor()

数据框内元素的引用

  •?intake  <-­‐  data.frame(intake.pre,intake.post)
  •?1.  $  引用列,后面为列的名称
    –?例如:intake$  intake.pre
  •?2.  [,]  方括号,逗号前为行,逗号后为列
    •?intake[,1]
    •?I  =  1:5;intake  [i,]

类的转换

  •?as.numeric()
  •?as.logical()
  •?as.charactor()
  •?as.matrix()
  •?as.data.frame()
  •?as.factor()

(五)R操作Json

  1.安装Json

  2.加载进GUI中

  3.从json转到R上

  4。class判断类型,cat输出不带横线的json字符串,peint输出的带有/,可以通过$取到深层次的json串,最内层的可以用[]去得到

5.将toJson之后字符串输出到文件使用sink或者writeLines

(六)R 语言不仅在统计分析和数据挖掘领域计算能力强大,它在数据可视化领域也不逊于
昂贵的商业软件。当然,R 在可视化上强大,其背后离不开各种开源软件包的支持,Cairo
就是这样一个用于矢量图形处理的类库。Cairo 可以创建高质量的矢量图形 (GIF、SVG、
PDF、PostScript) 和位图 (PNG、JPEG、TIFF),同时支持在后台程序中高质量渲染!本节
将介绍 Cairo 在 R 语言中的使用。

1.安装

2.加载进GUI并检查Cairo包支持的图片格式

3.画散点图

(七)R中的时间序列基础库ZOO

时间序列分析是一种动态数据处理的统计方法,通过对时间序列数据的分析,我们可
以感觉到世界正改变着什么! R 语言作为统计分析的利器,对时间序列处理有着强大的支
持。在 R 语言中,单独为时间序列数据定义了一种数据类型 zoo,zoo 是时间序列的基础,
也是股票分析的基础。本节将介绍 zoo 库在 R 语言中的结构和使用。

1.介绍

zoo 是一个 R 语言类库,zoo 类库中定义了一个名为 zoo 的 S3 类型对象,用于描述规
则的和不规则的有序的时间序列数据。zoo 对象是一个独立的对象,包括索引、日期、时
间,只依赖于基础的 R 环境。zooreg 对象继承了 zoo 对象,只能用于规则的时间序列数据。
R 语言中很多其他的程序包,都是以 zoo 和 zooreg 作为时间序列数据的基础的!

  zoo 包的API 主要有 6 类

(1)基础对象
?   zoo: 有序的时间序列对象。
?   zooreg: 规则的时间序列对象,继承 zoo 对象。与 zoo 相比,不同之处在于 zooreg 要求数据是连续的。
(2)类型转换
?   as.zoo: 把一个对象转型为 zoo 类型。
?   plot.zoo: 为 plot 函数提供 zoo 的接口。
?   xyplot.zoo: 为 lattice 的 xyplot 函数提供 zoo 的接口。
?   ggplot2.zoo: 为 ggplot2 包提供 zoo 的接口。
(3)数据操作
?   coredata: 查看或编辑 zoo 的数据部分。
?   index: 查看或编辑 zoo 的索引部分。
?   window.zoo: 按时间过滤数据。
?   merge.zoo: 合并多个 zoo 对象。
?   read.zoo: 从文件读写 zoo 序列。
? aggregate.zoo: 计算 zoo 数据。
? rollapply: 对 zoo 数据的滚动处理。
? rollmean: 对 zoo 数据的滚动计算均值。
(4)NA 值处理
? na.fill: NA 值的填充。
? na.locf: 替换 NA 值。
? na.aggregate: 计算统计值替换 NA 值。
? na.approx: 计算插值替换 NA 值。
? na.StructTS: 计算季节 Kalman 滤波替换 NA 值。
? na.trim: 过滤有 NA 的记录。
(5)辅助工具
? is.regular: 检查是否是规则的序列。

? lag.zoo: 计算步长和差分。
? MATCH: 取交集。
? ORDER: 值排序,输出索引。
(6)显示控制
? yearqtr: 以年季度显示时间。
? yearmon: 以年月显示时间。
? xblocks: 作图沿 x 轴分割图形。
? make.par.list: 用于给 plot.zoo 和 xyplot.zoo 数据格式转换。

  

时间: 2024-10-23 08:03:12

R-大数据分析挖掘(5-R基础回顾)的相关文章

大数据分析挖掘全流程实战视频教程:电商市场与销售趋势预测

大数据分析挖掘全流程实战视频教程:电商市场与销售趋势预测资源下载:https://pan.baidu.com/s/1VPydETNHqhDDcJ1Lpko1AA 提取码:o9mk 课程特色:特色一:一套课程,搞定企业级数据分析与挖掘全栈技术特色二:基于Linux+Windows两套系统手把手教你搭建企业数据分析/挖掘开发环境,带你从0~1特色三:电商企业经典数据分析与挖掘项目全程贯穿,教你从1~100 课程目标:1.掌握预测分析的理论基础,一些数据分析挖掘软件的使用技巧2.通过掌握的分析技术及软

天律的云端大数据分析挖掘之旅

随着数据爆炸式的增长,我们正被各种数据包围着,最为平常的使用网络.手机.各种电子设备,每天都在产生各种新的数据.大部分的企业和机构都面临着这样一个问题,需要从海量的历史.实时数据中寻找规律,从而为决策者提供科学的依据.但不可否认的是,现代所产生的信息量过于庞大,传统的业务软件已经远远不能满足这样的要求,而构建大规模数据处理中心对于大部分企业来讲都是一笔过于庞大的开支.这就迫切需要一种新颖的.高效的.成本低廉的技术来支撑对数据的挖掘工作,云计算无疑是最佳选择. 信息时代,一寸数据一寸金 IT环境已

在大数据分析/挖掘领域,哪些编程语言应用最多?

Tim Roy ,原来我也在这里 9 人赞同 更新一下答案—— 之前我提到用R,后来我自己也觉得有点撑不住,应该是技术不行吧.还是建议往Python方向发展. Python不局限于数据分析,还有许多其他用途,有利于拓展视野.同时如果把它作为一门入门语言,它的简洁性.严格的缩进.丰富的第三方库都能帮助初学者很好地入门. 传送一个在数据分析.挖掘方面,有哪些好书值得推荐? - 书籍推荐肖大神推荐的书籍都可以参考,其中有不少优秀教材,都是以Python作为编程工具的,比Machine Learning

下载零基础数据分析与挖掘R语言实战课程(R语言)

随着大数据在各行业的落地生根和蓬勃发展,能从数据中挖金子的数据分析人员越来越宝贝,于是很多的程序员都想转行到数据分析,挖掘技术哪家强?当然是R语言了,R语言的火热程度,从TIOBE上编程语言排名情况可见一斑.于是善于学习的程序员们开始了R语言的学习之旅.对于有其他语言背景的程序员来说,学习R的语法小菜一碟,因为它的语法的确太简单了,甚至有的同学说1周就能掌握R语言,的确如此.但是之后呢?……好像进行不下去了!死记硬背记住了两个分析模型却不明其意,输出结果如同天书不会解读,各种参数全部使用缺省值,

零基础数据分析与挖掘R语言实战课程(R语言)

随着大数据在各行业的落地生根和蓬勃发展,能从数据中挖金子的数据分析人员越来越宝贝,于是很多的程序员都想转行到数据分析, 挖掘技术哪家强?当然是R语言了,R语言的火热程度,从TIOBE上编程语言排名情况可见一斑.于是善于学习的程序员们开始了R语言的学习 之旅.对于有其他语言背景的程序员来说,学习R的语法小菜一碟,因为它的语法的确太简单了,甚至有的同学说1周就能掌握R语言,的确如 此.但是之后呢?……好像进行不下去了!死记硬背记住了两个分析模型却不明其意,输出结果如同天书不会解读,各种参数全部使用缺

R简单数据分析

眼下大数据口号满天飞,今天拿我微信圈朋友一段时间内分享内容作为数据,用R包的算法实现简单分析. 由于微信没有接口获取数据,暂时只能手动记录数据,主要是做个小尝试,数据获取方式是其次. 1)我们看看微信圈活跃的朋友. PS:知道为何我们的流量烧的这么快了吧?这些小伙伴八成是运营商潜伏过来的余则成,在背后分成还要我们帮忙数钱,后续我会揪出那个人,敬请期待. 2)我们看看微信圈朋友的喜好. PS:喜欢分享链接的小伙伴一般喜欢晒图片,有木有?亲. 3)用图表讲述故事,有图有真相. 微信圈内容占比 PS:

【Hadoop大数据分析与挖掘实战】(三)----------P23~25

6.安装Hadoop 1)在Hadoop网站下,下载稳定版的并且已经编译好的二进制包,并解压缩. [[email protected] ~]$ wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz [[email protected] ~]$ tar -zxvf hadoop-2.7.3.tar.gz ~/opt [[email protected] ~]$ ~/opt/hado

R语言速成实战 R语言数据分析实战

详情请交流  QQ  709639943 00.R语言速成实战 00.R语言数据分析实战 00.Python+Django+Ansible Playbook自动化运维项目实战 00.Java深入微服务原理改造房产销售平台 00.Python3入门机器学习 经典算法与应用 00.老司机学python篇:第一季(基础速过.机器学习入门) 00.Python 从入门到精通 78节.2000多分钟.36小时的高质量.精品.1080P高清视频教程!包括标准库.socket网络编程.多线程.多进程和协程.

[译]用R语言做挖掘数据《七》

时间序列与数据挖掘 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到: 1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程Vim编辑器3. R:在命令行输入‘R’进入交互式环境,下面的代码都是在交互式环境运行4. 数据:在命令行终端输入以下命令: