R语言 典型相关分析

1、关键点

#典型相关分析#
#典型相关分析是用于分析两组随机变量之间的相关程度的一种统计方法,它能够有效地揭示两组随机变量之间的相互(线性依赖)关系
#例如
研究生入学考试成绩与本科阶段一些主要课程成绩的相关性
#将研究两组变量的相关性问题转化为研究两个变量的相关性问题
此类相关为典型相关#
#总体典型相关
#样本典型相关
#典型相关计算
cancor(x,y,xcenter=TRUE,ycenter=TRUE)
#x,y是相应的数据矩阵 xcenter,ycenter是逻辑变量
TRUE是将数据中心化 FALSE是不中心化

2、典型相关分析的简单步骤:

#1.载入原始数据
#2.原始数据标准化 scale
#3.典型相关分析

3、案例分析

#现对20名中年人测得三个生理指标:体重(X1) 腰围(X2) 脉搏(X3)
#三个训练指标:引体向上(Y1) 起座次数(Y2) 跳跃次数(Y3)
试分析这组数据的相关性


#用数据框的形式输入数据
test<-data.frame(
X1=c(191, 193, 189, 211, 176, 169, 154, 193, 176, 156,
189, 162, 182, 167, 154, 166, 247, 202, 157, 138),
X2=c(36, 38, 35, 38, 31, 34, 34, 36, 37, 33,
37, 35, 36, 34, 33, 33, 46, 37, 32, 33),
X3=c(50, 58, 46, 56, 74, 50, 64, 46, 54, 54,
52, 62, 56, 60, 56, 52, 50, 62, 52, 68),
Y1=c( 5, 12, 13, 8, 15, 17, 14, 6, 4, 15,
2, 12, 4, 6, 17, 13, 1, 12, 11, 2),
Y2=c(162, 101, 155, 101, 200, 120, 215, 70, 60, 225,
110, 105, 101, 125, 251, 210, 50, 210, 230, 110),
Y3=c(60, 101, 58, 38, 40, 38, 105, 31, 25, 73,
60, 37, 42, 40, 250, 115, 50, 120, 80, 43)
)
#为了消除数量级的影响 将数据标准化处理 调用scale函数
test<-scale(test)
#对标准化的数据做典型相关分析
ca<-cancor(test[,1:3],test[,4:6])
#查看分析结果
ca

#计算数据在典型变量下的得分 U=AX  V=BY
U<-as.matrix(test[, 1:3])%*% ca$xcoef
V<-as.matrix(test[, 4:6])%*% ca$ycoef
#画出U1、V1和U3、V3为组表的数据散点图
plot(U[,1], V[,1], xlab="U1", ylab="V1")
plot(U[,3], V[,3], xlab="U3", ylab="V3"

由散点图可知 第一典型相关变量分布在一条直线附近
;第三典型相关变量数据很分散。

#典型相关系数的显著性检验
#作为相关分析的目的
就是选择多少对典型变量?因此需要做典型相关系数的显著性检验
#若认为相关系数k为0
就没有必要考虑第k对典型变量了

#相关系数检验R程序
source("E:/R/corcoef.test.R")
corcoef.test(r=ca$cor,n=20,p=3,q=3)

最终程序运行结果显示选择第一对典型相关变量。


orcoef.test<-function(r, n, p, q, alpha=0.1){
#r为相关系数 n为样本个数 且n>p+q
m<-length(r); Q<-rep(0, m); lambda <- 1
for (k in m:1){
lambda<-lambda*(1-r[k]^2); #检验统计量
Q[k]<- -log(lambda) #检验统计量取对数
}
s<-0; i<-m
for (k in 1:m){
Q[k]<- (n-k+1-1/2*(p+q+3)+s)*Q[k] #统计量
chi<-1-pchisq(Q[k], (p-k+1)*(q-k+1))
if (chi>alpha){
i<-k-1; break
}
s<-s+1/r[k]^2
}
i #显示输出结果 选用第几对典型变量
}

典型相关系数检验 R语言程序  corcoef.test.R  将其保存在计算机的E盘的R文件夹下

R语言 典型相关分析,布布扣,bubuko.com

时间: 2024-10-20 07:31:02

R语言 典型相关分析的相关文章

R语言中文社区历史文章整理(类型篇)

R语言中文社区历史文章整理(类型篇) R包: R语言交互式绘制杭州市地图:leafletCN包简介 clickpaste包介绍 igraph包快速上手 jiebaR,从入门到喜欢 Catterplots包,让你绘制不一样的图 今天再来谈谈REmap包 ggplot2你需要知道的都在这... R访问数据库管理系统(通过RODBC包和RMySQL包两种方式) NLP--自然语言处理(三)text2vec包 Rattle:数据挖掘的界面化操作 借助caret包实现特征选择的工作 R语言的高质量图形渲染

R语言︱情感分析—词典型代码实践(最基础)(一)

笔者寄语:词典型情感分析对词典要求极高,词典中的词语需要人工去选择,但是这样的选择会很有目标以及针对性.本文代码大多来源于<数据挖掘之道>的情感分析章节.本书中还提到了监督算法式的情感分析,可见博客: R语言︱情感分析-基于监督算法R语言实现笔记. 可以与博客 R语言︱词典型情感分析文本操作技巧汇总(打标签.词典与数据匹配等)对着看. 词典型情感分析大致有以下几个步骤: 训练数据集.neg/pos情感词典.分词+数据清洗清洗(一.二.三级清洗步骤).计算情感得分.模型评价 ----------

R语言重要数据集分析研究——需要整理分析阐明理念

1.R语言重要数据集分析研究需要整理分析阐明理念? 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候如何下手分析,数据分析的第一步,探索性数据分析. 统计量,即统计学里面关注的数据集的几个指标,常用的如下:最小值,最大值,四分位数,均值,中位数,众数,方差,标准差,极差,偏度,峰度 先来解释一下各个量得含义,浅显就不说了,这里主要说一下不常见的 众数:出现次数最多的 方差:每个样本值与均值的差得平方和的平均数 标准差:又称均方差,是方差的二次方根,用来衡量一个数据集的集中性 极差:最大值

[译]用R语言做挖掘数据《七》

时间序列与数据挖掘 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到: 1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程Vim编辑器3. R:在命令行输入‘R’进入交互式环境,下面的代码都是在交互式环境运行4. 数据:在命令行终端输入以下命令:

R语言实战(五)方差分析与功效分析

本文对应<R语言实战>第9章:方差分析:第10章:功效分析 ==================================================================== 方差分析: 回归分析是通过量化的预测变量来预测量化的响应变量,而解释变量里含有名义型或有序型因子变量时,我们关注的重点通常会从预测转向组别差异的分析,这种分析方法就是方差分析(ANOVA).因变量不只一个时,称为多元方差分析(MANOVA).有协变量时,称为协方差分析(ANCOVA)或多元协方差分析

R语言数据挖掘实战系列(5)

R语言数据挖掘实战系列(5)--挖掘建模 一.分类与预测 分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值. 1.实现过程 (1)分类 分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别.分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便地计算,所以分类属于有监督的学习. (2)预测 预测是建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制.

数据分析,R语言

数据结构 创建向量和矩阵 1 函数c(), length(), mode(), rbind(), cbind() 求平均值,和,连乘,最值,方差,标准差 1 函数mean(), sum(), min(), max(), var(), sd(), prod() 帮助文档 1 函数help() 生成向量 1 seq() 生成字母序列letters 新建向量 1 Which()函数,rev()函数,sort()函数 生成矩阵 1 函数matrix() 矩阵运算 1 函数t(),矩阵加减 矩阵运算 1

R语言和数据分析十大:购物篮分析

提到数据挖掘,我们的第一个反应是之前的啤酒和尿布的故事听说过,这个故事是一个典型的数据挖掘关联规则.篮分析的传统线性回归之间的主要差别的差别,对于离散数据的相关性分析: 常见的关联规则: 关联规则:牛奶=>卵子[支撑=2%,置信度=60%] 支持度:分析中的所有事务的2%同一时候购买了牛奶和鸡蛋,需设定域值,来限定规则的产生. 置信度:购买了牛奶的筒子有60%也购买了鸡蛋,需设定域值,来限定规则的产生. 最小支持度阈值和最小置信度阈值:由挖掘者或领域专家设定. 与关联分析相关的专业术语包含: 项

R语言之RCurl实现文件批量下载

R语言之RCurl实现文件批量下载 前言: RCurl工具包的作者是由Duncan Temple Lang现任加州大学 U.C. Davis分校副教授.他曾致力于借助统计整合进行信息技术的探索.使用者通过RCurl可以轻易访问网页,进行相关数据的抓取以及下载,为数据分析提供原始素材.近年RCurl在数据分析业界中使用也越来越流行. Step1:安装RCurl install.packages('RCurl') Step2:代码实现 =========================== 1 #利