R语言与概率统计(三) 多元统计分析

> #############6.2一元线性回归分析
> x<-c(0.10,0.11,0.12,0.13,0.14,0.15,0.16,0.17,0.18,0.20,0.21,0.23)
> y<-c(42.0,43.5,45.0,45.5,45.0,47.5,49.0,53.0,50.0,55.0,55.0,60.0)
> plot(x~y)
> lm.sol<-lm(y ~ x)
> summary(lm.sol)

Call:
lm(formula = y ~ x)

Residuals:
    Min      1Q  Median      3Q     Max
-2.0431 -0.7056  0.1694  0.6633  2.2653 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   28.493      1.580   18.04 5.88e-09 ***
x            130.835      9.683   13.51 9.50e-08 ***    #所以y=130.835x+28.493,***表示显著性水平,*越多越好
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1    #显著性水平

Residual standard error: 1.319 on 10 degrees of freedom
Multiple R-squared:  0.9481,	Adjusted R-squared:  0.9429
F-statistic: 182.6 on 1 and 10 DF,  p-value: 9.505e-08    ¥F检验,检验所有系数全是0的假设
> new=data.frame(x=0.16)#怎么预测多个数值的结果?
> lm.pred=predict(lm.sol,new,interval=‘prediction‘,level=0.95)
> lm.pred
       fit      lwr      upr
1 49.42639 46.36621 52.48657

先求对数,再*100

> X<-matrix(c(
+   194.5, 20.79, 1.3179, 131.79,
+   194.3, 20.79, 1.3179, 131.79,
+   197.9, 22.40, 1.3502, 135.02,
+   198.4, 22.67, 1.3555, 135.55,
+   199.4, 23.15, 1.3646, 136.46,
+   199.9, 23.35, 1.3683, 136.83,
+   200.9, 23.89, 1.3782, 137.82,
+   201.1, 23.99, 1.3800, 138.00,
+   201.4, 24.02, 1.3806, 138.06,
+   201.3, 24.01, 1.3805, 138.05,
+   203.6, 25.14, 1.4004, 140.04,
+   204.6, 26.57, 1.4244, 142.44,
+   209.5, 28.49, 1.4547, 145.47,
+   208.6, 27.76, 1.4434, 144.34,
+   210.7, 29.04, 1.4630, 146.30,
+   211.9, 29.88, 1.4754, 147.54,
+   212.2, 30.06, 1.4780, 147.80),
+   ncol=4, byrow=T,
+   dimnames = list(1:17, c("F", "h", "log", "log100")))#如何改变行和列的名称,如何按列排列数据?
>
> forbes<-data.frame(X)#把矩阵X转化为数据框
> plot(forbes$F, forbes$log100)#画出两个变量之间的散点图,观察是否存在线性趋势;学习
> #如何从数据框里面调取向量。怎么写坐标轴的名字和标题?
> #如何从数据框里面调取向量。怎么写坐标轴的名字和标题?
> lm.sol<-lm(log100~F, data=forbes)
> summary(lm.sol)

Call:
lm(formula = log100 ~ F, data = forbes)

Residuals:
     Min       1Q   Median       3Q      Max
-0.32261 -0.14530 -0.06750  0.02111  1.35924 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -42.13087    3.33895  -12.62 2.17e-09 ***
F             0.89546    0.01645   54.45  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.3789 on 15 degrees of freedom
Multiple R-squared:  0.995,	Adjusted R-squared:  0.9946
F-statistic:  2965 on 1 and 15 DF,  p-value: < 2.2e-16

> abline(lm.sol)#在散点图上添加直线

#残差检验
y.res<-residuals(lm.sol);plot(y.res)#画出残差图
text(12,y.res[12], labels=12,adj=1.2)

#异常值的判断
library(car)
outlierTest(lm.sol)
> outlierTest(lm.sol)
   rstudent unadjusted p-value Bonferroni p
12 12.40369         6.1097e-09   1.0386e-07
> plot(lm.sol)
Hit <Return> to see next plot: return
Hit <Return> to see next plot: return
Hit <Return> to see next plot: return
Hit <Return> to see next plot: return

原文地址:https://www.cnblogs.com/caiyishuai/p/11163839.html

时间: 2024-10-09 01:16:50

R语言与概率统计(三) 多元统计分析的相关文章

R语言与概率统计(三) 多元统计分析(下)广义线性回归

广义线性回归 > life<-data.frame( + X1=c(2.5, 173, 119, 10, 502, 4, 14.4, 2, 40, 6.6, + 21.4, 2.8, 2.5, 6, 3.5, 62.2, 10.8, 21.6, 2, 3.4, + 5.1, 2.4, 1.7, 1.1, 12.8, 1.2, 3.5, 39.7, 62.4, 2.4, + 34.7, 28.4, 0.9, 30.6, 5.8, 6.1, 2.7, 4.7, 128, 35, + 2, 8.5,

R语言结合概率统计的体系分析---数字特征

现在有一个人,如何对这个人怎么识别这个人?那么就对其存在的特征进行提取,比如,提取其身高,其相貌,其年龄,分析这些特征,从而确定了,这个人就是这个人,我们绝不会认错. 同理,对数据进行分析,也是提取出数据的特征,对其特征进行分析,从而确定这些数据所呈现的信息状况,从而确定了这些数据的独特性和唯一性,因为他呈现的信息是唯一的,绝不与别的是相同的. 那么这些特征是什么呢?拥有哪些特征呢?似乎应该是经过无数科学家的总结,终于发现了几个重要的特征,包括数字特征和分布特征,这个数字特征,包括集中位置,分散

R语言与概率统计(六) 主成分分析 因子分析

超高维度分析,N*P的矩阵,N为样本个数,P为指标,N<<P PCA:抓住对y对重要的影响因素 主要有三种:PCA,因子分析,回归方程+惩罚函数(如LASSO) 为了降维,用更少的变量解决问题,如果是二维的,那么就是找到一条线,要使这些点再线上的投影最大,投影最大,就是越分散,就考虑方差最大. 原文地址:https://www.cnblogs.com/caiyishuai/p/11169073.html

R语言与医学统计图形-【14】ggplot2几何对象之直方密度图

ggplot2绘图系统--几何对象之直方图.密度图 1.直方图 参数. geom_histogram(mapping = , data = , stat = 'bin', #统计变换,概率密度为density position = 'stack', binwidth = , #条柱宽度 bins = , #条柱数目,默认30 na.rm = FALSE, show.legend = NA, inherit.aes = TRUE ) 示例. ggplot(diamonds,aes(carat))+

R语言高性能编程(三)

一.使用并行计算加倍提升性能1.数据并行 VS 任务并行实现数据并行的算法scoket 并行性注意并行计算时间并不与执行任务的计算资源数目成正比(计算机核心),amdahl定律:并行代码的速度受限于串行执行的部分,包括并行性带来的开销在非windows系统中,parallel支持分叉集群(交叉法),新的work进程会从父R进程分叉出来,并拷贝数据.好处是不需要显示的创建和销毁集群实现任务并行的算法 2.计算机集群并行执行多个任务只有基于socket的集群可以做到这一点,因为进程不可能被分叉到另外

《概率统计》多元随机变量

楔子 前两篇我们讨论的离散型和连续型随机变量都是单一变量,然而在现实当中,一个试验常常会涉及到多个随机变量.所谓多个随机变量是指在同一个试验结果之下产生的多个随机变量.这些随机变量的取值是由试验结果确定的,因此它们的取值会存在相互关联.这里我们先以离散型随机变量为例,将离散型随机变量的分布列和期望推广到多个随机变量的情况,并且进一步在此基础上讨论多元随机变量条件和独立的重要概念. 好了,此刻我们假设试验中不再只有一个随机变量,而是两个随机变量 X 和 Y,同时描述他们俩的取值概率,我们用什么方式

R语言与医学统计图形-【12】ggplot2几何对象之条图

ggplot2绘图系统--几何对象之条图(包括误差条图) 1.条图 格式: geom_bar(mapping = , data = , stat = 'count', #统计变换默认计数 position = 'stack', #默认堆栈 width = , #条形宽度 binwidth = , na.rm = FALSE, show.legend = , inherit.aes = TRUE) positon: dodge并排 fill堆叠填充标准化为1 stack堆栈 identity不做调

R语言实战读书笔记(七)基本统计分析

summary() sapply(x,fun,options):对数据框或矩阵中的每一个向量进行统计 mean sd:标准差 var:方差 min: max: median: length: range: quantile: vars <- c("mpg", "hp", "wt")head(mtcars[vars]) summary(mtcars[vars]) mystats <- function(x, na.omit = FALS

R语言:常用统计一些方法代码

理论漫衍依赖于若干未知参数时Kolmogorov-Smirnov 检讨ks.test()例一 对一台设备举办寿命检讨,记录十次无妨碍操纵时间,并按从小到大的序次分列如下,用ks检讨要领检讨此设备无妨碍事情时间是否切合rambda=1/1500的指数漫衍呼吁:X<-c(420, 500, 920, 1380, 1510, 1650, 1760, 2100, 2300, 2350)ks.test(X, "pexp", 1/1500)例二 假设从漫衍函数F(x)和G(x)的总体中别离随