本节内容
1:样本估计总体均值跟标准差
2:中心极限定理
一、样本估计总体均值跟标准差
多组抽样 估计总体均值 = mean(多组的各个均值) 估计总体标准差 = sd(多组的各个标准差) 标准误 = sd(多组的各个均值) 一组抽样 估计总体均值 = mean(一组的均值) 估计总体标准差 = sd(一组的标准差) 标准误 = 估计的标准差/ sqrt(n) 标准误: 真实的标准误 = 总体方差 / sqrt(n) ##n个样本的真实标准误 标准误==是描述样本均值的稳定性 标准误很重要: 比如说让你去估计全校的平均身高, 你给如个一个1.7,还要给出一个置信区间,可行程度有多少 置信区间就是,样本均值跟标准误计算出来的。
代码实现样本估计总体
set.seed(1) xset =rnorm(300,1.7,2.4) ##多组抽样估计总体均值和方差 ms = matrix(sample(xset,20*20,replace = T),20,20) ##一行就是一组抽样数据 me5 = mean(rowMeans(ms)) sde5 = numeric() for (i in 1:20){ sde5[i] = sd(ms[i,]) print(sd(ms[i,])) } sde5 = mean(sde5) print(me5) ## 1.749969 print(sde5) ##2.360055 ##只抽取一组估计均值和方差 data1 = sample(ms,20) mean(data1) ##1.418414 sd(data1) ##2.43754 ##标准误--》说的是均值的标准误 #一组的标准误 (sd(data1))/sqrt(20) #0.5073691 #多组的标准误 sd(rowMeans(ms)) ##0.4417979 #一组数据真实的标准误 2.4/sqrt(29) ##0.4456688
二、中心极限定理
当样本量足够大的时候,样本的均值就服从正态分布!!! 当样本比较小的时候才会存在别的分布如t分布。
为什么要对数据进行取log
当你的数据分布是严重右偏的函数,我们要对数据取log,将数据分布变成偏向正态的分布。 为什么要这么做,就是为了让它更加的去适用于中心极限定理。
原文地址:https://www.cnblogs.com/hero799/p/11964766.html
时间: 2024-10-12 08:32:34