R-基本统计计量

本节内容

1:样本估计总体均值跟标准差

2:中心极限定理

一、样本估计总体均值跟标准差

多组抽样
    估计总体均值 = mean(多组的各个均值)
    估计总体标准差 = sd(多组的各个标准差)
    标准误 =  sd(多组的各个均值)
一组抽样
    估计总体均值 = mean(一组的均值)
    估计总体标准差 = sd(一组的标准差)
    标准误 =  估计的标准差/ sqrt(n)
标准误:
    真实的标准误 = 总体方差 / sqrt(n)  ##n个样本的真实标准误
    标准误==是描述样本均值的稳定性	

标准误很重要:
		比如说让你去估计全校的平均身高,
		你给如个一个1.7,还要给出一个置信区间,可行程度有多少
		置信区间就是,样本均值跟标准误计算出来的。

代码实现样本估计总体

set.seed(1)
xset =rnorm(300,1.7,2.4)

##多组抽样估计总体均值和方差
ms = matrix(sample(xset,20*20,replace = T),20,20)  ##一行就是一组抽样数据
me5 = mean(rowMeans(ms))
sde5 = numeric()
for (i in 1:20){
  sde5[i] = sd(ms[i,])
  print(sd(ms[i,]))
}
sde5 = mean(sde5)
print(me5)  ## 1.749969
print(sde5) ##2.360055

##只抽取一组估计均值和方差
data1 = sample(ms,20)
mean(data1)  ##1.418414
sd(data1)   ##2.43754

##标准误--》说的是均值的标准误
#一组的标准误
(sd(data1))/sqrt(20) #0.5073691

#多组的标准误
sd(rowMeans(ms))  ##0.4417979

#一组数据真实的标准误
2.4/sqrt(29)  ##0.4456688

二、中心极限定理

当样本量足够大的时候,样本的均值就服从正态分布!!!
当样本比较小的时候才会存在别的分布如t分布。

为什么要对数据进行取log

当你的数据分布是严重右偏的函数,我们要对数据取log,将数据分布变成偏向正态的分布。
为什么要这么做,就是为了让它更加的去适用于中心极限定理。

  

  

原文地址:https://www.cnblogs.com/hero799/p/11964766.html

时间: 2024-10-12 08:32:34

R-基本统计计量的相关文章

留学生R经管统计作业代写代做、Stat/ME代写

留学生R经管统计作业代写代做.Stat/ME代写Requirements for Stat/ME 424 Class Project? This is an individual project. You cannot join forces with anyone else in the class,but (if you wish) you can collaborate with someone in your lab or research team.? The basic requir

通过R语言统计考研英语(二)单词出现频率

通过R语言统计考研英语(二)单词出现频率 大家对英语考试并不陌生,首先是背单词,就是所谓的高频词汇.厚厚的一本单词,真的看的头大.最近结合自己刚学的R语言,为年底的考研做准备,想统计一下最近考研英语(二)真正单词出现的频率次数. 整体思路: 收集数据-->整理数据-->统计分析-->输出结果 使用工具: `Rstudio,文本编辑器,CSV` 涉及到的包: "jiebaR"(中文分词引擎),"plyr", 第一步收集数据: 从网络搜索2013-20

R(八): R分词统计-老九门

整理笔记时,某人在看老九门,so 选它作例子.分析文本内容基本的步骤:提取文本中的词语 -> 统计词语频率 -> 词频属性可视化.词频:能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多.词云:让词语的频率属性可视化,更加直观清晰.文本下载地址(http://www.yuandn.com/booktxt/59797/#download 效果图是将12章后面内容删除后结果) 目录: 效果示例图 分词包介绍及安装 词云包介绍安装 分词统计 词云展现  效果示例图: 分词包介绍

[R语言统计]频数表

频数表在统计学中是一个非常基本并且重要的概念,我们这里就来讲解它的基本用法. 首先我们需要载入数据,并查看数据的基本信息 install.packages('vcd') #安装vcd包,其中有可以利用的数据Arthritis library(vcd) 载入需要的程辑包:grid > head(Arthritis)################################################# ID Treatment Sex Age Improved 1 57 Treated

分享《机器学习与数据科学(基于R的统计学习方法)》+PDF+源码+Daniel+施翔

下载:https://pan.baidu.com/s/1TBuxErDDcKQi4oJO3L-fEA 更多资料:http://blog.51cto.com/14087171 高清中文PDF,299页,带书签目录,文字可以复制.配套源代码. 本书指导读者利用R语言完成涉及机器学习的数据科学项目.作者: Daniel D. Gutierrez 译者: 施翊 原作名: Machine Learning and Data Science: An Introduction to Statistical L

R语言统计字符串的字符数ncahr函数

函数计算字符数量,包括在一个字符串的空格的个数. 语法 nchar()函数的基本语法是: nchar(x) 以下是所使用的参数的说明: x - 向量输入. 示例 result <- nchar("Count the number of characters") print(result) 当我们上面的代码执行时,它产生以下结果: [1] 30

R中统计建模常用函数索引

A abline --- 低水平作图函数,加直线 add  ---  图中的逻辑命令,是否加图 add1 --- 逐步回归,增加一个变量 all --- 判别全部为真 anova --- 生成方差分析表 any --- 判别之一为真 aov --- 计算方差分析表 apply --- 应用函数,计算数组的各种运算 assign --- 赋值函数 as.data.frame --- 转换为数据框 as.dendrogram --- 将系统聚类的对象转换为谱系图对象 as.character ---

大数据时代的精准数据挖掘——使用R语言

老师简介: Gino老师,即将步入不惑之年,早年获得名校数学与应用数学专业学士和统计学专业硕士,有海外学习和工作的经历,近二十年来一直进行着数据分析的理论和实践,数学.统计和计算机功底强悍. 曾在某一世界500强公司核心部门担任高级主管负责数据建模和分析工作,在实践中攻克统计建模和数据分析难题无数,数据处理与分析科学精准,在实际应用中取得良好的效果. Gino老师担任数据分析培训师多年,探索出一套以实例讲解带动统计原理理解和软件操作熟悉的方法,授课的学生能迅速理解统计原理并使用统计软件独立开展数

知牛微课堂:大数据时代中的R编程语言

TIOBE 2014年12月份编程语言排行榜中显示, R编程语言受大数据影响,备受业界追捧,市场份额一度攀升,已到排行版12位,而去年同时间为38位, R语言有望成为今年TIOBE年度语言的候选者. R语言到底是神马东东?知牛微课堂与您一同了解下吧. R语言初窥 R语言是用于统计分析.绘图的语言和操作环境.R是属于GNU系统的一个自由.免费.源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具. R是统计领域广泛使用的诞生于1980年左右的S语言的一个分支.可以认为R是S语言的一种实现.而