标准误

在此举一个例子。比如,某学校共有500名学生,现在要通过抽取样本量为30的一个样本,来推断学生的数学成绩。这时可以依据抽取的样本信息,计算出样本的均值与标准差。如果我们抽取的不是一个样本,而是10个样本,每个样本30人,那么每个样本都可以计算出均值,这样就会有10个均值。也就是形成了一个10个数字的数列,然后计算这10个数字的标准差,此时的标准差就是标准误。但是,在实际抽样中我们不可能抽取10个样本。所以,标准误就由样本标准差除以样本量来表示。当然,这样的结论也不是随心所欲,而是经过了统计学家的严密证明的。

在实际的应用中,标准差主要有两点作用,一是用来对样本进行标准化处理,即样本观察值减去样本均值,然后除以标准差,这样就变成了标准正态分布;而是通过标准差来确定异常值,常用的方法就是样本均值加减n倍的标准差。标准误的作用主要是用来做区间估计,常用的估计区间是均值加减n倍的标准误。

英文:Standard Error

  标准偏差反映的是个体观察值的变异,标准误反映的是样本均数之间的变异(即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度),标准误不是标准差,是样本平均数的标准差。

  标准误用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标

  在相同测量条件下进行的测量称为等精度测量,例如在同样的条件下,用同一个游标卡尺测量铜棒的直径若干次,这就是等精度测量。对于等精度测量来说,还有一种更好的表示误差的方法,就是标准误差

计算机建模

先产生一个随机样本,服从正态分布

样本100时,标准误和样本平均值集合的方差几乎相同

扩大样本到200时,标准误降低,但标准误和样本平均值集合的方差差距较大,但标准误大于真实值,比较安全。

#coding=utf-8
#中心极限理论抽象,不好理解,可简化成两个骰子建模
#从均值mean,方差variance的总体中,抽取样本量为n的随机样本,当n充分大时(n>=30),样本均值服从均值
#为mean,方差为variance/n的正太分布

import math,random,os,statistics_functions,draw,time,pylab,Population

#生成一个真随机数

#骰子选数范围从1-6
number_list=[1,2,3,4,5,6]
#n 表示重复次数,n是总体数量
population=Population.population
n=len(population)
#n=500
#样本数
sample_n=200
#分成份数

#length 表示列表内元素个数,length=2表示丢两颗骰子,length=6表示丢6颗骰子
length=2

def Random_number(number_list):
r=random.SystemRandom()
random_number=r.choice(number_list)
return random_number

#生成一个包含随机数的列表
#length表示列表内元素个数
def Random_list(length):
random_list=[]
for i in range(length):
random_number=Random_number(number_list)
random_list.append(random_number)

return random_list

#生成n个平均数
#元素是length个元素组成列表的平均数
def Mean_list(n1):
mean_list=[]
for i in range(n1):
random_list=Random_list(length)
mean=statistics_functions.Mean(random_list)
mean=round(mean,1)
mean_list.append(mean)

return mean_list

#返回不重复元素的列表
def List_noneRepeat(mean_list):
#去掉重复部分
list_noneRepeat=[]
for i in mean_list:
if i not in list_noneRepeat:
list_noneRepeat.append(i)
#print "list_noneRepeat:",list_noneRepeat
return list_noneRepeat

#频率计算函数
def Frequence(list_noneRepeat):
frequency=[]
#统计频率
for i in list_noneRepeat:
count=mean_list.count(i)
frequency.append(count)
return frequency

#时间测试
def time_test(n):
time3=time.time()
print time1
n
time4=time.time()
print time2
time_comsume=time4-time3
print time_comsume

def Draw_hist(mean_list):
pylab.hist(mean_list,50)
pylab.xlabel(‘X‘)
pylab.ylabel(‘frenquency‘)
pylab.title(‘Central limit theory‘)
pylab.show()

def Mean_sample_list(sample_list):
#所有样本平均数添加到一个列表中
mean_sample_list=[]
for i in sample_list:
mean=statistics_functions.Mean(i)
mean_sample_list.append(mean)
return mean_sample_list

def Analyse(sample_n):
print "total population:",n
print "sample number:",sample_n
print "mean of population:",mean_population
print "mean of sample:",mean_sample_list[0]
print "deviation of population:",deviation_population
print "deviation of mean_sample_list:",deviation_mean_sample_list
print "standard_error:",standard_error

#时间消耗测试

#总体
#population=Mean_list(n)

#总体的平均值
mean_population=statistics_functions.Mean(population)
#总体的标准差
deviation_population=statistics_functions.Deviation(population)

#样本
sample1=population[0:sample_n]
sample2=population[sample_n:2*sample_n]
sample3=population[2*sample_n:3*sample_n]
sample4=population[3*sample_n:4*sample_n]
sample5=population[4*sample_n:5*sample_n]

sample_list=[sample1,sample2,sample3,sample4,sample5]
#所有样本平均数添加到一个列表中
mean_sample_list=Mean_sample_list(sample_list)
#再计算这个列表中所有平均数的标准差
deviation_mean_sample_list=statistics_functions.Deviation(mean_sample_list)

standard_error=(deviation_population*1.0)/math.sqrt(sample_n)

#输出结果,以便观察
Analyse(sample_n)

时间: 2024-10-28 06:14:17

标准误的相关文章

标准差,标准误

开博第三篇依旧回顾下数据分析涉及到的统计学中最基本的概念,包含了以下几个概念:标准差,标准误. 10 标准差 在概率论和数理统计中,标准差(Standard Deviation,符号\(\sigma\))是方差的算术平方根.标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根.它反映组内个体间的离散程度.平均数相同的,标准差未必相同. 对于离散型随机变量,假设随机变量为\(X\),取值\({x}_{i}(i = 1, 2, ... , n)\),\(\mu\)为随机变量的数学期望(

参数|统计量|抽样分布|估计标准误差|标准误差|标准误|标准差|二项分布|泊松分布|中心极限定理|样本方差|

4 二项分布近似正态分布的条件? 参数和统计量的区别? 总体参数通常用希腊字母表示,样本统计量通常用小写英文字母来表示 抽样分布是一种理论分布吗? 抽样分布不是样本结果的分布,而是一种无法穷尽情况的分布,但是我们可以使用数学方法来求得进行这样抽取方法后的特统计量的分布.我们收取的样本点的统计量被认为包含在这样的函数曲线中.对于抽样分布来说,它的随机变量是样本统计量.我们能够借此还原样本统计量的分布,不是还原总体分布. 估计标准误差.标准误差.标准误.标准差是什么? 1.估计标准误差就简称为估计标

期望,方差,标准差,标准误,离差,残差,协方差

开博第二篇依旧回顾下数据分析涉及到的统计学中最基本的概念,包含了以下几个概念:期望,方差,标准差,离差,残差,协方差. 0 离散型随机变量,连续型随机变量 随机变量(random variable)表示随机试验各种结果的实值单值函数.例如某一时间内公共汽车站等车乘客人数,每次投掷骰子出现的点数等,都是随机变量的实例. 一个随机试验可能结果(称为基本事件)的全体组成一个基本空间Ω.随机变量X是定义基本空间Ω上的取值为实数的函数,即基本空间Ω中每一个点,也就是每个基本事件都有实轴上的点与之对应.例如

R语言︱异常值检验、离群点分析、异常值处理

在数据挖掘的过程中,数据预处理占到了整个过程的60% 脏数据:指一般不符合要求,以及不能直接进行相应分析的数据 脏数据包括:缺失值.异常值.不一致的值.重复数据及含有特殊符号(如#.¥.*)的数据 数据清洗:删除原始数据集中的无关数据.重复数据.平滑噪声数据.处理缺失值.异常值等 缺失值处理:删除记录.数据插补和不处理 主要用到VIM和mice包 install.packages(c("VIM","mice")) 1.处理缺失值的步骤 步骤: (1)识别缺失数据:

行为科学统计第8章

行为科学统计 Statistics for the Behavioral Sciences 第三部分啦-平均数与平均数差异的推论 平均数与平均数差异的推论,总共有八章,都是统计方法啊-每种方法都使用了 样本平均数作为对总体平均数作出推论的基础. 也就是样本平均数 是否可以推论到总体平均数的 各种方法啦- 第8章 假设检验 引言:到底是偶然的,还是真正的存在差异?这就是推论性统计,假设检验的目的之一了. 你读一下这段话` 假设检验,帮助研究者区别数据中真实和随机的模式.在研究中,目的是判断结果是否

简单线性回归

协方差:两个变量总体误差的期望. 简单的说就是度量Y和X之间关系的方向和强度. X :预测变量Y :响应变量 Y和X的协方差:[来度量各个维度偏离其均值的程度] 备注:[之所以除以n-1而不是除以n,是因为这样能使我们以较小的样本集更好的逼近总体的协方差,即统计上所谓的"无偏估计".而方差则仅仅是标准差的平方] 如果结果为正值,则说明两者是正相关的(从协方差可以引出"相关系数"的定义), 如果结果为负值就说明负相关的 如果为0,也是就是统计上说的"相互独立

生存分析

在某些领域的分析中,常常用追踪的方式来研究事物的发展规律,比如研究某种药物的疗效,手术后的存活时间,某件机器的使用寿命等. 这种分析的特点是追踪研究的对象都要经过一段时间,而且经常会碰到出于某种原因无法继续追踪的情况. 生存分析就是用来研究这段追踪时间的分布规律以及相关因素的一种统计分析方法. 一.生存分析的一些概念 1.观察起点是指由研究者确定的研究开始时的时间 2.终点事件是指由研究者确定的某种发生的事件,这种事件必须明确定义,而且并不一定是消极事件 3.生存时间是指从观察起点到终点事件发生

线性模型(3)——多重线性回归模型

前面介绍了简单线性回归模型,接下来讲多重线性回归模型. 简单线性回归是针对一个因变量和一个自变量之间的线性回归关系,而多重线性回归是指一个因变量和多个自变量之间的线性回归关系.相对于简单线性回归,多重线性回归更具有实际意义,因为在实际生活中,多因素相互作用非常普遍,同时对因变量造成影响的往往不止一个自变量. 多重线性回归主要解决的问题是1.估计自变量与因变量之间的线性关系(估计回归方程)2.确定哪些自变量对因变量有影响(影响因素分析)3.确定哪个自变量对因变量最影响最大,哪个最小(自变量重要性分

基于SPSS的美国老年夏季运动会运动员数据分析

专业技术综合实践I课程报告 摘要 描述性统计分析是对一组数据的包括平均数.标准差.正态或偏态程度等特征进行分析.例如在本报告数据中对年龄进行了统计描述,分析了其分布基本符合正态分布.     回归分析是任何数据分析都必要的,它试图定量描述一个自变量和一个因变量之间的关系.线性和曲线回归分析,可用于预测相关变量的结果或对相关变量进行分类.在本项目中,通过回归模型分析了预选赛成绩与全国赛成绩的关系.在对全国赛成绩的影响因素的研究中,有预选赛成绩.年龄.性别.年度等因素考虑.然而在这个项目中,我们只研