数据分析的统计基础5

样本均值、样本比例和样本方差的抽样分布

样本均值的抽样分布

  • 在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布
  • 一种理论概率分布
  • 推断总体均值\(\mu\)的理论基础
  • 大数定律表明:当来自于独立同分布(i.i.d)的总体(该总体均值为\(\mu\),方差为\(\sigma^2\))中\(n\)个随机变量\(X_1,X_2,...X_n\),其均值\(\bar X = n^{-1}\sum \limits_{i=1}^{n}X_i\),随着\(n \to \infty\),有\(E(\bar X)=\mu,Var(\bar X) =\sigma^2/n\),中心极限定理告诉表明:随着\(n \to \infty\),\(\bar X = n^{-1}\sum \limits_{i=1}^{n}X_i\)近似服从正态分布。综合两者有:\(\bar X = n^{-1}\sum \limits_{i=1}^{n}X_i \sim N(\mu,\sigma^2/n)\)

两样本均值差的分布

  • 两个总体都为正态分布,即$ X_1 \sim N(\mu_1 ,\sigma_1^2)?$ ,$ X_2 \sim N(\mu_2 ,\sigma_2^2 )?$
  • 两个样本均值之差\(\bar X_1 - \bar X_2?\)的抽样分布服从正态分布,即\(\bar X_1 - \bar X_2 \sim N(\mu_1-\mu_2,\sigma_1^2/n_1 + \sigma_2^2/n_2)?\),其分布的数学期望和方差分别为:
    \[
    E(\bar X_1 - \bar X_2) = E(\bar X_1 - \bar X_2) = \mu_1 - \mu_2
    \]

    \[
    Var(\bar X_1 - \bar X_2) = \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}
    \]

  • 特别地,若\(\sigma_1^2 = \sigma_2^2 = \sigma^2\)时,有:
    \[
    \frac{(\bar X_1 - \bar X_2 ) - (\mu_1 - \mu_2)}{s_\omega \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2)
    \]
    其中\(s_\omega^2 = \frac{(n_1-1)s_1^2 + (n_2 - 1)s_2^2}{(n_1-1)+(n_2-1)}\)

样本比例的抽样分布

  • 总体比例:\(\pi = N_0 / N\),具有\(0\)类特征的数量\(N_0\)与总体所有的数量\(N\),样本比例:$p = n_0 / n $
  • 在重复选取容量为n的样本时,由样本比例的所 有可能取值形成的相对频数分布
  • 一种理论概率分布
  • 推断总体比例\(\pi\)的理论基础
  • 样本比例的均值满足:\(E(p) = \pi\),样本比例的方差需要关注有放回(重复)抽样和无放回(不重复)抽样的问题
    • 重复抽样(独立同分布):
    • \[
      Var(p) = \frac{\pi (1 - \pi)}{n}
      \]
    • 不重复抽样:
    • \[
      Var(p) = \frac{\pi (1-\pi)}{n} \frac{N-n}{N-1} ,\frac{N-n}{N-1} 被称为有限总体校验,当n<<N时,可以忽略
      \]
  • 当样本容量很大时,样本比例的抽样分布可用正态分布近似当样本容量很大时,样本比例的抽样分布可用正态分布近似

棣莫弗-拉普拉斯中心极限定理:设\(X_1,X_2,...X_n,...\)是独立同分布(independently identically distribution)的随机变量,\(X_i\)的分布是\(P(X_i=1)=p\),\(P(X_i=0) = 1- p\),$ 0 < p < 1$。

则对任何实数\(x\),有
\[
\lim_{n \to \infty} P\left( \frac{\sum \limits_{i=1}^{n}X_i - np}{\sqrt{np(1-p)}} \leq x \right) = \Phi(x)
\]
单个\(X_i\)服从伯努利分布,可以理解为属于某个特征和不属于某个特征,其满足\(\mu = p,\sigma^2 = p(1-p)\)。\(E(\sum \limits_{i=1}^{n}X_i) = np,Var(\sum \limits_{i=1}^{n}X_i) = np(1-p)\)。上式(证明从略),又表明当\(n \to \infty\)时,\(\sum \limits_{i=1}^{n}近似服从正态分布,\)\(\sum \limits_{i=1}^{n}X_i) \sim N(np,np(1-p))\),上式还可以改写为:
\[
\lim \limits _{n \to \infty}P\left(\frac{\bar X - p}{\sqrt{p(1-p)/n}} \leq x \right) = \Phi(x)
\]
对于\(n\)个伯努利随机变量,\(\bar X = n^{-1}\sum \limits_{i=1}^{n}X_i\)的实际意义即为\(X_i\)为"\(1\)" 类的占比。

样本方差的抽样分布

  • 在重复选取容量为\(n?\)的样本时, 由样本方差的所有可能取值形成的相对频数分布
  • 对于来自正态总体的简单随机样本, 则比值\(\frac{(n-1)s^2}{\sigma^2} \sim \chi_{n-1}^2\)

两个样本方差比的分布

  • 两个总体都为正态分布,即$ X_1 \sim N(\mu_1 ,\sigma_1^2)$ ,$ X_2 \sim N(\mu_2 ,\sigma_2^2 )$
  • 从两个总体中分别抽取容量为\(n_1?\)和\(n_2?\)的独立样本
  • 两个样本方差比的抽样分布, 服从分子自由度为 \((n_1-1)\), 分母自由度为\((n_2-1)\) 的\(F\)分布

说明:
\[
\frac{(n_1-1)s_1^2}{\sigma_1^2} \sim \chi_{n_1-1}^2 , \frac{(n_2-1)s_2^2}{\sigma_2^2} \sim \chi_{n_2-1}^2
\]

根据\(F\)分布的定义,上式相除有:
\[
\frac{s_1^2/s_2^2}{\sigma_1^2/\sigma_2^2} \sim F(n_1-1,n_2-1)
\]

原文地址:https://www.cnblogs.com/evian-jeff/p/11406219.html

时间: 2024-10-21 19:52:37

数据分析的统计基础5的相关文章

从零进阶!数据分析的统计基础

第 1 章数据分析概述 11.1 什么是数据分析 . 21.2 数据分析六步曲 . 21.2.1 明确分析目的和内容 . 21.2.2 数据收集. 31.2.3 数据预处理. 31.2.4 数据分析. 31.2.5 数据展现. 41.2.6 报告撰写. 51.3 数据分析方法简介 . 51.3.1 统计分析方法简介 . 51.3.2 数据挖掘方法简介 . 61.3.3 统计分析与数据挖掘的区别和联系 . 91.4 常用数据分析工具的安装 . 101.4.1 在 Excel 2013 中安装数据分

大数据为什么要选择Spark

大数据为什么要选择Spark Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析. Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发,其核心部分的代码只有63个Scala文件,非常轻量级. Spark 提供了与 Hadoop 相似的开源集群计算环境,但基于内存和迭代优化的设计,Spark 在某些工作负载表现更优秀. 在2014上半年,Spark开源生态系统得到了大幅增长,已成为大数据领域最活跃的开源项目之一,当下已活跃在Hortonwor

数据分析师教程_从小白到“数据分析师”大神进阶之路

课程学习地址:http://www.xuetuwuyou.com/course/231课程出自学途无忧网:http://www.xuetuwuyou.com 课程特色--成长六部曲小白脱白篇->数据分析篇->数据挖掘篇-> Python加薪冲刺篇->大数据分析师进阶篇-->精英项目实战篇 一.课程目标数据分析师秉承着总结凝练最先进的商业数据分析实践为使命,明晰各类数据分析从业者的知识体系为职责.本课程就是为了这个目标而量身订做的.旨在加强全球范围内正规化.科学化.专业化的大数

(原创)记录书籍和教程

书籍(纸质书和pdf文档): 已经看过 数学之美 统计学习方法 python基础教程 人工智能 神经网络与深度学习 深度学习 problem solving with algorithms and data sturctures using python 还没有看完的书籍 tensorflow机器学习实战指南 数据结构(python语言实现) 从零进阶 数据分析的统计基础 机器学习实战(一半) 算法设计与分析基础 想看的书籍 深入浅出统计学 利用python进行数据分析 剑指offer 程序员面

第九届CDA考试状元访谈,看看状元们都说了啥

第九届CDA数据分析师认证考试在2018年12月底圆满地落下了帷幕. 成绩已经揭晓(https://www.cda.cn/bigdata/26446.html),崭新的证书大抵都抵达每位通过考试的持证人手中啦! 近日,我们采访了在本届考试中名列前茅的几位优秀学员,并在本文中整理了他们的备考和学习经验,希望备考者们能够有所参考,并取得理想的成绩. 今天为大家带来的是CDA认证考试 Level 1 中成绩前六名的几位大神.其中四名并列状元,两位榜眼.下面让我们来一睹他们的风采吧! Level 1 状

数据分析经典图书推荐

一.基础知识:我们都该学点统计学? 统计学是一门以概率论为基础的方法论学科,主要通过收集数据,进行量化的分析.总结,并进而进行推断和预测,为相关决策提供依据和参考.它在几乎所有学科领域里面都具有重要的应用,从物理.社会科学到人文科学,甚至被用来工商业及政府的情报决策之上. 往近了说,想要成为一名数据分析师或已是数据分析师需要提高的,必须掌握最基本的统计基础知识.统计思想:下面给推荐的,是目前市面上有关统计学原理写的相当不错的一些图书,供大家学习参考!! 1.<深入浅出统计学> 购买地址:京东 

进入数据分析行业需要学习什么技能?

很多人看到了数据分析的广阔前景以及非常优厚的待遇,于是拼命想钻进数据分析这个行业.于是很多人开始疑惑了,进入数据分析行业需要学习什么技能呢?这个问题并不难回答,一般来说,数据分析需要学习统计知识和数据库知识以及编程的知识,只有学会了这些知识才能够做到入门数据分析这个行业.下面就由小编为大家详细分析一下这个问题. 首先给大家说的是统计基础,一般来说,理科和工科的学生在大学都学过<概率论与数理统计>,其实如果只做数据分析的话,这本书就完全够用的,在其他方面,只需要查找相关的书籍看看就可以了. 其次

我看你骨髓清奇,是个学数据分析的奇才。

本文转自知乎 作者:邹昕 ----------------------------------------------------- 整理一些数据分析入门的学习资料,顺便送几本书,有兴趣的请看文章最后. [0]入门互联网数据分析 不同行业不同公司要求会很不一样,比如说银行做数据分析.建模会要求 SAS/SQL,而互联网行业数据分析只要会 SQL 就可以了. 再比如说小公司可能会要求还会 R/Python 什么的,但是稍微中型一点的公司则可能只需要会 SQL 就行了. 乍一看有点奇怪,但其实也不奇

2019城市数据分析师教程 智慧城市数据分析视频教程

┣━━51实践专题一_城市空间数据的视觉表达 [298.6M] ┃    ┣━━51.1数据工作流及软件须知.mp4 [57M] ┃    ┣━━51.23D_Bar立体动态图表展现.mp4 [40.6M] ┃    ┣━━51.33D_City_Map城市综合地图.mp4 [38.6M] ┃    ┣━━51.4Global球面飞线轨迹模拟.mp4 [36.3M] ┃    ┣━━51.52D_Route_Map城市动态轨迹模拟.mp4 [56.6M] ┃    ┗━━51.63d_Bar_M