【概率论与数理统计】小结1 - 基本概念

注:其实从中学就开始学习统计学了,最早的写"正"字唱票(相当于寻找众数),就是一种统计分析的过程。还有画直方图,求平均值,找中位数等。自己在学校里并没有完整系统的学习过概率论和数理统计,直到在工作中用到,才从最初的印象中,逐渐把这门学科与整个数学区分开来。自从认识到这门学科在自己从事的工作(数据分析)中所处的重要地位,真没少花时间在这方面的学习上。从最初的p值的含义,到各种分布,假设检验,方差分析。。。有的概念看过很多遍,但还是没有理解透彻;有的看过,长时间不用,又忘记了。总之,这一路走来,实在是崎岖坎坷。因此,打算在最近专门抽出一段时间对自己学习过的《概率论与数理统计》做一个小结,也算是对自己的一个交代。主要包括以下几个方面:

  • 基本概念;
  • Python的实现;
  • 一些比较经典的例子。

以下主要根据浙江大学在中国大学MOOC上的公开课笔记,整理而来:

基础中的基础



统计规律性:

在所有可观察的现象中,可以从大的方面分为两类——必然现象随机现象

物理学中各种定律描述的基本上都是必然现象,比如物体会因为重力而从高处下落,某一时刻地球位于太阳系中的位置。这些现象的发生都是确定无疑的,如果我们完全认识了它们的内在规律,那么在发生之前就是可以完全准确的预测出结果。但是还有一类现象是不确定的。它的不确定性表现在,事先无法准确的预测其结果。唯一可以获得这类现象的结果的办法是等到它们发生之后。最典型的例子就是抛硬币。抛一枚均匀的硬币之前,已知结果只有正面和反面两种,但是无法知道到底会是哪一面。生活中还有很多这样的事情,比如说,跟喜欢的人表白;明天是否会下雨等。可以看到,这些现象单次发生的时候,是毫无规律可循的。也正是有了这两种现象,才让这个世界既可以被认识,又不至于完全可以被预测(那不知道会多无聊)。

但当我们在相同的条件下,大量重复(如果可以的话)做某件不确定的事,然后统计实验结果,就有可能发现某种规律。还是拿抛硬币来举例,每次抛硬币都不知道会得到正面还是反面,但如果有耐心将一枚均匀的硬币抛20,000次(已经有多位著名的统计学家这么做过了),然后统计一下正反面分别出现了多少次,就可以发现它们差不多都是10,000次,也就是差不多各占50%。上面的抛硬币的例子中,随机现象(抛硬币)在相同的条件下,大量重复试验中呈现的规律性就叫做统计规律性。《概率论与数量统计》就是研究随机现象的统计规律的一门学科。从这里也可以看到样本量的多少对研究随机变量的规律的影响是巨大的。

概率论与数量统计:

实际上,一般概率论与数理统计被认为是两个学科。

概率论是数学的一个分支,研究如何定量描述随机变量及其规律;

数理统计则是以数据为唯一研究对象,包括数据的收集、整理、分析和建模,从而对随机现象的某些规律进行预测或决策。

怎么学习概率论与数量统计:

  1. 学思想:如何看待和处理随机规律性;
  2. 学方法:建立统计模型;
  3. 学应用:模型的实际应用,也可以自己收集、寻找各种实例;
  4. 学软件:掌握统计软件的使用和结果分析。

检验标准:对"随机"有足够的认识;对"数据"有兴趣、有感觉。

随机试验与样本空间



随机试验:

对随机现象的观察、记录、实验统称为随机试验。它具有以下特性:

  • 可以在相同条件下重复进行;
  • 事先知道所有可能出现的结果;
  • 进行试验前不知道哪个试验结果会发生。

样本空间:

随机试验的所有可能结果构成的集合。一般即为S(大写的S)。

S中的元素e称为样本点(也可以叫做基本事件);

事件是样本空间的子集,同样是一个集合;

事件的相互关系:

  • 事件的包含:A⊆B
  • 事件的相等:A=B
  • 事件的积(交):A∩B,AB
  • 互斥事件(互不相容事件):不能同时出现
  • 事件的和(并):A∪B
  • 事件的差:A-B,A发生,B不发生
  • 对立事件(逆事件):互斥,必需出现其中一个

事件的运算性质就是集合的性质

频率与概率



频率:

频率是0~1之间的一个实数,在大量重复试验的基础上给出了随机事件发生可能性的估计。

频率的稳定性:在充分多次试验中,事件的频率总在一个定值附近摆动,而且,试验次数越多摆动越小。这个性质叫做频率的稳定性。

概率:

概率的统计性定义:当试验次数增加时,随机事件A发生的频率的稳定值p就称为概率。记为P(A)=p

概率的公理化定义:设随机试验对于的样本空间为S。对每一个事件A,定义P(A),满足:

  1. 非负性:P(A) ≥ 0;
  2. 规范性:P(S) = 1;
  3. 可列可加性:A1, A2, ...两两互斥,及AiAj = ∅, i≠j, 则P(∪Ai) = ∑P(Ai)

概率是随机事件的函数,对于不同的事件,取不同的值

条件概率:

P(A|B)表示在事件B发生的条件下,事件A发生的概率,相当于A在B中所占的比例。此时,样本空间从原来的完整样本空间S缩小到了B

由于有了条件的约束(事件B),使得原来的样本空间减小了。

               

例:一个家庭中有两个小孩,已知至少一个是女孩,问两个都是女孩的概率是多少?

(假定生男生女是等可能的)

解:由题意,样本空间为

S = {(兄, 弟), (兄, 妹), (姐, 弟), (姐, 妹)}

B = {(兄, 妹), (姐, 弟), (姐, 妹)}

A = {(姐, 妹)}

由于事件B已经发生,所以这时试验的所有可能只有三种,而事件A包含的基本事件只占其中的一种,所以有:

P(A|B) = 1/3,

即在已知至少一个是女孩的情况下,两个都是女孩的概率为1/3。

在这个例子中,如果不知道事件B发生,则事件A发生的概率为P(A) = 1/4

这里P(A) ≠ P(A|B),其原因在于事件B的发生改变了样本空间,使它由原来的S缩减为新的样本空间SB = B。

后面会继续补充~

Reference



...

时间: 2024-10-09 18:16:54

【概率论与数理统计】小结1 - 基本概念的相关文章

【概率论与数理统计】小结2 - 随机变量概述

注:对随机变量及其取值规律的研究是概率论的核心内容.在上一个小结中,总结了随机变量的概念以及随机变量与事件的联系.这个小结会更加深入的讨论随机变量. 随机变量与事件 随机变量的本质是一种函数(映射关系),在古典概率模型中,“事件和事件的概率”是核心概念:但是在现代概率论中,“随机变量及其取值规律”是核心概念. 随机变量与事件的联系与区别 小结1中对这两个概念的联系进行了非常详细的描述.随机变量实际上只是事件的另一种表达方式,这种表达方式更加形式化和符号化,也更加便于理解以及进行逻辑运算.不同的事

【概率论与数理统计】小结9 - 参数估计概述

注:在统计学的应用中,参数估计和假设检验是最重要的两个方面.参数估计是利用样本的信息,对总体的未知参数做估计.是典型的“以偏概全”. 0. 参数及参数的估计 参数是总体分布中的参数,反映的是总体某方面特征的量.例如:合格率,均值,方差,中位数等.参数估计问题是利用从总体抽样得到的信息来估计总体的某些参数或者参数的某些函数. 问题的一般提法 设有一个统计总体,总体的分布函数为$F(x, \theta)$,其中$\theta$为未知参数.现从该总体取样本$X_1, X_2, ..., X_n$,要依

概率论与数理统计图示(第一章 概率论的基本概念)1.2概率

概率论与数理统计图示(第一章 概率论的基本概念) 1.2概率 1.概念 概率:对随机时间发生可能性大小的客观度量 频率:频率≠概率,只能作为概率估计 古典概率:有限性.等可能性 几何概率:古典概率的推广,将“等可能性”推广至“均匀性” 2.概率公理化定义 1.非负性:0≤P(A)≤1 2.规范性:P(Ω)=1 3.可例(完全)可加性:事例互不相容——事件概率和=事件和概率 3.概率的性质 1) P(Φ)=0 2)有限可加性 3)单调性 4)P(A)=1-P(A) 5)一般减法公式 P(A)=P(

【概率论与数理统计】小结3 - 一维离散型随机变量及其Python实现

注:上一小节对随机变量做了一个概述,这一节主要记录一维离散型随机变量以及关于它们的一些性质.对于概率论与数理统计方面的计算及可视化,主要的Python包有scipy, numpy和matplotlib等. 以下所有Python代码示例,均默认已经导入上面的这几个包,导入代码如下: import numpy as np from scipy import stats import matplotlib.pyplot as plt 0.  Python中调用一个分布函数的步骤 scipy是Pytho

【概率论与数理统计】小结10-1 - 假设检验概述

注:终于写到最激动人心的部分了.假设检验应该是统计学中应用最广泛的数据分析方法,其中像"P值"."t检验"."F检验"这些如雷贯耳的名词都来自假设检验这一部分.我自己刚开进入生物信息学领域,用的最多的就是"利用t检验来判断某个基因在实验组和对照组中表达量的差异是否显著".此外,对"P值"真正含义的探究也开启了自学概率论与数理统计之路.因此无论是应用价值,还是对我学习统计学的影响,这部分的内容都是意义非凡的.

【总目录】——概率论与数理统计及Python实现

注:这是一个横跨数年的任务,标题也可以叫做“从To Do List上划掉学习统计学”.在几年前为p值而苦恼的时候,还不知道Python是什么:后来接触过Python,就喜欢上了这门语言.统计作为数据科学的基础,想要从事这方面的工作,这始终是一个绕不过去的槛. 其实从中学就开始学习统计学了,最早的写"正"字唱票(相当于寻找众数),就是一种统计分析的过程.还有画直方图,求平均值,找中位数等.自己在学校里并没有完整系统的学习过概率论和数理统计,直到在工作中用到,才从最初的印象中,逐渐把这门学

概率论和数理统计的总结(一)

迄今为止,看得最为亲切的一本概率论与数理统计方面的书莫过于陈希孺先生的这本,陈先生用一种娓娓道来的语气把很多原本复杂的内容讲得那么清晰,而且并不是就着这一点知识而讲,能结合前后知识体系一起介绍. 这本书名为<概率论与数理统计>,主要也是讲两大知识体系,前半部分(前三章)讲概率论,后半部分(后三章)讲数理统计. 就知识点来看,第一章讲事件的概率,包括什么是概率(概率是什么),古典概率计算以及事件的计算.条件概率和概率的独立性.在这一章里,事件是整个概率的基础,如何定义概率也是整个概率论知识体系演

概率论与数理统计学习笔记

第一章 随机事件与概率 第二章 随机变量及其分布 第三章 多维随机变量及其分布 第四章 大数定律与中心极限定理 第五章 统计量及其分布 第六章 参数估计 第七章 假设检验 第八章 方差分析与回归分析 第一章 随机事件与概率 1.1随机事件及其运算 概率论与数理统计研究的对象是随机现象. 概率论是研究随机现象的模型(即概率分布),数理统计是研究随机现象的数据收集与处理. 随机现象: 在一定的条件下,并不总是出现相同结果的现象称为随机现象 样本空间:随机现象的一切可能基本结果组成的集合称为样本空间

概率论与数理统计复习

概率论与数理统计复习            第一章  概率论的基本概念 一.基本概念 随机试验E:(1)可以在相同的条件下重复地进行;(2)每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果;(3)进行一次试验之前不能确定哪一个结果会出现. 样本空间S: E的所有可能结果组成的集合.  样本点(基本事件):E的每个结果. 随机事件(事件):样本空间S的子集. 必然事件(S):每次试验中一定发生的事件. 不可能事件(F):每次试验中一定不会发生的事件. 二. 事件间的关系和运算 1.AB