统计学001

1. 什么是统计学,

统计学是收集、分析、表述和解释数据的科学

1.1 描述统计

常用于整理,描述所搜集数据的特征(如,根据一个班的学生成绩表,得出班级的平均成绩)

1.2 推论统计

通常是数据收集汇总后的下一步,推论统计常利用较小群体的数据(如一部分学生)来推论较大的群体(如艺术类所有学生)的特征.

2. 均值

均值反映:

样本均值是非常准确地反映总体均值的集中趋势数量

均值就像翘翘板上的支点,也就是中心点,也就是均值一边的所有数值等于均值另一边的所有数值,

不论好坏,均值对极值及其敏感,极值会使均值向一个方向或另一个方向倾斜,也使得均值对数据组的代表性减弱,同时作为集中趋势量数的有效性减弱.

关于均值偏差:

算术平均数定义的基点是均值偏差为0,如数据 3 ,4, 5 的均值是4,均值的偏差(-1,0,1)总和为0.

3.中位数

为什么使用中位数而不使用均值,因为中位数对极值不敏感,而均值不是.

如果数据集中有一个或许多个或极值,中位数是相对其它集中趋势量数更好表达数据集的中心值

均值是一系列数值的中间点,而中位数是一系列个体的中间点.

因为中位数关注的是有多少个个体,而不是这些个体的数值,极致就不会对它产生影响.

时间: 2024-10-18 17:24:59

统计学001的相关文章

统计学常用概念:T检验、F检验、卡方检验、P值、自由度

1,T检验和F检验的由来 一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定. 通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果.倘若经比较后发现,出现这结果的机率很少,亦即是说,是在机会很 少.很罕有的情况下才出现:那我们便可以有信心的说,这不是巧合,是具有统计学上的意义的(用统计学的话讲,就是能够

统计学中的P值与显著性的意义

统计学意义(p值) 结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法.专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标.p值是将观察结果认为有效即具有总体代表性的犯错概率.如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的.即假设总体中任意变量间均无关联(变量之间的独立性成立),我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果.(这并不是说如果变量间存在关联,我们

PE 001~010

题意: 001(Multiples of 3 and 5):对小于1000的被3或5整除的数字求和. 002(Even Fibonacci numbers):斐波那契数列中小于等于4 000 000的偶数求和. 003(Largest prime factor):求600 851 475 143的最大质因数. 004(Largest palindrome product):求由两个三位数相乘得到的最大回文数. 005(Smallest multiple):求能被1~20中所有数整除的最小正整数.

【程序员眼中的统计学(7)】正态分布的运用:正态之美

正态分布的运用:正态之美 作者 白宁超 2015年10月15日18:30:07 摘要:程序员眼中的统计学系列是作者和团队共同学习笔记的整理.首先提到统计学,很多人认为是经济学或者数学的专利,与计算机并没有交集.诚然在传统学科中,其在以上学科发挥作用很大.然而随着科学技术的发展和机器智能的普及,统计学在机器智能中的作用越来越重要.本系列统计学的学习基于<深入浅出统计学>一书(偏向代码实现,需要读者有一定基础,可以参见后面PPT学习).正如(吴军)先生在<数学之美>一书中阐述的,基于统

【第四组】典型场景:查看导入的图片,工作序号:001,2017/7/6

场景 工作项序号001:查看导入的图片,最后修改时间:2017/7/6 1. 背景 1) 典型用户:罗小欧[主要].朱小叶[主要] 2) 用户的需求/迫切需要解决的问题 a. 罗小欧:出去玩拍了好多照片,想要在一个地方看到这些照片. b. 罗小欧:把照片放到了好几个文件夹,每次都要点开好几个文件夹,好麻烦. c. 朱小叶:我就想静静的欣赏下我们拍的照片. 3) 假设: a. 用户已经拍摄好照片 b. 用户指定的照片路径无误 2. 场景 罗小欧打开我们的TOUCH App,进入设置界面,添加他存放

JAVA程序设计心得001

JAVA程序设计心得001:java语言之所以能够跨平台,是因为java程序并不运行在操作系统中,而是运行在java虚拟机上.java虚拟机并不是硬件方面的东西,而是用于运行java程序的软件平台.JVM是分时操作系统的版本,例如运行在Windows中的jvm,当运行java程序时,虚拟机会吧该程序解析成window能够识别的代码,而java程序转移在linux系统中的JVM后,则就解析成Linux能够识别的代码.

【程序员眼中的统计学(9)】总体和样本的估计:进行预测

总体和样本的估计:进行预测 作者 白宁超 2015年10月15日18:30:07 摘要:程序员眼中的统计学系列是作者和团队共同学习笔记的整理.首先提到统计学,很多人认为是经济学或者数学的专利,与计算机并没有交集.诚然在传统学科中,其在以上学科发挥作用很大.然而随着科学技术的发展和机器智能的普及,统计学在机器智能中的作用越来越重要.本系列统计学的学习基于<深入浅出统计学>一书(偏向代码实现,需要读者有一定基础,可以参见后面PPT学习).正如(吴军)先生在<数学之美>一书中阐述的,基于

【数据分析/挖掘必备知识】统计学之卡方分布

统计学之卡方分布 作者 白宁超 2015年8月9日22:33:00 摘要:本文针对统计学之卡方分布的学习总结.本文首先介绍什么是卡方分布,以及卡方分布到底有何用处.然后根据其主要作用和特点进行剖析.采用题引方式进入卡方介绍,为了对概念深刻理解,则采用问题解决方式,遇到问题,首先介绍其概念以及实际使用的场景.主线采用卡方的两个主要用途检验拟合优度与检验两个变量的独立性,如果第一次听到此概念,也不用担心随后展开介绍.最后根据概念适应作以总结.再次基础上对核心内容进行扩展并对必要部分进行代码实现或者实

排序和顺序统计学(1)

也有好几天没记录算法学习情况了,这两天看了<算法导论>的第二部分,排序和顺序统计学,记录一下,也顺便增强记忆 1.堆排序 就是最大堆和最小堆,用一维数组存储,数据结构是完全二叉树.主要过程分为构建最大/最小堆,插入操作,弹出最大值,取最大/最小值,改变堆中的权值. 构建堆就是从第一个非叶子节点开始,倒数到第一个节点,对于每个节点执行以下函数(最大堆为例): void heapify(int x){ int largest; if (x*2<=heapsize&&a[x]