统计学一:描述统计

待处理数据的缺失和错误会极大地影响后续的数据分析,因:我们首先需要评估数据质量,进行诸如缺失值发现、极端值诊断、统计分布(样本数据的分布情况)观察和描述性统计(包括均值、方差、标准差、偏度、峰度等)等操作。

在本课节中,老师从北京市空气质量监测数据集入手,系统介绍以上知识点,帮助学员获得洞察数据的能力,包括:

  • 数据质量评估
  • 极端值诊断
  • 统计分布
  • 基本描述统计

截面数据(cross-section data)是指在同一时间(时期或时点)截面上反映一个总体的一批(或全部)个体的同一特征变量的观测值,是样本数据中的常见类型之一。例如,工业普查数据、人口普查数据、家庭收入调查数据。在数学,计量经济学中应用广泛。

监测站点:35个;

忽略时间上的差异:将供暖季120天的数据全部作为截面数据;

第一步:样本数据的描述统计;

剔除缺失数据:

横坐标:分组;纵坐标:频率;

曲线:概率密度曲线;

大部分都为样本分布;

对称分布/左偏分布/右偏分布:较低的线在哪边就是哪偏分布;

统计量刻画分布特征;

离差平方和:越大,离散程度越大;

极端值;

陡峭程度不同,也就是标准差不同时,面积不同:通过标准正态分布来计算——标准化处理;

标准正态分布:均值为0,标准差为1;

转为标准正态分布的目的:算面积;

任何一个正态分布,都可以转为标准正态分布;

SK:偏态系数;

大部分PM2.5值都在0-100之间;

红框框住的左边为下四分位数;

红框框住的为极端值;

对于非对称性分布:用1.5的四分位差的标准来算;

原文地址:https://www.cnblogs.com/momo798/p/11189365.html

时间: 2024-07-29 08:40:41

统计学一:描述统计的相关文章

统计学发展方向的选择

统计学发展方向的选择 摘要: 看这题目,多吓唬人.又是方向,又是选择.一看就是知道作者是一个深受商学院教育毒害的砖家!但是,想跟大家说的是,我真心想把这个题目整小点,但是困难.为什么?因为接下来跟大家瞎聊的故事,确实关乎发展方向, ... 看这题目,多吓唬人.又是方向,又是选择.一看就是知道作者是一个深受商学院教育毒害的砖家!但是,想跟大家说的是,我真心想把这个题目整小点,但是困难.为什么?因为接下来跟大家瞎聊的故事,确实关乎发展方向,确实关乎取舍.或者,至少关乎我自己的研究团队(小二十号兄弟姐

支撑统计学的七大支柱!

支撑统计学的七大支柱! JSM上统计界的老帮主Stephen Stigler做了一个主题演讲,讲“统计学的七大支柱”,好心又认真的Rick Wicklin同学记了笔记,彼时估计还在中国城吃饭的我才得以了解SS大人到底讲了什么.回头看看笔记,我觉得SS大人有点吹嘘统计学之嫌.所谓支柱,就是没了它咱就垮了.七大支柱为: 汇总:我们从数据汇总中获得知识.本小子认为汇总是统计的经典用途,但汇总(描述统计)只是统计学的一方面,另一个同样重要也相对更靠谱一些的方面是预测.我从来都是扬预测而抑汇总的,因为统计

统计学的领域

统计学的领域 作者注:本文是为中国人民大学统计学院本科院刊所写的稿件.走过了四年本科,觉得应该对后来人讲一些负责任的话,以使大家能更高效地学习.我认为人生的奋斗,怕的不是没有动力,而是有动力却不知道方向.因此,我把我所了解的统计学的领域介绍给大家,让大家早日了解一下统计学的基本内容,早日找到自己的方向.当然,仅仅四年的学习,得出的观点或多或少会浅薄,所以也请各位大师多多指点批评. 如果学了几年统计,还连统计的那个经典定义都背不出就不应该了,在此我不再啰嗦一遍.统计学也不是什么神秘的学科,它的目的

统计学基础知识

本文主要介绍:统计学基本概念.数据的收集.数据的描述.回归和分类.多元分析,其中回归和分类.多元分析是学习重点.统计学中的其它概念如:概率及分布.参数估计.假设检验属于经典统计的内容,在此文略去,时间序列分析及指数是金融方面的应用,也一并略去,如有需要请查阅相关书籍. 参考书籍: 贾俊平.<统计学>.第六版 王喜之.<统计学:从数据到结论>.第四版 1.统计学基本概念 统计学:收集.处理.分析.解释数据并从中得出结论的科学. 数据分析的方法可分为描述统计和推断统计.        

统计学基于SPSS贾俊平 授课笔记 发布作业 spss19cn 软件下载地址及破解包spss19_10039 下载地址

spss19cn软件下载地址及破解包spss19_10039 软件包下载地址一 http://www.33lc.com/soft/41991.html 软件包下载地址二 http://dl.pconline.com.cn/download/360100.html 破解包下载地址链接: https://pan.baidu.com/s/1hselVpU 密码: fbxq 统计结论举例 吸烟有害健康,吸烟的男性寿命减少2250天. 每天摄取500毫升维生素C,生命可延长6年. 问题一:这些统计结论是如

统计学基础

统计学基础 统计 本文主要是对公开课<简单统计学>及书本<商务与经济统计>的学习笔记及练习. 一.统计基本概念 统计基本范围 统计工作流程 随机变量的种类 二.常用统计量及统计图表 连续型数据特征值的计算 集中趋势的度量 平均数.中位数.众数: 分散趋势的度量 全距.方差(变异数).标准差: 分布形态的度量 偏度.峰度: 相关关系的度量 协方差.相关系数: 下面是一些用来表示样本统计量和总体参数的符号, 连续型数据特征值的应用 经验法则(切比雪夫定理的应用) 五数概括法(five-

统计学方法与数据分析学习笔记1

用于质量改进和再造工程的统计工具.技术和方法: 直方图 数值描述量(均值.标准差.比例等) 散点图 线图(在散点图中用线连接各点) 控制图:(样本均值),r(样本极差),及s(样本标准差) 抽样方案 试验设计 收集数据要有意识的做好以下几步: 详细说明研究.调查或试验的目标 确定所关心的变量 为调查或科学研究选择适当的设计方案 收集数据 抽样的方法: 简单随机抽样 分层随机抽样 比估计 整体抽样 系统抽样 统计领域可以分为两个主要分支:描述统计与推断统计 适当的概括性度量可以为原始测量值的集合提

统计学001

1. 什么是统计学, 统计学是收集.分析.表述和解释数据的科学 1.1 描述统计 常用于整理,描述所搜集数据的特征(如,根据一个班的学生成绩表,得出班级的平均成绩) 1.2 推论统计 通常是数据收集汇总后的下一步,推论统计常利用较小群体的数据(如一部分学生)来推论较大的群体(如艺术类所有学生)的特征. 2. 均值 均值反映: 样本均值是非常准确地反映总体均值的集中趋势数量 均值就像翘翘板上的支点,也就是中心点,也就是均值一边的所有数值等于均值另一边的所有数值, 不论好坏,均值对极值及其敏感,极值

统计学(第六版)1到4单元——学习总结

先做<统计学学习指导书> 总结经验:统计学第六版可以分为三部分.第一部分是1到3章介绍了统计学两个分类之类描述统计数据,而5678章讲述了推断统计,其余张节介绍了数据统计的总和应用的一些方法,如单双因素法,等...到时候详述 关于1-4节主要讲述的内容:首先介绍了什么是统计学,统计学主要分为两部分描述统计和推断统计,介绍了数据的类型分类数据.顺序数据.数值数据.界面数据,时序数据,观测数据,实验数据等:此外介绍了一下相关量,变量,总体,样本,参数,统计量等与统计学息息相关的名词 然后讲述了统计