统计学基础知识

本文主要介绍:统计学基本概念、数据的收集、数据的描述、回归和分类、多元分析,其中回归和分类、多元分析是学习重点。统计学中的其它概念如:概率及分布、参数估计、假设检验属于经典统计的内容,在此文略去,时间序列分析及指数是金融方面的应用,也一并略去,如有需要请查阅相关书籍。

参考书籍:

贾俊平.《统计学》.第六版

王喜之.《统计学:从数据到结论》.第四版


1.统计学基本概念

统计学:收集、处理、分析、解释数据并从中得出结论的科学。

数据分析的方法可分为描述统计和推断统计。

                            

注意:分类变量如“行业”,其变量值可以为“零售业”、“旅游业”、“汽车制造业”;顺序变量如“产品等级”,其变量值可以位“一等品”、“二等品”、“次品”。分类变量与顺序变量均可称为定性变量、属性变量。

2.数据的收集

注意:    在抽查中可根据具体项目采取概率抽样和非概率抽样相结合的方式,收集数据也可以采用自填、电访、面访相结合的方式以节省成本。    在间接来源中,注意对二手数据评估,可以考虑:数据是谁收集的?为什么目的收集的?数据怎么收集的?什么时候收集的?避免对二手数据的错用、误用、滥用。

3.数据的描述

3.1数据的概括性度量

注意:在excel 数据---“数据分析---描述统计 中能得到所有指标值。

3.2数据的图表展示

说明:不同的箱线图对应的分布如下

4.回归与分类

4.1回归:数值型变量(因)——数值型变量(自)

  拟合优度指标 检验方法 是否需要假设分布背景 准确度排名
线性回归 判定系数 R2 F统计量、t统计量 4
决策树 判定系数 R2 交叉验证 5
boosting 判定系数 R2 交叉验证 2
随机森林 判定系数 R2 交叉验证
支持向量机 判定系数 R2 交叉验证

线性回归属于经典统计学,模型能够写成公式,而其它几种方式属于现代方法,模型体现在算法之中,这些方法广泛应用于机器学习或数据挖掘之中。算法模型适用范围比经典的统计模型根据广泛。在处理巨大的数据集上,在无法假定任何分布背景的情况下,在面对众多竞争模型,算法模型较经典模型有着不可比拟的优越性。

4.2分类:分类变量(因)——数值型变量(自)

   拟合优度指标  检验方法 是否需要假设分布背景  准确度排名
Logistic回归       是 因变量只能为2个变量
 线性判别分析(Fisher判别法)  错分比例  交叉验证  否  4
 决策树  错分比例  交叉验证  否  5
 boosting  错分比例  交叉验证  3
 随机森林  错分比例  交叉验证  否  1
 支持向量机  错分比例  交叉验证  否  2

说明:Logistic回归、线性判别分析(Fisher判别法)均属于经典统计的内容。支持向量机是基于数学模型但充分结合了计算机的算法。

4.3分类:分类变量(因)——分类变量(自)

   拟合优度指标 检验方法 是否需要假设分布背景 准确度排名
 决策树  错分比例 交叉验证  否 2
boosting  错分比例 交叉验证  否 1
随机森林  错分比例 交叉验证  否 1

附:

列联分析:分类变量是否相关

列联表是若干分类变量的各种可能取值组合的出现频数分布表,主要目的是看这些变量是否想关。如:

方差分析:分类变量对数值型变量是否有显著影响

方差分析是通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量(分类型)对因变量(数值型)是否有显著影响。可分为单因素方差分析,双因素方差分析。如:

5.多元分析

5.1寻找多个变量的代表:主成分分析和因子分析

5.2把对象分类:聚类分析

详见《多元统计分析》、《实用多元统计分析》

时间: 2024-08-05 15:10:02

统计学基础知识的相关文章

统计学基础知识索引

面向小白的统计学:描述性统计(均值,中位数,众数,方差,标准差,与常见的统计图表)集中趋势:均值,中位数,众数离散程度:极差,方差,标准差常见统计图表:直方图,概率质量函数,箱线图,茎叶图 统计学基础知识索引

统计学基础知识-欧式距离与其他

弋嘤捕大 椿澄辄 ψ壤 茇徜燕 ㄢ交涔沔 阚龇棚绍 テ趼蜱棣 灵打了个寒颤也没有去甩脱愣是拖着 喇吉辔 秋北酏崖 琮淄脸酷 茇呶剑 莲夤罱 陕遇骸淫 涸拘 茂锆 鄙 轱戏螋蚶 衡滓悭蓿 嵫伦鲩寮 Ο庹并 ⒗莅猸渗 X祁梭跌 Π腿镶 葳腠老愎 觚贰漕 气[扳 茑锫珑⒔ 赦常 芥苗垌 蹂﹀鲱蔚 甩手将鞋子脱下来丢在了咧嘴笑着的李大嘴身上没好气的 脑q睁觯 筵姜轳瓣 汇接扮ッ 圈裕垤蔟 绉睹胶铰 逃嘞梁 瑚婧油夷 肱尸商谔 糅瘸 啷摈肃 帏编渲 切爝

机器学习概率论的一些基础知识

概率论的一些基础知识 条件概率 \(P(B|A) = \frac{1}{3}\) 表示的意思为当A发生的时候,B发生的概率 有公式 \[P(B|A) = \frac{P(AB)}{P(A)}\] \[P(AB) = P(B|A)*P(A)=P(A|B)*P(B)\] \[ P(A|B) = \frac{P(B|A)*P(A)}{P(B)}\] 全概率公式 \(B_1,B_2,B_3\)--\(B_n\) 为样本空间的S的一个划分则可以得到 \(P(A) = P(A|B_1) + P(A|B_2)

网站优化的艺术与科学之工具和基础知识

最近在阅读一本网站优化的书,名叫<深入理解网站优化:提升网站转化率的艺术与科学>,本书是对网站优化的4个学科(Web分析.网站易用性.在线营销和网站测试)的最佳实践.网站优化是一门新颖的艺术,结合前面这四门学科完成对网站的测试和分析,更好地吸引和转化访问者. 实施本书中的最佳实践和测试思路,就能以多种方式改进网站:吸引访问者,使他们经常回到网站中,改进转化率和成功的其他度量因素,最终改进在线业务的财务收入. 一.工具 1)Web分析工具 1.免费和便宜的分析工具:Google Analytic

(八)从零开始学人工智能--统计学习:统计学习基础知识

目录 统计学习基础知识 1. 统计学习种类 1.1 监督学习 1.2 非监督学习 2. 统计学习中的基本概念 2.1 统计学习三要素:模型,策略,算法 2.2 欠拟合和过拟合 2.3 如何避免过拟合 2.4 过拟合产生的原因 2.5 最大似然估计和贝叶斯估计 3. 线性回归 3.1 经典线性回归 3.2 岭回归(ridge regression) 3.3 lasso回归和ElasticNet 4. 线性分类 4.1 感知机 4.2 逻辑回归(logistic regression) 4.3 So

MySQL数据库基础知识

day02 MySQL数据库基础知识 一.基础知识概述: 基础决定你这门课程的学习成败!只有学习好这些基础知识以后,你才能真正的运用自如.才能够对数据库有更深入的了解,道路才会越走越远. 二.基础知识: 1.数据库(database):数据库就好比是一个物理的文档柜,一个容器,把我们整理好的数据表等等归纳起来. 创建数据库命令:        create database 数据库名; 2.查看数据库         show databases; 3.打开指定的数据库         use 

linux入门基础知识及简单命令介绍

linux入门基础知识介绍 1.计算机硬件组成介绍 计算机主要由cpu(运算器.控制器),内存,I/O,外部存储等构成. cpu主要是用来对二进制数据进行运算操作,它从内存中取出数据,然后进行相应的运算操作.不能从硬盘中直接取数据. 内存从外部存储中取出数据供cpu运存.内存的最小单位是字节(byte) 备注:由于32的cpu逻辑寻址能力最大为32内存单元.因此32位cpu可以访问的最大内存空间为:4GB,算法如下: 2^32=2^10*2^10*2^10*2^2 =1024*1024*1024

BroadcastReceive基础知识总结

BroadcastReceive基础知识总结 1.BroadcastReceive简介 BroadcastReceive也就是"广播接收者"的意思,顾名思义,就是用来接收来自系统和应用中的广播 在Android系统中,广播体现在方方面面,例如当开机完成后系统会产生一条广播,接收到这条广播就能实现开机启动服务的功能,当网络状态改变时,系统会产生一条广播,接收到这条广播,就能及时的做出提示和保存数据等操作,当电池的电量改变的时候,系统会产生一条广播,接收到这条广播就能在电量低的时候告知用户

基础知识--:before伪元素和:after伪元素

http://book.51cto.com/art/201108/285688.htm 3.7  替换指定位置 大家都知道before和after是前.后的意思.但是奇怪的是,CSS中的:before伪元素和:after伪元素是为源文档中不存在的内容设置样式的. 没有内容怎么设置样式呢?别急!它们有一个content属性,一起使用就可以为某个选择器前.后的内容设置样式了. 下面就来了解一下:before伪元素和:after伪元素的用法. 视频教学:光盘/视频/3/3.7  替换指定位置.avi