SPSS(一)方差、相关和回归

引言

全局的概览+八个案例+窜一下

抽象的一般具有连续的性质,分类变量的小数位是没有意义的。抽象的变量,它的0往往是没有意义的,比如说幸福感。同样是连续性变量,有的0是有意义的,比如说订单量,如果0是有意义的,可以进行加减乘除运算,0没有意义,加减是可以的。标度可以分:间距(抽象的)和比率(0是有意义的,不抽象的变量)。抽象叫潜,不抽象叫显,潜变量和显变量。潜变量是用来表示未来的,显变量是表示现在和过去。显变量不是预测,是用来描述,潜变量是用来预测的。显是用来归一,潜是用来

四种测量,名义、有序、间距和比率。名义和有序,顺序。有序、间距,等距。间距、比率,抽象。Y讲测量,X讲选择。关于XY,就是角色。角色就是演戏,主角Y,通过一系列的过程塑造出来,主要是输入和目标在演,其他四个是跑龙套的。测量在统计是重点,角色不是特别重要,建议也设,拿到数据,先看一下行有多大,再看列,在了解业务的基础上设。Excel中没有,因为不是专业的统计软件。

知识点:数据流(项目流)、数据测量、y和x

线性回归流程

量化需求Y,比如客户流失,然后找到客户流失的因素,x1/x2/x3……,对Y的影响不是相同的,y=β0+β1x1+βx+……+ε

R方,再加上一个误差。我想知道这个客户未来会不会走,我需要知道未来的x,未来昂贵的y不容易获得,但是可以获得廉价的x,比如雨季来临,蛋糕销售量增加,这就是廉价的x和昂贵的y,每年减少1250亿欧元。如果未来的x很昂贵,你的模型就是无意义的。

这个时候y如果是连续性变量,就是线性回归:

第一歩就是画散点图,描述变量之间相关性的图形,这是我们学统计学第一个要学习的图,散点图第一个要看它的主体和模式,第一个是看相关,第二个看趋势,第三个看异常。

回归的箱数就是15节以内,后面的x是不能很多的,影响y的因素是很多的,r相关公式,判断一个x和y之间的关系,一个一个x来看的,第二个这个相关的应用场景,小数据和大数据,第三个相关和归因之间的关系,这是相关回答三个问题。

第三步,x和y之间的关系叫回归,需要解读回归,局部β,整体R方,评估整体前两个y和x,还有一个尾巴,就是残差。

第四歩,残差分析。y身上有两样东西,固定的是有用的,随机的是没有用的,把固定的提取出来的,随机不会贡献相关,固定的会贡献相关。

第五步,就是模型的应用,分四种。主次归因、规则归因,老样本和新样本预测。

统计学家从均值开始,老百姓是从0开始的,方差就是研究偏离均值的差异,每个点偏离均值的远见,才会构成统计信息,方差本来定义就是偏离大众的远近,1234都是方差,只不过2是最有名的方差而已,两个方差相乘就是协方差,相关:在万事万物中,两个变量方向和大小的,

一三象限是正相关的,二四象限是负相关,

主体模式:椭圆,r 0-1,

(常用:第一级 ;默认:第二级(自由不不自由之间的界限),这就是统计学的主流方法。Python和SAS就没有默认。)

大数据:数据库、云、种包(开源)。P值在大数据就不用了,是在小数据里用的。我的这个课是由小数据逐渐过渡到大数据,比较这四天的课和前面的统计学的不同,因为很多推翻了前面的方法,机器学习和统计学的不同。大数据用的是智能技术,而不是假设检验。P不能用了,用什么呢?效应表,注意不是效用表。效应表就是0-1,<0.1无相关,0.1-0.35低相关,0.35-0.7统计研究的多数内容都是这个范围的,0.1-0.7几乎是我们遇到的大部分数据场景,0.7-0.9高相关,0.9-1高危相关(共变关系)。

(模型变好的三个途径:调参、找更好的x,做合理的预分析。)

小数据要归因,大数据不归因。不是不归因,而是工具归因。雨季来临,蛋糕销量增加,雨季就是工具归因,方便原则,第二个是经济原则。

小结:相关第一个重点就是公式,工具归因,第三个就是相关效应的大小。

三、回归

观测值和估计值,相信估计值。测量-方差-回归。估计值除以测量值,就是效度指标。F回答有无用处,R方回答模型多大程度可信。

价格细目表、百分制

二八原理

线性回归和逻辑回归擅长解决的是主次归因,而不是规则归因。新样本预测是没有y值的,老样本是有的。大数据分析的是老样本。小数据是新样本预测。

统计模型怎么学习:

机器学习一般是干什么的,然后你不要做机器学习可以做的,无人驾驶的例子,大部分的银行已经把评分卡做好了,现在主要是做速度,因此银行现在需要培养业务专家就好,配合数据算法,建议你不管学什么算法,学一点相关的机器学习,现在写作的领域都可以用机器学习代替了,树立未来的方向,每学一个统计学习的算法,就学一个相关的人工智能的算法。

预习:逻辑回归的前提、优缺点、一般使用。

原文地址:https://www.cnblogs.com/BC10/p/11714864.html

时间: 2024-10-27 08:38:02

SPSS(一)方差、相关和回归的相关文章

【程序员眼中的统计学(12)】相关与回归:我的线条如何? (转)

阅读目录 目录 1 算法的基本描述 2 算法的应用场景. 3算法的优点和缺点 4 算法的输入数据.中间结果以及输出结果 5 算法的代码参考 6 共享 相关与回归:我的线条如何? 作者 白宁超 2015年10月25日22:16:07 摘要:程序员眼中的统计学系列是作者和团队共同学习笔记的整理.首先提到统计学,很多人认为是经济学或者数学的专利,与计算机并没有交集.诚然在传统学科中,其在以上学科发挥作用很大.然而随着科学技术的发展和机器智能的普及,统计学在机器智能中的作用越来越重要.本系列统计学的学习

SPSS数据分析—多分类Logistic回归模型

前面我们说过二分类Logistic回归模型,但分类变量并不只是二分类一种,还有多分类,本次我们介绍当因变量为多分类时的Logistic回归模型. 多分类Logistic回归模型又分为有序多分类Logistic回归模型和无序多分类Logistic回归模型 一.有序多分类Logistic回归模型 有序多分类Logistic回归模型拟合的基本方法是拟合因变量水平数-1个Logistic回归模型,也称为累积多分类Logit模型,实际上就是将因变量依次分割成两个等级,对这两个等级建立二分类Logistic

SPSS数据分析—最优尺度回归

在之前介绍的线性回归模型中,有一个隐含的假设是自变量均为连续变量,但实际上自变量有时候是分类变量,类似于方差分析中的因素,这种分类自变量在回归分析中,也默认作为连续变量使用,这就会产生一个问题,如果是无序分类变量,那么各类别间没有高低之分,每变化一个单位,对于因变量的影响是相同的,无法分析当中的趋势,虽然可以使用哑变量,但是当分类变量过多或每个变量的类别水平过多时,这种方法非常繁琐,此外,当类别较多时,可能会存在某几个类别对因变量的作用相似,这是可分析的点,但是传统线性模型却将此信息忽略,造成信

SPSS数据分析—Probit回归模型

Probit含义为概率单位,和Logistic回归一样,Probit回归也用于因变量为分类变量的情况,通常情况下,两种回归方法的结果非常接近,但是由于Probit回归的结果解释起来比较抽象不易理解,因此应用不如Logistic回归那样广泛. Probit回归是基于正态分布理论上进行的,而Logistic回归是基于二项分布,这是二者的区别,当自变量中连续变量较多且符合正态分布时,可以考虑使用Probit回归,而自变量中分类变量较多时,可考虑使用Logistic回归. 在SPSS中,有两个过程可以进

本人用到了spss重要功能总结

一.SPSS篇 (1)用spss剔除异常值 异常值:一组观测值中与平均值的偏差超过两倍标准差的测定值. 一.analyze >> descriptive statistics >>descriptives>>  选择变量(列)到右边的框里>>点选save standardized values as variables >>选择ok 二.在data里选中select cases,之后选择if相关,点按钮设置,进入后输入-2<=变量&

机器学习-正则化(岭回归、lasso)和前向逐步回归

机器学习-正则化(岭回归.lasso)和前向逐步回归 本文代码均来自于<机器学习实战> 这三种要处理的是同样的问题,也就是数据的特征数量大于样本数量的情况.这个时候会出现矩阵不可逆的情况,为什么呢? 矩阵可逆的条件是:1. 方阵 2. 满秩 X.t*X必然是方阵(nxmxmxn=nxn,最终行列数是原来的X矩阵的列数,也就是特征数),但是要满秩的话,由于线性代数的一个结论,X.t*X的秩不会比X大,而X的秩是样本数和特征数中较小的那一个,所以,如果样本数小于特征数的话,X.t*X就不会是可逆的

基于Python的函数回归算法验证

看机器学习看到了回归函数,看了一半看不下去了,看到能用方差进行函数回归,又手痒痒了,自己推公式写代码验证: 常见的最小二乘法是一阶函数回归回归方法就是寻找方差的最小值y = kx + bxi, yiy-yi = kxi+b-yi方差为∑(kxi + b - yi )^2f = k^2∑xi^2 + b^2 + ∑yi^2 +2kb∑xi - 2k∑xi*yi - 2yib求极值需要对其求微分,因为是二元函数,因此使用全微分公式,其极值点应该在两个元的偏微分都为0处δf/δk = 2k∑(xi^2

作业一 统计软件简介与数据操作

spss软件 所属类别 : 软件 SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件.最初软件全称为"社会科学"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正

钱镜第一次作业

一.spss软件 SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件.最初软件全称为"社会科学统计软件包"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正在做出