z-score、方差、相关系数

z-score值:

  (某值-mean)/标准差=z-score  

  zi=(xi-均值)/s,zi又称为标准分数。这是统计中的标准化公式。它给出了一组数据中各个数据的相对位置。

  该公式的意义:

    一个数减去均值,可认为是:该数偏离均值的程度。

    因为,标准差可以认为是一组数的平均离散程度。所以,减去均值后再除以sd,可认为是:(该数偏离平均值的程度)是(整组数平均偏离程度)的几倍。

    所以,针对每一个数都可以计算它的z-score值。  

  例子:

    一组数:   X=(25,28,31,34,37,40,43)  X的平均数:34  X的标准差:(81+36+9+9+36+81)/7 = 37, 37的平方根:6。所以标准差=6

    减平均数:-9,-6,-3,0,3,6,9

    除以标准差:Y=(-1.5, -1,-0.5, 0, 0.5, 1, 1.5)  Y的平均数:0  Y的标准差:(2.25+1+0.25+0.25+1+2.25)/7=1,1的平方根:1。所以标准差=1

    即:将上面的一组数,转换成了下面的一组正负值的数。

  由此例子,可以看出:z-score(即Y值)具有平均数是0,标准差是1的特性。符合标准正态分布。

  z-score只是对原来的数据进行线性变换,并没有改变某个数据在该组数据中的位置,也没有改变这组数据的分布形状。它只是将该组数据变为平均数为0,标准差为1的一组数。

  这样,就可以利用正态分布的一些特性。(此处还不太懂,后续补充吧)

方差:

  与均值之差的平方的和的平均数。

  标准差的计算公式:

  

相关系数:

  衡量两组数据之间的关系 。比如:X=(x1,x2,...),Y=(y1,y2,...)

  反应的是变量之间的线性关系和相关性的方向(正相关、负相关)。比如,0表示X与Y之间不相关;1表示X与Y正相关,X变大,Y也变大;-1表示X与Y负相关,X变小,Y也变小。

  有3种定量相关性association的方法:OR、RR(risk ratio)、ARR(abolute risk reduction)

  

原文地址:https://www.cnblogs.com/zypiner/p/12532979.html

时间: 2024-11-04 11:43:57

z-score、方差、相关系数的相关文章

小马哥课堂-统计学-z分数

Standard score(z-分数) The standard score is the signed number of standard deviations by which the value of an observation or data point differs from the mean value of what is being observed or measured.Observed values above the mean have positive stan

CFA一级知识点总结

Ethics 部分 Objective of codes and standard:永远是为了maintain public trust in 1. Financial market 2. Investment profession 6个code of ethics 1. Code 1—ethics and pertinent d persons a. 2. Code 2---primacy of client’s interest a. Integrity with investment pr

层次聚类,转自http://blog.sina.com.cn/s/blog_62f3c4ef01014uhe.html

Matlab提供系列函数用于聚类分析,归纳起来具体方法有如下: 方法一:直接聚类,利用clusterdata函数对样本数据进行一次聚类,其缺点为可供用户选择的面较窄,不能更改距离的计算方法,该方法的使用者无需了解聚类的原理和过程,但是聚类效果受限制. 方法二:层次聚类,该方法较为灵活,需要进行细节了解聚类原理,具体需要进行如下过程处理:(1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离:(2)用 linkage函数定义变量之间的连接:(3)用 cophenet

数学专业英语词汇

1 概率论与数理统计词汇英汉对照表 Aabsolute value 绝对值 accept 接受 acceptable region 接受域 additivity 可加性 adjusted 调整的 alternative hypothesis 对立假设 analysis 分析 analysis of covariance 协方差分析 analysis of variance 方差分析 arithmetic mean 算术平均值 association 相关性 assumption 假设 assum

Matlab聚类分析(Cluster Analyses)

Matlab提供系列函数用于聚类分析,归纳起来具体方法有如下: 方法一:直接聚类,利用clusterdata函数对样本数据进行一次聚类,其缺点为可供用户选择的面较窄,不能更改距离的计算方法,该方法的使用者无需了解聚类的原理和过程,但是聚类效果受限制. 方法二:层次聚类,该方法较为灵活,需要进行细节了解聚类原理,具体需要进行如下过程处理:(1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离:(2)用 linkage函数定义变量之间的连接:(3)用 cophenet

地理信息系统 - ArcGIS - 高/低聚类分析工具(High/Low Clustering ---Getis-Ord General G)

前段时间在学习空间统计相关的知识,于是把ArcGIS里Spatial Statistics工具箱里的工具好好研究了一遍,同时也整理了一些笔记上传分享.这一篇先聊一些基础概念,工具介绍篇随后上传. 空间统计研究起步于上个世纪70年代,空间统计其核心就是认识与地理位置相关的数据间的空间依赖.空间关联等关系,通过空间位置建立数据间的统 计关系.空间统计学依赖于tablor地理学第一定律,即空间上越临近的事物拥有越强的相似程度:和空间异质性,即空间位置差异造成的行为不确定现象.例 如要度量犯罪率与教育程

matlab做聚类分析

说明:如果是要用matlab做kmeans聚类分析,直接使用函数kmeans即可.使用方法:kmeans(输入矩阵,分类个数k). 转载一: MATLAB提供了两种方法进行聚类分析: 1.利用 clusterdata 函数对数据样本进行一次聚类,这个方法简洁方便,其特点是使用范围较窄,不能由用户根据自身需要来设定参数,更改距离计算方法: 2.分步聚类:( 1)用 pdist函数计算变量之间的距离,找到数据集合中两辆变量之间的相似性和非相似性:( 2)用 linkage函数定义变量之间的连接:(

Matlab聚类分析[转]

Matlab聚类分析[转] Matlab提供系列函数用于聚类分析,归纳起来具体方法有如下: 方法一:直接聚类,利用clusterdata函数对样本数据进行一次聚类,其缺点为可供用户选择的面较窄,不能更改距离的计算方法,该方法的使用者无需了解聚类的原理和过程,但是聚类效果受限制. 方法二:层次聚类,该方法较为灵活,需要进行细节了解聚类原理,具体需要进行如下过程处理:(1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离:(2)用 linkage函数定义变量之间的连接

谱聚类方法-MATLAB

Matlab提供了两种方法进行聚类分析. 一种是利用 clusterdata函数对样本数据进行一次聚类,其缺点为可供用户选择的面较窄,不能更改距离的计算方法: 另一种是分步聚类:(1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离:(2)用 linkage函数定义变量之间的连接:(3)用 cophenetic函数评价聚类信息:(4)用cluster函数创建聚类. 1.Matlab中相关函数介绍 1.1  pdist函数 调用格式:Y=pdist(X,'metri

常见的概率分布类型(Probability Distribution)

统计学中最常见的几种概率分布分别是正态分布(normal distribution),t分布(t distribution),F分布(F distribution)和卡方分布(χ2 distribution,chi-square distribution),其中后三种属于抽样分布. 为什么要研究概率分布呢?因为通过研究概率分布,我们可以找出数据的分布规律,并根据这些规律来解决特定条件下的问题.比如:假设随机变量X服从某个已知的分布,我们就可以利用这个分布对X的取值是否显著异于分布期望值进行检验.