数学之路-数据分析进阶-多变量数据分析(2)

皮尔森相关系数(Pearson correlation coefficient)也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量,用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1。相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。之间

相关性
?0.09 to 0.0 0.0 to 0.09
?0.3 to ?0.1 0.1 to 0.3
?0.5 to ?0.3 0.3 to 0.5
?1.0 to ?0.5 0.5 to 1.0

皮尔森相关系数计算公式如下:

分子是协方差,分子是两个变量标准差的乘积,X和Y的标准差都不为0。

由于μX = E(X), σX2 = E[(X ? E(X))2] = E(X2) ? E2(X),Y也类似, 并且

故相关系数也可以表示成

对于样本皮尔逊相关系数:

     

利用样本相关系数推断总体中两个变量是否相关,可以用t 统计量对总体相关系数为0的原假设进行检验。若t 检验显著,则拒绝原假设,即两个变量是线性相关的;若t 检验不显著,则不能拒绝原假设,即两个变量不是线性相关的

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差标准差的商:

以上方程定义了总体相关系数, 一般表示成希腊字母ρ(rho)。基于样本对协方差和标准差进行估计,可以得到样本相关系数, 一般表示成r:

皮尔逊系数是对称的:corr(X,Y) = corr(Y,X)。

     

下面分析原料对某食品销量的影响

本博客所有内容是原创,如果转载请注明来源

http://blog.csdn.net/myhaspl/

> read.csv("H:/docs/机器学习第2版/src/ABCgoods.csv")->mygoods
> mygoods
  A原料 B原料 C原料 商品销量
1  0.85  0.12  0.30     4500
2  0.33  0.23  0.44     1800
3  0.64  0.24  0.12     3900
4  0.38  0.12  0.50     1000
5  0.10  0.20  0.88      740
6  0.28  0.17  0.55      990
7  0.15  0.80  0.77      910
8  0.18  0.70  0.75      930
>  cov(mygoods)->myanalysis.cov
> myanalysis.cov
                A原料         B原料         C原料     商品销量
A原料      0.06716964   -0.03539643   -0.05832321     368.2161
B原料     -0.03539643    0.07230714    0.03521786    -151.1464
C原料     -0.05832321    0.03521786    0.06546964    -321.9196
商品销量 368.21607143 -151.14642857 -321.91964286 2235941.0714
> cor(mygoods)->myanalysis.cor
> myanalysis.cor
              A原料      B原料      C原料   商品销量
A原料     1.0000000 -0.5079048 -0.8794982  0.9501366
B原料    -0.5079048  1.0000000  0.5118614 -0.3759041
C原料    -0.8794982  0.5118614  1.0000000 -0.8413899
商品销量  0.9501366 -0.3759041 -0.8413899  1.0000000
> cor.test(~A原料+B原料,data=mygoods)

Pearson‘s product-moment correlation

data:  A原料 and B原料
t = -1.4443, df = 6, p-value = 0.1988
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.8929757  0.3064479
sample estimates:
       cor 
-0.5079048

> cor.test(~A原料+商品销量,data=mygoods)

Pearson‘s product-moment correlation

data:  A原料 and 商品销量
t = 7.4634, df = 6, p-value = 0.0002985
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.7427838 0.9911796
sample estimates:
      cor 
0.9501366

> cor.test(~C原料+商品销量,data=mygoods)

Pearson‘s product-moment correlation

data:  C原料 and 商品销量
t = -3.8136, df = 6, p-value = 0.008826
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9705934 -0.3358354
sample estimates:
       cor 
-0.8413899

> cor.test(~B原料+商品销量,data=mygoods)

Pearson‘s product-moment correlation

data:  B原料 and 商品销量
t = -0.9936, df = 6, p-value = 0.3588
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.8542858  0.4472372
sample estimates:
       cor 
-0.3759041

C原料、A原料分别与商品销量线性相关

A原料与B原料线性无关,应属于不需要按指定配比配置的。

时间: 2024-11-05 09:00:11

数学之路-数据分析进阶-多变量数据分析(2)的相关文章

数学之路-数据分析进阶-多变量数据分析(3)

继续那个地区销量分析的例子 > mygoods 1   2    3    4   5    6    7   8    9   10  11   12 1 1200 3210  123 1111 688 2110 1123 6894 1470 1071 2250 1241 2 2222 1500 3200 1580 5562 58411860  981 658  789 1020 1120 3 2144 2243  134 235  486  985 235 1020  558  995 88

从Excel到Python——数据分析进阶指南 PDF 下载(高清版)PDF

从Excel到Python--数据分析进阶指南 PDF 下载(高清版)PDF百度网盘链接:https://pan.baidu.com/s/1cKksjlnOq6OLjUFJc3JHYA 提取码:3y05 复制这段内容后打开百度网盘手机App,操作更方便哦Excel是数据分析中最常用的工具,本书通过Python与Excel的功能对比介绍如何使用Python通过函数式编程完成Excel中的数据处理及分析工作.在Python中pandas库用于数据处理,我们从1787页的pandas官网文档中总结出最

数据分析与大数据分析的区别

数据分析是指采用恰当的统计分析方法对收集来的大量数据进行分析,提取出有用信息同时形成结论,即对数据加以详细研究和概括总结的过程.数据分析需要掌握数学知识和分析工具,数学知识包含统计学.概率论和数理统计.多元统计分析.时间序列.数据挖掘:工具一般应该掌握Excel.SQL.R.Python等.需要学习掌握基本数据处理及分析方法,掌握高级数据分析及数据挖掘方法(多元线性回归法,贝叶斯,神经网络,决策树,聚类分析法,关联规则,时间序列,支持向量机,集成学习等)和可视化技术. 大数据是无法在可承受的时间

数学之路-python计算实战(18)-机器视觉-滤波去噪(双边滤波与高斯滤波 )

高斯滤波就是对整幅图像进行加权平均的过程,每一个像素点的值,都由其本身和邻域内的其他像素值经过加权平均后得到.高斯滤波的具体操作是:用一个模板(或称卷积.掩模)扫描图像中的每一个像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值. #滤波去噪 lbimg=cv2.GaussianBlur(newimg,(3,3),1.8) cv2.imshow('src',newimg) cv2.imshow('dst',lbimg) cv2.waitKey() cv2.destroyAllW

数学之路-python计算实战(16)-机器视觉-滤波去噪(邻域平均法滤波)

# -*- coding: utf-8 -*- #code:[email protected] #邻域平均法滤波,半径为2 import cv2 import numpy as np fn="test3.jpg" myimg=cv2.imread(fn) img=cv2.cvtColor(myimg,cv2.COLOR_BGR2GRAY) #加上椒盐噪声 param=20 #灰阶范围 w=img.shape[1] h=img.shape[0] newimg=np.array(img)

数学之路-python计算实战(21)-机器视觉-拉普拉斯线性滤波

拉普拉斯线性滤波,.边缘检测   Laplacian Calculates the Laplacian of an image. C++: void Laplacian(InputArray src, OutputArray dst, int ddepth, int ksize=1, double scale=1, double delta=0, int borderType=BORDER_DEFAULT ) Python: cv2.Laplacian(src, ddepth[, dst[, k

数学之路-python计算实战(22)-机器视觉-sobel非线性滤波

sobel非线性滤波,采用梯度模的近似方式 Sobel Calculates the first, second, third, or mixed image derivatives using an extended Sobel operator. C++: void Sobel(InputArray src, OutputArray dst, int ddepth, int dx, int dy, intksize=3, double scale=1, double delta=0, int

数学之路-python计算实战(11)-机器视觉-图像增强

在计算机领域中,灰度(Gray scale)数字图像是每个像素只有一个采样颜色的图像.这类图像通常显示为从最暗黑色到最亮的白色的灰度,尽管理论上这个采样可以任何颜色的不同深浅,甚至可以是不同亮度上的不同颜色.灰度图像与黑白图像不同,在计算机图像领域中黑白图像只有黑白两种颜色,灰度图像在黑色与白色之间还有许多级的颜色深度.用于显示的灰度图像通常用每个采样像素8 bits的非线性尺度来保存,这样可以有256种灰度(8bits就是2的8次方=256).这种精度刚刚能够避免可见的条带失真,并且非常易于编

数学之路-python计算实战(4)-Lempel-Ziv压缩(2)

Format characters have the following meaning; the conversion between C and Python values should be obvious given their types. The 'Standard size' column refers to the size of the packed value in bytes when using standard size; that is, when the forma