数学之路-数据分析进阶-区间估计与假设检验(2)

某商城需要针对某类商品建立该类VIP大客户,定期向该客户推送相关广告,客户服务部门推荐了客户A,在数据库随机抽取了100个客户资料的前4个季度平均季消费数据(在这里用平均随机数模拟数据),客户A平均季消费为元,检测其是否消费处于中上水平(位于中位数以上)

> sample(200:50000,100)->sale

> sale

[1]  8447 13987 8809 44437 22973 28093 30594 28060 21101 45155 36128 30129

[13]   556 33977 9283 35094   903 32885 11639 1553329150 47368  4993  5376

[25]  1869 15975 25120 33530 31767 41845 39623  3586 22671 16128 14814 24993

[37] 45830 10349 43989 3565045179 35282 27204  5485 22990 21475 1453342852

[49] 15986 28411 16683 1583227207 19062 10256 34549 46159 16315 43097 40038

[61] 27758 14936 26161 1869425139 13208 26837 30171 13663 14082 46909 26498

[73]  7830 35810 15183 41769  8880 47928 13387 33231 28978 39486  6309 19344

[85] 12935 41976 13429 1629131159 33646  1742 48160 43169 40165 3891524941

[97] 25181 30077 19475 26836

>

> binom.test(sum(sale>29900),length(sale),al="less")

Exact binomial test

data:  sum(sale > 29900)and length(sale)

number of successes = 38, number of trials = 100, p-value = 0.01049

alternative hypothesis: true probability of success is less than 0.5

95 percent confidence interval:

0.0000000 0.4667535

sample estimates:

probability of success

0.38

>

P值=0.01<0.05,拒绝原假设,

95 percent confidence interval:

0.0000000 0.4667535

0.4667535低于0.5,拒绝原假设,

本博客所有内容是原创,如果转载请注明来源

http://blog.csdn.net/myhaspl/

该客户的消费金额高于该类商品的客户中间水平,处于中上层消费,可以考虑设为VIP客户。这里使用二项分布检测

时间: 2024-10-14 05:47:16

数学之路-数据分析进阶-区间估计与假设检验(2)的相关文章

数学之路-数据分析进阶-广义线性模型

在统计学上, 广义线性模型 (Generalized linear model) 是一种受到广泛应用的线性回归模式.此模式假设实验者所量测的随机变量的分布函数与实验中系统性效应(即非随机的效应)可经由一链结函数(link function)建立起可资解释其相关性的函数. 广义线性模型(generalized linear model, GLM)是简单最小二乘回归(OLS)的扩展,在广义线性模式中,假设每个资料的观测值来自某个指数族分布. 该分布的平均数  可由与该点独立的X解释: 其中为的期望值

数学之路-数据分析进阶-区间预计与如果检验(2)

某商城须要针对某类商品建立该类VIP大客户,定期向该客户推送相关广告.客户服务部门推荐了客户A,在数据库随机抽取了100个客户资料的前4个季度平均季消费数据(在这里用平均随机数模拟数据),客户A平均季消费为元,检測其是否消费处于中上水平(位于中位数以上) > sample(200:50000,100)->sale > sale [1]  8447 13987 8809 44437 22973 28093 30594 28060 21101 45155 36128 30129 [13]  

数学之路-数据分析进阶-多变量数据分析(2)

皮尔森相关系数(Pearson correlation coefficient)也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数.皮尔森相关系数是用来反映两个变量线性相关程度的统计量,用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1.相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值.r描述的是两个变量间线性相关强弱的程度.r的绝对值越大表明相关性越强.之间 相关性 负 正 无

数学之路-数据分析进阶-Cox比例风险回归模型

Cox比例风险回归模型(Cox's proportional hazards regression model),简称Cox回归模型.该模型由英国统计学家D.R.Cox于1972年提出,主要用于肿瘤和其它慢性病的预后分析,也可用于队列研究的病因探索. h(t/X)=h0(t) exp (β1 X1 + β2 X2 + -- + βp Xp ) h0(t): 基准风险函数 即所有变量取零时的t时刻的风险函数,即没有协变量下的,风险函数 X1.X2 -- Xp:影响因素 变量 β1.β2 -- βp

数学之路-数据分析进阶-多变量数据分析(3)

继续那个地区销量分析的例子 > mygoods 1   2    3    4   5    6    7   8    9   10  11   12 1 1200 3210  123 1111 688 2110 1123 6894 1470 1071 2250 1241 2 2222 1500 3200 1580 5562 58411860  981 658  789 1020 1120 3 2144 2243  134 235  486  985 235 1020  558  995 88

数学之路-数据分析进阶(1 )-多变量数据显示

> ejdqz<-read.csv("ejdqz.csv")> ejdqz  年.度 求职人数 绝对求职指数 相对求职指数1  2008  3045412          100          1002  2009  3413202          112          1123  2010  3902961          128          1214  2011  3675531          121          1065  2012

数学之路-python计算实战(18)-机器视觉-滤波去噪(双边滤波与高斯滤波 )

高斯滤波就是对整幅图像进行加权平均的过程,每一个像素点的值,都由其本身和邻域内的其他像素值经过加权平均后得到.高斯滤波的具体操作是:用一个模板(或称卷积.掩模)扫描图像中的每一个像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值. #滤波去噪 lbimg=cv2.GaussianBlur(newimg,(3,3),1.8) cv2.imshow('src',newimg) cv2.imshow('dst',lbimg) cv2.waitKey() cv2.destroyAllW

数学之路-python计算实战(16)-机器视觉-滤波去噪(邻域平均法滤波)

# -*- coding: utf-8 -*- #code:[email protected] #邻域平均法滤波,半径为2 import cv2 import numpy as np fn="test3.jpg" myimg=cv2.imread(fn) img=cv2.cvtColor(myimg,cv2.COLOR_BGR2GRAY) #加上椒盐噪声 param=20 #灰阶范围 w=img.shape[1] h=img.shape[0] newimg=np.array(img)

数学之路-python计算实战(21)-机器视觉-拉普拉斯线性滤波

拉普拉斯线性滤波,.边缘检测   Laplacian Calculates the Laplacian of an image. C++: void Laplacian(InputArray src, OutputArray dst, int ddepth, int ksize=1, double scale=1, double delta=0, int borderType=BORDER_DEFAULT ) Python: cv2.Laplacian(src, ddepth[, dst[, k