python实现抽样分布描述

本次使用木东居士提供数据案例,验证数据分布等内容,参考链接:https://www.jianshu.com/p/6522cd0f4278,先感谢上面两位。

只贴了代码。。。结果图片没得了

#数据读取
df = pd.read_excel(‘C://Users//zxy//Desktop//data.xlsx‘,usecols = [1,2,3])

1.按照港口分类,计算各类港口数据 年龄、车票价格的统计量。
df1 = df.groupby([‘Embarked‘])
df1.describe()

或
# 变异系数 = 标准差/平均值
def cv(data):
    return data.std()/data.var()
df2 = df.groupby([‘Embarked‘]).agg([‘count‘,‘min‘,‘max‘,‘median‘,‘mean‘,‘var‘,‘std‘,cv])
df2 = df2.apply(lambda x:round(x,2))
df2_age = df2[‘Age‘]
df2_fare = df2[‘Fare‘]

# 2、画出价格的分布图像,验证数据服从何种分布
# 2.1 船票直方图:
plt.hist(df[‘Fare‘],20,normed=1,alpha=0.75)
plt.title(‘Fare‘)
plt.grid(True)

#分别用kstest、shapiro、normaltest来验证分布系数
ks_test = stats.kstest(df[‘Fare‘], ‘norm‘)
shapiro_test = stats.shapiro(df[‘Fare‘])
normaltest_test = stats.normaltest(df[‘Fare‘],axis=0)
#以上三种检测结果表明 p<5%,因此 船票数据不符合正态分布。

# 绘制拟合正态分布曲线:
fare = df[‘Fare‘]

plt.figure()
fare.plot(kind = ‘kde‘)      #原始数据的正态分布

M_S = stats.norm.fit(fare)   #正态分布拟合的平均值loc,标准差 scale
normalDistribution = stats.norm(M_S[0], M_S[1])    # 绘制拟合的正态分布图
x = np.linspace(normalDistribution.ppf(0.01), normalDistribution.ppf(0.99), 100)
plt.plot(x, normalDistribution.pdf(x), c=‘orange‘)
plt.xlabel(‘Fare about Titanic‘)
plt.title(‘Titanic[Fare] on NormalDistribution‘, size=20)
plt.legend([‘Origin‘, ‘NormDistribution‘])

# 验证是否符合T分布
T_S = stats.t.fit(fare)
df = T_S[0]
loc = T_S[1]
scale = T_S[2]
x2 = stats.t.rvs(df=df, loc=loc, scale=scale, size=len(fare))
D, p = stats.ks_2samp(fare, x2)
#p < alpha,拒绝原假设,价格数据不符合t分布。

# 对票价数据进行T分布拟合:
plt.figure()
fare.plot(kind = ‘kde‘)
TDistribution = stats.t(T_S[0], T_S[1],T_S[2])    # 绘制拟合的T分布图
x = np.linspace(TDistribution.ppf(0.01), TDistribution.ppf(0.99), 100)
plt.plot(x, TDistribution.pdf(x), c=‘orange‘)
plt.xlabel(‘Fare about Titanic‘)
plt.title(‘Titanic[Fare] on TDistribution‘, size=20)
plt.legend([‘Origin‘, ‘TDistribution‘])

# 验证是否符合卡方分布?
chi_S = stats.chi2.fit(fare)
df_chi = chi_S[0]
loc_chi = chi_S[1]
scale_chi = chi_S[2]
x2 = stats.chi2.rvs(df=df_chi, loc=loc_chi, scale=scale_chi, size=len(fare))
Dk, pk = stats.ks_2samp(fare, x2)#不符合

#对票价数据进行卡方分布拟合
plt.figure()
fare.plot(kind = ‘kde‘)
chiDistribution = stats.chi2(chi_S[0], chi_S[1],chi_S[2])    # 绘制拟合的正态分布图
x = np.linspace(chiDistribution.ppf(0.01), chiDistribution.ppf(0.99), 100)
plt.plot(x, chiDistribution.pdf(x), c=‘orange‘)
plt.xlabel(‘Fare about Titanic‘)
plt.title(‘Titanic[Fare] on chi-square_Distribution‘, size=20)
plt.legend([‘Origin‘, ‘chi-square_Distribution‘])

# 按照港口分类,验证S与Q两个港口间的价格之差是否服从某种分布
S_fare = df[df[‘Embarked‘] == ‘S‘][‘Fare‘]
Q_fare = df[df[‘Embarked‘] ==‘Q‘][‘Fare‘]
C_fare = df[df[‘Embarked‘] ==‘C‘][‘Fare‘]
S_fare.describe()

# 按照港口分类后,S港口样本数<=554,Q港口样本数<=28,C港口样本数<=130。
# 总体不服从正态分布,所以需要当n比较大时,一般要求n>=30,两个样本均值之差的抽样分布可近似为正态分布。
# X2的总体容量为28,其样本容量不可能超过30,故其S港和Q港两个样本均值之差(E(X1)-E(X2))的抽样分布不服从正态分布。
# S港和C港两个样本均值之差(E(X1)-E(X3))的抽样分布近似服从正态分布,
# 其均值和方差分别为E(E(X1) - E(X3)) = E(E(X1)) - E(E(X3)) = μ1 - μ3;D(E(X1) + E(X3)) = D(E(X1)) + D(E(X3)) = σ1²/n1 + σ3²/n3 。

miu = np.mean(S_fare) - np.mean(C_fare)
sig = np.sqrt(np.var(S_fare, ddof=1)/len(S_fare) + np.var(C_fare, ddof=1)/len(C_fare))

x = np.arange(- 110, 50)
y = stats.norm.pdf(x, miu, sig)
plt.plot(x, y)
plt.xlabel("S_Fare - C_Fare")
plt.ylabel("Density")
plt.title(‘Fare difference between S and C‘)
plt.show()

  



python实现抽样分布描述

原文地址:https://www.cnblogs.com/zym-yc/p/11444065.html

时间: 2024-10-25 07:56:37

python实现抽样分布描述的相关文章

python2.7高级编程 笔记二(Python中的描述符)

Python中包含了许多内建的语言特性,它们使得代码简洁且易于理解.这些特性包括列表/集合/字典推导式,属性(property).以及装饰器(decorator).对于大部分特性来说,这些"中级"的语言特性有着完善的文档,并且易于学习. 但是这里有个例外,那就是描述符.至少对于我来说,描述符是Python语言核心中困扰我时间最长的一个特性.这里有几点原因如下: 有关描述符的官方文档相当难懂,而且没有包含优秀的示例告诉你为什么需要编写描述符(我得为Raymond Hettinger辩护一

python类:描述器Descriptors和元类MetaClasses

http://blog.csdn.net/pipisorry/article/details/50444769 描述器(Descriptors) 描述器决定了对象属性是如何被访问的.描述器的作用是定制当你想引用一个属性时所发生的操作. 构建描述器的方法是至少定义以下三个方法中的一个.需要注意,下文中的instance是包含被访问属性的对象实例,而owner则是被描述器修辞的类. __get__(self, instance, owner) – 这个方法是当属性被通过(value = obj.at

实战丨Python黑魔法之描述符

引言 Descriptors(描述符)是Python语言中一个深奥但很重要的一个黑魔法,它被广泛应用于Python语言的内核,熟练掌握描述符将会为Python程序员的工具箱添加一个额外的技巧.本文我将讲述描述符的定义以及一些常见的场景,并且在文末会补充一下__getattr,__getattribute__, __getitem__这三个同样涉及到属性访问的魔术方法. 描述符的定义 descr__get__(self, obj, objtype=None) --> value descr.__s

python中的描述符

描述符:含有__set__,__get__,__delete__中的一个或者多个的新式类. 描述顾名思义,是描述别的类中的属性优先级:类属性>数据描述符>实例属性>非数据描述符 (含有__set__与__get__是数据描述符) 作用: 因为python语言比较自由,比如c++中 int x = 1;可是这里Python x=1就可以,很自由 有代理作用,类型检测,等等作用 1 class miaoshufu: 2 def __init__(self, k, expect_type):

python 将文件描述符包装成文件对象

有一个对应于操作系统上一个已打开的I/O 通道(比如文件.管道.套接字等)的整型文件描述符,你想将它包装成一个更高层的Python 文件对象. 一个文件描述符和一个打开的普通文件是不一样的.文件描述符仅仅是一个由操作系统指定的整数,用来指代某个系统的I/O 通道.如果你碰巧有这么一个文件描述符,你可以通过使用open() 函数来将其包装为一个Python 的文件对象.仅仅只需要使用这个整数值的文件描述符作为第一个参数来代替文件名即可 import os fd = os.open('somefil

Python——@property属性描述符

@property 可以将python定义的函数“当做”属性访问,从而提供更加友好访问方式,但是有时候setter/getter也是需要的 假设定义了一个类Cls,该类必须继承自object类,有一私有变量__x 1. 第一种使用属性的方法: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 #!/usr/bin/env python # -*- coding: utf-8 -*- # blog.i

python中descriptor(描述器)就是这么回事

很多教程往往把descriptor说的很复杂,长篇大文,洋洋洒洒,结果很多人看的云里雾里. 其实就一句话,对类的操作进行hook,以此控制行为. 大部分时候是用来拦截对实例属性的访问. 只要类中有__get__(), __set__(), 和 __delete__()其中之一的方法.那么它就是一个描述器.我们想一想,对一个类进行操作,逃不开这三种方法,我们需要控制什么操作,就hook哪个方法. 描述器不是self host的,而是寄生在其它类中. property, classmethod, s

python - 装饰器+描述符(给类添加属性且属性类型审核)

装饰器+描述符 实现给一个类添加属性且对添加的时,对属性进行类型审核: def zsq(**kwargs): def fun(obj): for i,j in kwargs.items(): setattr(obj,i,mxf(i,j)) return obj return fun class mxf(): def __init__(self,na,ty): self.na = na self.ty = ty def __get__(self, instance, owner): return

python之属性描述符与属性查找规则

描述符 import numbers class IntgerField: def __get__(self, isinstance, owner): print('获取age') return self.num def __set__(self, instance, value): print('设置age值时') if not isinstance(value, numbers.Integral): raise ValueError('int need') self.num = value