数学之路-SAS分析(1)

卡方分布(chi-square distribution, χ2-distribution)是概率论与统计学中常用的一种概率分布。k个独立的标准正态分布变量的平方和服从自由度为k的卡方分布。卡方分布是一种特殊的伽玛分布,是统计推断中应用最为广泛的概率分布之一,例如假设检验和置信区间的计算。

k个随机变量、……、是相互独立,符合标准正态分布的随机变量(数学期望为0、方差为1),则随机变量Z的平方和

被称为服从自由度为 k 的卡方分布,记作

概率密度函数

其中,

是伽玛函数。

期望和方差

分布的均值为自由度 n,记为 E(

) = n。

分布的方差为2倍的自由度(2n),记为 D(

) = 2n。

性质

1)

分布在第一象限内,卡方值都是正值,呈正偏态(右偏态),随着参数 n 的增大,

分布趋近于正态分布;卡方分布密度曲线下的面积都是1.

2)

分布的均值与方差可以看出,随着自由度n的增大,χ2分布向正无穷方向延伸(因为均值n越来越大),分布曲线也越来越低阔(因为方差2n越来越大)。

3)不同的自由度决定不同的卡方分布,自由度越小,分布越偏斜。

4) 若

互相独立,则:

服从

分布,自由度为

服从

分布,自由度为

累积分布函数

卡方分布的累积分布函数为:

其中γ(k,z)为不完全Gamma函数

在大多数涉及卡方分布的书中都会提供它的累积分布函数的对照表。此外许多表格计算软件如OpenOffice.org Calc和Microsoft Excel中都包括卡方分布函数。

自由度为k的卡方变量的平均值是k,方差是2k。 卡方分布是伽玛分布的一个特例,它的熵为:

其中是双伽玛函数。

伽玛函数(Gamma Function)作为阶乘的延拓,是定义在复数范围内的亚纯函数,通常写成

在实数域上伽玛函数定义为:

在复数域上伽玛函数定义为:

其中

,此定义可以用解析开拓原理拓展到整个复数域上,非正整数除外。

标准正态分布又称为u分布,是以0为均数、以1为标准差的正态分布,记为N(0,1)。

标准正态分布曲线下面积分布规律是:在-1.96~+1.96范围内曲线下的面积等于0.9500,在-2.58~+2.58范围内曲线下面积为0.9900。统计学家还制定了一张统计用表(自由度为∞时),借助该表就可以估计出某些特殊u1和u2值范围内的曲线下面积。

正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是位置参数均数为0, 尺度参数:标准差为1的正态分布(见右图中绿色曲线)。

正态分布中一些值得注意的量:

密度函数关于平均值对称

平均值与它的众数(statistical mode)以及中位数(median)同一数值。

函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。

95.449974%的面积在平均数左右两个标准差的范围内。

99.730020%的面积在平均数左右三个标准差的范围内。

99.993666%的面积在平均数左右四个标准差的范围内。

函数曲线的反曲点(inflection point)为离平均数一个标准差距离的位置。

非中心卡方分布[1][2]是有正态分布衍生得到的一个概率分布. 设为一组独立的随机变量, 并且(服从正态分布), 定义随机变量, 称随机变量服从自由度为, 非中心参数为的的非中心卡方分布, 记为; 其中. 当时, 随机变量服从自由度为的卡方分布.

SAS设定自由度和非中心参数计算p分位点的方式如下:

272  data _null_;
273  q=cinv(0.95,10,25.2);*0.95分位数,自由度为10,非中心参数为25.2;
274  put q=;
275  run;

q=54.759186647
NOTE: “DATA 语句”所用时间(总处理时间):
      实际时间          0.00 秒
      CPU 时间          0.00 秒

CINV(p, df<, nc>)

Required Arguments

p

is a numeric probability.

Range 0 ≤ p < 1

df

is a numeric degrees of freedom parameter.

Range df > 0

Optional Argument

nc

is a numeric noncentrality parameter.

Range nc ≥ 0

Details

The CINV function returns the pth quantile from the chi-square distribution with degrees of freedom df and a noncentrality parameter nc. The probability that an observation from a chi-square distribution is less than or equal to the returned quantile is p. This function accepts a noninteger degrees of freedom parameter df.

If the optional parameter nc is not specified or has the value 0, the quantile from the central chi-square distribution is returned. The noncentrality parameter nc is defined such that if X is a normal random variable with mean μ and variance 1, X2 has a noncentral chi-square distribution with df=1 and nc = μ2.

时间: 2024-11-13 16:34:25

数学之路-SAS分析(1)的相关文章

数学之路-SAS分析(2)

data _null_;q=finv(0.95,3,14);put 'f分布的0.95分位数' q;q=tinv(0.95,3,14);put 't分布的0.95分位数' q;q=probit(0.95);put '正态分布的0.95分位数' q;run; f分布的0.95分位数3.3438886781t分布的0.95分位数41.051296426正态分布的0.95分位数1.644853627NOTE: "DATA 语句"所用时间(总处理时间):      实际时间          

数学之路-sas备忘(4)

5.excel文件读入 *读入EXCEL文件到临时数据集class1*; proc import OUT=work.class1dbms=EXCEL REPLACE DATAFILE="J:\docs\机器学习第3版\底稿\src\sas\student_excel.xlsx"; SHEET="student"; GETNAMES=YES; RUN; *显示数据*; title "学生数据"; proc print data=work.class

数学之路-sas备忘(3)

构造文本文件 从文本文件中创建临时SAS数据集 在编辑器中输入数据 1 liuhui 28 98.5 88.92 zhangfang 31 88.2 81.83 wangwu 29 78.2 89.14 lisi 32 66 78.1 将编辑器中的数据另存为dat文件 data myclass;     infile "J:\docs\机器学习第3版\底稿\src\sas\student.dat"; input id name$ age source1 source2;title &q

数学之路-sas备忘(5)

导入数据与导出数据 PROC IMPORT DATAFILE="文件名"                                          //规定要导入文件的完整路径和文件名 OUT=逻辑引用库名.数据集 DBMS=导入文件类型 <REPLACE >         //如果有这个标志,则说明覆盖存在的SAS数据集 <导入文件选项> 本博客所有内容是原创,如果转载请注明来源 http://blog.csdn.net/myhaspl/ PROC

数学之路-sas备忘(7)

显示变量名 libname saslib "H:\ sas"; /*varnum表示按观测位置排序变量名,默认为按字母顺序*/ data saslib.Student; input name $ Age Score; datalines; 李四 25 85.6 王五 27 98.12 张三 30 78 ; proc contents varnum data=saslib.Student; run; 本博客所有内容是原创,如果转载请注明来源 http://blog.csdn.net/my

数学之路-sas备忘(15)

sas日期格式 DATETIMEw. Informat Reads datetime values in the form ddmmmyy hh:mm:ss.ss or ddmmmyyyy hh:mm:ss.ss. Syntax DATETIMEw.Syntax Description w specifies the width of the input field.Default 18Range 13–40Details The datetime values must be in the f

数学之路-sas备忘(10)

merge合并2个或2个以上的数据集. libname saslib "k:\sas"; data saslib.goodsprice; input id name$ price 6.2; datalines; 1 鼠标 35.6 2 键盘 28.95 3 鼠标垫 8.2 4 耳麦  29.7 ; data saslib.goodsquantity; input id quantity; datalines; 1 150 2 98 4 162 3 45 ; proc sort data

数学之路-sas备忘(17)

SAS日期及时间格式 data  _null_;input mydate YYMMDD10.;put mydate YYMMDDB10.;put mydate YYMMDDC10.;put mydate YYMMDDD10.;put mydate YYMMDDN8.;put mydate YYMMDDP10.;put mydate YYMMDDS10.;cards;2014-05-18;run; 本博客所有内容是原创,如果转载请注明来源 http://blog.csdn.net/myhaspl/

数学之路-sas备忘(11)

data heartemp;   set Sashelp.Heart;    if BP_Status='Normal' then delete;*血压正常的不写入数据集,drop排除变量,delete排除观测;   keep status sex  Weight_Status BP_Status;   rename BP_Status = Bloodpressure;   run;proc print data= heartemp (obs=10);run;data mytemp;    in