两小样本比较的正态先验Bayes推断
第三军医大学学报1999年第21卷第3期
罗明奎 樊爱军 王开发
提 要 目的:两大样本比较问题,传统上对同方差正态情形可采用双样本t检验法,对非正态情形可采用非参数秩检验法;但对两小样本比较问题,若采用以上方法其可靠性较差。本研究旨在建立一种两小样本比较的统计处理方法。方法:假定(1)样本来自同方差正态总体(2)参数具有正态先验(3)在平方损失下,采用了经验Bayes方法。结果:建立了参数的Bayes估计及Bayes置信区间,并给出了两小样本比较的Bayes检验法则。结论:利用实例进一步说明了对两小样本问题经验Bayes方法较双样本t检验法具有更高?可靠性。
关键词:Bayes估计 Bayes置性区间 Bayes检验法则
在许多医学实验中由于种种限制(如实验经费过于昂贵,病例罕见等)只能搜集到少量的样本,称作小样本,此时我们常常希望能通过两小样本去比较两个总体间是否有显著差异,称作两小样本比较问题。对于两小样本比较问题,我们不能简单地套用两大样本比较方法(如双样本t检验法,非参数秩检验法等)。小样本问题在实际中经常遇到,但在统计上却较难处理。近年来小样本问题成为统计学讨论的热门话题之一。随着经验Bayes方法的产生,小样本问题的讨论更趋活跃。本研究就两小样本比较问题介绍一种正态先验Bayes统计推断方法。
1 Bayes思想追溯
Bayes统计起源于1763年,在本世纪二、三十年代对Bayes观点的讨论空前激烈,自1950年A.Wald统计判决理论产生后,Bayes方法成为统计判决理论的重要工具。到本世纪六、七十年代产生了经验Bayes方法。经验Bayes方法认为对一个实验问题采取什么样的行动不仅依赖于现有的样本信息(不在乎样本容量的大小),而且还应当考虑样本中参数的某些先验信息以及采取行动所带来的损失大小。经验Bayes方法用于估计问题产生了经验Bayes估计,经验Bayes方法用于检验问题则产生了经验Bayes检验。
由于经验Bayes方法着眼于现有的样本而不象传统的统计方法那样将样本看着总体中无穷多样本的一部分去考虑,因此,经验Bayes方法更适用于小样本问题。同时经验Bayes方法需要利用参数的先验信息和考虑行动所带来的损失,这点也较能贴合小样本问题的实际。例如,要估计好转率,试验前根据经验对好转率取值的可能性有一个初步的认识,即为参数的先验信息;另外,一个估计值如果离真值较远则损失较大,一个估计值如果离真值较远则损失较大,根据Bayes思想可以看出,经验Bayes方法有如下要求:
1)样本的分布形式f(x,θ)已知,其中θ为未知参数;
2)确定出未知参数θ合理的先验分布H(θ);
3)确定出行动d合理的损失函数L(d,θ),其中d为样本的函数;
4)选择使后验平均损失最小的行动作为最终采取的行动。
2 问题及方法
2.1 两小样本比较问题 #p#分页标题#e#
假定X1,X2,…Xm来自X服从正态分布N(θ1,σ2),Y1,Y2,…Yn来自Y服从正态分布N(θ2,σ2),共中m,n均较小,问题是:
1)估计未知参数θ1,θ2;
2)检验假设:
(1)
2.2 先验信息的确定
利用共轭先验方法,假定θ1,θ2具有如下先验分布:
相应的密度函数分别记为:
μ1,τ21,μ2,τ22可以用如下估计值近似替代:
假定以往有关X的k组小样本均值为:;以往有关Y的r组小样本值为: 。
则
(2)
2.3 损失函数的确定
对θ1,θ2的估计(行动)d1(X)和d2(Y),采用平方损失
(3)
按照如上损失函数,将d1(X)作为θ1的估计,若d1(X)与θ1相差越大则损失越大,将d2(Y)作为θ2的估计,若d2(Y)与θ2相差越大则损失越大。
2.4 θ1,θ2的Bayes估计
根据样本X,Y的分布及未知参数θ1,θ2的先验分布,可计算出在X1,X2,…Xm给定下θ1的后验分布及在Y1,Y2,…Yn给定下θ2的后验分布。
因为
Xi|θ1~N(θ1,σ2),相应的密度函数记为f(xi;θ1,σ2),i=1,2,…,m
Yj|θ2~N(θ2,σ2),相应的密度函数记为f(yj;θ2,σ2),j=1,2,…,n
从而
在给定(X1,X2,…Xm)=(x1,x2,…,xm)的条件下θ1的密度函数为
(4)
同理
在给定(Y1,Y2,…Yn)=(y1,y2,…,yn)的条件下θ2的密度函数为
(5)
整理(4)式、(5)式知 #p#分页标题#e#
(6)
其中
则d1(X1,X2,…,Xm)作为θ1的估计带来的后验风险R(d1),d2(Y1,Y2,…,Yn)作为θ2的估计带来的后验风险R(d2)有如下形式:
(7)
Eθi(·)表示在θi的后验分布下求数学期望,i=1,2。
可以证明当 时R(d1)达到最小,当 时R(d2)达到最小
即θ1,θ2的Bayes估计为:
(8)
这里μ1,τ21,μ2,τ22可用(2)式给出的估计值替代,σ2常常未知,可用如下X,Y的合样本方差σ2替代
(9)
2.5 θ1-θ2的后验置信区间及Bayes检验法则
根据(6)式由正态分布的再生性知θ1-θ2的后验分布为:
其中
(10)
则θ1-θ2的(1-α)100%后验置信区间为:
(11)
这里uα/2为标准正态分布的α/2上侧分位数。
根据(11)式,在给定显著水平α下可构造如下Bayes检验法则:
(1)若置信区间I包含0,则应接受(1)式中的零假设H0,认为样本X与样本Y间无显著差别:
(2)若置信区间I不包含0,则应拒绝(1)式中的零假设H0,认为样本X与样本Y间有显著差别。
3 实例分析
为了进一步说明如上小样本Bayes统计方法的应用,以下利用实际例子进行分析。
[例]第三军医大学组胚教研室为研究癌症患者与非癌症患者间SDH酶活性有无差异,共收集了100例癌症患者和50例非癌症患者的SDH酶活性数据,见表1。
表1 SDH酶活性数据表
tab 1 Activity of SDH
Number
|
Cancerous patients(X)
|
Number
|
Non-cancerous patients(Y)
|
1
|
96
|
1
|
145
|
2
|
93
|
2
|
174
|
3
|
78
|
3
|
159
|
4
|
80
|
4
|
146
|
…
|
…
|
…
|
…
|
97
|
124
|
47
|
134
|
98
|
133
|
48
|
138
|
99
|
100
|
49
|
135
|
100
|
114
|
50
|
158
|
#p#副标题#e#
以上问题属于两大样本比较问题,可用双样本t-检验法处理,结果显示:两样本方差具有齐性,两样本均值间有显著差异。说明非癌症患者比癌症患者SDH酶活性显著偏高。
为了说明如上统计方法,特构造如下小样本问题。我们将上述数据中样本X分为20组、样本Y分为16组,将其中各选一组作小样本比较的现有资料,其余作为小样本经验资料,具体数据如下:
现有资料:
X:159,148,96,148 Y:145,174,159
(*)
经验资料均值:
:88.6, 90,5, 94.16, 96.4, 97.5, 134.3, 113.4, 113.8, 114.6, 91.4, 86.4, 105.8, 93.2, 86.72, 79.6, 68, 77.8, 67, 54
:156, 172, 143.6, 167.6, 145.6, 155.5, 144.3, 148.6, 166.7, 161.6, 144.6, 156.5, 170, 134.6, 143.6
按照上述经验Bayes方法可以算出:
则θ1-θ2的(1-0.05)100%后验置信区间为:
I=[4.914,57.49]
可以看出后验置信区间I不包含0,说明X与Y间有显著差异,再根据 1, 2的大小可得出结论:非癌症患者SDH酶活性显著偏高。这与大样本时双样本t检验结论吻合。
但如果对小样本资料(·)直接采用双样本t检验法,其结论是:X与Y间无显著差异。这与大样本时双样本t检验结论不吻合。
对两小样本比较问题,采用本研究介绍的经验Bayes方法比传统的双样本t检验法更吻合实际。因此,对两小样本比较问题,当先验信息选择得当时,宜采用上述经验Bayes方法。
作者简介:罗明奎,男,32岁,讲师,硕士作者单位:第三军医大学基础医学部数学教研室 重庆,400038
参考文献
1 陈希孺,倪国熙.数理统计教程.上海:上海科学技术出版社,1988.192~239
2 苑锡光.医用统计分析.成都:四川科学技术出版社,1985.89~91
3 郭祖超.医用数理统计方法.北京:人民出版社,1988.631~647
4 Rorbert E, McCullcch, Ruey S T. Bayesian inference and prediction for mean and variance shifts in autoregressive time series. JASA,1993,88(3):968
5 Thomas A S. Approximately Bayesian inference.JASA,1994,89(1):425
为了说明如上统计方法,特构造如下小样本问题。我们将上述数据中样本X分为20组、样本Y分为16组,将其中各选一组作小样本比较的现有资料,其余作为小样本经验资料,具体数据如下:
现有资料:
X:159,148,96,148 Y:145,174,159
(*)
经验资料均值:
:88.6, 90,5, 94.16, 96.4, 97.5, 134.3, 113.4, 113.8, 114.6, 91.4, 86.4, 105.8, 93.2, 86.72, 79.6, 68, 77.8, 67, 54
:156, 172, 143.6, 167.6, 145.6, 155.5, 144.3, 148.6, 166.7, 161.6, 144.6, 156.5, 170, 134.6, 143.6
按照上述经验Bayes方法可以算出:
则θ1-θ2的(1-0.05)100%后验置信区间为:
I=[4.914,57.49]
可以看出后验置信区间I不包含0,说明X与Y间有显著差异,再根据 1, 2的大小可得出结论:非癌症患者SDH酶活性显著偏高。这与大样本时双样本t检验结论吻合。
但如果对小样本资料(·)直接采用双样本t检验法,其结论是:X与Y间无显著差异。这与大样本时双样本t检验结论不吻合。
对两小样本比较问题,采用本研究介绍的经验Bayes方法比传统的双样本t检验法更吻合实际。因此,对两小样本比较问题,当先验信息选择得当时,宜采用上述经验Bayes方法。
作者简介:罗明奎,男,32岁,讲师,硕士作者单位:第三军医大学基础医学部数学教研室 重庆,400038
参考文献
1 陈希孺,倪国熙.数理统计教程.上海:上海科学技术出版社,1988.192~239
2 苑锡光.医用统计分析.成都:四川科学技术出版社,1985.89~91
3 郭祖超.医用数理统计方法.北京:人民出版社,1988.631~647
4 Rorbert E, McCullcch, Ruey S T. Bayesian inference and prediction for mean and variance shifts in autoregressive time series. JASA,1993,88(3):968
5 Thomas A S. Approximately Bayesian inference.JASA,1994,89(1):425