请教置信度（CL）与X2

chris_li · 发表于 2007-6-27 18:39:56

学习FIT计算过程中遇到一个疑问，Chi－Square分布函数X2对于CL＝60％得出的值比CL＝90％要“小”（n值相同），既然FIT值越“小”越好，那为什么60％置信度得出的FIT会比90％置信度还“好”呢？有些不解。

admin · 发表于 2007-6-27 20:36:31

可以详细介绍介绍你在置信度0.6和0.9下的计算例子吗.

或许大家可以看出一些名堂!

arvinghchen · 发表于 2007-6-27 21:37:58

看不清楚,,

wow · 发表于 2007-6-28 10:16:47

假定允许失效数：r=1,在置信度为90%的时候：

允许失效1次时，A=0.5*CHIINV(1-0.9,2*2)=0.5*CHIINV(0.1,4)＝0.5*7.78＝3.89；
X2（1-a，2(r+1)）是自由度为2(r+1)的X平方分布的1-a的分位数；
a是要求的信心度，为90%；r是允许的失效数

在置信度为60%的时候
A=0.5*CHIINV(1-0.6,2*2)=2.02

如果根据简单的MTBF计算方法:

台时数*加速因子/可信度系数,由于0.6的可信度系数小于0.9时,所以0.6的可接受的MTBF上下限要大于0.9时的情况,所以LZ这样说的情况没错.只是在这种可接受的MTBF上下限范围,0.6的风险大些.

wow · 发表于 2007-6-28 10:20:26

我们在工作过程中常常看到这样描叙：u值的90%的置信区间为[θL,θu]、MTBF的95%的置信下限为6753小时。
其中一个常用的概念是：置信区间。这个词包含有什么样的物理意义？我们怎么样去求这一个物理量的置信区间[θ1,θ2]？这是本文要阐述的主要内容。

在理解这个概念之前，需要掌握一定的概率与统计知识。

一、概率的基本知识。
概率的定义以及概率的基本性质这里不作说明，只用一例题对概率的知识作一个回顾。
例：从6双不同颜色的鞋中任意取4只，取到只有一双成对的鞋的概率是多少？
第一种根据古典定义计算。
P(A)=k/n=（A中所含样本点的个数）/（全体样本点的总数）
按照定义，最主要是要找出样本点的数量，通常要用到排列与组合的公式。这里对“分步完成”、“分类完成”、“排列”及“组合”的定义，不作说明；
要强调一点：公式中k与n的计算方式要一致（如果n这个总数是用排列计算出来的，那么k就要用排列的个数）。
解：n的求法；从12只鞋中任意取4只组合：共有12*11*10*9/4*3*2种取法；
k的求法；从12只中取一双和另外2只组合：第一步取1双的取法有6种，第二步在剩下的10只中取两只不同颜色的鞋组合共有10*8/2种；所以k为6*10*8/2
求P(A)；运用公式直接求得P(A)=（6*10*8/2）/（12*11*10*9/4*3*2）＝16/33

第二种根据统计定义计算。
P(A)=k/n=（事件A发生的次数）/（重复试验次数）
当重复次数不断增加时，P(A)趋于稳定，这个稳定值就是事件A的概率。
解：见本论坛Angelo的解法（完全摘录如下）：
从6双不同颜色的鞋里任意取出4只，4只鞋中“恰好只有2只配成一双”的概率=(1-四只鞋都不成对的概率-有两对鞋的概率)
全不成对的概率:
第一只鞋:P1=1
第二只鞋:P2=10/11<不与前面所选鞋成对>
第三只鞋:P3=8/10<不与前面所选鞋成对>
第四只鞋:P4=6/9<不与前面所选鞋成对>
P不成对=P1*P2*P3*P4=16/33
两对鞋的概率:六对鞋任取两对的取法/12只鞋取4只鞋的取法:C6(2)/C12(4)=1/33
P=1-P不成对-P2对=1-16/33-1/33=16/33；

二、分布
对不同的事件A有不同的概率P(A)，全体事件Ω发生的概率P(Ω)＝1；
也就是说：在不同的事件A上分布着不同的概率，所有事件中每个事件对应的P(A)之和为1。
如果把“不同的事件A”抽象成“一个变量”，那么针对每一个变量A就有一个概率P(A)与之对应，分布就是描述P(A)与A之间的一种对应关系（从函数的定义上讲，对应关系就是函数表达式，不同的分布有不同的表达式）。

若以变量A为x轴、以P(A)为y轴，那么就可以得到相应的图像，不同的分布对应不同的图像，有离散的、有连续的。每个一个具体的x值都有一个相应的y值，图像与x轴围成的面积为1。

常见的分布有几种：二项分布、泊松分布、正态分布、指数分布、对数正态分布等等(这里不列出各种分布的表达)；

对一种分布而言，有三个比较重要的特征数：均值、方差与标准差。均值是指表示分布的中心位置、方差用来表示分布的散布大小（将方差开平方后就得到标准差）。

就标准正态分布而言，图像关于y轴对称，y轴（也就是x=0）将“图像与x轴围成的面积”分为相等的二个部分；则可以这样的表达：x=0左边面积为0.5；0是标准正态分布的0.5的分位数；标准正态分布的0.5分位数为0；
同样，某一分布的0.9分位数就是这样一个数：在x轴上的此数处做一垂直于x轴的直线，图像位于直线左侧的面积恰好为0.9，右侧一块面积恰好为0.1。大部份分位数可以查表得到。

再如，查表得，对标准正态分布N(0,1)而言：
A、0.00135的分数位为-3，说明位于x=-3左侧的面积为0.00135；
B、0.99865的分数位为3，说明位于x=3左侧的面积为0.99865；
所以，位于x=-3和x=3之间的面积为0.9973，显然位于x=-3和x=3之外的面积为0.0027。

那么，对非标准正态分布N(u,σ2)而言，如何求其0.975的分位数呢？
先把非标准正态分布“标准化”，对上述分布而言，若令m=(x-u)/σ，而m就属于N(0,1)分布；
再求“标准化”后的N(0,1)的0.975分位数（查表得1.96，所以m=1.96）；
接着求出x（因为m=(x-u)/σ=1.96，所以x=1.96σ+u）。

最后要讨论的是，对于任意一个分布，如何求x1、x2（x1<x2），使位于x1和x2之间的面积为指定的大小？以正态分布N(3,4)为例，求指定面积为0.95时的x1、x2；假设“位于x1左侧面积”与“位于x2右侧面积”相等。
第一步：先找面积大小。
因为位于x1、x2之间的面积0.95，而且左右两侧面积相等，所以位于x1左侧的面积为0.025，位于x2左侧的面积为0.975；
第二步：再求“标准化”下的分位数。
对标准正态分布而言0.025的分位数为-1.96，0.975的分位数为1.96；
第三步：最后求x1、x2。
-1.96=(x1-3)/2==>x1=3-1.96*2=-0.921.96=(x2-3)/2==>x2=3+1.96*2=6.92
所以，对N(3,4)而言位于（-0.92，6.92）之间的面积为0.95。

三、统计的基础知识

统计的目的：一是为了找到被研究的总体是什么分布、一是为了找到这个总体的均值、方差（或标准差）。

我们不可能把总体中所有单位量拿来一个一个地研究与分析（有些总体是无穷的），只从总体中取出一定的样本、对样本进行研究与分析，这种用有限的样品来推断总体性质的方法就是统计方法。

因为取样的随机性，导致“每一组取样”后所得到的计算值不全相等；如果更多组的取样，那么样本计算值也不会全相等，只会产生样本计算值的分布，也就是抽样分布。

三大抽样分布（假设每次取样n个，对n个样品的测量值进行计算）。
t分布――求总体均值；“‘样本均值与总体均值的差’与‘样本的标准差’之比”的“根号n”倍，服从自由度为n-1的t分布。―――（3.1）
X2分布――求总体方差；“样本方差的（n-1）倍，除以总体方差”的分布是自由度为n-1的x2分布。――（3.2）
F分布――二个独立正态分布的比较（略）。

四、点估计及区间估计

取了n个样品，进行了一系列的测试，得到n个样品的参数，把样品的数据经过分析、处理后拿来作为全体的参数。这就是（对整体的）点估计。
数据处理时，为了方便快捷的操作，很多时候都是根据经验进行近似处理的。
很多时候，因为取样的随机性，需要对这个点估计值的准确性做出判断，这就需要进行区间估计。

1、点估计――对要计算的具体值进行求解；
例从生产线随机取5个圆形钢球，测试其直径分别为：0.75，0.70，0.65，0.70，0.65。若“全体钢球的直径X”服从正态分布，求X的平均值和标准差。
解X的平均值一般取样本的平均值为：(0.75+0.70+…+0.65)/5=0.69；
X的标准差一般取样本的标准差修偏后得到：
样本的方差为[1/(5-1)]*(0.062+0.012+0.042+0.012+0.042)=0.00175、标准差为0.0418；
X的标准差为：样本的标准差/C4＝0.0418/0.940＝0.045；
说明：上式中的C4是修偏系数，不同取样时的修偏系数可以查表得到；

2、区间估计――对计算出来的具体值评估其准确性；
点估计仅仅给出参数的一个具体估计值，但是没有给出估计的精度，而区间估计是用一个区间来对未知参数进行估计，区间估计体现了估计的精度。

就上例来说，用5个样品算出X的平均值为0.69mm，那么对下面决定，有多大的可能：
A、全体钢球的X平均值就是0.69mm；――也许只有不到10%的可能；
B、全体钢球的X平均值在[0.65,0.75]内；――也许只有50%的可能；
C、全体钢球的X平均值在[0.60,0.80]内；――也许有90%的可能；
D、全体钢球的X平均值在(0.01,100.00)内；－－有100%的可能。

那么，如何从数学上去理解、去计算这个区间和对应的可能性呢？

2.1区间的意义
假设θ值是总体的一个待求参数，取n个样品对θ计算后，得到一个区间[θL,θu]。若对于任意θ，当θL<θ<θu时有P(θL<θ<θu)≥1-a，则称随机区间[θL,θu]是θ的置信水平为1-a的置信区间，简称[θL,θu]是θ的1-a置信区间，θL和θu分别称为θ的1-a的置信下限与置信上限。

可以这样去理解置信区间：经过计算出来的区间[θL,θu]，它包含真实θ值的可能性为1-a；
如果你把求区间[θL,θu]的方法从取样开始重复100次，那么会得到100个区间，将有100*（1-a）个区间包含了真实θ值。

2.2区间的计算
为了精确地找到置信区间，有以下几个问题要确认（结合第二小结“分布”中的最后一个例题）：
A、置信度为多少？
B、位于置信区间以外的部分如何分配？
C、需要求的物理量属于什么分布？
D、如何“标准化”？
E、此种分布对应的分位数如何求出？
F、计算结果？
还是以“点估计”中5个钢球的直径为例，求全体钢球直径X的平均值的95%的置信区间。
解：A、按题目要求，置信度为95%；
B、因为直径可以偏小、也可以偏大，且这种偏移是随机的，所以在置信区间两边的分布应相等。所以置信下上限对应的面积为0.025和0.975。
C、“X平均值”的统计分布，一般情况属于正态分布（根据中心极限定理得知：“X平均值的统计分布”的方差是“X的分布”的方差n分之一）。因为不知X分布的方差，所以必须以样本的标准差来代替，此时：X平均值的统计分布就属于t分布。
D、标准化方，见(3.1)式；t分布的条件为：“‘样本均值与总体均值的差’与‘样本的标准差’之比”的“根号n”倍；
E、查表得到：当n为5时t分布的0.025及0.975的分位数为：±2.571；
F、所以：[(0.69-x)/0.045]*(51/2)=±2.571，解得：x1=0.638,x2=0.742.
要求的X平均值的95%的置信区间为[0.638,0.742].

按书面上的写法是这样的：要求x平均值的1－a置信区间，利用t分布计算后得到：
x±t(1-a/2)(n-1)*s/n’
其中：t(1-a/2)(n-1)是自由度为n-1的t分布的1-a/2分位数；
s是样本的标准差；
n’是n的正平方根；

五、说明
本文都是以正态分布为例，而可靠性计算中多出现指数分布，虽然分布形式不一样，但对置信区间的理解与计算步骤是一样的。
最主要的是在实际运用过程中，已经有可以直接套用的公式，没有必要去具体地分析是什么分布、用什么去“标准化”，如：

在一次可靠性测定试验中，某种产品作累积T小时（T为3万小时）的定时截尾试验，共出现r次（r=5次）故障，求MTBF在置信度为b(b=95%)时的置信下限θL。
按照给定的计算公式：θL＝θ*2r/X2b(2r+2)，其中：θ是MTBF的点估计值、X2b(2r+2)是自由度为2r＋2的X平方分布b分位数；计算后得到：θ＝30000/5=6000Hrs，所以：
θL=6000*2*5/21.026=2853.6Hrs.

arvinghchen · 发表于 2007-6-28 20:44:29

收藏,待学习,,谢谢LS.

liguang304 · 发表于 2007-7-17 13:47:20

靠,老大.你把统计学的东西都搬上来了.

imm · 发表于 2007-8-17 16:04:04

再来学习一下这个。。顶上来，也希望高手讨论讨论！！

oyboooooooo · 发表于 2007-8-17 18:45:13

学习学习,好文章,介绍了很详细.

vince1981 · 发表于 2007-8-17 19:40:08

原帖由chris_li于2007-6-2718:39发表
学习FIT计算过程中遇到一个疑问，Chi－Square分布函数X2对于CL＝60％得出的值比CL＝90％要“小”（n值相同），既然FIT值越“小”越好，那为什么60％置信度得出的FIT会比90％置信度还“好”呢？有些不解。

好像没你这样的情况吧,你计算错误了吧?

C=90%，n=10,r=1

M下限=2*10*1000/CHIINV(0.1,4)=2570

C=60%，n=10,r=1

M下限=2*10*1000/CHIINV(0.4,4)=4944

哪里CL＝60％得出的值比CL＝90％要“小?

补充一点吧,不同的书上的X2分布值表有不一样的,但是你要看清楚它们在表达的意思不一样,我有2本书就是这样的,开始没注意,结果怎么也算不到一样.但是你理清楚他们的意思后,计算得到的结果还是一样的.

[本帖最后由vince1981于2007-8-1719:44编辑]

		自动登录	找回密码
密码			-注册-

请教置信度（CL）与X2

相关帖子

关于估计值与置信区间的一篇文章

浏览过的版块