说到MTBF预计,目前业内用得较多的都是SR332 Issue3这个标准。关于这个标准,先说一下它的发展由来,摘取Mosch博客部分内容简写如下:
该预计标准模型由AT&T的Bell(贝尔)实验室参考MIL-HDBK-217的方程式演变发展而来应用在商业产品上;
该预计模型从1985年出版的Bellcore Issue1 持续更新至97年的 Issue 6如下:
Bellcore TR-332 (TR-NWT-000332), Issue 1. February 1985:
Bellcore TR-332 (TR-NWT-000332), Issue 2. August 1989
Bellcore TR-332 (TR-NWT-000332), Issue 3. September 1990
Bellcore TR-332 (TR-NWT-000332), Issue 4. September 1991
Bellcore TR-332 (TR-NWT-000332), Issue 5. December 1995
Bellcore TR-332 (TR-NWT-000332), Issue 6. December 1997
1998年始Bell Communication Research被SAIC(Science Applications International Corporation)收购更名为Telcordia Technologies,后将Bellcore原来的电子设备可靠性预计程序改名为Telcodia Technologies的特殊报告 ,并发展至现在的Telcordia SR-332, Issue 3.
Telcordia SR-332, Issue 1. May 2001
Telcordia SR-332, Issue 2. September 2006
Telcordia SR-332, Issue 3. January 2011
PS:据查Telcordia官网已经有2016版本的Issue 4,但是很多公司还未正式启用~关于该标准文档有哪些更新目前未知,而且目前使用的软件如Windchill的计算方法及数据库都是基于Issue 3的标准,如果谁有更新的内容,欢迎告知~
好了,故事到此结束~~回到实际计算案例分析
这次主要分享下SR332 ISSUE3里Method I: Part Count Method (零器件累加法)的实际计算过程;
步骤一:单个元器件的稳态失效率计算,公式及参数意义如下:注意这里和SR332标准公式(3-1)写法不太一样,但是表示的含义一样;
如上对逐个参数进行分析:
λGi—-指元器件的基础失效率,通过SR332标准里的表格可以查询,例如下图所示,普通定值电容的基础失效率λG=0.1FIT;
πQ—-指元器件质量等级,SR332 ISSUE3共分为四个质量等级,Level 0, Level I,Level II,Level III; 每个质量等级对应的πQ值如下:
Level 0—-πQ=6;
Level I—–
Level II—-πQ=1;
Level III—πQ=0.8;
那如何区分元器件采用哪个质量等级呢?参考如下截图:
简单理解就是
Level 0指一些重工或者在一些小的山寨电子市场买的元器件;
Level I指元器件虽然没有批量质量管控以及合格鉴定,但是能兼容产品的设计及生产,而且一旦出现问题能有一个有效的反馈改正机制;
Level II指选取的元器件供应商为合格供应商,有批量验证,质量管控,符合批量采购要求,品质有保障;
Level III指同时满足Level I II的要求,同时要保证这些元器件为100%筛选验证的元器件,<2%PDA,供应商有持续改进计划。
通过如上分析:商业产品绝大部分采用Level II质量等级的元器件,Level III是少之又少,简单一条100%筛选验证就基本没有几家供应商能达到。Level 0 和Level 1研发量产时基本不会选用;
πS—-指电应力等级,其值有两种方法可以得出:
1:可以通过查询SR332标准里的表得出;例如上面提及的普通定值电容,我们再把之前的截图再放一次如下图,注意图中蓝色框框部分,这里指代该普通定值电容电应力匹配等级为H,通过查询SR332 ISSUE3 Table 9-2如下第二张图可见H列对应的不同电应力等级下的πS值;例如50%电应力等级时,该电容的πS=1;40%电应力等级时对应的πS=0.7;有人可能会问那这里40%,50%说的电应力指啥?这里解释下,这里会用到电路分析,例如电容额定电压为25V,但是实际电路中两边电压为12V,则电应力为12/25=48%;也就是降额的一些知识;具体哪种元器件考虑哪种电应力,SR332标准也做了说明,见下面第三张图Table 9-3。
2:如果表中无对应值,例如上面我们算出电应力48%,则可以通过公式πS=e^[m(p1-p0)]计算得出;
这里m为匹配参数,如下截图Table 9-2有对应值,每个元器件都有对应的匹配等级,例如上面我们提及的普通定值电容对应的匹配电应力等级为H,则其匹配参数m=4.1,
p1为操作应力比,也就是电应力例如上面提到的电容额定电压25V,实际电路中12V,则操作应力比为48%;
p0指参考应力,值为50%;
则48%电应力时该电容πS=e^[4.1(0.48-0.5)]=0.9213
注意:对于K匹配曲线的元器件,当操作应力P0<50%时,这时不适用该公式,πS=1;
πT—-指工作温度等级,亦有两种方法得出其值:
1:可以通过查询SR332标准里的表得出;继续用上面提及的普通定值电容,我们再把之前的截图再放一次如下图,注意图中黄色框框部分,这里指代该普通定值电容温度应力匹配等级为“1”,通过查询SR332 ISSUE3 Table 9-1如下第二张图可见“1”列对应的不同温度等级下的πT值;例如40度等级时,该电容的πT=1;30度时该电容对应的πT=0.9;
2:如果表中无对应值,还是使用上面电容,例如工作温度25度时,则可以通过公式πT=e^[(Ea/k)(1/T0-1/T1)]计算得出;
这里T0为参考温度40度,注意这里需换算为开尔文温度T0=273+40=313;
T1为工作温度,例如25度时T1=273+25=298;
Ea为激活能;通过查询下面第一张图Table 9-1可知“1”对应的Ea为0.05;
k为波兹曼常数定值8.62*10^(-5)eV/K;
则25度时该电容πT=e^[(Ea/k)(1/T0-1/T1)]=0.9109
到这里,本篇第一张图片提及的公式λssi=λGi*πQi*πSi*πTi里的参数都解释完毕,现在举一个实际案例如下:(Q1元器件级—-》Q2主板单元级—–》系统级)
Q1:依旧选择上面分析时的普通定值电容,假设该电容质量等级为Level II,实际电路中电压应力80%,周边环境温度为40度,求该电容此时的FIT值;
解:把之前的截图这里再放一次如下:
由上图得知该电容基础失效率λG=0.1Fit;
质量等级II,则πQ=1;
该电容电应力对应曲线为H,且电应力为80%,查表Table 9-2可得πs=3.4;
该电容温度应力对应曲线为“1” ,且环境温度为40度,查表Table9-1可得πT=1则lSSi=λG*πQ*πs*πT=0.1*1*3.4*1=0.34Fit;
上面分析了单个元器件的失效率的计算,那一块主板单元上有那么多元器件怎么计算呢?
步骤二:单元的稳态失效率计算,公式及参数意义如下:注意这里和SR332标准公式(5-1)写法不太一样,但是表示的含义一样;
如上对这个公式进行分析,举个例子简单讲,如果一个板子上有10个相同种类电容,每个电容失效率为lSS1,每个20个相同种类电阻,每个电阻失效率为lSS2,那么该板子的失效率为lSS=πE(10*lSS1+20*lSS1),所以我们只要知道πE即可,这里πE为环境等级,也就是这个板子所对应的产品安装在什么环境下,是普通的办公室或者机房呢?还是其他一些靠近铁道什么的地方,具体每个安装环境下对应的选择标准及参考值如下截图(安装环境等级有GB,GL,GF,GM,AC,SC6个等级,篇幅关系未放置所有等级截图):
例如产品安装在普通的办公室里,那自然可选GB等级,πE=1;
Q2:依旧选择上面分析时的普通定值电容做板级拓展,假设一个主板上有该电容1000颗,这些电容的质量等级都为Level II,电压应力都为80%,环境温度为40度,这个板子安装在一个服务器上,该服务器就安装在办公室内,求该板子的MTBF值?
解:由Q1计算结果可得单颗普通电容的失效率lSSi=λG*πQ*πs*πT=0.1*1*3.4*1=0.34Fit
因为该服务器安装在办公室内,可以选择环境等级Ground, Fixed, Controlled, GB等级此时πE =1
则lSS=πE*1000*lSSi=1*1000*0.34=340Fit
MTBF=10^9/lSS=10^9/340=2,941,176 hours;
Q3拓展:之前分析了元器件级别到主板单元级的计算案例,那如果是系统呢?一个系统通常含有好多块主板,每块主板之间实现的方式通常有串联,并联,以及其他冗余模型如(k-r)/k冗余模型;如何计算系统的MTBF呢?
这里通常我们会用RBD(Reliability Block Diagram)可靠性框图分析法,举一个服务器例子如下截图,简单介绍如下(注意请别纠结图中一些组件的描述如ESM,MID-PLANE什么的…):
图中可以看出,该服务器分为4个部分串联组成,每个部分解释如下:
Block 1: 2块ESM板并联,只要有一块工作,Block 1即能工作;
Block 2: 两个ESM板均接在一块Midplane上;也就是Midplane为串联接入;
Block 3: 2个PSU并联,只要有一个工作,Block 3即能工作;
Block 4: 5/6风扇冗余,系统一共6个风扇,只要有5个风扇正常工作,则系统散热正常;
计算该系统的MTBF值(假设部件损坏不更换)
这里需引入常用的几个计算公式如下截图:
通过如上分析可见该服务器用到了第一个串联模型和第二个(k-r)/k冗余模型,代入公式得4个Block的FITs值分别计算如下(上面RBD框图中的FR指代该主板单个失效率):
λB1≈1600/(1/1+1/2)=1066.667 Fit;
λB2=200 Fit;
λB3≈2000/(1/1+1/2)=1333.333 Fit;
λB4≈2500/(1/5+1/6)=6818.182 Fit;
λ总=λB1+λB2+λB3+λB4=9418.182 Fit
则该服务器系统MTBF=10^9/ λ总=106,177.6 小时
如上,SR332 ISSUE 3,Method I零器件计数法的分析到这里就分享完了,可能有人会有疑问:通常在计算时会引入置信度的概念,那这样该如何计算?这个在之前的一篇分享中有介绍过,如果有疑问的可以看下面链接:
对了,现在很多公司都有软件来计算MTBF,例如Windchill 和Reliasoft软件等,这些软件还是比较贵的,如果公司预算有限,自己熟练SR332 Issue 3标准,也可以通过Excel自己建立一个库来进行计算,计算结果完全一致,因为需要的公式在标准里都有了,原理都一样,个人已经尝试过,只是前期搭建起来会花些功夫~
如上,个人分享,如有不同观点欢迎交流~~
👍
解:由Q1计算结果可得单颗普通电容的失效率lSSi=λG*πQ*πs*πT=0.1*1*3.4*1=0.34Fit
因为该服务器安装在办公室内,可以选择环境等级Ground, Fixed, Controlled, GB等级此时πE =1
则lSS=πE*1000*lSSi=1*1000*0.34=340Fit
MTBF=10^9/lSS=10^9/340=2,941,176 hours;
—文章中以上算出的MTBF的值的CL(置信度)是多少?
谢谢分享。
有excel的表格分享吗?
谢谢分享,写得很详细
谁有同一个设备用217和332预估的对比数据?
1. 第8节 中的通用设备故障率已根据许多组件的新数据进行了修订。对于少数设备,这些过程所涵盖的复杂性范围已经扩展。此外,还添加了新设备。
2. 第9节中的环境因素已根据实地数据和论坛成员的集体经验进行了修订。
3. 根据论坛参与者提出的项目以及文件用户提出的常见问题,增加了澄清和指导。
相对ISSRU9.3,ISSUE9.4具体有哪些参数做了修改,报告需要修改哪些参数
2.The Environmental Factors in Section 9 have been revised based on field data and collective experience of the forum members.
3.Clarification and guidance have been added based on items raised by the forum participants as well as frequently asked questions raised by users of the document.
相比于Issue 3,第4期主要有以下的变化:
1.The generic device failure rates in Section 8 have been revised based on new data for many components. For a few devices, the range of complexity covered by the procedures has been extended. In addition, new devices have been added.
相对ISSRU9.3,ISSUE9.4具体有哪些参数做了修改,报告需要修改哪些参数
不错,不错。
厉害了
[s-68]
大大的赞
不错的分享
很好的分享
表示看不太懂,但是依然感觉很厉害