aomareliability 发表于 2014-10-29 20:14:25

可靠性浅谈

本帖最后由aomareliability于2014-11-1221:44编辑

最近一段时间连续碰到3个可靠性案例,非常具有代表性。刚好最近不太忙所以就开个贴子,和大家分享一下。
我想我和大家一样入了可靠性行当,碰到很多难以解答的问题。那真是苦思不得其解,又没人指导,那种郁闷我想大家都有所感受。所以我特别想发个帖子把自己的偶有所得和大家分享,但是对可靠性的理解仍不能贯通,就未发。然最近碰到3个典型的案例让我有豁然开朗的感觉,最后觉得趁着灵感把自己所对可靠性的理解,整理成帖子和大家分享。
大家在看帖子过程中,如有发现错误,请把自己正确的东西贴上来,若不贴,完成这个帖子的过程中将不会专门回复。
本人水平有限,错误在所难免,欢迎批评,但请谅解。
2014-11-12加注:之所以写这个帖子,是因为贴者在实际的可靠性工作中,长期积累了很多疑问,尝试了很多途径都没有得到答案,所以自己不得不把可靠性模型,概率统计理论和实际使用状况,进行比对分析。从根上查找每个可靠性函数定义的实际意义。
这3~4年来,我也不断问自己一个问题,可靠性是什么?有什么用?怎么用?长时间的思索也偶有小得,所以才发这个帖子。所以这个贴的角度会集中在,可靠性理论,可靠性模型,和可靠性分析上。另外,你在看这个帖子过程中,会不断发现贴者会一次次地挑战着传统,在这点上特别希望大家能够谅解。最后,大家这看帖过程中发现错误的地方,请贴出你的正确答案,并附上步骤;如果有实际可靠性案例能拿出来是最好的。贴者希望在这个帖子中能和大家进行比较有深度的交流,相互学习,共通提高。

下面正式开贴

aomareliability 发表于 2014-10-29 21:26:59

本帖最后由aomareliability于2014-11-113:03编辑

案例1:续1
计算方法1:1-((12*0.01-10*0.01)+10*0.001)=0.970
计算方法2:R(t12)=exp(-10*0.001)*exp(-2*0.01)=0.99005*0.980199=0.970466
这两种计算结果都指向答案A,但是为什么两个计算结果都指向了一个答案?为什么两个计算的结果小数后四位以后的几个数不一样?
根据计算方法1:1-((12*0.01-10*0.01)+10*0.001)=1-(10*0.001+2*0.01)=0.970
我们知道1-F(t)=R(t),那么上式就是R(0)-(λ*t0-10+λ*t10-12)=R(t)==》推导出F(t)=λ*t
带入R(t)=exp(-λt)=1-F(t)可以得到:λ*t+exp(-λ*t)=1
λ*t+exp(-λ*t)=1这个式子能成立吗?
那我们进行分析看看是否能成立,λ*t是线性函数,1-λ*t还是线性函数,但是exp(-λ*t)非线性函数,显然一个线性函数与一个非线性函数在[0,t)的区间(t>0),显然是不能相等。那么就是说λ*t+exp(-λ*t)=1该是不成立了。但是为什么这个这两种计算方法得到的结果如此接近呢?我仔细想了一下,恰好这段时间在看讲解电路知识的视频,是麻省理工的一个教授,在讲小信号模型和放大原理若何处理放大失真用的方法及原理和这个公式是一样的。这里简单介绍一下:直接把信号放大会失真,是因为放大电路不是线性电路。避免失真的方法就是把原来信号变小,再加一个偏置量组成一个复合信号。那么信号的Δ量相对复合信号来说就会非常小,只要控制在特定的工作电压范围内,输入和输出的Δ量就是非常接近线性关系了。也就说在满足某种条件下exp(-λ*t)是近似线性的,或者说线性函数在某种条件下接近指数函数。
然后罗列不同λ和t,带入λ*t+exp(-λ*t)建立一个表格,从表格中可以看出λ*t=0.1的情况下λ*t+exp(-λ*t)=1.0048,也就是比正确的公式F(t)+R(t)=1,上偏0.48%。

aomareliability 发表于 2014-10-29 20:22:36

本帖最后由aomareliability于2014-11-112:49编辑

案例1:
发帖人(可靠性论坛ID:gykhl)
这个很奇怪,怎么计算呢?
16.已知一个设备的风险率函数(如果t<10小时:为0.001如果t>10小时,则为0.010)在12小时内,这个设备的可靠度是多少?
A0.970B0.980C0.988D0.990

我看到这个问题时,第一感觉就是太简单了,最后才知道这里面隐含的东西,远远远远超出我的预料!!

可靠性论坛其他ID回复
1-((12*0.01-10*0.01)+10*0.001)=0.970

本人回复
把产品分为两个时间段,看成两个时间段的串联系统,因此:
R(t12)=R(t10)*R(t2)
t10:t<10,h(t)=0.001
t2:t>10,h(t)=0.01
又因为风险率函数h(t),在两个时间段为定值,因此知道可靠度函数为R(t)=exp(-λt)
综合上式得
R(t12)=exp(-10*0.001)*exp(-2*0.01)
=0.99005*0.980199
=0.970466

可靠性论坛ID:owshiiuhs追问
这种算法还是第一次看到时间区间也可以分成串联系统去算?

本人回复

根据可靠性定义:R(t)=Ns/N0
Ns:t时刻剩余数量
N0:0时刻总数量
证明如下:
R(t12)=Ns12/N0=(Ns10/N0)*(Ns12/Ns10)=R(t10)*R(t2‘)
R(t10):0<t<10,t=0为起点,到t=10的可靠度
R(t2’):t>10,t=10为起点认为此时为0时刻,即R(10)=1,而第12小时t'=2

aomareliability 发表于 2014-10-29 22:34:28

本帖最后由aomareliability于2014-11-112:51编辑

案例1:续2
根据MTBF的定义MTBF=N*t/r
MTBF适用于可以维修的产品,通过维修可以保持总量N不变,
t是运行时间
r是0~t的失效数量把MTBF转换成λ,
根据可靠性的定义R(t)=Ns/N0,F(t)=Nf/N0----式1
N0样本总量,Ns为0~t时间的剩余数量,Nf为0~t时间的失效数量
当R(t)服从指数分布,h(t)=λ,
若MTBF=1/λ那么λ*t=/=r/N-----式2
我们仔细对比一下式1和式2==》N和N0都是样本总量,Nf失效数量和r失效次数,这两式子代表的实际意义是否可以认为是一样的呢?我个人认为是一样的。若是一样的,也就是说MTBF的F(t)=λ*t。
当我们在把1/MTBF=λ,引用到R(t)=exp(-λ*t),即会导出λ*t+exp(-λ*t)=1,而这个式子是不成立的。
这个就是我反对MTBF转换成λ的原因,之前也有发帖说MTBF是个“搅屎棍”,它误导了我们对可靠性的理解了。
但是MTBF=1/λ,是有实际应用的意义的,就λ*t要控制的比较小,我个人认为λ*t≤0.1是不影响MTBF=1/λ代入到R(t)=exp(-λ*t)应用的,因为偏差≤0.48%,实际应用时可以接受的。若λ*t持续增加就是“自寻死路”。也就是说把MTBF=1/λ代入指数分布,引出中位寿命(t=MTBF)说法是错误的,更谈不上什么实际意义了。但是指数分布+MTBF仍有积极应用的地方,例如我们的消费电子产品,设计MTBF都是几十年,用户实际使用周期都是几年,有一个或以上数量级的差别,应用是没有任何问题的。
案例1-小结1:R(t)=exp(-λt)与MTBF是互斥的,根本不能放在一起用。但是当t和MTBF存在数量级及以上的差别时,是不影响计算结果的。


aomareliability 发表于 2014-11-1 12:52:16

本帖最后由aomareliability于2014-11-112:55编辑

案例1--续3
λ(t)--失效率函数到底代表什么?
式1:R(t)=exp(-λt)
式2:λ(t)=
式3:λ(t)=/[(t2-t1)*R(t1)]=/t
式4:R(t)+F(t)=1
式5:h(t)=λ
上式2和式3,单独来看其实并没有什么,不就是失效率函数不同样式的定义吗!但是若把t1=0,t2=t代入式3,再结合式2,在指数分布下会出现什么结果呢?
当t2-t1趋近于0==》λ(t)==λt
当t1=0,t2=tλ(t)=/t
若λ(t)同时满足t2-t1趋近于0,t2-t1>>0,那么得到λ*t^2+exp(-λ*t)=1
看到这个式子大家是不是比较熟悉,和上面我们推导出的λ*t+exp(-λ*t)=1和相似,上面我们已经推导出λ*t+exp(-λ*t)=1只有在特定λ*t<0.1的使用比较靠谱,那么λ*t^2+exp(-λ*t)=1实际使用范围更窄。也就是说上面假设t2-t1趋近于0,t2-t1>>0,只能满足一个,也就是满足t2-t1趋近于0,λ(t)存在,且λ(t)=h(t)。
说明λ(t)是过渡函数,只是为了导出瞬时失效率函数h(t)。
这个案例使用了风险率这个概念,从MIL-HDBK-338B可靠性理论章节,应该是hazardrate即h(t)。这里我想说说可靠性名词的定义和习题以及面试中经常用到的。例如有,年失效率,寿命,失效率,风险率,累计失效率,瞬时失效率等。其中年失效率=年累计失效率=累计失效率对应F(t);瞬时失效率=风险率对应h(t)。寿命具体应该是指产品的固有属性,取决于本身属性和应力,是典型的强度—应力干涉模型,其中强度对应的是产品属性,应力对应产品的使用条件,也就是应力是持续影响强度的。而大家经常想表达MTBF就说成寿命,是不对的,MTBF是典型的随机模型,随机模型最重要的假设前提是应力不累加,与寿命本身的强度—应力模型是相反的。失效率在不同的描述下,可能是指F(t),也可能是h(t),下面举两个例子,也是一个可靠性同仁在面试遇到的问题。
例1:灯泡寿命周期内的失效率是0.1,那么两个相同的灯泡串联,串联系统的失效率是多少?
例2:灯泡的失效率是0.1,那么两个相同的灯泡串联,串联系统的失效率是多少?
解:例1的失效率是指F(t),因为系统明确指出了时间段(灯泡的寿命周期),那么系统失效率=1-[(1-0.1)*(1-0.1)]=0.19;例2,不知道失效率是的是哪个,那么我们进行分析,灯泡失效显然是时间连续型的,未给定时间段,那么失效率就是在不同时间上的定值,也就是h(t)=0.1,那么要求解的串联系统的失效率肯定是指h(t)系统,所以h(t)系统=0.1+0.1=0.2
面试官本想出例1考面试者,但他把题目写成例2了,他没想到失效率到底是什么,是取决于精确定义。定义错了,结果是不一样的。
那么案例1-小结2:
F(t):为累计失效率函数
h(t):为瞬时失效率函数
以后杜绝使用失效率,失效率函数这个过渡λ(t),可靠性交流中使用严谨的累计失效率函数和瞬时失效率函数。更不要在另增新名词。可靠性已经够麻烦的了,不要再在交流沟通上添乱了。
下图贴了一下可靠性函数公式,来源与MIL-HDBK-338B
至此,案例1完

aomareliability 发表于 2014-11-1 15:05:57

本帖最后由aomareliability于2014-11-115:07编辑

案例2
可靠性论坛ID:lyy7313
新开发的水泵,间歇运转5son,5Soff,假设一年纯运转100hrs,设计寿命5年(500hrs),5年累计不良率5%。现在仅有5个样品,如何测试可靠性(测试时间的确定),如何验收?
我觉得这个非常有意义的案例,楼主说明产品类型,并对工作状态描述的比较清楚,想问的问题也很明了。有很多人发帖寻求帮助的时候,问题描述的似是而非,就算想谈谈自己的看法也从下手。
从这个案例,主要想谈谈如何应用可靠性模型进行设计可靠性试验,在下面的分析中会用到比较多的假设,但由于个人时间和篇幅的限制,没有把假设是否成立的证明过程贴给大家。我打算以后会把各种假设证明以附件的形式贴在后面,但什么时候能完成,就不能给大家保证了。
看到水泵和寿命这两个关键词时,我觉得应该用强度--应力模型来设计试验。想到对应的分布是NORMAL分布。楼主也使用指数分布的随机模型设计了一个试验。下面就谈谈这两个模型在该案例的应用。
指数分布,时间随机模型应用
只考虑产品工作时间
R(t5年)=1-5%=0.95=exp(-λ*t)===>λ=0.0001
根据案例1得到结论,案例2λ*t=0.0001*500=0.05,那么我们可以把1/λ转换成MTBF进行应用
设计MTBF鉴定试验,采用单边置信度为90%,假设试验无失效的情况下5台样品需要的试验时间
MTBF=2N*T/chiinv(1-0.9,2(r+1))==>T=/
90%置信度,无失效chiinv(1-0.9,2(r+1))=chiinv(0.1,2)=4.605
因为N=5,MTBF=10000==>T=187天(24小时进行试验)
5台样机,连续运行187天,若无失效,则认为产品满足5年(500小时)可靠度>0.95。显然试验时间太长,而且台运行4600小时以上,远超过产品实际的500小时,λ*t=4600*0.0001=0.46,指数模型的偏移了已经不使用与MTBF=1/λ,再退一步说,187天的连续试验不是经济可行方案。
注:这里要说明一下λ*t=0.0001*500=0.05和λ*t=4600*0.0001=0.46代表的实际意义,前一个是对实际应用的推导,认为产品总量是足够大的;而后面一个是实际试验样品数量只有5台,推导出的测试时间。因此就得出1/λ是否能转成MTBF的相反结论。

NORMAL分布模型强度--应力干涉模型应用
假设水泵的平均寿命是某个值,每个水泵的寿命都会大于,等于或小于该平均寿命,并且相对平均值寿命偏移较小的水泵数量比例比偏移较大的水泵数量比例要大。最典型的分布就NORMAL分布。有因为我们关心的F(t)≤0.5,也就是NORMAL分布的左半边,即F(t)=P(Z≤z)。
水泵的工作特性是运转5son,5Soff,我们可以把onoff和起来看做一个任务周期10s。即把时间连续转换成,任务周期连续,则F(t)=P(Z≤z)==>F(n)=P(Z≤z)。对5年500小时on时间,转换成任务周期次数为360000次。
这里的F(t)就是,NORMAL分布表中Φ(t),下面统一用F(n)
从表中查找F(n)最接近0.05的值为0.0495,z=-1.65
Z≤z=-1.65
Z=(n-μ)/σ
则(n-μ)/σ≤-1.65,设σ=kμ==>则n≤(1-1.65k)μ
我们看看n≤(1-1.65k)μ代表什么含义?假设μ,σ一定时,产品运行任务周期次数≤n,则F(n)累计失效率≤0.0495。而我们的设计试验的目的是什么呢?是希望知道有个任务周期次数的零界点,当试验的累计失效率≤某个值,试验任务周期次数≥零界点,则认为验收通过。那好,我们继续分析,试验样品只有5台,那么累计失效率可能为0%,20%,40%,60%,80%,100%。所以选取最佳累计失效率点为20%,这是因为我们的目标是5%,试验样品只有5台导致试验精度为20%,所以只能选取20%。20%仍在NORMAL分布的左边,因此查找F(N)≤20%的z值为-0.85。代入上式得
n≥(1-8.5k)μ
其意义是,5用台样机,执行n次试验,若失效数量≤1台,那么证明该水泵能满足5年累计失效率不超过5%的可靠性要求。

aomareliability 发表于 2014-11-1 16:08:05

案例2--续1
老办法,把假设k为0.1~1步长为0.1,再假设平均寿命为360000~600000次,步长为10000次,那么出现1台失效,也就是累计失效率为0.2,看看对应的测试任务周期次数(每天都执行的次数)是多少。如表1
简单介绍下表1的含义:若5台都测试356850次时,出现1台失效,那么估计水泵的平均寿命为390000次,标准差为36000次;若5台都测试323700次时,出现1台失效,那么估计水泵的平均寿命为390000次,标准差为36000次。虽然估计的平均寿命为390000次>360000次,让不能满足设计要求360000次累计失效率≤5%的要求。
若5台水泵都测试360000次,并且没有发生失效,则说明能满足设计要求,并且标准差=0.1平均寿命时,估计平均寿命超过393443次。如表2
由于测试样品太少的原因,就决定了该试验的结果最好是无失效试验,若出现一台失效,就要在360000次的基础上增加400~4000次试验,并且不出现第2台失效,则认为水泵通过验收。若出现2台及以上失效,则建议改进后再进行试验,或者追加试验样品数量。如表2,表3和表4

aomareliability 发表于 2014-11-1 16:37:11

本帖最后由aomareliability于2014-11-116:39编辑

案例2--续2
所以该试验设计的目标为,5台都运行360000次,每次10秒5on,5off,连续24小时试验,共需41.67天。若增加样品数量可以提高试验精度,但并不能减少试验时间。这是强度--应力模型决定的。若试验已经完成360000并没有失效发生,可以再增加很少的试验次数,就会得到更可靠的验收合格结论。增加多少次,可以参照6sigma的理念,增偏离为1个sigma,也就是估计平局寿命要提高1个sigma,对应测试次数要相应的增加。最多偏移3个sigma就可以。其平均寿命偏移起点就是我们此实验判定接收合格的临界点。
案例2--小结:在可靠性实际工作中,往往受到资源的限制,如何利用有限的资源,分析并选取合理的可靠性模型,设计验收/鉴定试验,通过试验结果达到或接近实际使用结果的一个思路。
注:大家可能觉得WEIBULL分布比NORMAL分布在这个案例上应用会更好,我觉得应该不会有多大差别,因为我们关心的可靠度变化量只有0.05,实在是太小了。以后会准备把各种分布模型的应用整理出来。

案例2--完结

aomareliability 发表于 2014-11-1 17:10:36

案例3
案例3和我以前工作遇到困惑而得到猜想有共通之处,所以碰到案例3时,很兴奋。就那个猜想也有发过帖子。
案例2和案例3中间还有个案例,这样会把我想说的更具连贯性,但因为某些原因,暂时不能贴了。
我个人认为案例3是可靠性的殿堂,它充分体现了可靠性工作的价值意义。常用的可靠性模型,都是单一的,应力--强度干涉的表现是服从某个分布的,或者假设是服从某个分布的,案例3则给我们一个响亮的耳光,让我们必须正式产品的固有特性,和特有应用环境。别人产品是手机,我们产品也是手机,别人指数分布可靠性,我们也用指数分布可靠性模型是不对的。同一个产品在一段时间某个可靠性模型好用,但过一段时间后发现不好用了。案例3就告诉我们这些东西,拿来就用是不对的,用着不变也是不对的。我们需要正视产品的固有属性和特定使用环境,跟着变化做调整或改变。
案例3涉及的东西比较多,因此更新的会比较慢,下面先把案例3贴上:

可靠性论坛ID:xxex
最近我在使用JMP分析某类产品的售后(寿命)数据,得到的最佳的分布类型是DSWeibull(DefectiveSubpopulationWeibull),同时其它类别的产品数据分析得到的有DSLognormal(DefectiveSubpopulationLognormal)\DSLoglogistic(DefectiveSubpopulationloglogistic)DSFréchet(DefectiveSubpopulationFréchet)。
我的问题如下:
1.这里DS是什么含义?
2.从网络上得到的资料表明DS表示数据来自多个样本,难道是说DSWeibull这种分布是多个weibull分布混合形成的分布么?
3.能否写出这种分布的数学解析式?

可靠性论坛ID:closure
就是说部分样本才有这种失效模式。比如说,某种定制的样本才会有这种失效之类的。下面是官方的解释:
Inreliabilityexperiments,therearetimeswhenonlyafractionofthepopulationhasaparticulardefectleadingtofailure.Becauseallunitsarenotsusceptibletofailure,usingtheregularfailuredistributionsisinappropriateandmightproducemisleadingresults.UsetheDSdistributionoptionstomodelfailuresthatoccurononlyasubpopulation.ThefollowingDSdistributionsareavailable:
•DSLognormal•DSWeibull•DSLoglogistic•DSFréchet

xiaozhai1103 发表于 2014-11-6 19:15:03

楼主好人,感谢分享
页: [1] 2 3 4 5
查看完整版本: 可靠性浅谈