安全工程

安全工程是一门确保工程系统提供足够安全程度的工程科学。安全工程和系统工程工业工程及其子领域系统安全工程密切相关。安全工程可确保一个生命关键系统的行为符合需求,甚至可能在部分零件损坏时仍可符合需求。

美国宇航局的插图显示了国际空间站的高冲击风险区域。

简介

安全工程的主要目标是管理风险,消除风险或降低到可以接受的水准。风险是由失效事件几率及其结果严重性所组合而成[1]。例如特定失效结果的严重性可能是人员伤亡、财产损失,也可能只是让人困扰,没有其他影响。失效事件几率可能是频繁、有时发生或是很少发生。失效的可接受程度和上述二者有关,而失效事件几率会比其结果严重性要难预测,因为有许多因素会造成失效,例如机械失效、环境因素以及操作错误。

安全工程设法减少失效的频率,并确保一旦失效发生时,其后果不致于造成人员伤亡。例如桥梁设计可乘载的最大荷重可以大于会通过的最大卡车重量,这就减少了桥梁超载的可能性。许多桥梁都设计有冗余的荷重结构,因此即使有其中一个结构元素失效,可以由其他结构来荷重,这就减少了桥梁超载结果的严重性。

理想上,安全工程是从系统设计初期就开始了,安全工程师会考虑在哪些情形下可能会发生哪些不想要出现的事件,及有关事故风险的计划。若在设计初期可能会在设计规格提出安全缓解的需求,针对既有的设计或是正在服务的产品则会修改设计,提高系统的安全性。有可能是完全消除某一种类的危害英语Hazard,也有可能只是降低事故的风险。常常安全工程师被赋与的任务是证明某个既有的系统是安全的,而不是去更改设计,若是在开发后期甚至完成后才发现显著的安全问题,其矫正措施可能会相当昂贵,可能是大量金钱的支出,甚至是造成人员伤亡或是环境的破坏。

有些机构不是采用上述传统的方式,而是用积极及已验证可行流程的观点来处理安全工程,此观点称为系统安全。系统安全的理念可以适用在复杂系统及关键系统,像是商业客机、复杂武器系统、太空船、铁路及运输系统、航管系统以及其他工业上的复杂系统及关键系统。这种系统安全的方法及技术是借由主要工程纪律及设计团队的组合,在设计过程中可以预防、消除及控制危害及风险。由于现代的系统中,越来越多的机能是由软件来控制,因此软件安全也是快速成长的领域之一。软件可以使系统更加安全,但也可能使系统处于一个危险的状态[2]。系统安全及软件安全都是安全工程领域中的一部分,其概念是借由许多不同种类的危害分析英语Hazard analysis来识别危害、确认危害、验证计,并且评估在系统认证之前,是否需要指定新的安全功能或程序,策略性地降低风险到可接受的程度。

有时降低风险不只是设计阶段的考量,也可以适用在保养阶段。在安全工程及可靠度工程中有以可靠性为中心的保养英语Reliability Centered Maintenance(RCM),是分析系统的潜在失效,并决定如何保养可以降低失效的风险。此方法广泛的用在飞机上,其中也包括了对可更换及维修的零件中失效模式的了解,以及如何侦测或预测可能会发生的失效。汽车车主在加油或是更换刹车时其实就在进行类似的保养。即使是简单的加油,就和失效模式(因没有汽油产生的失效)、检测方式(油表)及保养行动(将油注入油箱)有关。

对于大型的复杂系统,依照失效分析可能会有数百个到上千个保养的方式。其保养可能是根据各零件的基本条件(例如仪表读值或是阀有泄漏)、一些复杂的条件(例如某元件在运作一百小时后,损坏的几率是95%)、或是需要根据检测决定保养方式(例如金属疲劳)。以可靠性为中心的保养会根据每项保养对安全性、任务准备度、操作准备度及失效时维修成本上的风险贡献加以分析,最后会将所有的保养规划在固定的保养时间内进行。规划的过程可能会增加复杂性,因为可能将某项保养的周期加长,因此提高了风险,但是也将另一项保养的周期缩短,因此降低风险,其结果会是综合性的保养计划,目的在减少操作时的风险,并确保其操作准备度及可用性都在可接用的水准。

分析技术

分析技术可以分为二种:非量化的及量化的,二种方法的目的都是找出系统层级的危害及个别零件失效之间的关系。非量化方法着重在回答“哪一个零件一定要失效,才会造成系统危害?”,量化方法则是估计失效几率、失效频率及后果严重性。

 
风险 vs 费用/复杂性。 [3]

传统上,安全分析技术主要是只靠安全工程师的技能及专业意见。最近十多年来以模型为基础的技术越来越受到注意。和传统的作法不同,模型为基础的技术试图借由系统的某种模型推导失效和危害之间的因果关系。

传统的安全工程分析技术

二个最常见的安全工程分析技术分别是失效模式与影响分析故障树分析。二个技术都是设法找出问题,并设法对抗失效,就像风险概率估计英语probabilistic risk assessment所做的一様。WASH-1400英语[WASH-1400]]报告也称为核反应堆安全报告(Reactor Safety Study)或罗斯苗逊报告(Rasmussen Report),是1974年由美国原子能委员会提出的报告,也是最早用这类技术完整分析商用核电厂的研究[4]

失效模式与影响分析

失效模式与影响分析(FMEA)是一个由下往上的、归纳式的分析方式,在二十世纪40年代后期,美国空军正式采用了FMEA[5]

失效模式与影响分析可以应用在机能层级或组件层级。机能层级的失效模式与影响分析中,会识别系统及设备中每一个机能的失效模式,一般会配合机能方块图进行。组件层级的失效模式与影响分析则是识别每一个零件(如阀、连接器、电阻、二极管)的失效模式。找到失效模式后,会描述失效模式带来的影响,根据机能或零件的失效率及失效模式指定其几率。

软件的失效(是否有程序错误)很难量化,而且会影响硬件的失效模式多半不会影响软件,像温度、寿命及制造变异会影响电阻的特性,但不会影响软件的特性。

二个有相同影响的失效模式可以合并,并在失效模式与影响分析中简述。若和严重性分析(criticality analysis)合并时,失效模式与影响分析会变成失效模式效应与关键性分析,简称FMECA。

FMEA 工作表示例
功能 失效模式 影响 S
(严重程度分级)
原因 O
(出现频度分级)
当前的控制措施 D
(检查分级)
CRIT
(关键特性)
RPN
(风险优先级数)
行动措施建议 责任及目标完成日期 已采取的行动措施
填充浴盆 高水位传感器出现差错 液体溅洒到客户的地板上 8 水位传感器已失效
水位传感器已断开
2 根据填充到低水位传感器所需的时间,填充超时 5 N 80 针对在高低水位传感器之间中途额外增加传感器,进行成本分析 约翰
2010年10月10日

故障树分析

 
故障树分析图

故障树分析(FTA)是一个由上往下的,演绎式的分析方式,是找出最上层的不希望发生事件(像坠机、炉心熔化等)和最底层的基本事件(像零件失效、人操作错误、外部事件等)之间的逻辑关系。最底层的基本事件借由逻辑门一直连结到最上层的不希望发生事件。其目的是识别是否可以完全避免最上层事件的发生,或是使最上层事件的发生几率降低,并验证是否有达到安全目的。

故障树和成功树(success tree)在逻辑上恰好相反,因此可以由成功树配合德摩根定律推导,而成功树又和可靠度方块图英语reliability block diagram有直接关系。

故障树分析可以是定性分析,也可以是量化分析。若没有失效及事件几率的资讯,定性的故障树可以用最小割集(minimal cut sets)来分析。若任何一个最小割集中包括了某一个单一的基本事件,表示最上层的事件会因为一个基本事件而造成。量化的故障树一般会计算最上层事件的几率,一般需要像电脑软件的协助.像Idaho国家实验室英语Idaho National Laboratory开发的SAPHIRE英语SAPHIRE或是电力科学研究院英语Electric Power Research Institute的CAFTA。

有些产业会同时应用故障树及事件树英语event tree。事件树是从不希望发生的初始事件(关键电源断电、零件破坏)开始,往下确认是否会造成其他系统的事件。每多考虑一个事件,事件树就会多一个节点,往下有分枝,以及各分支的事件发生的几率。因此可以看初始事件会衍生的其他事件以及发生的几率。

安全认证

在一个通过安全认证英语product certification的系统中,每109小时连续运转的平均失效次数不能大于1。一般西方的核反应堆、医疗设备及商用航空器是以此等级进行认证。相较于失效时带来的人员伤亡,这些产品认证衍生的费用是合理的(根据美国联邦航空管理局针对航空器订定的联邦航空条例英语Federal Aviation Regulations[6][7][8]

避免失效

若是识别出一个失效模式,可以在系统中加入额外的设备或冗余设备,以缓和失效的影响。例如核反应堆中有危险的辐射,而且失控的核反应会产生大量热量,会造成堆芯熔毁,也会熔化周围的物质。因此核反应堆有紧急的炉心冷却设施使炉心的温度下降,有屏蔽层避免释放辐射,也有工程屏障(多半是由核反应堆安全壳进行多层的防护)避免放射物质外泄。一般在安全关键系统中,若出现单一事件或单一零件失效,不会产生灾难式的失效模式。

大多数生物的器官都有冗余,例如多个器官、二个手及二个脚等。

针对失效,多半可以设计失效转移(fail-over)或是冗余来处理,整合在整个系统中。

安全和可靠度

安全和可靠度不同。医疗设备会设计成具有失效安全的特性,若一个医疗设备失效,仍然会保持在安全的状态,而且医生会设法找到其他的替代方案。但若飞机的飞行控制系统失效,很可能会没有替代方案。电力系统网络在设计时需同时考量安全及可靠度。电信系统主要是考量可靠度,但若施打紧急电话(如美国的911)时,就需考量安全性的问题。

安全性和可靠度之间的关系可以用几率风险评估英语Probabilistic risk assessment来描述。零件可靠度(一般会定义为零件的失效率)及外部事件的几率都会用在量化的安全评估方法(像故障树分析)。其他和几率有关的方法也用来计算系统的平均故障间隔(MTBF)、可用度,以及任务成功几率或失败几率。可靠度分析的范围比安全性分析的范围要广,因为可靠度分析也会考虑非关键性的失效。而在安全性分析中,可以接受非关键性系统有较高的失效率。

一般而言,安全性无法只从零件的可靠度来达到。一般会希望灾难性失效的几率只有每小时10−9次,但这也只有像电阻器电容器等非常简单的元件才有这么低的失效率。一般有上千或上万个零件的复杂系统,其平均故障间隔约在10,000到100,000小时之间,代表其故障率是每小时10−4至10−5次。若某个系统失效是灾难性的,要达到失效率每小时10−9次的实务作法是利用冗余的方式。若有二个相同功能,但有独立失效模式的冗余系统,每个系统的MTBF为100,000小时,因为二个系统都失效时,整个系统才会失效,其失效率可以到每小时10−10次。

若是系统中不太可能增加设备,比较可行方式是设计成是固有失效安全的系统,也就是让系统的失效模式不会是灾难式的。固有失效安全的概念常用在医疗设备、交通及轨道信号、通讯设备及安全设备中。

典型的作法是调整系统,使得常见的失效模式可以用安全的方式停机(在核电厂中,此作法称为被动式核能安全英语passive nuclear safety,而且所涵盖的不只是常见的失效模式)。不然,若此系统包含一个像是电池或是转子等危害来源,也可以将此危害从系统中移除,因此此系统就不会有灾难型的失效模式。美国国防部的系统安全性标准实务(MIL–STD–882)在设计选择中将消除危害因素列为最优先的项目[9]

有些系统因为需要持续的可用性,无法作到失效安全。例如在飞行中引擎失去推力是非常危险的,此情形下需要使用冗余、容错设计英语Fault-tolerant design或是复原程序等作法(例如使用多个独立控制、独立供油的引擎)。这也可以让系统较不容易受到一些变异的影响,包括可靠度预测误差或是个别零件品质造成的不确定性等。另一方面,在确保系统层级的可靠度上,失效侦测及修正,以及共因失效的避免变得越来越重要 [10]

遏制失效

在实务上也会用遏制或隔离的方式处理失效。像在管路中,常用隔离阀来隔离可能会损坏或需要定期保养的元件(像泵浦、储存槽及控制阀等)。此外,几乎所有油类或其他危险化学药品的储存槽,都会有将储存槽完全包住的安全壳屏障(containment barrier),以避免灾难性的储存槽失效。在长的管路中,也会在固定距离安装可远端关闭的阀,用来隔离泄漏。在关键性的电子系统或电脑软件中也会设计类似的故障隔离边界(fault isolation boundary)。所有遏制系统的目的都是提供方法可以缓解失效的影响。

甚至有时故障隔离是指可以隔离侦测到的失效,因此可以将系统复原成未失效的状态。隔离水准可以用来显示哪些失效可以复原(一般是用安装可更换冗余的模组,在失效时立刻切换到其他未失效的模组。

相关条目

参考资料

  1. ^ 林宏荣、陈信诚. 本院風險管理之回顧與展望 (PDF). 奇美医讯95期. 奇美医院. [2013-08-30]. [永久失效链接]
  2. ^ Lutz, Robyn R. Software Engineering for Safety: A Roadmap (PDF). The Future of Software Engineering. ACM Press. 2000 [2013-09-07]. ISBN 1-58113-253-0. (原始内容 (PDF)存档于2006-09-02). 
  3. ^ Kokcharov I. Structural Safety http://www.kokch.kts.ru/me/t6/SIA_6_Structural_Safety.pdf页面存档备份,存于互联网档案馆
  4. ^ 危险化学品安全评价的现状及对. 东至县安全生产监督管理局. 2008-07-21 [2013-09-03]. (原始内容存档于2015-10-01). 
  5. ^ Procedure for performing a failure mode effect and criticality analysis, November 9, 1949, United States Military Procedure, MIL-P-1629
  6. ^ ANM-110. System Design and Analysis (pdf). Federal Aviation Administration. 1988 [2011-02-20]. Advisory Circular AC 25.1309-1A. (原始内容存档 (PDF)于2014-02-11). 
  7. ^ S–18. Guidelines for Development of Civil Aircraft and Systems. Society of Automotive Engineers. 2010 [2013-09-03]. ARP4754A. (原始内容存档于2018-01-19). 
  8. ^ S–18. Guidelines and methods for conducting the safety assessment process on civil airborne systems and equipment. Society of Automotive Engineers. 1996 [2013-09-03]. ARP4761. (原始内容存档于2009-12-25). 
  9. ^ Air Force Materiel Command Safety Office. Standard Practice for System Safety (pdf). D. 美国国防部. 1998 [2010-03-14]. MIL–HDBK–882D. (原始内容存档 (PDF)于2020-10-01). 
  10. ^ Bornschlegl, Susanne. Ready for SIL 4: Modular Computers for Safety-Critical Mobile Applications. MEN Mikro Elektronik. 2012 [2012-05-29]. (原始内容 (pdf)存档于2013-06-18). 

外部链接