防空系统可靠性设计与评估

所属栏目:军事技术论文 论文作者:/
论文摘要

  引言
  
  可靠性是指挥控制信息系统的重要指标。很多需要实时信息处理、使命重大的系统均要求每天24小时、每周7天、每年365天不间断运行。在进行系统总体设计时,需要把可靠性设计及系统的可维护性、可用度设计放在第一位。其中,在许多海外防空指挥系统项目合同中,提高可靠性指标,提升系统的可维护性,也是降低系统海外维护费用,提高海外售后服务质量的重要措施。

  防空指挥系统是一个在硬件设备基础上利用软件技术来实现指挥作战功能的有机整体。随着指挥控制系统规模扩大,软硬件日益复杂,指挥控制系统可靠性问题不仅仅取决于硬件设备的可靠性。因此,在系统可靠性设计时,需将硬件可靠性与软件可靠性综合考虑。

  1 防空指挥系统组成
  
  防空指挥系统采用客户/服务器(C/S)架构,包括处理服务器、前端数据处理设备、网络通信设备、指挥席位以及配套的电源与辅助设备,如图1所示。【图1】

  防空指挥系统依靠这些电子信息设备实现接收雷达情报,指挥下属高炮部队、导弹部队、航空兵部队进行防空作战。

  防空指 挥 系 统 日 常 值 班 状 态 下 接 收 雷 达 数据,对区域内的空情进行监视,当发现空中威胁,根据空中态势与威胁等级,发布作战警报,并组织下属部队作战。通过雷达对空中目标进行搜索、跟踪,将雷达数据综合处理,形成综合空情,并分发至各部队与上级。防空指挥系统对导弹高炮部队、航空兵部队发布作战命令与作战方案,由各下级部队按照命令与方案实现对所属导弹、航空兵部队的作战指挥。

  在防空作战过程中,防空指挥系统居于枢纽位置,其重要性不言而喻。为了保障其稳定工作,需要对系统的可靠性进行综合设计。

  2 防空系统可靠性设计
  
  2.1 可靠性设计原则
  为了提高系统的可靠性,在设计中重点考虑了以下设计原则。

  (1)系统采用分布式、模块化体系结构。分布式有利于充分考虑使用冗余结构,以提高系统的平均无故障时间(MTBF),模块化有利于缩短平均故 障 维 修 时 间 (MTTR),提 高 可 维 护 性 和 可用度。

  (2)高度重视系统关键部位,特别是影响全局要害部位的可靠性设计,并要求各关键性子系统配置自检测部件(BIT),有效支持维修诊断、减少维修时间。

  (3)在重视系统硬件可靠性设计的同时,更加重视系统软件的可靠性和可维护性设计。

  (4)在系统性能指标和可靠性设计发生矛盾时,优先保证可靠性设计。

  可设置全系统工作模式和紧急模式等工作模式。在全系统工作模式下,系统的全部设备和软件都参加运行,全部设计功能齐备可用,此模式为通常情况下系统正常运用的工作模式。系统可以在服务器同时失效或冗余网同时失效的情况下,自动转入紧急模式,维持系统的基本功能。

  在系统某一非要害功能部位发生故障时,系统通过相应的组态调整,使系统继续运行,并提示维修。因系统自动屏蔽了故障并取消故障部件所承担的功能,改用其冗余部件顶替,不影响系统正常功能,即使在这些故障部件维修/更换期间,也不影响系统的正常功能。

  软件可靠性设计在某种意义上讲比硬件可靠性设计更重要。这是因为:

  ①系统中配置的硬件几乎都是商品化的货架产品,可靠性有保障。

  ②随着系统自动化程度的不断提高,功能的不断增强,系统运行的应用软件越来越庞大,软件发生故障的概率呈上升趋势。为此,软件可靠性设计更为重要。

  系统采用了以下软件可靠性设计技术:

  ①模块化设计和模块间的故障隔离技术。

  ②结构冗余技术,包括静态结构冗余、动态结构冗余和混合结构冗余。

  ③信息冗余技术,包括纠错信息、误差校正信息、双重多重冗余信息等。

  ④时间冗余技术,如程序滚回(Program rollback)技术等。

  2.2 可靠性设计措施
  在该信息系统的可靠性设计中,除了在各个部分、各个环节自始至终重视软件可靠性设计之外,还着重考虑了以下几个方面的设计措施。

  (1)主要/关键设备冗余设计为保证系统的可靠性,系统的主要和关键设备设计成冗余结构。其中有的设备也是复杂度最高和硬/软件功能规模最大的部分,其本身的可靠性指标也是很难大幅度提高的。将这些部分设计成各种合理的冗余结构如下:a.系统服务器、前端数据处理设备采用双冗余结构;b.局域网采用双冗余结构(A、B网),同时用加大局域网带宽的办法降低其数据传输负荷率;c.操作工作站采用并联冗余结构。

  在本指挥系统中,服务器是系统的核心部件,承担了系统内最复杂和最繁重的信息处理任务,含有本系统最核心和规模最大的应用软件,是本系统各单元中可靠性最难于大幅度提高的单元。为了不致因为这个环节降低整个系统的可靠性,服务器采用双冗余结构,在线热备份工作方式。前端数据处理设备负责情报来源,处于极其重要地位,也采用双冗余在线热备份工作方式。

  网络设备处在将系统各单元联接成一个整体的关键地位,其运行出错或故障都有可能导致系统崩溃。本系统设计使用千兆网,将LAN在运行中的实际数据平均传输利用率限定在远低于LAN允许数据传输能力以内,同时也设计成双冗余结构。第三网的存在,更进一步提高了系统的整体可靠性。

  作战席位采用软件模块化设计,所有席位软件安装一致,根据登录名启用不同的模块加以区分,即某作战席可以在任一席位上登录,行使其作战指挥职能,同时席位功能设计相互覆盖,设计为n取m并联使用模式,即n个席位中有m个能工作,系统就能正常工作。这种方式比双冗余方式可靠性高,理论故障率极低。

  (2)系统单元之间的故障隔离设计分布式系统各单元的故障屏蔽和隔离是提高系统整体可靠性的有效措施。本系统采用了下列设计实现故障屏蔽和隔离:①各软件单元、各模块弱耦合联系,消除一切不必要的信息交换,防止错误漫延。②软件单元/模块的监控代理实时监视并报告自身的异常状态。③系统监控分析,屏蔽故障单元,阻止故障漫延。

  (3)信息传输的可靠性设计系统各单元的信息交换和数据传输是分布式信息处理系统的神经中枢。本系统采用中间件技术进行通信,保证其可靠传输和交换。该中间件技术包含以下可靠性措施:

  ①奇偶校验。

  ②循环冗余查错/纠错码校验。

  ③数据包格式校验/语法纠错。

  ④关键字段冗余保护和控制。

  ⑤要害信息/报文冗余,互锁重发机制。

  ⑥接收/发送缓冲可靠性保护机制。

  (4)内建自检机制在系统各单元内建硬、软件自检机制既是故障隔离的基础,也是提高系统可维护性的重要手段。

  本系统设置了:

  ①通信接口/网络硬件状态自检。

  ②数 据信息源接口数据校验、数据格式、数据内容级自检。

  ③处理机平台软件和应用软件内建系统资源占用/运行状态实时监控。

  ④应用软件模块内建信息处理流程/运行状态实时监测和报告。

  (5)关键任务的最后保障机制系统的情报信息是系统的核心信息。在系统出现严重故障,如服务器崩溃、冗余网络失效,甚至几台指挥席位同时失效时,系统仍然可以通过旁路通道将外部情报信息转至余下的指挥席位,并激活某指挥席位的独立数据处理软件,由指挥席位直接进行数据处理,监视情报画面,进行指挥工作。

  该模式下情报处理容量减小,多种指挥辅助功能丧失,仅保留指挥相关的核心业务,最大限度地优化了全系统可靠性、可维护性和可用性保证机制。

  3 系统的可靠性评估
  
  系统的可靠性评估应该是基于硬件、软件的综合评估,由前期的可靠性预计与后期的可靠性试验组成。对含有平台软件、应用软件的单元,其可靠性参数预计中同时包括了硬件和平台软件/应用软件的综合贡献。因此,纯硬件单元MTBF的预算值更大,包含软件单元MTBF的预算值较小。

  自动化信息系统的主要信息设备均为货架产品,根据厂家提供的数据和多年工程积累的记录,单个设备的可靠性初步预计结果如表1所示。表中核心部件或设备的数值是相当保守的,而且也是从实际工作场所运行中得到验证的,小于已经结束的多个项目联试报告积累中总结出的数值。各单元的分配MTBF和MTTR指标值需要靠各单元自身的硬、软件可靠性设计来保障。【表1】
论文摘要
  
  系统可靠性可以用一个很重要的值来衡量:平均无故障工作时间MTBF,表示的是相邻两次故障间的平均工作时间,也称为平均故障间隔,其值越大,系统可靠性越高。【1】
论文摘要
  
  式中,R为系统可靠度,是产品在规定条件和规定时间内完成规定功能的概率。其与失效率(故障率)λ(t)的关系如下:【2】
论文摘要
  
  系统可 靠 性 的 最 主 要 预 计 方 法 是 数 学 模 型法(RBD)。该方法按各单元可靠性与系统可靠性的关系建立精确或半精确的数学模型,通过计算预计系统的可靠性。

  RBD是一种简单表示所有可能的功能结构以及故障单元对系统功能影响的图形方法。可靠性框图通常由表示基本系统组成单元的方框组成,方框图通常都有一个起点和一个终点。其中至少要有一条从起点到终点的路径是通的,且没有通过一个故障单元,系统才是正常的。最常见RBD的基本结构包括串联、并联。

  串联时,只要有一个单元失效,整个系统就失效。系统可靠度[1]公式为:【3】
论文摘要
  
  并联时,只要有一个单元工作,系统就工作。系统可靠性公式为:【4】
论文摘要
  
  一般可仅考虑对系统可靠性有影响的主要组成,按可靠性的逻辑关系绘制可靠性框图,通常非串联部分均可单独计算,简化为一个等效单元,最终端是成为一个串联模型,如图2所示。【图2】
论文摘要
  
  而可靠性MTBF为:【5】
论文摘要
  
  式中,Ri为第i个设备的可靠度;λi为第i个等效模块的总失效率。

  3.1 可靠性预计
  (1)非冗余设计可靠性计算系统按非冗余设计,每种设备取必需的数量时,其可靠性模型如图3所示。系统可靠性模型为服务器、前端数据处理设备、网络设备、6个席位可靠性串联。此时只要一个单元失效,整个系统就失效。其MTBF值为8 576h。不难看出,可靠性指标的降低,正是由于设备采用单套配置的故障率评估引起的。非冗余设计时的可靠度值对于全面描述和理解系统的可靠性能是有意义的。该状态时的 系 统MTBF与 可 用 度 无 法 满 足 系 统 值 班需要。【图3】
论文摘要
  
  (2)冗余设计正常工作模式可靠性计算系统采用冗余设计,能够完成正常的指挥作业时,其可靠性模型如图4所示。其MTBF值为12864h。比起非冗余设计时已有较大增长,该值为正常工作模式下的可靠性数值指标,是防空指挥系统最有实际参考意义的关键可靠性指标且当单个设备损坏,进行维修时,不影响系统正常工作。【图4】
论文摘要
  
  (3)冗余设计基于关键任务的可靠性计算系统按前文中进行冗余设计,主系统面临重要故障,无法工作时,由席位计算机通过C网直接接收数据,并进行数据处理,完成指挥作业,其可靠性模型如图5所示。当然,在该工作模式下,系统情报处理容量减小,多种指挥辅助功能丧失,仅保留指挥相关的核心业务。虽然争取了最大的可靠性值,但带来了指挥功能缺失,指挥性能下降。

  经计算可得出该模式下MTBF值为15 781h,比起非冗余设计时有大幅度增长,完全满足系统对可靠性的需求;比起冗余设计正常工作模式也有所增长,在硬件成本上只多了旁路网络交换机,其余的可靠性增长依赖于旁路软件设计。

  当系统发生故障,需要故障诊断、设备替换时,系统依旧能够实现功能,进行指挥作业,这也是采取该冗余设计的意义所在。【图5】
论文摘要
  
  3.2 可靠性试验
  指挥系统的可靠性试验是基于软硬件相结合的角度,在 系 统 层 面 上 进 行。试 验 分 为 两 个 部 分:①在可靠性仿真试验环境中,按照系统功能、业务流程、性能指标生成各个测试用例对系统进行连续不间断72h测试,以及系统联试过程中的联试报告累积。②后期在用户提供的真实应用环境中,进行试用,在试用过程中记录整个过程。

  试验过程中,记录系统发生的全部故障,并在试验后进行数据分析,明确责任与非责任故障;最终根据试验方案和责任故障总数,可以判断出指挥控制系统的可靠性试验是否通过,同时这些资料也会成为后续项目中,对各组成可靠性预计的基础。

  4 结束语
  
  经过可靠性评估与可靠性试验证明了该可靠性设计的可用性。同时,多个产品采用此设计,其有效性在长期运行中得到了有效检验。在多个海外项目实施过程中,也发现了外方提供的通信系统不可靠性对系统运行影响很大,可以在后继的研究中,将外方提供的系统运行保障条件统一纳入可靠性设计。

  参 考 文 献
  [1]代绪强,朱骏,朱云飞.指挥控制系统软件可靠性试验方法及其应用[J].指挥信息系统与技术,2013(04):4.
  [2]张文育,王家伍,刘燕超,等.载人航天工程地面逃逸安控系统可靠性技术[J].装备指挥技术学院学报,2006(10):10-17.
  [3]巴海 涛,汤 扣 林,许 锐 锋.维 修 指 挥 信 息 系 统 可 靠 性 设计[J].指挥信息系统与技术,2010,1(4):32237
  [4]曾声奎,赵延弟,张建国,等.系统可靠性设计分析教程[M].北京:北京航空航天大学出版社,2006.
  [5]王海涛,李敏.战术通信环境中的网络规划和管理[J].数据通信,2010(04):6-9.

'); })();