机房断电应急报告

2022-07-05

在我们的学习与生活中,根据自身的需求,编写出格式正确、逻辑合理的报告,已经成为生活与学习的常见流程。该怎么样写出适合自身工作实际的报告?下面是小编为大家整理的《机房断电应急报告》,供需要的小伙伴们查阅,希望能够帮助到大家。

第一篇:机房断电应急报告

分行29、9.30机房断电事故调查报告

分行9.29/9.30中心机房断电事故

调查报告

省分行信息技术管理部:

2011年9月29日12点50分及2011年9月30日8点10分,分行中心机房(以下简称机房)接连发生两次断电事故,造成郴州分行全辖所有业务分别中断45分钟、14分钟。经调查,确定如下调查结果:

1、机房UPS系统为一主一备供电模式,其中UPS1(主机)异常,在主路输入停止,电池放电完毕后自动切换旁路失败,导致UPS2(备机)供电无法送至负载;

2、UPS电池损坏,其中UPS1电池几乎完全失去功能,在输入熔断器烧坏后无法支持UPS继续供电;

3、机房存在鼠患,在UPS输入配电柜开关上发现老鼠尸体;

4、机房强电布线非常不规范,从机房配电柜至供电开关间布线凌乱;

5、9月29日断电发生时,给机房供电的两路市电其中一路变压器掉了一相电,同时UPS1烧坏一个输入熔断器;

6、9月30日断电系东方万象工程师在未获得我行人员许可的情况下对UPS1进行放电操作,导致与9月29日同样原因的掉电事故。现将具体调查情况报告如下:

一、事故现场调查情况

1、9月29日中午12:51分,技术员发现机房断电,网络通讯中断,同时发现UPS设备出现告警,UPS1整流器、逆变器指示灯为红色,旁路与输出指示灯均为绿色。UPS2整流器、逆变器、输出指示灯均亮绿灯。立即通过电话与UPS维保商东方万象技术员联系,在维保商技术员的指导下,手动关停主机Q1(主路输入)、Q4(旁路输入)、Q5(输出),开启Q3(维修旁路),负载由UPS2提供电源,供电恢复。

技术员后来发现由电业局提供的国家电网机房专线输入变压器跌落保险掉了一相。

2、9月29日19:00,UPS维保商东方万象从武汉抵达现场检修UPS主机,断开UPS1电池开关,发现主输入熔断器损坏,其它元器件无异常,用导线临时替换熔断器(已损坏的),按顺序闭合Q

1、Q

4、电池开关、启动逆变,在Q5(此时为断开状态)输入端测得正常电压,设备运行正常。

9月30日凌晨4时左右,UPS维保商东方万象工程师周劲松携带熔断器配件。

3、9月30日8:10分,东方万象工程师姜国清、周劲松关UPS1电池开关、关Q

1、Q4,更换保险,合Q

1、Q4,测得电池浮充电压404V,合电池开关,测得逆变后端电压正常。合Q5,看显示面板旁路电压正常,断Q3,启动逆变,负载切换到主机,全部恢复正常工作模式,

4、随后,东方万象工程师姜国清、周劲松在未征求同意的情况下,擅自做UPS1放电测试,断开Q1,观察电池电压,发现电池电压瞬间由406V掉至362V,欲合上Q1时发现负载已经掉电,于是立即断开Q5,闭合Q3,发现负载仍然没电。郴州分行技术人员发现UPS输出配电柜三个施耐德20A单相空气开关跳闸(分别为网络机房、服务器机房、操作间供电开关),复位后机房负载恢复正常。

此时机房状态为:UPS1的Q

1、Q

4、Q5开关断开,Q3开关闭合,UPS2正常,机房负载由UPS2通过UPS1的维修旁路供给。

二、事故原因调查情况

2011年9月30日24点,管理部工程师梁承山与东方万象负责人曾志雄抵达,进行事故原因调查。10月1日凌晨1点至4点,在主持下,对29日、30日发生的UPS故障现象及处理过程进行了仔细的回顾与分析。根据掌握的情况,在向省分行信息技术管理部汇报后,确定于10月1日晚对故障UPS进行全面检修及故障排查。10月1日下午,经由省分行向总行申请了故障排查的窗口时间。

10月1日22:00,梁开始对设备进行故障排查检修,过程如下:

1、22:00,测量三个跳闸的空气开关输出电流分别为:20A、13.5A、10:21A,开关下端接头较松。判断机房负载即将达到空气开关容量上限,在电网出现波动时容易发生跳闸现象。

2、在UPS输入配电柜备机输入开关处发现死亡老鼠一只(取出后发现老鼠全身完全干枯),UPS输出配电柜输出开关及电缆上发现有其他老鼠死后留下的油污。

3、 检查跳闸空开后端没有发现UPS电源插座接非计算机设备。

4、 闭合UPS1的Q4开关,测UPS1的Q5(输出)开关输入端电压为399V,401V,399V,50HZ(此时UPS1的Q1(主路输入)、Q5(输出)是断开的,Q4(旁路输入)、Q3(维修旁路)、电池开关是闭合的)。判断UPS1的静态旁路是导通的。

5、 闭合UPS1的Q1开关,启动逆变后,逆变正常,测Q5输入端电压为382V,383V,382V,50HZ。判断UPS1的逆变正常。

6、 23:00点报告省分行运行中心,主动关停网络设备、前臵机。

7、 断开UPS输入配电柜上的UPS1输入开关M1,观察电池在低负载(3A)情况下电压下降非常明显,之后断开UPS1的电池开关,UPS1显示面板显示UPS1已经自动切换旁路,旁路输出电压为39

9、39

9、399V,经实际测量Q5输入端电压为12.45V、12.53V、12.85V(感应电压,实际供电没有通过静态旁路送至Q5)。此时再测量Q4输入端电压为 402V、403V、397V, 输出端电压为399V、402V、400V。证明UPS2供电正常,并已经到达UPS1的Q4,但是并没有通过UPS1D 静态旁路到达Q5。判断UPS1自动切换旁路存在故障。

8、 将供电恢复正常模式:备机为正常开机状态,将主机Q

1、Q

4、Q

3、Q5断开,停机后按正常流程开机,此时机房供电模式恢复为正常状态,测量UPS1的Q5输出端电压为382.2V、382.6V、382.2V。判断UPS1逆变输出正常。

9、 断开UPS输入配电柜上的UPS1输入开关M1,断开电池开关(完全模拟事发时现场现象), UPS1面板显示“电源1超限,UPS内部故障,负载切换故障(只显示一次,再次查看即无此条报警)”,查看UPS1电压状态显示:电源2电压394V 397V 392V 负载电压394V 397V 392V,实际测得Q5输出端电压为6V、7V、 8V,Q4输入端电压为402V、402V、402V,输出端电压为402V、402V、402V。此时UPS1 的整流器指示灯、逆变器指示灯为红色,旁路指示灯与输出指示灯为绿色,同时三个施耐德20A的空气开关跳闸。再次验证UPS1的自动切旁路功能存在故障。

10、再次重复步骤9,得出同样结果,此时可以确认UPS1的自动切旁路功能存在故障。

11、将供电恢复正常模式:备机为正常开机状态,将主机Q

1、Q

4、Q

3、Q5断开,停机后按正常流程开机,此时机房供电模式恢复为正常状态。

12、断开UPS2的Q1开关(时间12:13),电池开始放电,随后断开UPS2电池开关,UPS2显示自动切换为旁路,实际测得UPS2的Q5输出电压401V 401V 397V。判断UPS2自动切换旁路正常。

13、10月2日凌晨1:00,恢复正常供电模式,然后断开UPS1的Q1开关、电池开关、Q5开关、Q4开关,闭合Q3开关,将供电模式恢复为UPS2的逆变输出通过UPS1的维修旁路给机房供电。此时负载恢复供电。

14、启动网络设备、前臵机、测试网络正常、前臵机通讯控件正常。

经过以上操作测试,确定是由于UPS1主机内部存在故障,导致UPS1自动切换旁路异常,UPS2供电无法通过UPS1静态旁路向负载输出,最终导致机房设备断电。

三、应急处臵方案

由于郴州分行中心机房使用的UPS年限过长,全面维修所需的配件难以在短时间内备齐,维保商东方万象公司无法确定对UPS1进行全面维修的时间。为降低郴州分行中心机房的动力风险,经省分行信息技术部领导的批准,省分行信息技术管理部梁承山工程师、东方万象工程师、郴州分行信息技术部共同确定了将郴州分行中心机房UPS主备机互换的应急处理方案,由于UPS1的逆变输出是正常的,将UPS主备机互换,可以达到UPS设备备份的应急目的,临时提高机房供电安全系数。应急处理方案于2011年10月3日凌晨2时至6时实施。

(1) 10月3日02:00开始,关闭所有负载,断开负载的输入开关。

(2) 断开UPS2的输出开关Q5,断开Q4,断开电池开关和Q1。断开UPS1的维修开关Q3。

(3) 拆开UPS1与UPS2的输入输出接线的前挡板。 (4) 拆除UPS1输出开关Q5输出端导线连接头,标记为“UPS总输出”。

(5) 拆除UPS2的主输入Q1至静态旁路Q2输入端的连接线,用该导线将UPS1的主输入端Q1与静态旁路Q2输入端按相同相序连接。

(6) 将UPS1静态旁路Q4输入端导线连接头拆除,按相同相序连接至UPS1输出Q5输出端。

(7) 将UPS2输出开关Q5输出端导线连接头拆除,按相同相序连接至UPS2静态旁路Q4输入端。

(8) 将标记为“UPS总输出”的导线连接头按拆除前相同相序与UPS2Q5输出端连接。

(9) 将三个跳闸的施耐德20A单项空气开关更换为施耐德32A单项空气开关。

转换后示意图为:

确认改接正确后。合上UPS1与UPS2的输入输出接线的前面挡板,按照正常开机程序分别开启现UPS1与UPS2,完成UPS1与UPS2的转换工作。

全部转换工作需在10月3日清晨6时前完成。

2、应急方案的实施过程

10月3日凌晨2点整,在向省分行运行中心汇报后,严格按实施方案逐步实施。

3、应急方案实施后的结果

10月3日04:40,应急方案实施完毕。现场进行UPS

1、UPS2性能测试过程如下: (1) 断开UPS2市电输入配电柜开关M2,再断开电池开关,测量UPS2自动旁路转换正常,负载由UPS1作为备机通过UPS2的静态旁路输出给负载;

(2) 恢复UPS2正常状态,此时UPS2作为主机正常供电,UPS1成功成为UPS2的备机。

(3) 开启网络设备、前臵机。 经现场测试: 特此报告。

二O一一年十月三日

第二篇:停水、断电、停气应急预案

一、 设施保障

购置饮水机、蓄水缸、煤气罐,有条件的情况下建立独立用电回路,配备一台应急的柴油发电机。

二、 保证措施

做到科学预防、措施得力,确保停电、停水、停气情况下师生就餐和饮水的供应。

1、 接到停电通知后,立即进行发电准备,停电后启动发电机发电保证正常供餐。

2、 接到停水通知后,立即进行蓄水准备,停水后饮用使用储水设施存放的饮用水。

3、 接到停气通知后,立即进行更换气源的准备,停气后更换气源,用液化气加工饭菜。

食堂吧台为同学备足矿泉水、纯净水,各种饮品、面包、方便面等以备应急用。

如遇到不可抗拒的三停同时发生,要第一时间书面形式通知全体师生和食堂全体员工,同时食堂经理带领全体管理人员到餐饮加工现场指导食材的安全生产,保证食品的安全及供应。把由此而产生的损失降到最低。并向师生做好解释求得师生谅解。

存储食材出现质量问题无法使用的情况下:

①厨师长立即向经理汇报,同时组织手下厨师马上更换菜谱,使用其他安全食材加工食品,保证师生饭菜的供应。

②追查原因、落实责任,给予处罚,坚决避免类似的事件发生,将隐患消失在源头。

a、 采购人员采购商品时把好进货关,出现问题与供货商联系追究原因。

b、 保管员签收时把好验收关,不仅看食材的三证和保质期同时用手摸、鼻嗅等方法检查货物的性、状、味有无异常,发现问题立即退货不予签收。对库内食材要先进先出,经常巡查,对已过期食材及时消库。

c、 厨师长对出库的食材出现问题有着不可推卸的责任。每天厨师长对出库食材都应做检验确定没问题后,进入加工流程。

第三篇:消防中心断电的应急处理预案

仪电168项目

上海中企物业管理有限公司 SHANGHAI ZHONGQI PROPERTY MANAGEMENT CO., LTD 消防中心断电的应急处理预案

1、凡属消防系统断电,各楼层的报警箱及中央控制系统均有蓄电池,能继续维持供电(其有效期为6-8小时),待电路恢复供电后,即自行转入正常工作状态。

2、电梯迫降系统,当电梯机房不断电时,均处于正常工作状态。

3、监视控制屏断电以后,电视图像立即消失时的操作步骤如下 :

1) 关闭监视控制屏电源开关。

2) 待恢复供电后,开启监视控制屏电源开关。

4、凡遇断电时,应做好记录并与电工联系。

5、断电或复电后,电工需到现场检查。

6、如遇电工不能排除故障,速与管理部主管联系。

上海中企物业管理有限公司

第四篇: 使用呼吸机过程中突然断电的应急演练

2015年11月24日下午,我科室举行了“患者使用呼吸机过程中突然停电”的应急演练。演练内容为模拟突发停电,医院立即启动停电应急预案,保护重症患者生命安全。

此次演练模拟的场景为呼吸衰竭呼吸机辅助支持的患者,在使用呼吸机过程中突然停电,责任护士(王丽)发现后,立即呼救,并使用简易呼吸气囊辅助呼吸,其他护士(杨溪)和医生(臧尔明)听到呼救马上赶至床旁协助抢救,并通知科主任(王金)及护士长(朱晓华),医生到达后立即采取应对措施,采用简易呼吸器 维持患者正常通气;护士长查看病人后给予现场指导,办公班护士(杨依月)立即通知相关部门查明停电原因。恢复通电后,医生(臧尔明)重新调整、使用呼吸机,并严密观察患者病情及生命体征的变化,护士做好记录。

此次演练历时20分钟,我科医护人员分工明确、反应迅速,整体团队协作精神较好,现场应急处置果断,救治及时。通过这次停电演练进一步提高了我科医护人员在意外情况发生时的应急能力和全院各科室的的综合协调能力。今后有类似应急情况发生时,病人都能得到更快更好地处理,切实保证病人的安全与健康。

存在的问题:此次演练个别护士反应不及时,未进入应急状态。

整改措施:

1、护士长将演练的结果及存在的问题在科室会议上反馈。

2、将存在的问题立即反馈给个人,加强专业知识学习。

3、定期组织应急演练、强化应急意识,提高急救技能。

第五篇:机房应急预案

主机运维应急预案简介

. 崔志昂 上海超级计算中心 上海 201203 zacui@ssc.net.cn . 魏玉琪 上海超级计算中心 上海 201203 yqwei@ssc.net.cn 引言:

高性能计算技术及应用水平已成为显示综合国力的一种标志。高性能计算机持续不间断地 为用户提供高性能计算服务,而运维应急预案是主机运行中处理突发事件的依据和方法,是主

机系统稳定运行的保障。本文简要介绍上海超级计算中心主机运维应急预案,供同行参考。

1. 主机和运维管理制度简介

超级计算机是功能最强、运算速度最快、存

储容量最大的一类计算机。目前只有少数国家掌握 研发技术,系统造价非常昂贵,多用于国家高科技 领域和尖端技术研究,是国家科技发展水平和综合 国力的重要标志。上海超级计算中心作为上海信息 港主体工程之一,国家和上海市政府投资先后引 进神威-I超级计算机、神威-64P集群计算机、曙光 4000A超级计算机系统并投入商业化运行。

上海超级计算中心自2001年正式开通至今,

这些高性能计算机系统已安全、稳定运行七年多时 间,上机用户取得了丰硕的科研成果和社会效益。 在这七年中,为保障这些高性能计算机系统安全、 稳定、不间断地运行,技术支持部在中心引进第一 台高性能计算机--神威-I超级计算机系统的同时,建 立了机房应急预案、运行记录、设备运行参数等基 础运维制度,在二期引进曙光4000A超级计算机系统 过程中,不断完善原有运维制度,并针对该主机系 统特点编写了大量操作方法和应急预案。

中心自2006年获得ISO27001(BS7799)信息安 全认证以来,技术支持部根据其要求规范了文档体 系建设,形成了机房管理制度、应急预案、操作方 法、运行情况记录的四大类运维文档。

正是这些运维管理制度的不断完善和有效执 行,才确保了资产价值高、服务对象广、社会影 响大的中心主机系统安全、稳定运行,保障重点项 目、用户服务的连续性。

2. 应急预案重要性

上海超级计算中心机房运维管理文档划分为机 房管理制度、应急预案、操作方法、运行记录共四 大类(如图1所示)。

图1 应急预案分类

应急预案在应急系统中起着关键作用,它明确 了在突发紧急情况发生之前、发生过程中以及刚刚 结束之后,谁负责做什么、何时做,以及相应的策 略和资源准备等。它是针对可能发生的重大事故, 按照其影响和后果严重程度,在应急准备、响应、 操作各个方面预先做出的详细安排,是开展及时、 有序和有效事故应急工作的行动指南。因此,应急 预案在这四类运维管理文档中处于最为重要的地位。

3. 应急预案分类

应急预案按重要性和事件种类,可以划分为消

防预案、断电预案、空调预案、其他预案共4种,预 案各文档之间彼此独立又互为关联,具有非常强的 可操作性。制定预案的指导原则是尽一切可能,最 大限度地确保向用户提供的服务不中断。在紧急事 件发生的情况下,保证核心设备连续运行,避免存 储数据丢失。在事件处置完成后,能快速恢复高性 能计算服务。

3.1 消防预案

消防预案是主机房最重要的应急预案。该类预 案根据《上海超级计算中心灭火和应急疏散预案》 的原则并结合主机房主机设备和消防设备的运行特 性而制定。主要由《主机房消防应急预案》和《主 机房气体喷淋消防系统启动撤离及处置应急预案》 2个文档组成。

消防应急预案:该预案着重规范了火警事件发 生后,所有主机维护人员如何根据所属区域和现场 情况,判断和选择正确的处理方法,同时配合中心 物业人员处置,降低事件带来的影响。

对于设备发生烟雾,主机维护人员协同物业人 员寻找烟雾点予以切断相关区域电源;当设备发生 可以控制火情,协同物业人员灭火;当主机房发生 火灾而无法控制,应采取施救方法等措施。

气体喷淋预案:该预案描述主机房气体喷淋系统启

动的响应和确认并具体规定了撤离机房路线、善后处置。

这两个预案中,消防应急预案作为消防预案

的主体,涉及到如何处理与消防有关情况的各个方 面。气体喷淋预案是主机房发生重大火灾时应对的 最终灭火手段和人员撤离引导方法。

3.2 断电预案

断电预案的重要性仅次于消防预案。该类预

案根据中心供配电系统实际情况和各种断电影响范 围下对主机运行的最小保障要求而制定的。主要由

《主机房断电应急预案》、《曙光4000A超级计算机 系统紧急关机操作方法》、《曙光4000A超级计算机 系统双路断电关机操作方法》等多个文档组成。

主机房断电应急预案:该预案用于断电情况

下,主机维护人员如何与中心物业部门联系控制主 机房供电情况,并且负责对主机系统运行受断电影 响程度做出正确判断。指导维护人员按影响程度, 分别选用预案中对应的操作方法。本预案在所有断 电预案中起指导思想作用。 紧急关机操作方法:该预案制定了主机系统在 紧急情况下,最快速度关机的操作步骤。主要用于 发生烟雾、明火或消防、断电预案需在数分钟内关 机断电的事件。

双路断电关机操作方法:该紧急操作预案主要 用于在外界双路供电全部中断情况下的操作。

该预案的关机原则是:根据实际电力供应考虑 操作步骤,宁慢勿快,在时间允许的情况下,最大 程度保证存储节点、SAN和SCSI存储设备、工程用户 的计算节点的运行,尽可能减少关闭范围,以确保 能在恢复供电的情况下,主机尽快恢复正常运行状 态,减少影响范围。

3.3 空调预案

超级计算机系统在运行中消耗大量电能,在

提供高性能的计算能力同时产生大量的热量,必须 采用专用空调系统,以保持主机系统适当的温、湿 度、空气洁净度等运行环境需求。因此,专用空调 系统与主机系统密切相关,空调预案是主机房必备 的应急预案。

制定该预案的原因在于,断电情况下,空调与 主机系统存在互相牵制的现状。主机和空调系统均 为外界双路供电,主机系统配有UPS不间断电源系 统,而空调系统无UPS支持。在双路停电情况下,主 机系统可获得UPS电池组支持运行若干分钟,空调系 统无UPS支持只能停机。由于在无空调冷却情况下, 主机系统会在短时间内积聚大量热量导致超过运行 警戒温度,主机系统在有可供电余量的情况下,仍 将被迫关机。因此,确保空调中断情况下的主机运 行环境是该预案的制定原则。

预案根据各台主机配备的空调系统特点制定, 由《曙光机房空调系统故障应急预案》和《神威机 房空调系统应急预案》2个文档组成,这里仅介绍曙 光机房空调系统应急预案。

该预案的第一步:考虑增强主机系统散热效

果,采用打开主机机柜前后门,和机房周边木门, 在通风道上布置有UPS支持的应急风扇,形成空气对 流,带走热空气,从而增强主机系统散热效果,降 低升温速度。

该预案的第二步:在采取上述措施并持续升温 到一定温度之上的情况下,考虑紧急关闭部分或全 部计算节点,减少热量生成,确保主机系统的核心 存储和网络系统不受影响,确保空调系统修复后, 主机系统能快速恢复运行。

3.4 其他预案

除了固定的三类预案之外,技术支持部还根据 主机系统实际运行中出现的各种意外情况,随时制 定具有针对性的预案。

如《大楼顶棚坍塌应急操作方法》的制定,就

是由于2008年1月连续发生雨雪等灾害性天气,中心 大楼顶棚大量积雪且难融化,物业预计存在情况继 续恶化,有发生顶棚坍塌事故的可能,一旦发生将 影响一楼主机运行。

针对该突发的隐患,中心技术支持部制定应急 操作方法,对维护巡查频度范围、漏水可能发生位 置、如何处理受漏水影响的主机设备等操作步骤进 行严格界定。即使在最后,中心大楼顶棚经受住灾 害性天气的考验,该预案并未发挥作用,这正体现 了应急预案的备而不用的特点。而且通过各种意外

情况的迅速分析、应对和实践操练,不断锻炼主机 维护队伍,使之走向成熟。

4. 在实际案例中,应急预案的作用

在主机系统年复一年的运行中,我们希望这些 设备正常稳定运行,应急预案永远不会被使用,然 而在实际运行中,总免不了因突发事件执行应急预 案。

而每次突发事件是检验应急预案制定是否科 学、有效的最好证明。

4.1 双路断电,UPS正常运行案例

2006年8月某天,因打雷导致供电一路跳闸自动 换至另一路供电,曙光机房2台空调掉电。

主机维护人员立即按应急预案操作,电话通知 物业人员恢复空调运行,恢复过程中所有空调相继 出现高温报警,机柜液晶屏平均温度35度,开启全 部曙光机柜前后门,打开神威-曙光玻璃门并调集应 急电扇,于12:45恢复正常。

12:50再次出现双路供电中断,曙光空调因无

UPS支撑全部断电,启动断电应急预案,开启

5、6号 木门,开启神威机房全部空调,布置电扇,将冷气 导入曙光机房,热量从6号木门的外部通道排出,选 择性杀除部分作业,至13:05供电恢复,曙光空调开 始工作,13:20环境恢复正常。全机在此过程中,正 常运行未停机,只损失了部分不重要的作业。

4.2 单路断电,UPS失效案例

2007年8月某天,因低压配电柜开关至UPS房间 X-JM柜电缆发生相对地短路,造成UPS机组逆变器 自身保护动作,关闭UPS机组,导致曙光主机系统失 电。

全机掉电后,主机维护人员迅速按应急预案

手 工 关 闭 所 有 电 源 开 关 。1 0 : 3 0恢 复 供 电 ,温湿度恢复正常后,全机加电,恢复过程中修复

storage00

1、00

5、010三个盘阵的9个用户文件系统, 修复15个节点加电故障,除cnode00

9、anode029电源

环 境 模块故障,于当日15:10全机系统恢复正常。

由于处置及时,主机受影响范围很小,在恢复 供电后数小时即成功开启全系统。

5. 随时保持应急预案的适用性

主机长年累月的运行,故障和问题的发生,往 往是必然的,也是客观、无法回避的。因此,要求 在维护工作中,预先考虑到可能的问题和故障,制 定完善的应急预案。应急预案不可能包含所有的故 障和问题,但应根据维护经验,尽可能地设想各种 危机情况下的处置措施。做到预想到各种可能的问 题。

而在形成应急预案后,更重要的是持续地在

运行中加以完善、测试和演练,尽可能模拟实际情 况,做到即使只有1名维护人员在场,也能在真正发 生危机时,以最短时间独立处置故障。

以目前中心的主机运维工作为例,三年内,仅 断电预案就已根据实际运行情况的变化,制定并更 新了5~6个版本,针对夏季突发断电也有专用预案。 这样的措施,直接保障了2006年8月突发断电事件中 的主机连续运行。而2007年8月的突发断电事件中, 由于预案在之前刚根据实际情况进行过演练和修 改,主机维护人员仅用半小时就完成所有应急操作 动作,整机仅有个别设备故障,确保了主机设备未 因突发断电而发生大范围损坏现象,恢复供电后直 接完成开机。

实践证明,完善而适用的应急预案能保障向用 户提供稳定的高性能计算服务。

6. 结束语

完备而适用的应急预案能有效降低主机系统因 意外事件发生带来的运行风险,对可能发生的意外 来说,是一种事前防范措施。但对整个主机系统产 品而言,是一种事后防范措施。如果主机系统生产 厂商能把这些防范措施纳入整个系统设计过程中, 使操作方法更加简便、更趋于人性化,这将帮助主 机维护人员更为妥善处理意外事件,用户得到更为 稳定的高性能计算服务。我们相信未来国产的高性 能计算机能做到这一点,期待着这一天早日到来。

(为帮助了解,特在附录中节选部分双路断电关机预案内容)

附录:《曙光4000A超级计算机系统双路断电关机操作方法》(省略具体操作步骤)

曙光4000A超级计算机系统双路断电关机操作方法

注意:

1、本方法专用于主机房发生双路同时断电紧急操作使用。(包括单线断电切换失败)。

2、本方法作为《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)-XXXX-XXXX-XXXX)的附件。

1. 断电确认及操作:

主机房内一旦发现断电,并接物业明确通知为双路断电,首先执行如下操作(即确保节点温度):

1.1 打开机房门便于散热,..

1.2 机房通道上布置应急风扇加强冷热空气对流,夏季:应急风扇布置..;冬季:应急风扇布置..,使曙光

机房的温度尽量降低。

1.3 打开所有机柜前、后门。

1.4 密切注意机房节点平均温度(专指各机柜液晶面板所示之环境温度值)。

2. 紧急关机条件确认:

在完成上述操作后,密切观察主机房环境。一旦有如下任何一个条件满足:

2.1 自断电发生起,已达到XX分钟仍未恢复供电;

2.2 采取上述紧急通风措施,节点温度持续上升,超过XX℃;

可认定为紧急断电事件,即刻按下列紧急关机操作方法进行操作。

3. 紧急关机操作步骤:

注意事项:

3.1 ..

3.2 关机操作的全过程中,注意随时保持和物业的通讯联系。除根据情况随时联络外,应严格保证每XX分钟与物

业联系一次,询问UPS可支撑时间及恢复供电可能。(分机、手机、对讲机等)

3.3 应理解关机原则为:根据实际电力供应考虑操作步骤,宁慢勿快,在时间允许的情况下,最大程度保证X排节

点、存储节点、SAN和SCSI存储设备的运行,尽可能减少关闭范围,以确保恢复。

第一级操作:(首先执行) 关闭主机系统外围设备..

第二级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 执行如下操作)

关闭非重要用户计算节点(ABC组)..

第三级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 执行如下操作)

关闭所有用户计算节点(D组)..

第四级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 执行如下操作)

关闭SAN存储设备和LSF数据库服务器..

第五级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 完成关机操作)

关闭SCSI磁盘阵列和所有存储节点..

特别关注:

1. 如时间非常紧急,UPS电池低于XX分钟:

直接执行关机脚本:..

此脚本可分别将计算节点、接入节点、存储节点进行关闭。

2. 如时间极其紧急,UPS电池低于XX分钟,可按《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)- XXXX-XXXX-XXXX),直接拉闸操作。

(上述二个方法仅用于突发情况,非极其必要情况下严禁使用,应使用前列方法操作)

3. 如遇主机失电(如关机操作不及已掉电或突发自动掉电)应关闭所涉范围所有设备电闸开关。..

上一篇:机关公文学习制度下一篇:甲供工程涉税政策