idc机房火灾应急预案

2023-06-06

第一篇:idc机房火灾应急预案

机房火灾应急预案

机房消防安全工作对于公司运营极为重要,一旦发生火灾,将直接导致公 司业务中断,严重影响公司的安全稳定,并造成巨大的经济财产损失。下面小编为大家带来了机房火灾应急预案,欢迎阅读借鉴。

为认真贯彻落实《国务院关于特大安全事故行政责任追究的规定》,积极提高我公司重点要害部位特大安全事故应急处理能力,努力减少各类特大安全事故所造成的损失,消除火灾事故的隐患,保障公司财产和员工的生命安全,特制定本预案。

本预案针对我公司通信机房的火灾而制定。

移动通信机房灭火流程如下:

(一)值班人员发现机房火情(包括监控中心人员)要立即到现场查看。

(二)如果是个别电路盘着火,应拔出着火的电路盘,用1211或二氧化碳灭火器将火扑灭。

(三)某机柜几块电路盘及电缆着火,应立即拔出着火的电路盘,用1211或二氧化碳灭火器喷射灭火剂将火扑灭。

(四)如果机房的机架机柜着火,值班人员无力自灭自救时,监控中心应切断机架机柜电源或楼层电源,关闭空调,严禁开窗,及时向公司安全生产管理领导小组报告。

(五)公司安全生产管理领导小组指挥机关义务消防队队员进行灭火,组织值班人员立即撤离现场,封闭门窗,按下区域自动灭火按钮灭火,同时拨打119报警,大声呼救,报告公司主管领导或安保值班室,监控室广播火警。

(六)在消防队到达后,应积极配合,简明扼要说明着火位置,火势情况和已采取的补救措施。

(七)用1211或二氧化碳灭火器喷射灭火剂能把火扑灭的,应配合消防队保护现场和消除隐患,防止再次着火。

(八)用1211或二氧化碳灭火器不能把火扑灭时,为防止烟熏引起人员中毒,应组织人员有序疏散,使用相应的灭火器材灭火,尽快将火扑灭。

(九)应保护好现场,按照事故调查处理办法执行。

(十)火灾报警电话: 119

本预案应注意的特别事项

1、当发生火灾情况,进行处理并保证人身安全的同时,

根据设备的重要性进行相应的抢救措施,保证重要设备,特别是直通电话,以及与冀北、华北相应数据的上传,保证通道畅通。

2、抢救完主要设备,在进行次要的设备抢修,待事故处理完毕后,进行相应的实验,保证设备的运行性,并进行设备的可行性分析。

第二篇:中心机房火灾应急预案

为规范本酒店网络中心机房设备管理,提高处理酒店网络突发事件的能力,形成反应迅速的应急工作机制,确保重要网络设备和服务器硬件安全以及运行安全和数据安全,最大限度地减少突发事件造成的危害,特制定《网络中心机房应急预案及管理办法》。

篇一:中心机房管理办法

第一条 机房内禁止明火禁止吸烟,机房内的所有设备需要定期维护并做巡检记录、根据机房实际情况进行清扫工作。

第二条 机房网络设备维护由网络管理员进行,如发现机器故障应及时排除故障,在遇到硬件三包范围内的故障时,应及时联系供应公司上门或将机器送供应公司维修;

第三条 酒店员工必须严格遵守有关机房、设备及系统运行管理规定,不得在机房内从事与系统管理、运行维护、系统安装和调试等无关的工作;

第四条 做好防火、防雨、防湿、防盗工作,注意用电安全;机房内的环境要每周检查温度、湿度、电力系统、是否满足机房相关的标准要求。

第五条 机房内的交换机和服务器系酒店运营的关键设备,任何人不得自行配置或更改其系统参数。

第六条 要做好机房的安全工作,对服务器的各种帐户、密码严格保密。

第七条 应及时做好数据的备份工作,保证在系统发生故障时,数据能够快速、安全的恢复。所有备份数据不得更改,并要求做到本地和异地分别备份保存。

第八条 为了确保本酒店网络正常运行,每日对机房内的设备进行巡视,主要着重于服务器及网络设备运行正常与否。

1、对机房里的温度进行调节,如室内温度过高,调节空调对机房进行有效的通风。

2、查看交换机与防火墙及接入设备的工作状态,如发生异常,对其进行及时有效的维护。

3、监测网络运行状况。

第九条 除本酒店网络管理员外,公司其他人员因工作需要进入机房的,需网络管理员陪同下进入机房。

第十条 严禁带外单位人员或无关人员进入机房,确因工作需要,如:系统故障诊断和处理,设备维修维护、系统或设备安装等进入机房,必须由网络管理员陪同进入,配合项目的实施。

第十一条 进入机房的设备应在进入机房前拆除外包装,以保证机房环境的清洁和安

第十二条 严禁携带易燃、易爆、易腐蚀等危险性物品进入机房。

第十三条 机房内提供的UPS电源只允许为主机、服务器、网络及存储等核心设备供电,严禁安插其他设备,增加UPS电源供电负荷。

第十四条 严禁擅自切断供电系统,确因工作需要断电时,首先应做好相应准备工作,经部门领导批准,然后给所有部门发放断电或断网通知,最后方可实施。

第十五条 机房内安装用电设备或有用电需求的项目时,必须经过专业人员或设备提供商的安装工程师进行现场勘查,经确认在满足或符合要求后工程才能实施。

篇二:中心机房突发事件应急预案

第一条 机房突发事件包括网络设备或服务器故障、自然灾害(水、火、电等)造成的物理破坏、人为失误造成的安全事件等等。 针对突发事件的预防措施如下: 建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘;建立备份电源系统;加强防火、防盗意识。

第二条 机房漏水应急预案如下:

1、发生机房漏水时,第一目击者应立即通知机房管理人员。

2、若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,必要情况下可临时用电扇对服务器进行降温。

3、若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通知工程人员及时清除积水,维修墙体或窗户,消除渗漏水隐患。

第三条 机房火灾应急预案如下:

1、完善机房环境,确保机房放置灭火器;禁止携带易燃易爆物品进入机房。

2、机房管理人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理,掌握消防应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火源。

3、一旦发生火灾,迅速切断机房电源,避免灾情的扩散,并迅速和保安部联系必要时立即报火警。

第四条 机房停电应急预案如下:

1、接到停电通知后,应及时通过办公系统、电话等发布相关信息,部署应对具体措施,要求在停电前停止业务、保存数据。

2、机房管理人员每日检查UPS电源的状态,确保在突发停电时,UPS电源能自动供应服务器正常工作15分钟以上,保证员工工作的数据及时保存。

第五条 通信网络故障应急预案如下:

1、发生通信线路中断、流量异常等故障后,发现状况的员工或部门领导应及时通知网络管理员。

2、网络管理员了解情况后,迅速组织检测故障区域,并作相关故障处理,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

第六条 服务器故障应急预案如下:

1、机房管理人员每日检查机房内各服务器状态。

2、定期备份数据服务器数据。并将备份资料拷贝到移动设备。服务器出现严重硬件故障时启用备用服务器以保障正常运转。

第三篇:机房突发火灾应急处理预案

信息中心机房是重要场所。一旦发生火灾,会造成严重后果 。为有序、高效的应对突发事件,妥善处置紧急情况,最大限度地减少意外事故带来的损失,保障中心机房设备正常运行,特制定处置突发事件应急预案。

由于机房内部用电设备多,供电线路复杂,电器设备连续运转,导致线路设备发热量大,甚至出现线路设备提前老化,极易发生供电线路和电气设备起火现象,任何人员一旦发现火情,要沉着冷静视火情情况进行操作:

1:“先断电,后灭火”是扑灭电气火灾的基本原则,在切断电源时要根据现场火势、着火设备进行判断,考虑重要负荷、消防电源的影响以及配电系统回路的分布,防止火灾未救,人员先被电击或灼伤。如果发现机柜内设备出现内部打火、冒烟但没有明火出现时,要立即拔掉该设备的电源插头,并把该设备拿离机柜,防止危害其他设备;发现局部轻微着火不危机其他设备的情况下,要立即断开该设备电源,并组织人员利用就近消防器材进行灭火,防止火势蔓延扩大,并向领导报告;发现设备火势大危机整个机柜但不危机人员生命还能控制时,立即对应机柜编号,断开整个机柜电源,并组织人员使用气体灭火器进行扑火,发现UPS电池组着火时先断开电池组箱体上的控制开关,必要时再断开电源室控制UPS的总断路器,用气体灭火器灭火,如果火势大不能控制应立即向负责人汇报、拨打119报警,根据情况切断机房总电源再进行组织灭火。 2:组织实施:在消防车来之前,先尽力使用现有消防设备将火势控制在最小范围。 消防车来之后,值班人员配合消防专业人员扑救或作好辅助工作。 迅速组织人员逃生,原则是“先救人,后救物”, 及时安全地疏散人员和财产转移。火势大时可用灭火器边喷边撤退,确保人员安全。

3:注意事项:发现火灾拨打火警电话119报警时要讲清详细地址、起火部位、着火物质、火势大小、报警人姓名电话、并派人到路口迎候消防车。火灾事故首要的一条是保护人员安全,扑救要在确保人员不受伤害的前提下进行。 发现火灾时应掌握的原则是边救火,边报警。人员在逃生时应掌握正确的逃离方法。救火时不要冒然开窗,以免空气对流,加速火势蔓延。

4:灭火器材:电气火灾隐患存在具有一定的隐蔽性,它的发生来得快具有突发性,促成火灾发生的原因受多因素影响而且各因素之间具有关联性,火灾形成后的分解物中有毒气,容易蔓延,即使断电也可能有残留电压存在,所以扑灭电气火灾应用气体灭火器,“二氧化碳”灭火器主要适用于扑灭贵重设备、档案资料、电气设备和其他一般物质的初期火灾。不导电,电压超过600v时,应切断电源;“1211”灭火器是一种具有高效、低毒、腐蚀性小、灭火后不留痕迹、不导电、使用安全、储存期长的新型优良灭火剂,特别适用于扑灭油类、电气设备、精密仪器及一般有机溶剂的火灾;

值班人员应经常开展事故预想、安全活动讨论、学习消防知识、模拟消防演练等多种形式的活动,增强对火灾事故处理方法的认识,在火灾事故发生时能做到头脑清晰、有条不紊,提高火灾事故处理的效率。同时还要对已发生的火灾事故的原因进行认真分析,调查处理,做到四不放过:(1)事故原因不查清不放过;(2)事故责任者得不到处理不放过;(3)整改措施不落实不放过;(4)教训不吸取不放过,预防火灾事故再次发生。

第四篇:机房应急预案

主机运维应急预案简介

. 崔志昂 上海超级计算中心 上海 201203 zacui@ssc.net.cn . 魏玉琪 上海超级计算中心 上海 201203 yqwei@ssc.net.cn 引言:

高性能计算技术及应用水平已成为显示综合国力的一种标志。高性能计算机持续不间断地 为用户提供高性能计算服务,而运维应急预案是主机运行中处理突发事件的依据和方法,是主

机系统稳定运行的保障。本文简要介绍上海超级计算中心主机运维应急预案,供同行参考。

1. 主机和运维管理制度简介

超级计算机是功能最强、运算速度最快、存

储容量最大的一类计算机。目前只有少数国家掌握 研发技术,系统造价非常昂贵,多用于国家高科技 领域和尖端技术研究,是国家科技发展水平和综合 国力的重要标志。上海超级计算中心作为上海信息 港主体工程之一,国家和上海市政府投资先后引 进神威-I超级计算机、神威-64P集群计算机、曙光 4000A超级计算机系统并投入商业化运行。

上海超级计算中心自2001年正式开通至今,

这些高性能计算机系统已安全、稳定运行七年多时 间,上机用户取得了丰硕的科研成果和社会效益。 在这七年中,为保障这些高性能计算机系统安全、 稳定、不间断地运行,技术支持部在中心引进第一 台高性能计算机--神威-I超级计算机系统的同时,建 立了机房应急预案、运行记录、设备运行参数等基 础运维制度,在二期引进曙光4000A超级计算机系统 过程中,不断完善原有运维制度,并针对该主机系 统特点编写了大量操作方法和应急预案。

中心自2006年获得ISO27001(BS7799)信息安 全认证以来,技术支持部根据其要求规范了文档体 系建设,形成了机房管理制度、应急预案、操作方 法、运行情况记录的四大类运维文档。

正是这些运维管理制度的不断完善和有效执 行,才确保了资产价值高、服务对象广、社会影 响大的中心主机系统安全、稳定运行,保障重点项 目、用户服务的连续性。

2. 应急预案重要性

上海超级计算中心机房运维管理文档划分为机 房管理制度、应急预案、操作方法、运行记录共四 大类(如图1所示)。

图1 应急预案分类

应急预案在应急系统中起着关键作用,它明确 了在突发紧急情况发生之前、发生过程中以及刚刚 结束之后,谁负责做什么、何时做,以及相应的策 略和资源准备等。它是针对可能发生的重大事故, 按照其影响和后果严重程度,在应急准备、响应、 操作各个方面预先做出的详细安排,是开展及时、 有序和有效事故应急工作的行动指南。因此,应急 预案在这四类运维管理文档中处于最为重要的地位。

3. 应急预案分类

应急预案按重要性和事件种类,可以划分为消

防预案、断电预案、空调预案、其他预案共4种,预 案各文档之间彼此独立又互为关联,具有非常强的 可操作性。制定预案的指导原则是尽一切可能,最 大限度地确保向用户提供的服务不中断。在紧急事 件发生的情况下,保证核心设备连续运行,避免存 储数据丢失。在事件处置完成后,能快速恢复高性 能计算服务。

3.1 消防预案

消防预案是主机房最重要的应急预案。该类预 案根据《上海超级计算中心灭火和应急疏散预案》 的原则并结合主机房主机设备和消防设备的运行特 性而制定。主要由《主机房消防应急预案》和《主 机房气体喷淋消防系统启动撤离及处置应急预案》 2个文档组成。

消防应急预案:该预案着重规范了火警事件发 生后,所有主机维护人员如何根据所属区域和现场 情况,判断和选择正确的处理方法,同时配合中心 物业人员处置,降低事件带来的影响。

对于设备发生烟雾,主机维护人员协同物业人 员寻找烟雾点予以切断相关区域电源;当设备发生 可以控制火情,协同物业人员灭火;当主机房发生 火灾而无法控制,应采取施救方法等措施。

气体喷淋预案:该预案描述主机房气体喷淋系统启

动的响应和确认并具体规定了撤离机房路线、善后处置。

这两个预案中,消防应急预案作为消防预案

的主体,涉及到如何处理与消防有关情况的各个方 面。气体喷淋预案是主机房发生重大火灾时应对的 最终灭火手段和人员撤离引导方法。

3.2 断电预案

断电预案的重要性仅次于消防预案。该类预

案根据中心供配电系统实际情况和各种断电影响范 围下对主机运行的最小保障要求而制定的。主要由

《主机房断电应急预案》、《曙光4000A超级计算机 系统紧急关机操作方法》、《曙光4000A超级计算机 系统双路断电关机操作方法》等多个文档组成。

主机房断电应急预案:该预案用于断电情况

下,主机维护人员如何与中心物业部门联系控制主 机房供电情况,并且负责对主机系统运行受断电影 响程度做出正确判断。指导维护人员按影响程度, 分别选用预案中对应的操作方法。本预案在所有断 电预案中起指导思想作用。 紧急关机操作方法:该预案制定了主机系统在 紧急情况下,最快速度关机的操作步骤。主要用于 发生烟雾、明火或消防、断电预案需在数分钟内关 机断电的事件。

双路断电关机操作方法:该紧急操作预案主要 用于在外界双路供电全部中断情况下的操作。

该预案的关机原则是:根据实际电力供应考虑 操作步骤,宁慢勿快,在时间允许的情况下,最大 程度保证存储节点、SAN和SCSI存储设备、工程用户 的计算节点的运行,尽可能减少关闭范围,以确保 能在恢复供电的情况下,主机尽快恢复正常运行状 态,减少影响范围。

3.3 空调预案

超级计算机系统在运行中消耗大量电能,在

提供高性能的计算能力同时产生大量的热量,必须 采用专用空调系统,以保持主机系统适当的温、湿 度、空气洁净度等运行环境需求。因此,专用空调 系统与主机系统密切相关,空调预案是主机房必备 的应急预案。

制定该预案的原因在于,断电情况下,空调与 主机系统存在互相牵制的现状。主机和空调系统均 为外界双路供电,主机系统配有UPS不间断电源系 统,而空调系统无UPS支持。在双路停电情况下,主 机系统可获得UPS电池组支持运行若干分钟,空调系 统无UPS支持只能停机。由于在无空调冷却情况下, 主机系统会在短时间内积聚大量热量导致超过运行 警戒温度,主机系统在有可供电余量的情况下,仍 将被迫关机。因此,确保空调中断情况下的主机运 行环境是该预案的制定原则。

预案根据各台主机配备的空调系统特点制定, 由《曙光机房空调系统故障应急预案》和《神威机 房空调系统应急预案》2个文档组成,这里仅介绍曙 光机房空调系统应急预案。

该预案的第一步:考虑增强主机系统散热效

果,采用打开主机机柜前后门,和机房周边木门, 在通风道上布置有UPS支持的应急风扇,形成空气对 流,带走热空气,从而增强主机系统散热效果,降 低升温速度。

该预案的第二步:在采取上述措施并持续升温 到一定温度之上的情况下,考虑紧急关闭部分或全 部计算节点,减少热量生成,确保主机系统的核心 存储和网络系统不受影响,确保空调系统修复后, 主机系统能快速恢复运行。

3.4 其他预案

除了固定的三类预案之外,技术支持部还根据 主机系统实际运行中出现的各种意外情况,随时制 定具有针对性的预案。

如《大楼顶棚坍塌应急操作方法》的制定,就

是由于2008年1月连续发生雨雪等灾害性天气,中心 大楼顶棚大量积雪且难融化,物业预计存在情况继 续恶化,有发生顶棚坍塌事故的可能,一旦发生将 影响一楼主机运行。

针对该突发的隐患,中心技术支持部制定应急 操作方法,对维护巡查频度范围、漏水可能发生位 置、如何处理受漏水影响的主机设备等操作步骤进 行严格界定。即使在最后,中心大楼顶棚经受住灾 害性天气的考验,该预案并未发挥作用,这正体现 了应急预案的备而不用的特点。而且通过各种意外

情况的迅速分析、应对和实践操练,不断锻炼主机 维护队伍,使之走向成熟。

4. 在实际案例中,应急预案的作用

在主机系统年复一年的运行中,我们希望这些 设备正常稳定运行,应急预案永远不会被使用,然 而在实际运行中,总免不了因突发事件执行应急预 案。

而每次突发事件是检验应急预案制定是否科 学、有效的最好证明。

4.1 双路断电,UPS正常运行案例

2006年8月某天,因打雷导致供电一路跳闸自动 换至另一路供电,曙光机房2台空调掉电。

主机维护人员立即按应急预案操作,电话通知 物业人员恢复空调运行,恢复过程中所有空调相继 出现高温报警,机柜液晶屏平均温度35度,开启全 部曙光机柜前后门,打开神威-曙光玻璃门并调集应 急电扇,于12:45恢复正常。

12:50再次出现双路供电中断,曙光空调因无

UPS支撑全部断电,启动断电应急预案,开启

5、6号 木门,开启神威机房全部空调,布置电扇,将冷气 导入曙光机房,热量从6号木门的外部通道排出,选 择性杀除部分作业,至13:05供电恢复,曙光空调开 始工作,13:20环境恢复正常。全机在此过程中,正 常运行未停机,只损失了部分不重要的作业。

4.2 单路断电,UPS失效案例

2007年8月某天,因低压配电柜开关至UPS房间 X-JM柜电缆发生相对地短路,造成UPS机组逆变器 自身保护动作,关闭UPS机组,导致曙光主机系统失 电。

全机掉电后,主机维护人员迅速按应急预案

手 工 关 闭 所 有 电 源 开 关 。1 0 : 3 0恢 复 供 电 ,温湿度恢复正常后,全机加电,恢复过程中修复

storage00

1、00

5、010三个盘阵的9个用户文件系统, 修复15个节点加电故障,除cnode00

9、anode029电源

环 境 模块故障,于当日15:10全机系统恢复正常。

由于处置及时,主机受影响范围很小,在恢复 供电后数小时即成功开启全系统。

5. 随时保持应急预案的适用性

主机长年累月的运行,故障和问题的发生,往 往是必然的,也是客观、无法回避的。因此,要求 在维护工作中,预先考虑到可能的问题和故障,制 定完善的应急预案。应急预案不可能包含所有的故 障和问题,但应根据维护经验,尽可能地设想各种 危机情况下的处置措施。做到预想到各种可能的问 题。

而在形成应急预案后,更重要的是持续地在

运行中加以完善、测试和演练,尽可能模拟实际情 况,做到即使只有1名维护人员在场,也能在真正发 生危机时,以最短时间独立处置故障。

以目前中心的主机运维工作为例,三年内,仅 断电预案就已根据实际运行情况的变化,制定并更 新了5~6个版本,针对夏季突发断电也有专用预案。 这样的措施,直接保障了2006年8月突发断电事件中 的主机连续运行。而2007年8月的突发断电事件中, 由于预案在之前刚根据实际情况进行过演练和修 改,主机维护人员仅用半小时就完成所有应急操作 动作,整机仅有个别设备故障,确保了主机设备未 因突发断电而发生大范围损坏现象,恢复供电后直 接完成开机。

实践证明,完善而适用的应急预案能保障向用 户提供稳定的高性能计算服务。

6. 结束语

完备而适用的应急预案能有效降低主机系统因 意外事件发生带来的运行风险,对可能发生的意外 来说,是一种事前防范措施。但对整个主机系统产 品而言,是一种事后防范措施。如果主机系统生产 厂商能把这些防范措施纳入整个系统设计过程中, 使操作方法更加简便、更趋于人性化,这将帮助主 机维护人员更为妥善处理意外事件,用户得到更为 稳定的高性能计算服务。我们相信未来国产的高性 能计算机能做到这一点,期待着这一天早日到来。

(为帮助了解,特在附录中节选部分双路断电关机预案内容)

附录:《曙光4000A超级计算机系统双路断电关机操作方法》(省略具体操作步骤)

曙光4000A超级计算机系统双路断电关机操作方法

注意:

1、本方法专用于主机房发生双路同时断电紧急操作使用。(包括单线断电切换失败)。

2、本方法作为《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)-XXXX-XXXX-XXXX)的附件。

1. 断电确认及操作:

主机房内一旦发现断电,并接物业明确通知为双路断电,首先执行如下操作(即确保节点温度):

1.1 打开机房门便于散热,..

1.2 机房通道上布置应急风扇加强冷热空气对流,夏季:应急风扇布置..;冬季:应急风扇布置..,使曙光

机房的温度尽量降低。

1.3 打开所有机柜前、后门。

1.4 密切注意机房节点平均温度(专指各机柜液晶面板所示之环境温度值)。

2. 紧急关机条件确认:

在完成上述操作后,密切观察主机房环境。一旦有如下任何一个条件满足:

2.1 自断电发生起,已达到XX分钟仍未恢复供电;

2.2 采取上述紧急通风措施,节点温度持续上升,超过XX℃;

可认定为紧急断电事件,即刻按下列紧急关机操作方法进行操作。

3. 紧急关机操作步骤:

注意事项:

3.1 ..

3.2 关机操作的全过程中,注意随时保持和物业的通讯联系。除根据情况随时联络外,应严格保证每XX分钟与物

业联系一次,询问UPS可支撑时间及恢复供电可能。(分机、手机、对讲机等)

3.3 应理解关机原则为:根据实际电力供应考虑操作步骤,宁慢勿快,在时间允许的情况下,最大程度保证X排节

点、存储节点、SAN和SCSI存储设备的运行,尽可能减少关闭范围,以确保恢复。

第一级操作:(首先执行) 关闭主机系统外围设备..

第二级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 执行如下操作)

关闭非重要用户计算节点(ABC组)..

第三级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 执行如下操作)

关闭所有用户计算节点(D组)..

第四级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 执行如下操作)

关闭SAN存储设备和LSF数据库服务器..

第五级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 完成关机操作)

关闭SCSI磁盘阵列和所有存储节点..

特别关注:

1. 如时间非常紧急,UPS电池低于XX分钟:

直接执行关机脚本:..

此脚本可分别将计算节点、接入节点、存储节点进行关闭。

2. 如时间极其紧急,UPS电池低于XX分钟,可按《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)- XXXX-XXXX-XXXX),直接拉闸操作。

(上述二个方法仅用于突发情况,非极其必要情况下严禁使用,应使用前列方法操作)

3. 如遇主机失电(如关机操作不及已掉电或突发自动掉电)应关闭所涉范围所有设备电闸开关。..

第五篇:机房应急预案

应急处置方案

第一节 总 则

1、保证人员和财产的安全为前提的原则:在由于火灾或电力问题造成的主机故障,在解决故障前,应以保证人员的生命安全和财产的安全为前提,然后进行故障的解决。

2、最快时间恢复业务的原则:本着先想尽一切方法,尽快恢复业务的原则来处理故障,如在有备用设备的情况下,主设备产生了故障,应先尽快将应用切换到备用机上,使业务能够运行,再对故障设备进行诊断和维修。

3、故障应急人员高度负责的原则:当故障应急人员在节假日接到故障通知时,本着高度负责的态度,应迅速接手处理障碍,如远程无法处理解决,应迅速赶到故障设备所在地,进行现场处理,处理故障的同时应及时向领导汇报。应急人员不可互相推卸责任,如因特殊情况,确实无法处理障碍,部门领导必须安排好其他人员处理。

4、尽可能全面的保留故障现场的原则:当故障发生后,应急人员应尽可能全面的备份出能够反映故障现象的各种日志、记录、受损文件等,便于业务恢复后,对故障的分析、解决,杜绝故障的再次发生。

应急方案的目标:保证预付卡运营系统连续安全稳定地运行。

第二节 应急领导小组

应急领导小组成员:

组 长: 副组长: 成 员:

第三节 电源系统故障应急处理

定期检查信息中心机房电源设备的运行状况,当发生下列突发事件时,按以下方案进行处置:

当中心机房发生市电供电突然停电或远程报警电源异常时。首先确认是否为正常停电及预计停电时间。检查不间断电源的电池可供电时间,需在不间断电源供电时效内关闭所有服务器及网络设备。

联系工程部查看停电原因,尽快恢复供电,并将情况报告相关领导

工程部联系电话:

第四节 空调系统故障应急处理

定期对空调的运行情况进行检查,如有报警信息,应及时查找故障原因,对于不能自行排除的问题,应及时与设备提供商进行联系。

当中心机房主空调因故障无法制冷,致使机房内环境温度超过摄氏40度时,打开机房房门,并关闭所有服务器及网络设备。 对于无法自行处置的空调系统异常情况,及时与设备提供商联系,并报告公司领导。 空调问题联系人:

第五节 中心机房自动消防系统应急处理

当中心机房发生火警时,按以下方案进行处置:

1.上班工作时间发生火警,听到自动消防系统发出的声光报警后,中心机房附近办公室人员应及时紧急撤离,避免气体自动消防系统启动后,消防气体对附近人员造成人身伤害。确认火警后,立刻拨打119报警,并说明尽量使用气体灭火器进行灭火,减少电子设备的损坏。

2.发生火警后,信息中心相关人员应马上赶赴现场,并向有关领导报告事故情况。同时立即联系联通等相关公司,及时评估事故损失情况,研讨尽快恢复信息系统正常运行的最佳方案。 安保消防中控电话:

第六节 设备、网络系统故障应急处理

设备、网络应用系统故障应由发现人通知技术部,技术部门立即检查故障,进行初步故障定位,解决;

1.网络设备、服务器、储存设备均有备份,当设备存在硬件问题时,可随时把业务切换到备份主机上,保证业务正常运行; 2.应用系统每更新一次则做一次远程备份,在远程主机上分别备份旧的应用系统和更新后的应用系统,以当天的更新日期命名; 3.对磁盘柜上的数据库文件有定时任务,每天凌晨4:00会把数据库里的数据文件倒出到远程备份主机上,以确保磁盘柜出现硬件故障的时候,数据文件不丢失;对于网络、应用系统出现硬件方面的故障,比较严重的问题,对业务的正常运行造成较大的影响,立即向有关领导报告。

4、网络中有监控服务器,运用Cacti v10最新的版本,监控网络所有设备(路由器,防火墙,交换机以及服务器设备);对设备本身的硬件检测、外部入侵检测、外部攻击等多种对系统不利因素以发送mail的形式报警;相关人员收到报警信息,分析收到的log日志以做出相应的处理。

5、每周周五对网络设备进行日志及配置文件采集,对数据库数据文件定期下载,和远程备份;在本地电脑上保存最近的配置文件,以便在发生毁灭性的灾难时,用来重组。

对简单故障,运维人员应迅速排除故障,解决问题并记录。如果需要更换设备,应上报有关领导,经批准后马上更换故障设备,尽快恢复网络、应用系统运行。运维部门判断无法及时修理时,应立即通知相关的系统运行服务提供商,在最短的时间内安排修理或更换系统。

如发现属外部线路的问题,应与线路服务提供商联系,敦促对方尽快恢复故障线路。

启用备份线路、设备、系统,迅速恢复相关的应用。

联通联系电话:

第七节 黑客入侵的应急处理

发现网络上有黑客攻击行为,任何人员都有义务向技术部门报告。技术部立即启动应急响应,切断受攻击计算机与网络的连接,停止一切操作、保护现场,并上报有关领导。

对于黑客攻击,由计算中心组织应急响应专家小组查找入侵踪迹,分析入侵方式和原因。由安全管理员根据对入侵事件的分析,组织相关人员对内部网计算机整改,防止黑客用同样的手段再次入侵其他系统。安全管理员检查确定无安全隐患后,才可将受攻击计算机重新连接网络,或启用备份计算机来恢复应用。

安全管理员应做好记录,保护现场,进行日志收集等工作。如果能追查到攻击者的相关信息,可以对其发出警告,必要时可以采取进一步的行动,乃至采取法律手段。根据破坏程度,经有关领导同意后,上报公安部门。

若系统已被黑客破坏,无法恢复,应将受黑客攻击的计算机上的重要数据备份到其他存储介质,确保计算机内重要的数据不丢失。如果数据无法恢复,经有关领导同意后,可与国家指定的部门联系,由他们来协助恢复,为保证数据信息安全,需在安全管理部门作记录。

第八节 生产系统、数据库故障处理

生产系统出现故障,技术部做出应急处理

1.因软件设计缺陷、设计漏洞等引起的故障,通知公司研发部门在2小时内查明原因,解决问题。

2.数据库出现故障,运维人员应在2小时内查清故障原因,其他相关部门应积极配合,解决问题。

3.如出现数据丢失情况,确认不能自行恢复后,启用备份恢复数据,24小时内恢复运营。

本方案自发布之日起施行

上一篇:icu院感病历护理心得下一篇:icu专科护士工作计划