idc机房维护应急预案

2023-06-06

第一篇：idc机房维护应急预案

IDC机房维护

运维IDC机房经验

一、什么是IDC机房运维?

IDC机房运维涉及到方方面面的问题，它不同于其他运维，处理的问题都是比较低沉的问题。在很多公司可能都是将服务器托管的到专门的IDC机房让专业的人士进行维护，还有些大公司建有自己的IDC机房，但管理层面上可能只是网络信息部门的一个子部门，但我们仍要面对很多机房管理的问题。IDC机房运维可以简单的从五个方面来概括:主机监控、信息统计、硬件维护、系统维护、网络维护。处理这些问题就是IDC机房的运维。

二、分层运维

我认为我们所熟知的计算机能有今天的成就很大一个成功是在于它的模块化设计，以及分层体系，现在我们用的PC的硬件是由CPU、内存、硬盘、主板、输入输出设备等组成。正是这些模块化的构造让人们对计算机的维护更加的方便，快捷。

现在我们正在步入云计算时代，云计算的实施却是阻碍重重。但是云计算是必然的趋势，因为这是人们对信息自由的渴望、是对资源合理利用的迫切需要。所以说云计算的发展也少不了用模块化，分层次的进行设计和优化。

我们来看看云计算的分类云计算可以认为包括以下几个层次的服务：基础设施即服务(IaaS)，平台即服务(PaaS)和软件即服务(SaaS)。

我觉得我们现在的系统分层多且繁杂，无法体现我们在IDC机房的运维，我认为IDC机房的运维应该根据服务提供的角度去对IDC机房进行维护，从终端角度来看，所有提供网络服务的资源都是一朵朵的网云。我们在IDC机房中的运维都是为了面向终端进行服务。所以说我们应该根据服务来对我们的IDC机房进行运维。

我根据云计算服务的分类认为我们在运维分层的问题上应该和云服务的分类相呼应来进行维护，所以我认为，IDC机房的运维应该分成：基础设施维护，耦合层维护，应用服务维护三个层面。

基础设施维护

基础设施维护顾名思义，指的是对设施设备的维护，包括设备的环境维护，设备的统计等等。在这个层面我们需要保证每一台机器是可以正常连接的，是可以正常使用对外提供服务的，并且我们得保障机器的正常运行并且是可管理的。总的来说基础设施层的维护是为了对耦合层的交付使用而服务的。

耦合层维护

在这个层面我们对设备有了统一的管理，在这个层面有系统性的架构统一的管理系统，指令系统，和监控系统，在这个层面我们可以发现底层的问题，并交由底层处理，并在这个层面保证应用服务的正常运行。在这个层面将会涉及负载均衡和备份等技术。

应用服务维护

在这个层面主要是客户对自己应用的维护，在这个层面里客户对自己运行的运营软件进行维护。

当然这个分层的维护只是个萌生概念，如果有一天这个理论可以被建立，相信会被更加的完善。并且为我们更好的理解运维体系服务。

三、运维工程师

在我之前有很多人都对运维工程师进行过很多定义，大家都说运维工程师是神仙，不是人干的活。因为运维工程师所承担的东西太多了，这让很多做运维工作的朋友们都表示伤不起啊。我们可以来看看以前别人是怎么来定义运维工程师的。

运维工作师需要什么样的技能及素质

做为一名运维工程师需要什么样的技能及素质呢，首先说说技能吧，如大家上面所看到，运维是一个集多IT工种技能与一身的岗位，对系统->网络->存储->协议->需求->开发->测试->安全等各环节都需要了解一些，但对于某些环节需熟悉甚至精通，如系统(基本操作系统的熟悉使用,*nix,windows..)、协议、系统开发(日常很重要的工作是自动运维化相关开发、大规模集群工具开发、管理)、通用应用(如lvs、ha、web server、db、中间件、存储等)、网络,IDC拓朴架构等等，但是我们知道每个人不肯能样样都很精通，每个人的知识层面不可能像水桶一样，我不否认这种人的处在，但是人的精力是有限的，一个人挖10口1米的井估计很难挖出水来，但是一个人挖一口10米的井我想挖出水的可能性还是很高的。所以说如果运维工程师通过分层运维将运维的知识面分开来进行突破，我想运维水平的提高指日可待，运维工程师的工作负担也会相应的减轻。

那么运维工程师在技能和个人素质方面需要什么要求呢?

我觉得在技能方面不需要过分去强求，只要懂得计算机的基本原理等计算机知识就可以，其他的个方面知识都可以通过后天的培养获得。

在个人素质方面应该具备以下几点:

个人素质方面：

1、沟通能力、团队协作：运维工作跨部门、跨工种工作很多，需善于沟通、并且团队协作能力要强;这应该是现代企业的基本素质要求了，不多说。

2、工作中需胆大心细：胆大才能创新、不走寻常路，特别对于运维这种新的工种，更需创新才能促进发展;心细，运维工程师是网站admin,最高线上权限者，一不小心就会遗憾终生或打入十八层地狱。

3、主动性、执行力、精力旺盛、抗压能力强：由于IT行业的特性，变化快;往往计划赶不上变化，运维工作就更突出了，比如国内各大公司服务器往往是全国各地，哪里便宜性价比高，就那往搬，进行大规模服务迁移(牵扯的服务器成百上千台)，这是一个非常头痛的问题;往往时间非常紧迫，如限1周内完成，这种情况下，运维工程师的主动性及执行力就有很高的要求了：计划、方案、服务无缝迁移、机器搬迁上架、环境准备、安全评估、性能评估、基建、各关联部门扯皮,7X24小紧急事故响应等。

4、其它就是一些基本素质了：头脑要灵光、逻辑思维能力强、为人谦虚稳重、亲和力、乐于助人、有大局观。

5、最后一点，做网站运维需要有探索创新精神，通过创新型思维解决现实中的问题，因为这是一个处于幼年的职业(国外也一样，但比国内起步早点)，没有成熟体系或方法论可以借鉴，只能靠大家自已摸索努力。

四、机房运维技术体系

在机房中我们要面对各种各样的事情，如服务器上架，服务器下架，处理问题服务器等等。在机房运维中我觉得也应该建立起我们的技术体系，从这几方面入手使得我们的机房运营的更加平稳健康。

1、监控体系，一个健壮的身体里不开每天的观察，我们需要时时刻刻观察我们的机房，看看机房发生的细小问题，所以说强大而有健全的监控体系有利于我们更好的维护我们的机房。

2、统计体系，在IDC机房我们管理着数以百计的服务器，统计工作可马虎不得，每一台机器的配置，存放位置等等，都关系着数千元的设备的物理安全，其他的还有带宽安全等等。数量少还好，数量一多就有可能出错，如何快速高效的统计，并不出错也是门技术。所以单独为一个体系也是有必要的。

3、故障管理体系，在机房中我们要处理每一台服务器发生的故障，有些问题很棘手，有些问题很简单，但大多数问题都有相似性，可以参考其他问题的处理过程处理，良好的故障管理体系肯定是有助于我们快速的响应和处理问题的。

4、自动化体系，太多的手动执行大大影响了我们处理问题的工作效率，机房运维引入自动化的理念开发自动化管理工具可以大幅度的提高我们机房的管理效率。

5、评估优化体系，正所谓人无完人，在好的东西也有不好的地方，如IPONG待机时间短，建立评估优化体系使得我们可以在定期的时间内发现我们不足的地方，更好的优化我们的不足之处

五、如何成为一个合格的运维工程师

我认为做好IDC机房的运维就是要保障最底层的运维维护安全。如何高效的维护好底层的设备是每一个IDC运维工程师应当具备的职责。我们可以做好以下几个方面。第

一、统计记录好机房机器运行的信息。如上下架记录，故障处理记录，监控记录等等，做到高效快速的统计好所有机房信息。

第二、监控。熟悉和掌握监控软件的使用，做到可以更具监控工具的组合应用定位故障点，初步反应故障原因等。

第三、通过创新思维以及熟练操作提高并解决运维效率问题;目前各公司大部份运维主要工作还是依赖人工操作干预，需要尽可能的解放双手。以及熟悉每一个运维环节的操作。

第四、运维知识的积累与沉淀、文档的完备性。运维是一个经验性非常强的岗位，好的经验与陷阱都需积累下来，避免重复性范错。并且可以在相似问题发生的情况下快速反应。

第五、有计划的做事;工作有计划，计划后想方设法达到目标，不找借口。机房运维工作大多都比较少，通常都是处理问题，但有很多事情是需要定期去做的，比如统计、评估、优化等等。

六、运维职业的迷惘、现状与发展前景

运维岗位不像其它岗位，如研发工程师、测试工程师等，有非常明确的职责定位及职业规划，比较有职业认同感与成就感;而运维工作可能给人的感觉是哪方面都了解一些，但又都比上专职工程师更精通、感觉平时被关注度比较低(除非线上出现故障)，慢慢的大家就会迷惘，对职业发展产生困惑,为什么会有这种现象呢?除了职业本身特点外，主要还是因为对运维了解不深入、做得不深入导致;其实这个问题其它岗位也会出现，但我发现运维更典型，更容易出现这个问题;针对这个问题我谈一下机房运维的现状及发展前景(也在思考中，可能不太深入全面，也请大家斧正补充)

运维现状：

1、处于刚起步的初级阶段，各大公司有此专职，但重视或重要承度不高，可替代性强;小公司更多是由其它岗位来兼顾做这一块工作，没有专职，也不可能做得深入

2、技术层次比较低;主要处于技术探索、积累阶段，没有型成体系化的理念、技术。

3、体力劳动偏大;这个问题主要与第二点有关系，很多事情还是依靠人力进行，没有完成好的提练。

发展前景：

2、从个人角度，运维工程师技术含量及要求会越来越高，同时也是对公司应用、架构最了解最熟悉的人、越来越得到重视。

3、运维将成为一个融合多学科(网络、系统、开发、安全、应用架构、存储等)的综合性技术岗位，给大家提供一个很好的个人能力与技术广度的发展空间。

4、运维工作的相关经验将会变得非常重要，而且也将成为个人的核心竞争力，具备很好的各层面问题的解决能力及方案提供、全局思考能力等。

5、特长发控和兴趣的培养;由于运维岗位所接触的知识面非常广阔，更容易培养或发挥出个人某些方面的特长或爱好，如内核、网络、开发、数据库等方面，可以做得非常深入精通、成为这方面的专家。

6、如果真要以后不想做运维了，转到其它岗位也比较容易，不会有太大的局限性。当然了，你得真正用心去做。

7、技术发展方向、网站/系统架构师。

第二篇：IDC机房设备的维护及管理

保障IDC机房设备正常运行，通过对机房环境支撑系统、监控设备、计算机主机设备定期检测、维护和保养，保障机房设备运行稳定，通过保养延长设备生命周期，降低故障率。确保机房在突发事故导致硬件设备故障，影响机房正常运作情况下，可及时得到设备供应商或机房服务维护人员的产品维修和技术支持，并快速解决故障。

IDC机房维护方法具体如下：

1、UPS及电池维护：根据实际情况进行电池核对性容量测试;进行电池组充放电维护及调整充电电流，确保电池组正常工作;检查记录输出波形、谐波含量、零地电压;查清各参数是否配置正确;定期进行UPS功能测试，如UPS同市电的切换试验。

2、机房空调及新风维护：检查空调运行是否正常，换风设备运转是否正常。从视镜观察制冷剂液面，看是否缺少制冷剂。检查空调压缩机高、低压保护开关、干燥过滤器及其他附件。

3、IDC机房除尘及环境要求：定期对设备进行除尘处理，清理，调整安保摄像头清晰度，防止由于机器运转、静电等因素将尘土吸入监控设备内部。同时检查机房通风、散热、净尘、供电、架空防静电地板等设施。机房室内温度应控制在+5℃~+35℃，相对湿度应控制在10%~80%。

4、消防设备维护：检查火警探测器、手动报警按钮、火灾警报装置外观及试验报警功能;检查火灾警报控制器的自检、消音、复位功能及主备用电源切换功能。

5、电路及照明电路维护：镇流器、灯管及时更换，开关更换;线头氧化处理，标签巡查更换;供电线路绝缘检查，防止意外短路。

6、IDC机房基础维护：静电地板清洗清洁，地面除尘;缝隙调整，损坏更换;接地电阻测试;主接地点除锈、接头紧固;防雷器检查;接地线触点防氧化加固。

7、IDC机房运维管理体系：完善机房运维规范，优化机房运维管理体系。维护人员24小时及时响应。

第三篇：机房应急预案

主机运维应急预案简介

. 崔志昂上海超级计算中心上海 201203 zacui@ssc.net.cn . 魏玉琪上海超级计算中心上海 201203 yqwei@ssc.net.cn 引言：

高性能计算技术及应用水平已成为显示综合国力的一种标志。高性能计算机持续不间断地为用户提供高性能计算服务，而运维应急预案是主机运行中处理突发事件的依据和方法，是主

机系统稳定运行的保障。本文简要介绍上海超级计算中心主机运维应急预案，供同行参考。

1. 主机和运维管理制度简介

超级计算机是功能最强、运算速度最快、存

储容量最大的一类计算机。目前只有少数国家掌握研发技术，系统造价非常昂贵，多用于国家高科技领域和尖端技术研究，是国家科技发展水平和综合国力的重要标志。上海超级计算中心作为上海信息港主体工程之一，国家和上海市政府投资先后引进神威-I超级计算机、神威-64P集群计算机、曙光 4000A超级计算机系统并投入商业化运行。

上海超级计算中心自2001年正式开通至今，

这些高性能计算机系统已安全、稳定运行七年多时间，上机用户取得了丰硕的科研成果和社会效益。在这七年中，为保障这些高性能计算机系统安全、稳定、不间断地运行，技术支持部在中心引进第一台高性能计算机--神威-I超级计算机系统的同时，建立了机房应急预案、运行记录、设备运行参数等基础运维制度，在二期引进曙光4000A超级计算机系统过程中，不断完善原有运维制度，并针对该主机系统特点编写了大量操作方法和应急预案。

中心自2006年获得ISO27001(BS7799)信息安全认证以来，技术支持部根据其要求规范了文档体系建设，形成了机房管理制度、应急预案、操作方法、运行情况记录的四大类运维文档。

正是这些运维管理制度的不断完善和有效执行，才确保了资产价值高、服务对象广、社会影响大的中心主机系统安全、稳定运行，保障重点项目、用户服务的连续性。

2. 应急预案重要性

上海超级计算中心机房运维管理文档划分为机房管理制度、应急预案、操作方法、运行记录共四大类(如图1所示)。

图1 应急预案分类

应急预案在应急系统中起着关键作用，它明确了在突发紧急情况发生之前、发生过程中以及刚刚结束之后，谁负责做什么、何时做，以及相应的策略和资源准备等。它是针对可能发生的重大事故，按照其影响和后果严重程度，在应急准备、响应、操作各个方面预先做出的详细安排，是开展及时、有序和有效事故应急工作的行动指南。因此，应急预案在这四类运维管理文档中处于最为重要的地位。

3. 应急预案分类

应急预案按重要性和事件种类，可以划分为消

防预案、断电预案、空调预案、其他预案共4种，预案各文档之间彼此独立又互为关联，具有非常强的可操作性。制定预案的指导原则是尽一切可能，最大限度地确保向用户提供的服务不中断。在紧急事件发生的情况下，保证核心设备连续运行，避免存储数据丢失。在事件处置完成后，能快速恢复高性能计算服务。

3.1 消防预案

消防预案是主机房最重要的应急预案。该类预案根据《上海超级计算中心灭火和应急疏散预案》的原则并结合主机房主机设备和消防设备的运行特性而制定。主要由《主机房消防应急预案》和《主机房气体喷淋消防系统启动撤离及处置应急预案》 2个文档组成。

消防应急预案：该预案着重规范了火警事件发生后，所有主机维护人员如何根据所属区域和现场情况，判断和选择正确的处理方法，同时配合中心物业人员处置，降低事件带来的影响。

对于设备发生烟雾，主机维护人员协同物业人员寻找烟雾点予以切断相关区域电源;当设备发生可以控制火情，协同物业人员灭火;当主机房发生火灾而无法控制，应采取施救方法等措施。

气体喷淋预案：该预案描述主机房气体喷淋系统启

动的响应和确认并具体规定了撤离机房路线、善后处置。

这两个预案中，消防应急预案作为消防预案

的主体，涉及到如何处理与消防有关情况的各个方面。气体喷淋预案是主机房发生重大火灾时应对的最终灭火手段和人员撤离引导方法。

3.2 断电预案

断电预案的重要性仅次于消防预案。该类预

案根据中心供配电系统实际情况和各种断电影响范围下对主机运行的最小保障要求而制定的。主要由

《主机房断电应急预案》、《曙光4000A超级计算机系统紧急关机操作方法》、《曙光4000A超级计算机系统双路断电关机操作方法》等多个文档组成。

主机房断电应急预案：该预案用于断电情况

下，主机维护人员如何与中心物业部门联系控制主机房供电情况，并且负责对主机系统运行受断电影响程度做出正确判断。指导维护人员按影响程度，分别选用预案中对应的操作方法。本预案在所有断电预案中起指导思想作用。紧急关机操作方法：该预案制定了主机系统在紧急情况下，最快速度关机的操作步骤。主要用于发生烟雾、明火或消防、断电预案需在数分钟内关机断电的事件。

双路断电关机操作方法：该紧急操作预案主要用于在外界双路供电全部中断情况下的操作。

该预案的关机原则是：根据实际电力供应考虑操作步骤，宁慢勿快，在时间允许的情况下，最大程度保证存储节点、SAN和SCSI存储设备、工程用户的计算节点的运行，尽可能减少关闭范围，以确保能在恢复供电的情况下，主机尽快恢复正常运行状态，减少影响范围。

3.3 空调预案

超级计算机系统在运行中消耗大量电能，在

提供高性能的计算能力同时产生大量的热量，必须采用专用空调系统，以保持主机系统适当的温、湿度、空气洁净度等运行环境需求。因此，专用空调系统与主机系统密切相关，空调预案是主机房必备的应急预案。

制定该预案的原因在于，断电情况下，空调与主机系统存在互相牵制的现状。主机和空调系统均为外界双路供电，主机系统配有UPS不间断电源系统，而空调系统无UPS支持。在双路停电情况下，主机系统可获得UPS电池组支持运行若干分钟，空调系统无UPS支持只能停机。由于在无空调冷却情况下，主机系统会在短时间内积聚大量热量导致超过运行警戒温度，主机系统在有可供电余量的情况下，仍将被迫关机。因此，确保空调中断情况下的主机运行环境是该预案的制定原则。

预案根据各台主机配备的空调系统特点制定，由《曙光机房空调系统故障应急预案》和《神威机房空调系统应急预案》2个文档组成，这里仅介绍曙光机房空调系统应急预案。

该预案的第一步：考虑增强主机系统散热效

果，采用打开主机机柜前后门，和机房周边木门，在通风道上布置有UPS支持的应急风扇，形成空气对流，带走热空气，从而增强主机系统散热效果，降低升温速度。

该预案的第二步：在采取上述措施并持续升温到一定温度之上的情况下，考虑紧急关闭部分或全部计算节点，减少热量生成，确保主机系统的核心存储和网络系统不受影响，确保空调系统修复后，主机系统能快速恢复运行。

3.4 其他预案

除了固定的三类预案之外，技术支持部还根据主机系统实际运行中出现的各种意外情况，随时制定具有针对性的预案。

如《大楼顶棚坍塌应急操作方法》的制定，就

是由于2008年1月连续发生雨雪等灾害性天气，中心大楼顶棚大量积雪且难融化，物业预计存在情况继续恶化，有发生顶棚坍塌事故的可能，一旦发生将影响一楼主机运行。

针对该突发的隐患，中心技术支持部制定应急操作方法，对维护巡查频度范围、漏水可能发生位置、如何处理受漏水影响的主机设备等操作步骤进行严格界定。即使在最后，中心大楼顶棚经受住灾害性天气的考验，该预案并未发挥作用，这正体现了应急预案的备而不用的特点。而且通过各种意外

情况的迅速分析、应对和实践操练，不断锻炼主机维护队伍，使之走向成熟。

4. 在实际案例中，应急预案的作用

在主机系统年复一年的运行中，我们希望这些设备正常稳定运行，应急预案永远不会被使用，然而在实际运行中，总免不了因突发事件执行应急预案。

而每次突发事件是检验应急预案制定是否科学、有效的最好证明。

4.1 双路断电，UPS正常运行案例

2006年8月某天，因打雷导致供电一路跳闸自动换至另一路供电，曙光机房2台空调掉电。

主机维护人员立即按应急预案操作，电话通知物业人员恢复空调运行，恢复过程中所有空调相继出现高温报警，机柜液晶屏平均温度35度，开启全部曙光机柜前后门，打开神威-曙光玻璃门并调集应急电扇，于12:45恢复正常。

12:50再次出现双路供电中断，曙光空调因无

UPS支撑全部断电，启动断电应急预案，开启

5、6号木门，开启神威机房全部空调，布置电扇，将冷气导入曙光机房，热量从6号木门的外部通道排出，选择性杀除部分作业，至13:05供电恢复，曙光空调开始工作，13:20环境恢复正常。全机在此过程中，正常运行未停机，只损失了部分不重要的作业。

4.2 单路断电，UPS失效案例

2007年8月某天，因低压配电柜开关至UPS房间 X-JM柜电缆发生相对地短路，造成UPS机组逆变器自身保护动作，关闭UPS机组，导致曙光主机系统失电。

全机掉电后，主机维护人员迅速按应急预案

手工关闭所有电源开关。1 0 : 3 0恢复供电，温湿度恢复正常后，全机加电，恢复过程中修复

storage00

1、00

5、010三个盘阵的9个用户文件系统，修复15个节点加电故障，除cnode00

9、anode029电源

环境模块故障，于当日15:10全机系统恢复正常。

由于处置及时，主机受影响范围很小，在恢复供电后数小时即成功开启全系统。

5. 随时保持应急预案的适用性

主机长年累月的运行，故障和问题的发生，往往是必然的，也是客观、无法回避的。因此，要求在维护工作中，预先考虑到可能的问题和故障，制定完善的应急预案。应急预案不可能包含所有的故障和问题，但应根据维护经验，尽可能地设想各种危机情况下的处置措施。做到预想到各种可能的问题。

而在形成应急预案后，更重要的是持续地在

运行中加以完善、测试和演练，尽可能模拟实际情况，做到即使只有1名维护人员在场，也能在真正发生危机时，以最短时间独立处置故障。

以目前中心的主机运维工作为例，三年内，仅断电预案就已根据实际运行情况的变化，制定并更新了5~6个版本，针对夏季突发断电也有专用预案。这样的措施，直接保障了2006年8月突发断电事件中的主机连续运行。而2007年8月的突发断电事件中，由于预案在之前刚根据实际情况进行过演练和修改，主机维护人员仅用半小时就完成所有应急操作动作，整机仅有个别设备故障，确保了主机设备未因突发断电而发生大范围损坏现象，恢复供电后直接完成开机。

实践证明，完善而适用的应急预案能保障向用户提供稳定的高性能计算服务。

6. 结束语

完备而适用的应急预案能有效降低主机系统因意外事件发生带来的运行风险，对可能发生的意外来说，是一种事前防范措施。但对整个主机系统产品而言，是一种事后防范措施。如果主机系统生产厂商能把这些防范措施纳入整个系统设计过程中，使操作方法更加简便、更趋于人性化，这将帮助主机维护人员更为妥善处理意外事件，用户得到更为稳定的高性能计算服务。我们相信未来国产的高性能计算机能做到这一点，期待着这一天早日到来。

(为帮助了解，特在附录中节选部分双路断电关机预案内容)

附录：《曙光4000A超级计算机系统双路断电关机操作方法》(省略具体操作步骤)

曙光4000A超级计算机系统双路断电关机操作方法

注意：

1、本方法专用于主机房发生双路同时断电紧急操作使用。(包括单线断电切换失败)。

2、本方法作为《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)-XXXX-XXXX-XXXX)的附件。

1. 断电确认及操作：

主机房内一旦发现断电，并接物业明确通知为双路断电，首先执行如下操作(即确保节点温度)：

1.1 打开机房门便于散热，..

1.2 机房通道上布置应急风扇加强冷热空气对流，夏季：应急风扇布置..;冬季：应急风扇布置..，使曙光

机房的温度尽量降低。

1.3 打开所有机柜前、后门。

1.4 密切注意机房节点平均温度(专指各机柜液晶面板所示之环境温度值)。

2. 紧急关机条件确认：

在完成上述操作后，密切观察主机房环境。一旦有如下任何一个条件满足：

2.1 自断电发生起，已达到XX分钟仍未恢复供电;

2.2 采取上述紧急通风措施，节点温度持续上升，超过XX℃;

可认定为紧急断电事件，即刻按下列紧急关机操作方法进行操作。

3. 紧急关机操作步骤：

注意事项：

3.1 ..

3.2 关机操作的全过程中，注意随时保持和物业的通讯联系。除根据情况随时联络外，应严格保证每XX分钟与物

业联系一次，询问UPS可支撑时间及恢复供电可能。(分机、手机、对讲机等)

3.3 应理解关机原则为：根据实际电力供应考虑操作步骤，宁慢勿快，在时间允许的情况下，最大程度保证X排节

点、存储节点、SAN和SCSI存储设备的运行，尽可能减少关闭范围，以确保恢复。

第一级操作：(首先执行) 关闭主机系统外围设备..

第二级操作：(完成上述操作后，当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃，任一条件满足，执行如下操作)

关闭非重要用户计算节点(ABC组)..

第三级操作：(完成上述操作后，当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃，任一条件满足，执行如下操作)

关闭所有用户计算节点(D组)..

第四级操作：(完成上述操作后，当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃，任一条件满足，执行如下操作)

关闭SAN存储设备和LSF数据库服务器..

第五级操作：(完成上述操作后，当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃，任一条件满足，完成关机操作)

关闭SCSI磁盘阵列和所有存储节点..

特别关注：

1. 如时间非常紧急，UPS电池低于XX分钟：

直接执行关机脚本：..

此脚本可分别将计算节点、接入节点、存储节点进行关闭。

2. 如时间极其紧急，UPS电池低于XX分钟，可按《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)- XXXX-XXXX-XXXX)，直接拉闸操作。

(上述二个方法仅用于突发情况，非极其必要情况下严禁使用，应使用前列方法操作)

3. 如遇主机失电(如关机操作不及已掉电或突发自动掉电)应关闭所涉范围所有设备电闸开关。..

第四篇：机房应急预案

应急处置方案

第一节总则

1、保证人员和财产的安全为前提的原则：在由于火灾或电力问题造成的主机故障，在解决故障前，应以保证人员的生命安全和财产的安全为前提，然后进行故障的解决。

2、最快时间恢复业务的原则：本着先想尽一切方法，尽快恢复业务的原则来处理故障，如在有备用设备的情况下，主设备产生了故障，应先尽快将应用切换到备用机上，使业务能够运行，再对故障设备进行诊断和维修。

3、故障应急人员高度负责的原则：当故障应急人员在节假日接到故障通知时，本着高度负责的态度，应迅速接手处理障碍，如远程无法处理解决，应迅速赶到故障设备所在地，进行现场处理，处理故障的同时应及时向领导汇报。应急人员不可互相推卸责任，如因特殊情况，确实无法处理障碍，部门领导必须安排好其他人员处理。

4、尽可能全面的保留故障现场的原则：当故障发生后，应急人员应尽可能全面的备份出能够反映故障现象的各种日志、记录、受损文件等，便于业务恢复后，对故障的分析、解决，杜绝故障的再次发生。

应急方案的目标：保证预付卡运营系统连续安全稳定地运行。

第二节应急领导小组

应急领导小组成员：

组长：副组长: 成员：

第三节电源系统故障应急处理

定期检查信息中心机房电源设备的运行状况，当发生下列突发事件时，按以下方案进行处置：

当中心机房发生市电供电突然停电或远程报警电源异常时。首先确认是否为正常停电及预计停电时间。检查不间断电源的电池可供电时间，需在不间断电源供电时效内关闭所有服务器及网络设备。

联系工程部查看停电原因，尽快恢复供电，并将情况报告相关领导

工程部联系电话：

第四节空调系统故障应急处理

定期对空调的运行情况进行检查，如有报警信息，应及时查找故障原因，对于不能自行排除的问题，应及时与设备提供商进行联系。

当中心机房主空调因故障无法制冷，致使机房内环境温度超过摄氏40度时，打开机房房门，并关闭所有服务器及网络设备。对于无法自行处置的空调系统异常情况，及时与设备提供商联系，并报告公司领导。空调问题联系人：

第五节中心机房自动消防系统应急处理

当中心机房发生火警时，按以下方案进行处置：

1.上班工作时间发生火警，听到自动消防系统发出的声光报警后，中心机房附近办公室人员应及时紧急撤离，避免气体自动消防系统启动后，消防气体对附近人员造成人身伤害。确认火警后，立刻拨打119报警，并说明尽量使用气体灭火器进行灭火，减少电子设备的损坏。

2.发生火警后，信息中心相关人员应马上赶赴现场，并向有关领导报告事故情况。同时立即联系联通等相关公司，及时评估事故损失情况，研讨尽快恢复信息系统正常运行的最佳方案。安保消防中控电话：

第六节设备、网络系统故障应急处理

设备、网络应用系统故障应由发现人通知技术部，技术部门立即检查故障，进行初步故障定位,解决;

1.网络设备、服务器、储存设备均有备份，当设备存在硬件问题时，可随时把业务切换到备份主机上，保证业务正常运行; 2.应用系统每更新一次则做一次远程备份，在远程主机上分别备份旧的应用系统和更新后的应用系统，以当天的更新日期命名; 3.对磁盘柜上的数据库文件有定时任务，每天凌晨4：00会把数据库里的数据文件倒出到远程备份主机上，以确保磁盘柜出现硬件故障的时候，数据文件不丢失;对于网络、应用系统出现硬件方面的故障，比较严重的问题，对业务的正常运行造成较大的影响，立即向有关领导报告。

4、网络中有监控服务器，运用Cacti v10最新的版本，监控网络所有设备(路由器，防火墙，交换机以及服务器设备);对设备本身的硬件检测、外部入侵检测、外部攻击等多种对系统不利因素以发送mail的形式报警;相关人员收到报警信息，分析收到的log日志以做出相应的处理。

5、每周周五对网络设备进行日志及配置文件采集，对数据库数据文件定期下载，和远程备份;在本地电脑上保存最近的配置文件，以便在发生毁灭性的灾难时，用来重组。

对简单故障，运维人员应迅速排除故障，解决问题并记录。如果需要更换设备，应上报有关领导,经批准后马上更换故障设备，尽快恢复网络、应用系统运行。运维部门判断无法及时修理时，应立即通知相关的系统运行服务提供商，在最短的时间内安排修理或更换系统。

如发现属外部线路的问题，应与线路服务提供商联系，敦促对方尽快恢复故障线路。

启用备份线路、设备、系统，迅速恢复相关的应用。

联通联系电话：

第七节黑客入侵的应急处理

发现网络上有黑客攻击行为，任何人员都有义务向技术部门报告。技术部立即启动应急响应，切断受攻击计算机与网络的连接，停止一切操作、保护现场，并上报有关领导。

对于黑客攻击，由计算中心组织应急响应专家小组查找入侵踪迹，分析入侵方式和原因。由安全管理员根据对入侵事件的分析，组织相关人员对内部网计算机整改，防止黑客用同样的手段再次入侵其他系统。安全管理员检查确定无安全隐患后，才可将受攻击计算机重新连接网络，或启用备份计算机来恢复应用。

安全管理员应做好记录，保护现场，进行日志收集等工作。如果能追查到攻击者的相关信息，可以对其发出警告，必要时可以采取进一步的行动，乃至采取法律手段。根据破坏程度，经有关领导同意后，上报公安部门。

若系统已被黑客破坏，无法恢复，应将受黑客攻击的计算机上的重要数据备份到其他存储介质，确保计算机内重要的数据不丢失。如果数据无法恢复，经有关领导同意后，可与国家指定的部门联系，由他们来协助恢复，为保证数据信息安全，需在安全管理部门作记录。

第八节生产系统、数据库故障处理