运维标准化管理流程

2022-09-05

第一篇:运维标准化管理流程

数据中心运维操作标准及流程

郑州向心力通信技术股份有限公司

二零一八年 1 机房运维管理前期准备 1.1 管理目标

机房基础设施运维团队应与业主管理层、IT部门、相关业务部门共同讨论确定运维管理目标。制定目标时,应综合考虑机房所支持的应用的可用性要求、机房基础设施设施的等级、容量等因素。目标宜包括可用性目标、能效目标、可以用服务等级协议(SLA)的形式呈现。不同应用的可用性目标的机房,可设定不同等级的机房基础设施的运维管理目标。 1.2 参与数据中心建设过程

机房运维团队应充分了解自己将要管理的场地基础设施。对于新建机房,应尽早参与机房基础设施的建设过程,以便将运维阶段的需求在规划、设计、建造、安装和调试等过程中得到充分的考虑;同时为后期做好运维工作打下基础。 1.2.1 应参与规划设计

机房的规划设计是一个谨慎和严谨的过程,需要所有参与机房建设的相关方共同完成,才能确保规划和设计的有效性、实用性等要求。其中,基础设施运维团队应提出运维要求,从运维经验、实际运维难度、提高运维可易性等方面对规划和设计过程进行配合。 1.2.2 应参与相关供应商遴选

机房基础设施运维团队应参与机房基础设施设备供应商选择的全过程,及时地了解各种产品及服务的品牌、型号、规格等关键参数, 使之更能满足运维的要求。并就在安装、调试过程中的注意事项等提出建议,还需要对后续的设备保修等服务提出要求。 1.2.3 应参与建造管理

机房的基础设施运维团队应积极参与机房基础设施的建造工作,并协助做好建设项目的项目管理工作,着重关注工程建造中如材料的使用、工序、建造过程等工作,重点关注隐蔽工程的安装工艺和质量。 机房基础设施运维团队应充分了解施工过程中的工艺。对于新建数据中心,从施工质量和日后运维方便性出发,尽早发现施工过程的问题,及时纠正,方便日后运维和节省日后整改成本。 1.3 测试验证

机房基础设施投产前的测试验证是确保机房基础设施满足设计要求和运行要求的关键环节。 1.3.1 时间和预算

机房的业主应设立测试验证专项预算,预算应包括外部测试验证服务提供商的相关费用,以及在测试验证阶段产生的电费、水费、油费等相关费用。应制定测试验证的工期规划,以更准确地预测机房基础设施交付投产的日期。 1.3.2 测试验证参与方

项目建设管理部门可作为测试验证工作的主体责任单位;运维管理部门可作为测试验证工作的主体审核单位;第三方测试服务商可作为测试验证的实施单位及整体组织工作的协调单位。但运维管理部门应要求测试服务商预先提供测试方案,在运维管理部门审核后方可进行。机房基础设施运维团队可参与测试验证工作,在此过程中熟悉设施和设备,可建立相关运维技术文档库,为后期的运维工作做好准备。

机房关键设备提供商及工程总包商,应积极配合测试验证工作, 应在供应商合同中对此项有明确要求。 1.3.3 测试验证内容

验证应覆盖所有关键子系统和设备应具备的功能和关键的操作程序,确保满足设计要求,必要时可做故障情景模拟来检验。

测试验证中发现设计或者建设阶段的问题,应该在报告中充分体现;可以改造的部分,应要求建设单位进行改造;不能改造或暂时不需改造部分,应作为风险点在运维过程中予以特别的重视,并制定相关预案。

1.3.4 设施健康评估

当接手已在运行的机房基础设施的运维工作前,运维团队应对设施的情况进行健康评估,了解潜在风险点,其中能够改造的部分,应该申请予以优化改造。不能改造的部分,应该作为风险点在运维中予以特别的重视,并制定相关预案。 1.4 技术文档

完整并准确的技术文档是后期运行、维护、维修、故障诊断、优化改造的基础。运维团队在开展运维工作前,应从施工单位得到场地基础设施的全套相关文档,包括但不限于:机房的规划设计资料及竣工图纸、全套设备的清单及相关操作文档和保修保养资料、机房自动操作系统的逻辑图及说明文档、监控系统的点表、验收测试文档、机房所在建筑的建筑设计资料、竣工图纸。 整体文档应在限定时限内进入运维管理知识库,并按照质量管理的原理和要求设定文档的起草、变更、审核、批准、保存、分发等职责权限。 1.5 管理边界

为了明确管理责任,机房基础设施运维团队应将可能影响机房基础设施运维目标达成的外界因素整合成管理边界报告,提交业主管理层并组织研讨,形成明确的决策,制定完整的协调沟通机制及权责界限。这些因素包括但不限于:不归本部门负责,但可能对于本部门有重大影响的供电、供水、供暖、制冷、消防、安防、监控、运营商线路接入等系统。

2 安全管理和质量管理建议 2.1 人员安全

机房基础设施运维团队要编制正式的机房生产环境(工作场所)的安全方针,设定严格的安全生产规范;并根据安全方针制定有效的、明确的安全计划,来教授和培训安全原则、危险识别、纠正缺陷和控制风险。并加强对于该部分规范的合规度的培训、考试和审核检查,以确保机房运维人员的人身安全。 相关安全生产规范主要包括:

●机房生产环境安全管理规范; ●机房基础设施各系统安全管理手册; ●机房基础设施涉及安全的应急预案; ●机房基础设施管理过程涉及的技术方案中的安全管理策略。 机房基础设施中与电气相关的工作存在着固有危险。设施运维团队应当创建一份正式电气安全计划,以最小化所有工作人员受到电气伤害的风险,确保现场电气系统达到相关法规标准。电气安全计划中的条款应规定电气工作人员在有资质和具备合理安全工作流程的前提下才能进行操作,并应利用防护设备和其他控制手段,如上锁挂牌设备。此计划的创建旨在防止员工受到电击、烧伤、电弧和其他潜在电气安全隐患,同时要求其遵守法规标准。

相关国家、行业规程包括但不限于:

●GB 26860电力安全工作规程 发电厂和变电站电气部分; ●DL 408 电业安全工作规程。 2.2 物理环境安全

应了解周边社会环境信息,评估潜在的安全风险并制定预案。这些信息宜包含但不限于:周边交通路况、医院、供油站、消防站、变电站、供水、供电、供气、网络通信线路等。可建立周边社会环境管理资料库。

应了解机房所在地的历史自然灾害情况。包含但不限于GB50174 及TIA-942中提到的所有评估机房选址的外部因素,并制定相应的管理预案。

应建立并执行严格的机房设备、人员、车辆进出管理制度。 应设立不同安全区等级(参考ISO27001信息安全管理中的物理安全控制)并制定访客管理制度,用以有效管理访客。 2.3 质量管理

在机房基础设施运维过程中建立完善的质量管理体系,是保障以上机房基础设施运维趋于卓越的重要因素和手段。机房基础设施运维团队的所有关键工作应包括以下的质量管理要素: 2.3.1 质量保证

●过程制定; ●程序制定; ●过程审核和批准; ●过程和程序培训。 2.3.2 质量控制

●事件回顾; ●质量检查和检验; ●定期质量审核。 2.3.3 质量改进

●故障分析; ●经验教训; ●优化及创新计划。

3 人员管理建议 3.1 组织及人员 3.1.1 组织架构

机房运维团队应有清晰的组织架构,同时对各岗位有明确的岗位职责说明并在计算机化维护管理系统(CMMS)中实现权责匹配,同步更新。中大型数据中心场地基础设施运维团队中除现场负责人外,可按照工作内容分设以下几个主要职能岗位:

●运维巡检团队

主要职责:对基础设备设施进行巡检,担任值班工作,第一时间发现故障或问题,并作为管理程序的执行者。

●技术管理团队

主要职责:对机房基础设施提供运维技术支持,解决技术问题,承担机房基础设施一般性的优化改造工程的项目管理工作,宜包括电气、空调、弱电等系统的技术人员。

● 物理环境安全管理团队

主要职责:对物理环境安全进行管理,进行安全巡检等工作。 3.1.2 人员配制

机房基础设施运维人员的配备应根据运维管理目标或SLA来确定。中高等级的机房,可按照7X24的运行要求配置运维人员。上岗人员应具备国家要求的相应资格证书。应在运维管理程序中明确规定资质等级与操作权限的一致性。

高等级以及具有一定规模的机房,每个班组应配备具有电力、 暖通、弱电专业能力的运维人员,以达到“即时应急响应”的工作状态。等级相对低的机房,每个班需要至少配备一人,达到“即时报警”的工作状态。

运维团队的关键岗位应有人员备份和储备。 机房基础设施运维管理团队的关键管理人员或关键岗位人员在正常运维工作开展中应采用A、B 角色配置,日常工作中应注意角色的分配和工作的配合。其它岗位人员宜建立良好的循环机制,人员可进行岗位轮换和交叉培训,使所有人员掌握全面的基础知识。 3.1.3 绩效管理

为了提高机房运维人员的技术技能、职业素养和提倡团队合作精神,专业地、高效率地运行和维护机房基础设施,有必要建立人员的关键绩效指标,定期对所有人员的短期和长期绩效进行评估,奖优罚劣,推动整个运维团队技术和素质的发展和改进。 3.1.4 人员管理制度

为了保障机房基础设施运维团队的创新性、稳定性、持续性,应通过建立合理的人员管理制度,约束人员的工作态度、行为规范,提高人员的工作热情、工作效率和执行力,激发人员正面影响,使团队一直保有活力来共同努力达成服务等级协议的要求,运维团队应该建立运维人员的各项管理制度。这些管理制度应该主要包含(但不限于):

●《日常活动管理制度》; ●《人员安全操作制度》;

●《运维人员基本素质养成管理制度》; ●《安全运行奖惩制度》; ●《节能运行奖惩制度》; ●《技术创新奖励制度》; ●《人员晋升制度》; ●《人才储备制度》; 3.2 培训及认证

3.2.1 员工培训及资格认证计划

对于机房基础设施运维团队新员工应进行完整及严格的培训,以确保其尽快具备岗位需要之知识及能力。培训内容应包括机房基础设施的所有系统的工作原理、操作流程、应急预案、以及管理制度等。

对于所有运维人员宜设定以知识更新、技能提高为目标的年度培训及认证计划。宜要求运维人员不断提升理论知识,以便于在缺乏操作程序的应急状态下进行正确的处置。

可借助行业第三方专业培训及职业技能鉴定平台,积极开展运维人员任职资格的评定工作。 3.2.2 历史事件分析学习

运维团队应将机房基础设施历史事件的总结分析作为培训的重要素材,进行全员培训;对于新员工应在上岗前予以培训,以避免相同的事件再次发生。 3.2.3 组织学习

运维团队管理者应积极参与行业交流,了解行业最佳的运维管理实践,并从行业故障案例中总结经验,做好自身整改。 3.3 运维外包服务商

3.3.1 基础设施运维外包服务商的选择

机房基础设施属于关键性设施,选择外包运维团队时应考察其机房基础设施的运维服务的资质、能力和经验。如机房作为商业物业的一部分整体外包运维,应要求外包运维机构针对机房基础设施设施部分设立专门的有机房基础设施运维经验的团队,并严格按机房基础设施的运维规程规范执行。 3.3.2 运维外包服务商的管理

对于外包服务商的员工的管理原则应该参照运维团队内部员工同等要求,相关人员只有在进行培训并得到相关的认证后才能从事相关的工作。

外包服务商需要严格遵循数机房基础设施既定的操作流程和安全守则。

机房基础设施运维管理的最终责任承担者是机房管理者,责任无法外包。因此,机房应保留运维核心管理人员,对于外包团队的工作进行审核、监督和绩效评估管理。

4 设施管理建议 4.1 资产数据库

数据中心应建立完整及实时更新的资产数据库。数据库应包括所有关键基础设施设备的清单,还应记录设备设施的运行情况、事件情况、变更情况、维护保养频次等信息。

资产数据库应最少包括以下信息: 资产ID:每个资产的唯一标识号

种 类:一级分类(如电气、制冷、消防系统) 子 类:二级分类(如 UPS、电池、PDU等) 描 述:资产的文字说明 制 造:资产的制造厂家 型 号:制造厂家的产品型号 规 格:资产的规格或者标称值 位 置:位置 ID(房间或区域) 购 买 人:资产维护的负责人 序 列 号:制造厂家的序列号 安装日期:资产的投产日期 保修期限:保修到期的日期 更 换:预计的资产更换日期 维护频次:年检、季检、月检等 4.2 预防性维护 4.2.1 预防性维护计划

预防性维护是为了延长设备的使用寿命和减少设备故障的概率而进行的有计划的维护。其目的是通过定期检查和保养,使设备的某些缺陷或隐患在变得更严重之前被发现。

运维团队应根据系统设备情况与供应商进行沟通,按照供应商的建议提前制定年度、季度、月度预防性维护计划。各专业运维人员需按照各设备系统特性、维护流程及规范,及时、完整地落实维护工作,并形成客观实际的记录和报告予以存档。运维团队还应定期对设备的运行状态数据进行统计和趋势量化分析,对于异常的趋势,做出报警及相关预案。 预防性维护包括并不限于以下系统设备或内容: ●冷水机组、精密空调; ●UPS,开关、和发电机组; ●消防系统和监控系统检验; ●蓄电池放电测试;

●配电装置(高低压配电装置)的绝缘性定期试验; ●二次保护定值实验;

●每年雨季之前进行的数据中心防雷接地装置测试等。 4.2.2 工单管理

运维团队应建立预防性维护及保养的工单管理系统,工单应列出工作内容、完成相应工作需要的工具及备件、工作预计完成的时间、工作负责人等信息。

计算机化维护管理系统应该对每份工单从产生到完成进行全程的跟踪。 4.3 操作流程

机房基础设施的所有操作, 均应事先制定详细的操作流程,经过审核后存档并在后期运行阶段严格执行。 4.3.1 维护作业程序MOP 对机房关键基础设施设备的每次维护、维修、安装操作, 都应事先制定一份MOP。可要求设备供应商提供MOP的建议,但对于MOP最终确认审核的责任在于运维团队,批准责任在于运维管理团队。 4.3.2 标准操作流程SOP 所有关键基础设施设备在各种情况下都能执行的常用操作都应制定标准操作流程SOP。例如手动启动发电机组的操作流程,或将UPS转换到旁路的操作流程等。 4.3.3 应急操作流程EOP 应急操作流程适用于有可能发生的严重故障情况。以下为部分严重故障的例子:

●一路市电供电时中断; ●双路市电供电时同时中断; ●单个精密空调时故障停机; ●全部精密空调都故障停机; ●单台UPS时故障停机。 4.4 工具及备件管理

运维团队应根据资产分类清单及其分类制定最低备件库存清单并及时补充备件。

测试分析仪器仪表方面可配备进行电气性能参数测试、电池测试、接地电阻测试、绝缘性能测试、设备运行温度测试、风速测试、环境温度测试、噪音测试等的仪器仪表。仪器仪表应该定期校准。

应制定相关规定对操作工具、仪器仪表实行人员负责制或者交接班负责制等管理制度。备件和工具应定期进行盘点。 4.5 供应商管理

应该按照机房基础设施运维的资质、以往的经验、业界的口碑等因素,以注重预防性和预测性维护和提高可用性的相同标准来选择合格的供应商。

所有供应商到达机房执行维护程序之前,应通过机房相关规程的培训,获得机房运维团队和运维管理层的批准。在执行维护活动的过程中要严格遵循操作流程。操作时需由运维团队的人员陪同并监督记录流程的执行情况。

供应商的每次机房维护活动都应该提交现场服务报告并存档。 运维团队应该建立供应商的绩效评估方案,并定期对供应商进行绩效评估。应设立供应商管理文档,记录所有供应商的联系方式、服务承诺(SLA)、工作范围、针对设施的培训和认证情况等信息。 4.6 生命周期管理

应基于设施设备的合理生命周期,结合风险评估,制定设备维护、 升级或更换的计划及预算,及时报告给运维管理部门。

风险评估主要评估内容包括: ●资产重要性识别; ●资产威胁识别; ●资产脆弱性识别; ●风险值的计算;

●在评估更换设备的方案时,可综合考虑原有设备的维护费用以及新设备在能效方面的改进,做好综合投资回报分析;

●对于冗余设备宜设立轮换运行机制,以延长整体设备的生命周期。

4.7 运维管理系统 机房可建立自动化维护管理系统(MMS),集中实现资产管理、维护调度、信息安全、文档管理、工单管理的职能并记录所有的运维工作任务及完成情况。

5 运行管理建议 5.1 运行管理制度

机房基础设施运维团队应建立并严格执行运行管理制度,包括:5.1.1 巡检相关管理制度

●日常巡视巡检管理制度; ●值班管理制度; ●交接班管理制度; ●通知矩阵。

5.1.2 工作流程相关管理制度

●工单处理流程; ●例会制度;

●工作总结报告制度(日、周、月、季、年总结报告);●交付管理规范;

●运维质量管理办法文档管理制度; ●工具备件管理制度。 5.1.3 安全相关管理制度

●机房出入管理制度; ●机房现场管理制度;

●机房卫生管理制度; ●信息安全相关管理制度。 5.1.4 故障处理管理制度

●设备操作管理制度; ●设备故障处理流程; ●应急准备和应急响应流程; ●维护作业计划管理制度; ●故障隐患跟踪反馈管理制度; ●紧急事件汇报流程。 5.1.5 经营相关管理制度

●员工行为规范; ●考勤管理制度; ●人员管理考核制度。

5.2 设施监控、巡检、及交接班管理

应配备环境、动力、安防等监控系统以便于运维人员及时了解设施各系统及设备的运行状态和及时发现异常情况。

应规定相应的运行人员对设施运行状态的巡视频次、巡视工作内容及规范。

运行人员交接班时应对当班执行的操作、变更及观察到的任何异常数据或现象进行交接和签收。 5.3 机房清洁管理

应划定保洁区域,定期做好机房保洁工作,保证地板及地板下的无尘状态。重要区域进行保洁工作时应有运维人员现场监督和指导。 5.4 标签标识管理

应建立针对数据中心场地基础设施设备和物理环境完整的、清晰的标签标识管理系统。应至少包括:

●设备标识:包括设备名称、型号、编号、资产编号等; ●线缆标识:包括起始端信息、终止端信息、设备名称等; ●警示标识:如“设备已带电/危险”、“禁止合闸”、“禁止分闸”等;

●物理环境标识:如位置标识、区域标识等;

●系统图展板标识:如电气、暖通、消防、弱电系统图展板。这类标识便于运维人员清晰、快捷地掌握区域及整个数据中心系统的配电、制冷、消防、弱电的原理及关键点位。 5.5 变更管理

任何对于设施运行状态的变更应进行预先的风险分析,并基于风险等级,设定相应级别的事前审核流程。在变更方案及变更时间窗口确认后,应进行相应范围的告知。变更结束后,应向相应范围部门通报变更结果。 5.6 事件管理

应制定事件管理流程,明确不同等级事件下相应的处理流程。 5.6.1 事件等级定义

一般事件:任何没有达到机房设计和运行标准的异常事件; 严重事件:任何没有达到机房设计、运行标准的事件,且对提供的服务造成中断的事件;

重大事件:任何没有达到机房设计、运行标准的事件,且对提供的服务造成中断,且影响范围大的事件。 5.6.2 事件升级

当事件暂时无法排除,需要逐级报告,进入事件升级流程。 如遇特殊情况,与直接主管联系不上时,可越级向上一级主管报告。

5.7 应急响应

5.7.1 设施应急预案演练

运维团队应针对应急操作流程EOP进行定期的演练工作,主要包括:

●沙盘演练:参与演练的运维人员集合,并分别口述在发生紧急情况下自身所应承担的职责及将会执行的方案及步骤;

●跑位演练:参与演练的人员跑位到模拟故障现场,模拟处理故障,参与人员应清晰地说出故障的处理方案及步骤。

应急演练的演练原则是:尽量接近真实情况,在条件允许的情况下尽量真实地处理故障。在运行中的一些特定场景下也可以进行应急演练,如发电机带载实验等。 5.7.2 人员安全应急流程

机房基础设施运维团队应针对影响运维人员健康的人身事故制定应急流程并定期演练。应急流程可包括设置现场急救包以及联系当地医疗急救机构的方式等。 5.8 容量管理

容量管理可包括但不限于以下方面: 5.8.1 空间容量

●IT设备摆放空间; ●基础设备设施摆放空间; ●综合布线线路空间,配线架管理。 5.8.2 能力容量

●电力供应容量; ●空调供应容量; ●综合布线信息点容量; ●互联网接入容量。

设施运维团队应与IT 部门定期沟通,动态了解IT需求的预测,并通报设施容量的使用情况。可制定3个月至36个月周期的IT需求及设施可用容量两者的对比分析表。

当机房基础设施不能满足IT增长的需求时, 应提前制定并上报扩容或者新建机房的计划。 5.9 能效管理 5.9.1 能效监测

机房基础设施运维团队应了解并记录机房在不同工况及不同外界气候条件下的电力使用效率 PUE 的变化情况,从中发现趋势,以不断优化运行方案。 5.9.2 了解IT设备运行特征 机房基础设施运维人员应具备一定的IT设备相关知识,了解服务器、网络、存储等设备的运行特点和功耗情况。还应了解客户或用户的业务基本情况,了解IT 设备的运行峰谷期。

应与客户或用户相关部门做好沟通,针对高密度IT负载的部署做出预测,并制定相关应对方案。 5.9.3 管理气流组织

应封堵设施建筑所有可能的漏风口,维持设施的正压。 应疏导设施内气流的流向、封堵所有可能的漏风口、对机柜内所有空闲U位安装盲板、关闭不必要的出风口、保证冷空气的最佳使用效率。

5.9.4 运行阈值设定

应基于安全性及运行效率的综合考虑,建立运行阈值设定指南, 设置监控报警阈值、空调回风温度等。 5.10 预算管理

运维团队应做好运维财务预算,上报主管领导及财务部门,并做好预算必要性的沟通解释工作。

预算应包括但不限于以下内容: ●基于SLA的人力预算; ●备件及工具、仪器采购费用; ●应急维护材料费用;

●专业外包维保和应急服务费用; ●政策性等强制检测服务费用; ●整改或节能改造预算; ●突发问题备用金。

第二篇:运维管理标准

概述

运维是管理的核心和重点部分,也是内容最多、最繁杂的部分,主要用于运维部门内部日常运营管理,涉及的对象分成两大部分,即业务系统和运维人员。其管理内容又可细分为七个子系统:

第一、设备管理:对网络设备、服务器设备、操作系统运行状况进行监控,对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理;

第二、数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复; 第

三、业务管理:包含对企业自身核心业务系统运行情况的监控与管理 第

四、目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;

第五、资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互;

第六、信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;

第七、日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。

第一章 总则

1. 为加强公司各个项目后期的系统运维管理,确保系统能够平稳、可靠地运行,更好地为客户提供管理服务,特制定本规定。

2. 实行预防性维护为主、故障性维护为辅的运行维护管理原则,预防性维护和故障性维护都应遵循事先设计好的程序进行。

3. 完善运维管理体系,建立健全运维规范,提高运维管理效率,并不断提高运维质量。

4. 本规定适用所有进入运维环节的项目。

5. 运维人员应根据授权,处理本规定中所涉及的业务事项。

第二章 主机、服务器及数据库系统的运维管理

1. 根据应用需求,主机、服务器及数据库系统的配备和安装、以及系统资源的使用等由公司项目实施部统一规划。

2. 应指定专人作为系统管理员(系统工程师)和数据库管理员,对系统的运行、管理、维护和安全负责,并按照有关规定负责系统和数据的备份与恢复。 3. 系统/数据库管理员应定时对系统进行监控和定期的健康性检查,分析系统运行和资源使用状况,并进行必要的优化、调整和修正,及时消除隐患。如系统设置发生变化,或重新安装系统,或安装了新软件,应在此后15个工作日内对系统进行密切跟踪。

4. 及时解决处理系统运行过程中出现的异常问题和软硬件故障,并采取必要措施,最大限度地保护好系统资源和数据资源。

5. 对于重大软硬件系统故障,应立即通知部门领导,协调服务商,使系统尽快得以恢复运行;对于应用系统引发的系统异常或故障,应及时通知相关人员,并协同解决处理。

6. 每季度应对系统主机/服务器/数据库进行一次停运维护,其操作必须严格按照操作规程进行。其他非正常性停运(故障引发的除外),应提出书面申请,并经部门领导批准后方可进行。同时做好相应的准备工作,最大限度地减少对业务操作带来的影响。

7. 具有系统操作或管理权限的人员调离工作岗位或离职,应立即从系统中删除该用户;如该人员掌握超级用户口令,应立即更换口令。

第三章 软件系统的运维管理

1. 避免在用户工作时间进行软件版本升级工作,以免由于人为失误造成业务中断。 2. 软件系统的安装、升级等操作应保留完整的实施记录。

3. 对软件系统进行升级、更新补丁,应首先进行相关的测试,并在确认无误后实施。

4. 对软件系统进行升级、更新补丁,或进行系统的重新安装等操作,应在实施前对原有系统及数据进行备份。

5. 变更系统配置,修改配置文件、参数文件时,应对原始配置数据(或文件)进行保留。

6. 软件进行版本升级时,对于不影响业务的升级工作,须以书面形式详细将计划、方案、措施等报上级主管部门备案;对于影响业务的升级工作,必须提前两周向上级通信主管部门以书面形式提出申请详细报告计划、方案、措施等,经批准后方可实施。

7. 维护人员应定期跟踪所使用系统的软件升级情况和升级后的新功能,必要时提出升级建议。

第四章 数据库的运维管理

1. 对于数据库的变更必须有记录,可以回滚。 2. 无用表和字段要及时清理。

3. 从数据库删除数据一定要先备份再删除。

4. 定期对数据库数据进行自动备份,以便在故障发生后尽快恢复最新的数据。定期检查备份的执行情况,确保备份操作正确执行。 5. 指定专人定期进行备份数据的恢复性试验。

1、严格操作原则:在系统上进行可能影响系统运行的参数设置、更改和维护等操作时,须有2人以上在场进行监护和确认,并作好详细的操作记录;

2、提前沟通确认原则:软件进行版本升级时,对于不影响业务的升级工作,必须提前与客户方进行沟通,避免操作中人为失误造成业务中断;对于影响业务的升级工作,须提前与客户方进行确认,达成一致后方可实施。

3、遵守保密原则:对被运维系统单位的网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等负有保密责任,不得随意复制和传播。

第五章 巡检管理

定期了解设备的运转情况,做好系统日常运行的基础数据记录,做到有问题早发现、早解决,避免隐患,确保设备的完好率,保证系统运行质量。

1. 对硬件设备进行定期巡检,是确保系统稳定运行的重要措施,巡检工作包括例

行巡检、节假日和重要事件前的巡检

2. 维护人员应根据工作计划,对维护的设备定期进行预防性巡视检查,巡查过程中应认真负责,及时发现问题,重点注意处在恶劣环境下、存在潜在质量故障的设备,巡查要认真做记录。

3. 巡检过程中发现告警应立即进入处理流程,判定为故障的要立即进入故障处理流程

4. 所有的巡检都应有详细的记录,包括时间、巡检情况和责任人,并应在巡检纪录卡上签字。

第六章 网络管理规范

 关键业务流程

对以下业务系统流程监控,对业务系统是否正常运行、各项具体参数指标是否超标等进行掌控,避免或降低业务系统故障的发生率。

1、单位内部的关键业务流程。

2、网络吞吐量大的业务流程。

3、对系统造成大的压力,频繁使用数据库的业务流程

4、同其它系统集成的业务流程,这些集成会提高应用失败的风险。  用户体验同系统性能指标相关联

将网络中的所有网络基础架构都进行集中监测,包括对数据库服务器、应用服务器、路由器、交换机、防火墙的监控,收集网络运行信息,将性能数据同单位内部用户的体验相结合来分析网络的性能状况,诊断系统瓶颈。

 建立网络运行基准指标并观察趋势

长期监测并通过对网络运行的观察,分析网络性能的变化和流量等指标的运行趋势;及时发现网络偏离系统基准模型时的异常状况,分析故障,达到预警的目的,防止更严重问题的发生。  设计报警策略,避免警报泛滥

配置报警的依据是根据信息服务管理网的网络运维管理目标,报警设置的原则:

1、对影响网络和业务的重要指标设置报警;

2、消除误报和重复报警;

3、报警应该以多种方式及时发送给相应的负责人。  创建自动化、规范化事件处理程序

信息服务网络运维,日常处理事务较多,需要在网络、链路和系统运行出现问题时能够有自动化、规范化的处理问题程序,快速处理各种潜在故障并且分配到相应的负责人,提高工作效率。另外可将工程师长期积累的知识和工作经验系统化和固化,达到快速定位故障的目的。

 网络服务质量SLA的量化管理 提高网络服务质量的设立量化指标,将其作为整个网络运维管理团队的整体目标。信息服务管理网网络性能管理的总体目标包括网络和设备、业务的可用性、网络的吞吐量、带宽使用百分比、网络延时、CPU和MEMORY的负载,对于不同的网络指标还要根据网络的上下级连接关系分解到每一个子指标,作为对网络故障诊断和性能管理的依据。

 制定网络的升级和改进策略

网络的升级和改进应该以对现有网络和系统性能数据的测量为前提,以对网络整体运行的现状及趋势分析为依据。通过对单一网络系统和整体网络系统性能数据的比较、单一网络组件和其它网络组件的数据比较、系统负载量最大时的性能数据和一般负载时的性能数据的比较等,判断是否需要对系统的局部或者整体进行升级,发现网络系统性能的瓶颈,提出网络系统改进的方法。  日常规范

1. 每天两次进行业务系统、网络运行状况、业务流量及对外服务器服务状况监控巡查;

2. 按照规定的时段巡统计并汇总运维表单。(流量统计、事件统计、问题统计、手里投诉统计等)按照规定的时段查看路由、防火墙等关键系统运行情况,包括网络流量、带宽占用率等,重点检测关键设施,并记录;

3. 处理产品组网络问题应做完整、详细记录,快速响应,及时确定原因,积极组织处理,同时记录解决问题的操作过程,问题解决后应及时回复;

4. 对网络资源调配管理(ip资源分配、设备端口划分、链路传输、负载均衡等)、核心和汇聚层等核心网络运维的调试,做好汇报申请并记录。

5. 故障分析及处理,网络拓扑更新及网络优化。网络安全方案实施部署,更新维护录入知识库。

6. 处理各种网络故障,并作记录,保障网络正常运行。 7. 遇到不能处理的问题时,通知相关人员或及时汇报,并记录;

8. 工作人员要有强烈的安全意识,巡查时应注意发现各种可能的安全隐患并及时排除。

第七章 请示报告制度

为加强相关信息处理和反馈管理,有效的控制系统和设备的运行状态,通过规范的请示报告流程,提高运行维护的管理效率。

例行性请示报告

1. 按照规程和制度规定的周报、月报、季报和年报。 2. 系统升级、交接和重大数据变更请示报告。 3. 各类专项请示报告和合理化建议。 紧急性请示报告

1. 各种事故、严重设备故障、严重电路故障、系统运行异常等情况。 2. 各项工作中发现的严重泄密、安全性事故报告 3. 客户要求的其他紧急性报告。

第三篇:风场运维班组标准化管理制度

1 范围

本标准规定大唐河南清洁能源有限责任公司所属各个风电场班组建设工作的管理职能、管理内容与要求、检查与考核。

2 管理职能

运维班组建设,实行风电场行政为主的组织领导原则。风电场是运维班组建设管理的归口部门,具体负责班组建设的组织、协调、动态考核等日常工作。

3 管理内容与要求

3.1班组的组织

3.1.1班组设值长一名,设主值班员一名,值班员若干; 3.1.2班组实行值长负责制和班组民主管理相结合的管理模式。班组根据实际需要,设立兼职的“五大员”(班组安全员、技术培训员、材料工具员、班组宣传员和生活管理员)。 3.2班组的基本任务

根据公司的生产经营的目标和计划,按照工作标准和设备管辖的职责范围,安全、文明、优质、高效全面的完成生产工作任务。

3.3班组的主要工作

3.3.1全面贯彻“安全第

一、预防为主、预防为主”的方针,严格的执行安全规程,做到安全、文明生产。 3.3.2强化班组管理,严格执行公司的技术标准、管理标准和工作标准,明确职责,做到事事有人管。

3.3.3加强科学管理,建立健全基础台帐、图纸和资料,认真做好原始记录、卡片、凭证、报表和数据统计的工作;做到生产工作任务图表化。

3.3.4每月开展不少于一次的技术问答,努力提高职工的技术水平、操作技能等。

3.3.5积极组织职工参加技术改进、合理化建议活动和劳动竞赛。

3.3.6积极开展增产节约和增收节支活动,加强劳动工时、物资消耗和费用等定额管理。

3.3.7组织开展文明生产活动,保持工作场所与生活场所卫生的整洁。

3.3.8每月至少组织一次班组成员开展技术培训活动,提高班组成员业务水平。

3.3.9做好缺陷管理,发现缺陷及时登记处理。 处于生产准备期的运维班组还应做好以下几点工作: 3.3.10负责风电场生产设备及安全设施标示牌的悬挂。 3.3.11建立风电场标准操作票票库。 3.3.12建立风电场标准工作票票库。 3.3.13积极参加设备交接性试验。 3.4班组的安全管理

3.4.1班组定期组织班组成员开展安全学习,落实岗位安全责任制,不断增强班组成员的安全意识。

3.4.2严格执行安全规程,工作场所作业必须符合安全规程的要求,坚持开展每周一次班组安全活动,坚持“四不伤害”的原则。

3.4.3坚持执行“两票三制”, 在落实“两措”的前提下,按计划完成规定的工作任务,落实安全大检查任务和整改措施。

3.4.4认真分析班内存在的安全隐患和“三违”(违章指挥、违规作业和违反劳动纪律)现象,做好反违章记录,及时制订防范措施。

3.4.5认真组织实施安全教育培训计划,不断提高班组人员整体安全生产素质。

3.4.6认真组织班组安全日活动,必须坚持保证每周不少于2小时的安全活动。安全活动内用应包括:班组及个人一周来的安全情况小结和分析;对发生的异常和险情做到“四不放过”,制定防范措施;彰严格执行规章制度的好人好事;学习安全规程、事故通报上级文件,结合班组实际制订落实贯彻措施;对所管辖的设备进行运行情况和缺陷分析;对安全工器具进行检查;安排下周安全事项,讨论制定安全措施和注意事项;对“两票”进行检查分析。 3.4.7每班班前坚持开展事故预想,对本班可能遇到的异常及事故做到心中有数。 3.5班组的基础工作

3.5.1认真贯彻执行公司和上级规定的各项规章制度,实现管理工作制度化、标准化。

3.5.2加强班组的日常统计、分析工作。

3.5.3准确、及时、清晰地做好各种原始记录、统计报表、台帐的填写和上报工作。

3.5.4定期开展技术问答、技术交流、事故预想、反事故演习和岗位练兵等活动;积极参加公司组织的观摩、研究、交流、知识讲座等培训活动。 3.5.5班组应具备的台账

3.5.5.1奖惩考核记录、月度工作计划、考勤记录、会议记录、生产管理记录、安全活动记录、安全管理记录、技术培训记录、工器具领用记录。

3.5.6班组应具备的资料

3.5.6.1班组岗位职责、岗位工作标准、公司有关的管理标准;

3.5.6.2技术标准(运行规程、检修规程、电业安全工作规程、作业指导书及有关的技术标准),涉及工作范围的设备、系统图纸、说明书及常用的技术资料;

3.5.6.3上级的命令、通知与规定等,班组的内部管理规定与制度。

3.5.7班组实行班前会、班后会制度

3.5.7.1班前按规定着装、仪表整理.各岗位按分工、分区域进行巡视检查。

3.5.7.2接受班前安全教育,开展班前“三讲一落实”活动。

3.5.7.3班前会要讲评、预想各本岗位安全重点.值长分配本值的具体工作;交待当天的工作任务、工作内容和进度要求;交清现场条件、作业环境;交待使用的机械设备和工器具的性能和操作要求;交待应采用的安全措施、重点注意部位和注意事项;分析可能发生事故的环节、部位和应采取的防护措施;明确分工,指派工作负责人。

3.5.7.4班后会要认真评价本班组安全生产情况和规章制度、标准化作业执行情况。班后会要认真总结工作任务完成情况和安全、标准化作业、防护用品、工器具使用情况,以及安全保障和监督措施执行情况,查找问题和差距。对优秀作业职工进行表扬,对不安全问题和不规范作业及违章行为提出批评、整改。 3.6岗位职责 3.6.1值长主要职责

1.贯彻并执行国家法律、法规,执行集团公司、分支机构或子公司和本企业管理制度和企业标准,组织规定、落实本班组管理办法、操作细则和工作计划;

2.在风电场场长的领导下,负责本值的生产组织和日常管理工作。根据班组生产任务的实际需要,负责本值人员工作安排和生产中工器具的调配使用,全面完成本值生产、经营、管理目标;

3.做好本值成员的思想政治工作和精神文明建设,积极开展技术交流、岗位练兵、安全分析、事故预想、缺陷管理、技术革新、合理化建议、节能降耗、成本核算等活动,加强团队精神和文化建设,不断提高职工的政治、业务素质和经济效益;

4.负责本值安全管理和生产管理,主持班前会和班后会,杜绝和拒绝违章指挥,制止违章作业,实施文明生产和标准化作业;

5.负责组织本值安全日活动,全面分析一周的安全情况,做到有内容、有记录、有实效。每月组织班内人员按设备、系统、设施进行安全检查、技术分析和预测、预防工作;

6.负责组织班内人员,认真进行设备巡回检查和现场设施检查,经常巡查检修、施工、操作现场,制止违章作业,发现重大事故隐患、缺陷及时汇报,积极组织消除;

7.负责本值的定置管理。所有物品摆放有序,标识清楚显眼;

8.负责组织保管、使用、管理好安全工器具,做到专人负责,做好定期试验和检查,不合格的及时更换,并做好记录。督促工人正确使用劳动保护用品;

9.班组发生异常以上的各类不安全事件及时汇报上级,召开调查分析会,严格执行“四不放过”,并按有关规定定性;

10.在风电场场长的领导下,当值期间负责本风场与政府部门、其它相关单位、部门,沟通联络。 3.6.2 主值班员主要职责

1.贯彻并执行国家法律、法规,执行集团公司、分支机构或子公司和本企业管理制度和企业标准,组织规定、协助值长落实本班组管理办法、操作细则和工作计划;

2.在值长的领导下,协助值长完成生产组织和日常管理工作,根据班组生产任务的实际需要,进行人员工作安排和生产中工器具的调配使用,完成本值计划生产任务;

3.配合值长做好班组成员的思想政治工作和班组精神文明建设,积极协助值长开展技术交流、岗位练兵、安全分析、事故预想、缺陷管理、技术革新、合理化建议、节能降耗、成本核算等活动,加强团队精神和班组文化建设,不断提高本值成员的政治、业务素质和经济效益;

4.配合值长完成安全管理和生产管理,在值长缺席情况下,全面主持班组各项日常工作,同时杜绝和拒绝违章指挥,制止违章作业,实施文明生产和标准化作业。 3.6.3 值班员主要职责 1.贯彻并执行国家法律、法规,执行集团公司、分支机构或子公司和本企业管理制度和企业标准,组织规定、协助值长、主值班员落实本班组管理办法、操作细则和工作计划;

2.在值长的领导下,按时按量完成值长下达的各项任务、命令,接受值长的监督和指导,根据生产任务的实际需要,听从上及领导的安排;

3.积极参与班组开展技术交流、岗位练兵、安全分析、事故预想、缺陷管理、技术革新、合理化建议、节能降耗、成本核算等活动.努力挺高自身业务生平,强化安全生产意识;

4.在工作中,杜绝和拒绝违章操作,制止违章作业,实施文明生产和标准化作业。

3.6.4兼职的“五大员”(班组安全员、技术培训员、材料工具员、班组宣传员和生活管理员)主要职责. 3.6.4.1 班组安全员:

1、协助值长开展班组安全活动;

2、班组“两票”统计分析,对“两票”票面进行定期、不定期检查;

3、配合上级安监部门的检查,相关资料收集、统计;

4、发生异常以上的各类不安全事件,保护现场,及时向上级汇报,会同班组长及时组织调查分析,查明原因,明确责任,落实防范措施;

5、检查管辖的设备、现场设施,查禁违章。检查安全工器具的使用、管理状况。 3.6.4.2 技术培训员:

1、协助值长开展班组技能培训、技术监督工作;

2、班组技术监督工作相关资料、报告的收集、整理。 3.6.4.3 材料工具员:

1、负责本值当班期间的仓库管理工作;

2、对本值当班期间工具材料使用、借还情况登记;

3、负责工具日常维护、定期校验工作。 3.6.4.4 班组宣传员:

1、负责本值对外宣传工作,积极利用公司各种宣传交流平台,宣扬本值的工作亮点;

2、负责利用公司、风电场板报、宣传栏为本值做宣传工作;

3、发掘本值工作亮点、针对突出事迹编写嘉奖报告。 3.6.4.5 生活管理员:

1、负责对本值成员的个人、宿舍、厨房卫生情况进行检查督导工作;

2、负责本值当班期间的生活、消防泵房的检查、管理;

3、监督本值食品采购工作,以及液化气(天然气)、生活用电安全规范使用。 3.7.附件

附件

一、风电场定期工作; 附件

二、风电场检修交代记录; 附件

三、风电场交接班登记表.

第四篇:ITIL已成为IT运维管理平台的事实标准

CBSi中国•PChome 责编: 邹震 2009-11-02

摘要:ITIL 是IT 运维的事实标准,ITIL 的流程和原则通过规章制度的方式定义和实现,通常要借助工具软件帮助其落实,在国内,这些工具软件被统称为IT 运维管理平台。

随着信息化的不断发展,企业越来越多的依赖PC、LAN、服务器、防火墙等互联网技术,IT系统发展至今已经成为业务系统不可或缺的支撑基础,业务系统借助IT系统帮助企业更高效的服务于客户及市场,IT系统不单纯只是零散孤立的软硬件设备,为了更好的保障业务系统持续运行,IT应用系统已经上升到了IT服务管理层面。

IT服务存在的问题

在传统的IT管理模式下,缺乏适用的自动化管理流程,导致IT服务管理能力低下,从而使IT服务存在诸多问题:

* 传统监控方式过于分散,监控相互独立,故障的不能准确定位;

* 关键配置信息登记不完善,系统配置散乱在各种资料中,没有进行统一的管理; * IT资源管理混乱,领导层无法清晰了解资产的变更、使用等情况; * 系统升级变更后业务不稳定;

* 运维管理效率低下,相似问题屡屡发生,IT运维人员疲于奔命;

* 知识分散,信息中心过度依赖某个人,人员流失能影响故障解决速度; * 人员技能要求增高;员工工作考核无法量化,有的人很忙,有的人很闲; * 缺乏以客户为中心、以流程为导向,面向业务体验的运维模式„„ ITIL产生的效益分析

为了更好的让IT服务于用户,让运维人员不至于沿用“被动响应、救火队”的服务支持管理模式,英国CCTA(现OGC)于20世纪80年受英国政府的委托,组织开发了一套提高IT架构有效管理、经济使用支撑业务运行的IT资源的标准——ITIL,ITIL自诞生之初就引起了众多政府、企业的关注,企业、政府组织纷纷加入进来使用ITIL、雕琢ITIL,到如今,ITIL已经经历了V

1、V

2、V3三个版本的变迁,已经拥有了数万个政府、企业的用户,可以说ITIL已经成为了IT服务管理的最佳实践标准。

ITIL能够风靡全球,原因在于“以客户为中心,以流程为导向”,ITIL定位在面向终端用户,关注客户体验,为业务与技术搭建沟通的桥梁,确保政府、组织、企业的战略推动的实施。ITIL定义了企业IT系统计划、研发、实施到运维的最佳实现流程和管理原则。以下是应用ITIL可能产生的效益。

ITIL对用户的效益分析

1、ITIL是以客户为中心的,实施ITIL之后,用户的IT服务质量可以得到很大的提升,从而提高用户的客户满意度。

2、服务内容可以以客户的语言和更为恰当的详细程度得到更好的描述。

3、通过实施ITIL,可以对服务质量、可用性、可靠性和服务成本进行更好的管理。

4、 通过实施ITIL,可以更好的让企业提升IT服务质量的改进,还可以对采纳基于ISO20000系类标准或BS 15000的质量管理体系提供支持。

5、ITIL为内部沟通和外部供应商沟通,以及程序的标准化和识别提供一个一致的参考框架。

ITIL对IT部门的效益分析

1、通过实施ITIL,IT部门可以全面监控网络、主机、存储设备、安全设备、数据库、中间件及应用软件等IT资源。

2、更加有利于IT部门对其负责的IT资源进行管理。

3、ITIL流程可以对日常运行维护工作(或外包作业)提供一个管理框架。

4、通过ITIL规范的服务台,可以建立一个更好的IT部门与业务部门沟通的平台。

但是,ITIL仅仅只是IT运维的事实标准,ITIL的流程和原则通过规章制度的方式定义和实现,通常要借助工具软件帮助其落实,在国内,这些工具软件被统称为IT运维管理平台。

IT运维管理平台是遵循ITIL理论,同时根据用户自身的特点而构建的,IT运维管理平台通过整合以往对网络、服务器与业务应用等IT基础设施的管理,通过基础监控平台提供的接口实行有效对接,帮助用户建立全面完整的、以业务价值为核心的基础监控和统一展现管理平台,为IT服务管理提供足够的管理元素,帮助管理者从不同角度、不同层面去了解系统运维状况,从而帮助用户实现对IT服务基础支撑系统的透彻管控。

广通信达科技有限公司总经理徐育毅认为,IT运维管理平台的作用从信息部门工作重点来讲,就是需要保障IT数据的连续性,保障业务数据保存正常、保障业务的连续性。业务部门最直接的要求总结起来就是——网络不断、系统不瘫、数据不丢。

IT运维管理平台不但要满足业务部门的需求。还能切实解决用户的实际问题,比如对信息中心主管而言,他需要将信息部门工作向决策层汇报,IT运维管理平台可以提供一种计算方式、或者一种表格、让信息中心主管来量化整个信息系统运行情况,同时产生一系列数据向决策层汇报信息部门运营情况。

IT运维管理平台不仅仅是一种提升IT服务质量的手段,更应该帮助用户导入一种服务管理思想、过程方法、制度体系。IT运维管理平台是ITIL落地的工具,实施ITIL是一个循序渐进的过程。它有初期、中期和远期三个阶段。初期一般只实现服务台、事件管理和配置管理。虽然这只是一小部分的流程,但走好这一步不仅可以提高ITIL实施的信心,而且能够为以后的实施打下牢固的基础。

中期的目标是建立问题管理、变更管理、发布管理、安全管理、继续优化或强化配置管理以及IT服务管理中部分的管理流程。在完成初期和中期的ITIL流程实施之后,IT运维基本可以实现可控和在控。可控要求的是基础IT运维有流程、有职责;在控则是要求在可控的基础上进行扩展,在完善IT服务管理流程的同时建立IT服务管理的部分管理流程。

Broadview IT运维管理平台是遵循ITIL,结合国内现状与广通实践经验,建立的以服务流程为驱动的管理平台。通过标准化的建立,IT运维管理平台定义了服务台、事件管理、问题管理、配置管理、变更/发布管理等在内的服务管理流程,能够为用户提供运维过程中的流程化处理的IT服务管理解决方案,通过各流程环节的工单形成IT服务的闭环管理,将人员、流程和技术有机地结合起来,将管理、监控和考核有机地结合起来,提升用户整体的运维管理水平。

IT运维管理平台实施之后,就会形成一套完整的流程。当机房环境发生变化时,系统会通过告警台进行预警,IT运维人员第一时间就能知道业务系统中断了,值班人员通过智能化的告警处理中心提示的内置故障根源分析作出处理,恢复业务系统正常运行。如果不能处理就将故障事件派给相应的IT运维人员,IT运维人员解决问题之后将结果反馈给服务台,所有的配置项信息都储存在配置管理库里,以备查看,事件工单关闭。

同一事件经常发生之后,服务台或IT运维人员就会将此事件作为问题来处理,或者在日常巡检或趋势分析中也可以找到潜在的问题,这时就会启用问题管理,问题工单会派给相应的IT运维人员将事件频发的根源找到并作出处理,消除隐患、彻底解决,避免以后人力浪费在解决同样的事件上。

如果发现问题的根源是软、硬件设备问题造成的,这时需要对软、硬件进行更换或者升级,就不得不提到变更管理。之所以此处添加变更管理,是因为软硬件的变更是具有风险的,可能会影响到整个业务系统,比如常见的软件升级存在的风险就很大,很容易就会升级失败导致业务系统中断,所以变更管理需要经过有效评估,复杂的变更管理还需要变更委员会确定变更计划是否可行、操作是否得当、是否会影响到业务系统、需要在变更前对于预见的风险做好哪些必要准备,变更委员会同意进行变更之后,再由运维人员按照规范进行变更操作,如果是软件的变更会有新版本的升级发布。最后,将所有的问题解决、变更、发布管理涉及到的配置项信息都需要到配置管理库进行记录和更新,最后返到服务台关闭问题工单,形成完整的工作流程。

IT运维管理平台遵循ITIL标准,能将各种IT 管理活动按照流程的方式加以组织,并且赋予每个流程以特定的目标、范围和职能,从而加强了IT 管理的全面性和综合性,使IT 对用户业务系统的支持更为彻底和有效。同时在实施每个管理流程时从客户需求的角度出发,强调根据客户的需求对IT 进行“量身定做”式的管理,通过提供高品质的IT 服务提高客户的满意度。

第五篇:运维人员标准化服务

运维人员预约、上门处理语言及行为规范

1、着装礼仪 上门服务应该穿着具有标识天域文化传媒的统一服装,佩戴统一的服务工号牌,工号牌的佩戴应佩戴于胸前,携带统一的工具包(工具配备齐全),仪容仪表整齐。 上门服务人员应仪容整洁、大方,保持良 好的个人卫生习惯。

2、收到客服报单后,立即与用户预约时间, 您好,我是新疆天域文化传媒头屯河分局运维人员XXX,请问你家电视或宽带有什么故障问题吗? (根据客服报单内容)提问。并和用户预约号时间。如已和别的用户已预约了,无法现在就用户家里处理的话,并告知用户。“我以XX点与另外个用户预约号时间了,请问我XX点去你家可以吗?”并做好用户预约时间表,避免忘记。

3、进出小区及敲门礼仪 进出小区或单位时,要遵守门卫制度,主动出示有关证件,车辆停放应注意小区或单位停车规定,听从保安指挥。 上门服务时敲门要轻而有间断,并以每次三下为度,按电铃要有间隔,不要长按铃。

4、入室内前请问用户需要换鞋吗?(如果客户有拖鞋,更换客户的拖鞋;如果客户没有拖鞋戴上自带的一次性鞋套,一般情况自己主动穿上一次性鞋套。) 如遇下雨天,应将雨具放在室外。 用户开门后,应主动自我介绍并出示工作证件,说明上门原因及主要的服务内容。“你好,我是头屯河分局XXX运维人员,前面我已和你预约了,处理你家XXXXX故障,这是我的工作证。”同时给用户看看。

5、检修故障前,要和用户沟通,了解用户故障类型,如“请问你家电视是什么问题?能否给我描述下吗?”或“你家宽带或固话有说没问题,能否给我描述下吗?”耐心倾听用户意见和建议,认真解答用户的提问,不得顶撞、讽刺、挖苦用户,禁止与用户争吵,得理让人。

6、与用户对话时,要保持适当距离,正视对方, 称呼合适,态度和蔼,有问必答,不准训斥、责备用户。 在用户处站立时,不背靠它物,不叉腰、不抱胸,坐时不靠躺,行走时脚步稳,不应有不文明行为举止。

7、室内施工时,工具、设备要轻拿轻放,并在下 面铺垫报纸或塑料布,严禁擅自使用用户的工 具或要求用户自己安装。 如施工需要搬动用户室内物品时,必须征得用 户同意,并做到轻拿轻放。 在施工现场不与人进行打闹、嬉戏,不随便与 用户开玩笑;不在用户家中抽烟,不嚼口香糖; 严禁酒后上岗。

8、工作出现差错或欠周到时,应主动向用户致歉,并立 即予以纠正。 若在施工过程中发生损坏他人财产的情况,应耐心做 好与用户的沟通工作,并向上级汇报协商解决赔偿事宜。

9、施工完毕后应检查线路,数据等没有问题后,主动清理现场,打扫卫生,并与用户友好道别。“谢谢您配合,如有需要,您可以直接拨打 6363111号(或直接联系您的客户经理),再 见!”

在施工过程中,如遇到安装设备,走线等问题时。

1、与客户确认设备安装位置 ,请问需要安装在什么位置?(必须与客户确定具体的房间等信息)。

2、询问客户设备放置的位置,设备放在哪个位置,麻烦您带我过去看看。

3、您好,线路必须从室外(进线处)引进室内 (电脑处),请问室内(进线处)到室外有没有综合布线可以利用,如果是钉线可能会影响美观。或 您好,根据设备安装的位置,需要从客厅放一条线路进来,您觉得线路路由如何走比较合适?

4、当发现用户要求安装的位置不适当时: 、当发现用户要求安装的位置不适当时: “对不起,这个地方太潮湿(或不安全、 或容易发生故障、或影响有线、宽带、通话质量),能否换 个地方?”

5、当需要用户帮忙时 “对不起,麻烦能否请您帮忙„„,可以吗?” (请客户配合操作时,如电脑密码或遥控器等其他确认) 。你好,这(如电脑桌、电视柜等)可不可以移一下? (需移动客户设备、家具等物件时) 。您好,能用一下您的××吗?(使用客户 工具、仪表和其他设备时)。

6、当遇到特殊情况当天不能装通时: “对不起,由于XX原因,您的电路(宽带) 暂时不能装通,我X日再来。”

7、请客户试用: 、请客户试用: “您好,您的电路(宽带)已经通了,请 试用一下,看有没有什么问题。”

8、当用户对布线或电话机、设备摆放位置重新提出要求时: (在可能的情况下)“好的,我再按您的要求施工” (在违反规定的情况下)“不行的,这样会违 反„„规定,对不起,请见谅!”

9、当遇到用户请吃饭或送礼时:当遇到用户请吃饭或送礼时: “对不起,公司有规定,不准吃拿用户的东西, 这是我们应该做的。”

针对客户提出的非施工、维护有关的敏感性问题

故障原因对外统一规范用语

1、现场交流: 您好,现在我给您简单介绍故障的处理情况,该故障是由于局端原因/第三方XX原因/客户端XX原因导致业务出现故障,经过我们运维人员或第三方XXX处理,现业务已经恢复。

2、当用户业务不能使用,我方正在查找原因时,面对客户对故障原因的询问应使用“我们正在检查,确定原因后再回复给您 ”。

3、当用户业务不能使用,且已确认是由我方故障造成,天域文化传媒方正在处理时,面对客户对故障原因的询问应使用“我们正在检查,我们将尽快修复。 ”。

4、 当用户业务不能使用,且已确认是由我方故障造成,天域文化传媒方已处理完毕时,面对客户对故障原因的询问应使用“对不起,由于我方原因,使您的业务无法正常使用,我们深表歉意,我们正在对故障原因进行分析,我们稍后联系(将通过客户经理) 因进行分析,我们稍后(将通过客户经理)向你解 释。 ”。

5、当已确认是由用户方原因造成用户业务不能使用时,面对客户 对故障原因的询问应使用“您好,从您反映的情况来看并结合我们的排查判断,本次故障应该是***(用户方原因、如改线、路由器等)引起的。 请您先检查一下(按照如下方式进行操作),好吗? ”。

6、当已确认是由第三方(如物业公司,如公用电停电)原因造成用户业务不能使用,且第三方正在进行故障处理时,面对客户对故障原因的询问应使用“对不起,根据处理的操作和我们排查的情况判断,故障是××(公用电停电)引起,我们正在协助公司修复故障,很快就能修复。 ”。

7、维护人员遇到现场无法解决的问题时,应使用“您反映的问题(现象)我已经记录下来,我们会组织技术员进行进一步处理,并把故障及时向您反馈处理情况。谢谢你使用天域文化传媒的业务。 ”。

8、无法/不适合当场回答客户问题时,应使用“您好,这个问题我们还需要进一步分析,将很快向您(贵公司)反馈。 ” 客户抱怨有故障时,应使用“对不起 非常抱歉,我们正在全力处理,故障将很快修复 ”。 客户抱怨故障重复发生时,应使用“非常抱歉,我们正在处理,会及时向您反馈故障处理情况。 客户抱怨故障处理时限长时,应分别使用“非常抱歉,给您们的工作带来了不便,我们会在xx时完成,请您谅解” 和“对不起,由于故障原因比较复杂,需要较长时间,造 成目前处理还在继续,我们会尽快完成”。

运行维护中心 2014年12月

上一篇:义务教育课程设置表下一篇:语文教学与思维培养