银行IT运维的三个故事

2024-04-10

银行IT运维的三个故事(精选6篇)

篇1:银行IT运维的三个故事

摘要:近年来,农行县域支行信息系统不断更新、升级,网络从单线路到双线路,从办公与生产网隔离再到两网融合,授权从现场授权到远程集中授权,网点从布局不规范到统一格局,县域支行信息系统运行的安全性和稳定性不断提高,应对风险的能力不断增强。农行县域支行在快速推进信息化建设的同时,在IT运维方面存在着一些亟待解决的问题。本文针对县域支行IT运维的现状进行了剖析,总结出存在的问题:业务竞争激烈,导致科技生产运维被边缘化;IT运维不能直接创造价值,得不到重视;信息科技综合考核分值占比低,投入资源少等。最后,从IT生产运维宣传、IT队伍建设、IT在综合考核中的比重等方面提出解决办法。

篇2:银行IT运维的三个故事

随着中国经济的迅猛发展,中国的信息化取得了前所未有的成就,企业信息化步入了一个崭新的时代,企业的IT规模和应用随着企业规模的壮大而变的庞大起来,并且是企业的信息化需求也逐步迈向多元化,层次化,IT基础框架变得庞大而复杂。当前中国的信息化建设已经深入到很多企业的核心业务,而且为了确保业务稳定、可靠并快速、有效地开展。企业经常会运用了多个信息系统进行辅助支撵。但是,IT服务与企业核心业务的整合程度并不理想,同时IT系统运行维护的管理水平也相对滞后。企业的整体IT管理水平较低。中小企业IT运维管理的现状

具体来看,中国的企业目前面临着如下的网络运维管理难题:

1)网络运维缺乏绩效考核标准,职责不清,相互推诿。

多数企业的IT部门目前都基本是按照IT基础架构功能分为各个部分,也有少部分的企业是按照业务来进行划分。缺乏IT服务工作量量化考核工具,没有计算IT服务人员的工作绩效,也没有监督IT服务人员解决故障的处理效率和处理质量。因而在lT服务人员解决问题时缺乏协作,而一般IT出现故障或问题,都不会是简单的某个环节单独出问题,很多时候需要多个部门协作才能排除故障。所以,在企业运维过程中经常出现责任不清,相互推诿的现象。

2)网络资产管理混乱,漏洞百出

IT设备和软件资产众多,目前还停留在人工管理的范畴。例如,IT设备的定期排查力度不够,设备巡检不到位:IT设备台帐不能方便反映设备维修历史记录;软件资产未建立台帐进行管理,软件的升级、变更等缺乏登记信息;设备和软件的配置信息不详。或者配置信息经过长期维修调整已经与实际不相符合;还有IT设备采购、调拨、报废等管理流程处理效率低。

3)网络运维服务管理缺乏流程保障,维护人员忙于救火,缺乏主动服务。

IT部门除了确保信息系统安全、稳定、可靠运行之外,还将面临如何管好、用好这庞大的系统,为业务部门提供有效的决策支持的挑战。现相信“救火队员”这个称号是我们IT部门理解最为深刻的角色定义。很多管理员在颇为烦恼做这样的角色的同

时,每天又重复的担任这样的角色。因此,很多管理员都具有这样的通性,那就是IT业务没问题的时候神情特别轻松。但是一旦处理故障的时候就特别紧张,尤其是涉及到企业核心电子业务的时候,那吏是全体动员,赶快恢复业务运行,要是正好领导亲自来部门督战,那更是可以紧张到汗流浃背。

4)网络组织重“硬平台”建设,轻“软平台”管理,维护人员与客户满意度低投诉引起的相关部门的责难将打击IT运维人员积极性。

5)没有建立知识库,知识分散,信息中心过度依赖某个人,人员流失能影响故障解决速度

6)网络系统缺乏长期规划,更缺乏复杂系统的运维管理经验

目前很多企业的IT系统建设往往不能得到企业管理人员的高度重视。前期规划往往仅为解决短期问题,缺乏与企业发展战略相结合的长期统筹规划。出现大量的补丁工程,造成投资浪费,效率低下,不能促进甚至阻碍战略目标的实现。提高IT运维服务能力的理论分析

20年前国外的一些政府单位和大型企业已开始着手探索应对上述问题的办法,在多年的实践基础上,总结出了相对完备的一套行之有效的体系架构,该架构已经被业界公认为事实上的国际标准。这就是所谓的ITIL(information technology infastmc.ture li.brary),即IT基础架构库。在国外,该标准正在被HP、IBM、CA、微软等企业广泛采用,并付诸实施。并在实践的基础上,形成了各自的ITSM(即information technology service management,IT服务管理)方法论及产品。并成为了他们开拓IT服务市场的招牌。

2.1 IT基础架构库IT几简介

20世纪80年代,英国政府为了提升信息化设备和系统的运行效率。保障信息系统建康运行,有效进行服务外包管理,指定当时的英国政府计算机与通信局,研究开发一种方法,用于指导全国政府部门高效、经济地运营信息化设备和系统,结果产生了信息技术基础架构库(Information Technology Infrastruc-ture Library-ITIL)。ITIL不是一套标准,而是供组织内部进行。IT服务管理的参考经验,它汇集了IT服务业内的最佳实践,是指导如何在运维管理中定义人员、流程、服务活动及其之间关系的指导框架。2003年开始,国内一些IT服务企业开始宣传ITIL服务管理理念。

ITIL的框架包括业务管理、服务管理、IT基础架构管理、安全管理、应用管理等,其中最核心的是服务管理中的服务支持和服务提供,如图l所示。不同的对象可能对服务的要求内容不同,比如,IT供应商可能更多关注服务提供。而作为客户的rI主管部门可能更关心服务支持。而服务支持主要包括:服务台、故障管理、问题管理、配置管理、变更管理和发布管理等六个模块。

2.2 ITIL对IT部门的效益分析

1)通过实施ITIL,IT部门可以全面监控网络、主机、存储设备、安全设备、数据库、中间件及应用软件等IT资源。

2)更加有利于IT部门对其负责的IT资源进行管理。

图1 ITIL的整体架构

3)ITIL流程可以对日常运行维护工作(或外包作业)提供一个管理框架。

4)通过ITIL规范的服务台。可以建立一个更好的IT部门与业务部门沟通的平台。提高IT运维服务能力的对策

综上可知,企业IT运维的难题并不是网络应用能力的不知而是网络运维管理能力和rr运维服务的缺失。网络运维的行业标准为ITIL,ITIL落地需要借助工具软件。而遵循ITIL规范研发的IT运维管理平台能为用户带来“IT管理理念+系统工具+过程方法”的全新的IT服务管理组合,通过ITIL在企业的实践,我们可以从以下几个方面提高企业的网络运维服务能力:

1)基于ITIL流程和理念,建立合适的工作流程,合理安排人员岗位,明确职责,避免一旦出现故障,互相推脱或者不知该找谁解决的情况。能保障在业务中断的第一时间找到相关负责人去解决问题,快速恢复业务。

2)实现统一监控平台,将各种监控资源通过集中展现和告’警的方式进行统一管理,从整体上全面、快速了解系统当前的运行状态。帮助运维人员快速定位故障,缩短排查到底是哪个设备出现问题的时间。能保障在最短的时间内恢复业务系统运行。

3)高效的、合理的流程设置和流转,相互关联的事件工单、问题工单、变更工单、配置工单,使得运维工作流转过程中的资源关联清晰、过程明确。可控、历史数据和处理过程可查。提高业务系统运行效率。

4)高效、实时、准确的配置管理库可为运维服务提供所需的配置项信息,可通过设定的条件自定义查询、浏览、打印,不必费时费力去整理杂乱繁多的纸质记录。降低IT运维人员工作量。

5)追踪资产生命全周期的资产管理,可对所有台账资源一目了然,对资产的使用状态准确记录,提高资产设备的重复使用率、及时淘汰报废设备、更新所需设备。提高rI资产使用率,降低IT资产投入。

6)建立知识库积累,避免专业的技术问题永远只能依赖某一个或几个专业人员来解决的现状。使运维工作中的实际经验和专业知识得到共享。摆脱以往只能靠某个人解决固定问题的现象,让人人都成为IT运维专家。

7)量化运维人员的运维工作,通过运维分析数据制定运维考核标准,逐步促进运维人员的服务水平和服务质量的提高。总的来说,通过有效的实施IT运维管理,降低人员工作量的同时提高IT运维人员工作效率,保障业务人员的工作效率,提高业务系统运行状况,进而提高企业整体网络运维能力。同时提高客户满意度。结束语

篇3:银行IT运维的三个故事

IT运维指的是基于计算机网络的基础设施建设完成之后, IT部门人员要采取相应的管理维护方法, 对设施的运行物理环境、软硬件环境以及其他业务系统等进行定期的维护管理, 因此, 也叫做IT运维管理。

我国的移动通讯在2000年左右开始快速发展, 在率先建成两级网关系系统的基础上, 实行资源管理、流程优化、数据集中管理以及完善网络服务等措施, 建成高度集约化的现代化运维管理体系。随后我国的通讯行业不断推陈出新, 网络业务量与用户量越来越大, 在此形势下, 网络运维工作要发挥重要作用。本文主要针对移动通讯的网络运维应用进行分析。

近年来, 我国的通讯业网络运维, 开始在高度集中运维、客户感知等方面不断创新, 但整体来看, 当前的移动运维虽然一直都很重视网络运维, 但在某些方面, 移动网络运维的内容不能很好结合公司的实际情况、市场变化、用户需求等, 导致很难突破现有的运维模式, 获得更好的市场利益与用户体验。因此, 移动通讯行业需要转变网络运维的定位, 将网络视为企业的重要资源进行经营, 在保障网络质量、安全的基础上, 提高运维效率和服务水平, 最重要的是提高网络运维的效益。

2 当前移动网络运维过程中存在的问题

根据分析当前移动网络运维现状, 发现当前依然存在网络运维缺乏流程化管理、运维集中化管理不完善、信息化管理效率较低等问题, 具体表现在以下几方面。

2.1 移动网络运维缺乏流程化管理

现代化管理的一个重要手段就是流程化管理, 只有标准的流程化管理方法, 才能使移动网络的运维管理工作保持统一的高质量。由于移动运营过程中, 使用的大设备及运维人员较多, 这就导致影响移动运维工作的因素复杂多样。如有些地区只考核运维人员的绩效, 导致维护工作因人而异, 网络质量参次不齐。由于忽略了对关键业务工作的流程化管理, 导致在运维管理中不能进行全过程的监督、控制、测量和考核, 也无法对整体通信网络运维工作的质量和效率进行统一过程控制。

2.2 通讯网络运维的集中化管理程度不足

为了打破以往网络运维体制以及网管系统功能的限制, 当前大部分地区的通讯网络运维普遍采用集中管理、分散维护的结构。分析全省通讯网络的运行情况发现, 虽然目前各地市都设立了各自的通讯网络管理中心, 对通讯网络的运行状况进行实时监控, 但依然存在各通讯网络运维中心之间网络维护流程并不完全一致, 各市、县专业维护职责界面不统一等现象, 整体上缺乏协调性和统一性。在专业性维护方面, 由于各市县人员构成不同, 人员配备存在差异, 能力差异较大, 尤其综合维护的能力有待加强。

2.3 通讯网络运维的信息化管理效率较低

在现代化信息管理中, 通讯网络资源信息管理系统是极其重要的数据信息管理基础, 只有在数据库有记录的通讯网络设备, 才能够通过这个平台进行管理。通讯网络资源数据信息标准化、集中化、统一化, 才能在通讯网络运行维护过程中使得资源利用更合理、有效, 减少浪费, 取得最大的经济效益, 提高维护人员的工作效率。然而就目前来看, 许多地区的运营公司通讯网络资源信息的集中化管理程度还比较低, 即使做到了部分网络资源如交换网、无线网、传输网资源的统一管理, 但由于部分设备商使用的通讯网络设备管理系统及软件平台有差异, 缺乏较为统一的信息管理平台。

另外, 部分信息的缺失, 导致网络运行数据不准确或不完整, 无法借助此平台完成对通讯网络运行维护状态的充分监控, 通讯网络资源管理系统形同虚设。在当前的通讯网络资源信息系统中, 还存在部分信息数据缺失、无法记录等情况, 造成整体信息不完整。加上各通讯网络维护团队使用的信息系统并不一致, 导致与总公司的通讯网络资源系统信息脱节, 无法做到全网有效的网络资源调度。不准确的网络资源信息, 又会在处理网络故障时误导工作人员, 极大影响了工作的进展, 使得故障处理耗时较长、效率低下。

3 优化移动通讯网络运维的建议

通讯网络运维管理服务是一个规范化的管理体系, 通过一系列互为关联、逐层细化的流程, 为端到端的高效运维管理与控制提供了规范和指南。

3.1 建立网络运维管理中心进行集中化管理和调度

在网络的运行维护转型中, 需要进行组织的集中化, 建立服务共享中心及控制中心。

(1) 集中地理上分散的团队, 实现远程化管理。如今网络的发展已使很多业务都可以远程进行, 突破了地理的限制, 因此, 大力开展集中化管理势在必行。使工具的部署更有效率, 充分利用工具的优越性和好处, 减少地理位置的影响, 更好更快地完成工作。

(2) 各地区要保持统一标准的服务水平, 不能因为地区性的人员能力差异等因素, 影响通讯网络运行维护的服务质量。同时加强对新业务和新技术的引进及实施部署, 加强对运维人员的培训。各地应保持统一的流程和工作规范, 以规范的流程来保证服务质量。

(3) 通过集中化管理灵活调配资源并提髙资源的利用率, 统筹考虑, 减少重复资源, 同时也缓和各地区或局部区域发生问题时资源紧张的问题, 平衡了网络空闲时间的资源闲置。集中化管理也使知识的分享及获取更加容易, 在需要丰富经验的网络运维工作中, 集中化模式离效的知识分享, 可以有效降低网络运维的风险。

3.2 形成流程化管理的制度

有效的流程化管理制度可以在有限资源内, 保证高标准的网络运维服务交付质量, 并有效降低运营商的运维成本。流程化是保证网络运维服务标准的重要方法, 对各区域的不同通讯网络, 要减少人为因素对服务结果的影响, 必需实行统一的标准化流程, 使之不受个人情况左右。通讯网络的服务质量不受个体影响, 而是通过流程及其关键过程性能参数、指标来控制和改进。形成用数据说话的标准规范, 对过程指标及过程参数进行控制及分析, 进行准确有效的把控, 实时有效地来控制执行情况。

3.3 建立统一的信息化管理平台

(1) 在当前的大数据时代, 只有充分进行信息化管理, 才能将服务做得更加完善到位。尤其是网络维护工作, 更需要将原来的被动维护转变为预防性的主动维护。减少网络故障及再发生的情况, 提升网络可用性。

(2) 进行数据管理, 对通讯网络运行情况进行数据分析, 及时控制潜在风险。另外, 通过对大数据的处理及分析, 保持持续创新和改进提升, 为客户创造更多的价值。

(3) 目前我国现有的通讯网络运维, 可以将一些基础设施 (如管道、基站、线路等) 简单重复的劳动密集型维护工作进行外包, 核心网络设备的维护工作选择优秀的内部运维队伍负责, 以保证通讯网络运行的总体质量与安全。

4 结语

运营商可以通过对机构人员、工具系统和流程这三个关键环节进行管理, 将管理理念分解到流程, 再将流程固化在系统。通过系统指挥人员按要求行事, 对人员进行集中化机构的统一管理, 来确保运维服务的质量与效率。

摘要:在当前信息化社会环境下, 移动通讯行业的发展越来越迅速。当前市场竞争越来越激烈, 运营商必需改变传统思维, 改变运营维护模式, 提高移动通讯网络运维的效率和质量, 才能在当前时代获得长远可持续的发展。

关键词:IT运维,管理,移动运维

参考文献

[1]鲁春丛.通信运维管理发展趋势[J].中兴通讯技术, 2010 (2) .

[2]孙长青.铜陵市地方税务局税务信息系统运维管理的探究[D].合肥:安徽大学, 2010.

篇4:业务与IT运维的完美结合

目前,传统的IT运维管理状况已经不能适应企业快速发展的需要,如何让IT部门更好的服务于企业的业务环境,这一直是企业的CIO非常重视和关注的。传统的运维管理方式是:当IT环境中某一环节发生故障后,最先发现业务不能正常使用的是终端用户,然后通过电话等报修方式通知运维人员进行维修,具体分析是网络、系统、数据库、业务应用等哪个环节出了问题,还需要多个部门的综合化解决。这完全是一种被动式、非及时性的、浪费大量人力资源的运维模式。

那么,市场上有没有一款产品能够解决变被动运维为主动运维、快速有效、节省资源的运维产品呢?

新加坡网利系统有限公司的NetGain Enterprise Manager产品(简称NetGin EM)是完全以业务为主线对IT基础架构实时监控管理的系统平台。作为世界上第一款即插即用的硬件IT管理设备,它是通过基于Web页面操作,帮助用户轻松实现对IT系统管理,确保核心业务的稳定运行,改变传统的被动式IT运维管理模式为现代紧密结合企业业务的主动式IT运维管理模式。在诸多挑战面前,现代企业在追求降低IT成本投资的同时,更希望IT设备稳定高效运行,为企业业务创造出最大的价值,这也正是今天企业IT运维管理的关键。

NetGin EM主要强调以业务为主线进行企业运维管理,确保企业的IT业务系统的可用性和稳定性,使用户在正确时间采取正确的方式实现IT业务系统运维管理,从而最大化发挥IT对企业业务的推动作用,这是因为所有的IT元素都是为企业的业务服务的。这种以企业业务为本,对业务所依赖的IT元素进行运维监控管理的独特理念就是NetGain的优势所在。

NetGin EM以业务为主线的综合IT架构管理,满足多层次多角度的IT运维管理要求,高效集成了对企业业务、网络设备、操作系统、数据库、主机/存储、中间件等IT元素的监控管理功能,对IT架构和业务的状态和性能进行主动监测和预警。

NetGin EM具有以下主要功能:

1.基于硬件,易于实施:快速实施,把设备以旁路的方式接入企业网络,简单配置网络地址,以Web浏览器登陆,启动自动发现功能,即可完成监测配置,同时具有项目实施周期短的特点。

2.自动发现,快速配置:NetGin EM支持自动发现的方式配置被监测对象的,通过主动轮询机制,使用Snmp、Agent、Ssh等多种方式实现性能数据的采集。自动扫描发现各种网络设备、系统、服务、和应用软件等,并自动配置各种采集监测器。

3.整体视图,纵观全局:系统采用全新的视图,直观大方,并且可以自定义视图,方便于用户全视角的直观监控管理,如图1所示。

4.以业务为导向进行管理:站在企业业务的角度,对企业IT元素按照业务进行梳理,并生成业务所依赖的IT元素监控视图,可以实现故障快速定位。

5.监控告警,自由定制:全面主动采集IT元素的状态信息和性能数据,并生成告警信息,通过多种告警方式通知运维管理人员进行及时的故障解决,提高企业的运维管理水平。用户可以自定义告警视图,如图2所示。

6.报表管理,灵活定义;系统提供几十种报表模板,并允许用户自定义报表内容和报表发送方式,提供直观的柱形、线性、面积图等直观视图报表。

7.通知方式,自动响应;通知方式有E-Mail、短信、弹出窗口、声音等方式进行告警通知,用户可以自由灵活定制通知方式。

8. Web远程,管理灵活;NetGain的管理界面完全是基于B/S架构的Web方式实现,这种架构提供了良好的灵活性和扩展性,它采用成熟的 Web 2.0 技术,对前端应用的展示提供功能强大、表现丰富的 Web 界面,允许用户灵活定制页面展现内容。如图3所示。

9.流量分析,提供准确的信息流量数据报告:使用NetFlow技术,提供准确的信息流量数据报告,可以及时分析查看出当前业务的使用状况。

NetGain公司提倡的是IT BSM,即IT业务架构管理,其英文名称为Business structure Manager。是指将企业的业务所依赖的IT元素,按照相应的业务架构模型进行维护,并引入SLM概念,整体展现企业IT业务服务水平。是ITIL中业务管理的有力补充,进而帮助企业实现IT运维管理流程化,自动化和规范化。NetGain EM的工作流程是:以旁路方式接入企业网络,然后进行自动扫描添加被监控设备,同时自动配置对IT元素的监测项,接着结合企业的业务架构梳理出业务拓扑图,进行以业务为核心的运维监控视图,并根据实际IT设备监控需求进行告警配置,自定义告警方式和报表。

篇5:银行IT运维的三个故事

目前,我国电力企业IT运维管理还处在应用尝试的阶段,主要停留在IT管理软件的深化应用、管理流程的梳理和优化、管理制度的制定和完善的阶段。企业日益增长的个性化服务需求,要求IT运维服务部门提供日趋专业化的服务战略和精细化的解决方案。运维模式正在逐步从“以应用为中心”向“以服务为中心”转变,从“被动运维”向“主动服务”转变,要求服务创新与技术创新并重。公司IT运维服务管理概念与内容

所谓1T运维管理,是指单位1T部门采用相关的方法、手段、技术、制度、流程和文档等,对IT运行环境(如软硬件环境、网络环境等)、IT业务系统和IT运维人员进行的综合管理。IT运维管理主要包括以下几个方面的内容:

(1)设备管理:对网络设备、服务器设备、PC电脑、计算机外设的运行状况进行监控和管理;

(2)应用管理:对各种应用软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统,DNS,DHCP,Web等的监控与管理;

(3)数据管理:对系统和业务数据进行统一存储、备份和恢复;

(4)业务管理:对单位各类业务系统运行状况的监控与管理,包括业务流程的有效性,业务功能的完整性和业务实施的可控性等;

(5)资源管理:单位各类1T资产资源的管理,如:IT物资采购、装配运行方式、时间、编号、折旧和报废等,这些资源均能够与单位的财务部门进行数据交互和统一;

(6)安全管理:安全管理主要是针对单位的安全组织方式、行业特点、人员安全、环境安全、信息安全、保密控制管理等;

(7)事务管理:规范和明确IT运维人员的岗位职责和工作安排、提供绩效考核量化依据。IT运维管理系统(ITSM)是指针对IT运行维护的技术服务支持和为满足领导IT决策支持管理的软件系统。主要实现“以客户为中心,服务可量化,高质量、低成本服务”三大IT运维管理目标。运维过程中产生的问题与状况

(1)人员问题。运维部门在日常运维中经常会碰到一些现象,如用户没有故障申报意识,常常直接打电话找相应的工程师或管理人员甚至领导解决有关问题;工作分配不合理,没有准确的量化数据来进行绩效考核,导致技术人员忙、闲不均,人员无法动态流动,有的系统人手不够有的系统人力资源又没有得到充分利用;部门内部缺乏梯队建设机制,技术储备欠缺,新员工成长周期长,导致系统对人员有很强的依赖性;缺乏对第三方服务的质量控制,长期对第三方服务的依赖影响了自身团队的提高,增加了运维成本的投入等。如果负责研发的技术人员同时还要负责日常运维支持,技术人员就不能投入更多的时间和精力去进行更深层次的工作。如,改进、完善系统自身的某些缺陷;构建支持新业务流程的IT系统的需求分析,解决方案设计,新系统的测试及相关培训等。这就会直接导致技术人员缺乏对故障发生的预知能力,IT运维部门缺乏可操作的应急预案,IT系统缺乏有效的灾难恢复工具。

(2)流程问题。以前的运维工作模式中,在对事件的处理上没有规范的流程,导致很多弊端发生。部门接到故障申告后,对突发事件只有简单的归类,没有确切的事件升级标准,没有事件的优先级定义标准,通常是哪个用户叫得紧、喊得急就先处理哪个用户的申告,在突发事件数量激增的情况下不能保证事件解决的时效性和IT资源的有效利用;突发事件产生后,在处理事件时,没有统一的事件受理平台,许多时候用户的故障和需求都不知道向谁提出,也不知道向谁询问故障处理的进度及结果,极大影响了用户对IT服务的满意度;当重大事件发生时,没有针对重大或紧急事件的处理流程,不能对事件进行及时、有效的处理,不能对事件处理的进度进行监控和跟踪,对事件的处理过程也没有完整的记录,事件的处理质量得不到有效控制,经常是各个环节的技术人员一齐上阵,最后也不知道是那个环节起的作用,也不知道什么时候类似事件又会再次发生。此外,传统的运维工作模式对配置管理的认识也十分欠缺,没有统一完整的配置管理流程及管理范围,也没有规范的配置管理数据库,因此也就没有相应的信息提供给其他流程进行故障分析、风险评估等工作,往往是相类似的问题再次发生在相类似的事件中。

(3)技术问题。理流程没有一个强大的技术平台做支撑,ITIL的实施也就无从谈起。这里所说的技术平台指的就是一套基于ITIL的网管系统解决方案(即网管工具)。没有一套功能强大的网管工具,就不能对突发事件进行及时的监控和正确的诊断,事件就不能在工具的支持下得到主动而快速的处理;技术人员不能借助有效工具对事件处理情况进行完整的记录,这不利于知识的积累和知识库的完善,也不利于处理过程的跟踪;没有工具进行精确的数据分析,就没有系统可用率/故障及时解决率/故障发生率等系统性能指标的产生,也就不能科学分析运维事件的趋势和规律,不能有效预防相同事件的再次发生。改进的措施及方法

(1)搭建层级化的人员组织架构,对服务支持人员和系统管理人员间的角色和职责进行清晰的定义和划分。在人员组织架构设计上,IT运维中心可采用ITIL提供的层级化组织架构,把所有人员划分为一线、二线、三线:一线指服务台的服务支持人员,其职责是接收问题、跟踪问题,处理大量简单、重复并已经记录在配置管理数据库中的各类问题;

二、三线人员负责研究解决技术难度相对较大,对业务影响较严重的问题,并将这些问题的处理方法和解决方案记录到配置管理数据库中,使问题再次出现时,一线人员能够根据配置管理数据库中的内容向用户提供解决方案。

通过搭建层级化的人员组织结构,用户的请求可以在第一时间找到合适的人,并可及时获知事件的处理进度;用户可以得到统一标准的、规范化的服务;IT部门内部也能够更合理地配置服务组织的人员结构,提高效率,降低成本。ITIL的核心理念是降低系统对特定人员的依赖。通过对配置管理数据库的严格管理,系统中任何一点微小的变更都会记录在配置管理数据库中。其确保对一切技术人员的思维创新及行为进行准确的跟踪、控制和记录。配置管理数据库的应用改变了传统服务体系中“谁看到,谁知道。”的知识分裂体系模式,构建了一个“一人拥有,全员皆知”的高性能体系模式,极大提升了一线人员解决用户问题的能力,提高了问题的首次解决率,降低了比一线支持成本高4~6倍的二、三线支持的工作量,保证80%的问题在一线得以解决,消除了过程对个人的依赖,实现IT服务的“工程化”。

(2)流程管理是ITIL的核心内容。在基于ITIL的IT运维中心工作模式中,IT运维中心可将所有IT系统的日常运维操作全部流程化,并通过自动化工具对流程执行情况进行监控与跟踪。同时,基于ITIL的IT运维中心还可针对不同的流程设置相应的流程管理员,以此来推动和优化每个业务流程的实现。笔者所在的单位还不是一个以赢得市场的竞争为主要目标的机构,所以在建立基于ITIL的IT运维中心模式时,我们可以先考虑服务台、事件管理流程、问题管理流程、配置管理流程、变更管理流程、可用性管理流程的建立。根据业务发展情况,再随时增加新的流程。

服务台:服务台作为IT运维中心和用户的单一接口,所有需要解决的事件都通过服务台向IT运维中心提交。所有用户的服务请求统一由服务台记录在案,并依据各个岗位的职责进行工作分派。利用服务台这个唯一的接入点充当过滤器,并协调后续的所有流程。

事件管理:记录所有IT系统软、硬件的日常故障处理情况,所有软、硬件的备件库存情况及使用情况。记录各类突发事件的处理过程,以便能够权衡并改进处理流程,给其他的服务管理流程提供合适的信息,以及正确事件处理进展情况报告。

问题管理:对所有IT系统软、硬件发生的故障进行归类,对归类后的问题进行研究、诊断,找出引起问题的潜在原因,制定解决方案,并将解决方案记入问题数据库,当有类似问题再次发生时可极大提升服务台人员的事件解决率。

配置管理:建立配置管理数据库,完整记录本部门所有IT资产的基本情况和所属情况,记录所有在运行IT系统的基本情况(包括软件的定期更新版本,系统的维护经验和实施技巧,各类文档资料),记录一段时期内各类技术变更情况,记录所有IT运维人员的基本资料(包括职责范围、联系方式等),记录各类与本部门IT系统相关的规定、制度。对配置数据库中各类配置项的正确性和完整性进行校验。

变更管理:完整记录所有的变更资源,对变更请求进行审查、归类、批准并提交;安排变更进度并进行测试,对实施后的变更进行评审。记录因故障处理引起的备件变更情况及对IT系统定期巡检的所有情况。

可用性管理:记录硬件及IT系统保修期限及生命周期,定期对设备的运行及使用情况进行可用性分析,优化IT基础设施,确保IT基础架构实施能够得到最佳利用。

(3)

如何选择一套合适的网管工具将复杂的IT服务管理流程固化下来是ITIL实施中一个重要的环节。好的网络管理工具首先应能提供丰富的图形操作界面,能动态反映网络的拓扑结构,包括网络各种资源变化的自动监测,方便操作人员的网络运行状况监控。能提供用户灵活的设置功能,如阀值设定,以监测网络故障的发生。能提供丰富的用户程序接口,方便用户二次开发自己的网络管理软件。能提供灵活的配置管理可对配置数据库的各类数据进行快速而准确的导入、导出,并确保同步其他管理流程对配置数据库的改动,发现和防止各类配置数据的随意修改。采用开放的、模块化的体系结构,方便用户根据实际需要选择自己的管理流程模块。此外,好的网络管理工具支持领域广泛,可涉及到系统资源和资产管理,数据库管理,存储管理,用户帐号管理,安全管理,软件分发管理等IT运维的方方面面。

目前,比较成熟的基于ITIL的网络管理工具主要有HP公司的Openview系列,IBM公司的Tivoli系列,CA公司的Unicenter系列以及BMC公司的Remedy系列等。我们在选择管理工具时,一定要从实际情况和实际需要出发,先对IT运维工作规划出一定阶段内的目标,并在一定程度上做好流程设计,再结合现有的管理水平和成本投入能力选择合适的工具,确保所建立的IT运维管理系统能够根据IT服务管理水平的不断提高而持续改进与优化。

随着企业对于IT管理和运营的要求越来越高,ITIL作为IT服务管理的国际标准已经被广泛的接受和应用。通过建立基于ITIL的IT运维中心工作模式,企业建立了服务提供和服务支持的流程管理体系,将人员、流程、技术有机的结合起来,并通过操作规范和制度体系的保障,IT服务得以有效提供,企业管理水平得以明显提高。结束语

篇6:可视化——IT运维的关键

然而现实往往并不能如愿以偿,过去的很长一段时间内,企业IT团队的精力往往都放在应用系统的建设上,工作重心多是完成一个又一个项目,很少真正对所有的应用系统做详细的梳理、弄清楚其中的逻辑关系。再加上早期开发的一些应用系统并没有建立良好的开发和运维流程,应用系统之间的关联关系也往往没有规范的文档可以查询。这样久而久之,随着运维人员的交替,支撑企业业务的应用架构已经变得难以梳理,IT运维面临的压力也越来越大。

而在众多信息化建设开始较早的企业中,这种情形尤为明显,一方面是由于建设时资源紧张等特殊因素,某台服务器上可能运行着多个不同的应用程序,或者有一些边缘组件平时不太引人注意。这些问题伴随开发人员的更替,逐渐被人们淡忘,为后来的运维工作埋下了隐患,国内某大型商业银行便是这方面的典型案例。

应用可视化是关键

为此,该银行开展了相应的治理工作,以清除IT运维工作中存在的死角。该项目负责人姜岩在接受采访时表示,由于运维人员的不断交替,对整个应用系统缺乏清晰的认识是运维工作面临的最大难题。

显然,如果没有一种有效的梳理手段支撑,企业要解决应用梳理问题,无疑是一项充满挑战的工作。特别是在业务与IT系统越来越紧密关联的趋势下,业务运行会很依赖IT系统的支持,如果缺乏对IT架构的理解,每一个未知风险都可能导致业务的严重中断;另一方面,业务快速变化也对IT运维的敏捷性提出了前所未有的要求,运维人员只有对IT架构保持充分的了解,才能让IT跟得上业务变化的节奏。因此,如今的运维人员已经不能仅满足于知道有哪些应用和节点部署在企业中,更需要知道它们之间是如何连接和交互的。

为此,姜岩和他的团队尝试过多种方法,比如使用Agent模式、日志分析、代码植入等方式,不过效果并不尽如人意。由于这些方式直接与被管理系统、应用程序产生交互,也就是说其在监视数据产生的同时,本身也会消耗系统、应用程序资源,而这往往会导致资源紧张,进而导致业务处理性能下降,甚至有不少用户因此而遭受了严重的业务中断故障。

在经过多方考量后,最终他们采用了基于网络数据资源的应用性能管理方法,使用CrossFlow BPC(Business Performance Center)网络与应用性能管理产品进行应用梳理,并进行相关的监控管理。

而之所以采用这样的方式,也是因为在当前的应用架构下,应用服务层级划分已十分清晰,各层级间的交易全部通过网络传输来完成,基础设施和交付设施本身都以服务为中心向应用提供界限明确的服务功能,使得数据采集设备可以轻松获取关键交易环节的网络数据,这给网络数据源的获取带来了极大的便利和灵活性。

据姜岩介绍,整个项目的实施主要有五个关键步骤,包括应用整体监控的标准化制定;监控统一管理的必要性分析;明确监控统一管理的主要目标;掌握监控统一管理的关键技术及监控统一管理最终如何展现与运用。“整个项目的关键词就是整体、统一。”姜岩解释说,只有做到整体监控、统一管理,才能使IT系统可视化,运维工作才能得心应手。

整体监控 统一管理

在具体的实施过程中,姜岩首先对现有应用系统的整体构成做了全面了解、仔细排查,包括哪些应用是跨节点、跨层面的,哪些应用是多维度的;然后按照应用构成信息的不同(不同应用的基础层面构成信息、应用内部构成信息、应用外部关联信息等都不尽相同),设定不同的KPI监控指标,再根据相应的指标分发相应的监控策略。姜岩表示,这样做的好处就是可以全方位多维度地梳理应用监测点,并以体系化的监控指标作为分发策略的参考。在此基础上,构建起了三层架构的监控统一管理平台,其中包含监控对象及代理层、监控工具层及监控管理平台,进而对应用产生的数据进行采集、处理、监控及管理。

其中作为数据采集的关键,中间层的监控工具层起着至关重要的作用。因此,据姜岩介绍,他们前后部署了多个监控工具用以监视各个部件的情况,有针对惠普小型机监控的OVO、针对网络事件监控的SORLAWINDS、针对IBM小型机监控的TIOVLI、针对数据库监控的OMS、针对应用性能整体监控的CrossFlow BPC及针对存储环境监控的SOC等。

其中针对小型机、存储、网络的监控工具主要监控的是单一类型的系统,而针对应用性能监控的CrossFlow BPC则能在一定程度上起到全局监控的作用。因为当系统中的某一应用出现故障时,CrossFlow BPC能够及时发现,并追根溯源,进行自动故障定位,在呈现应用故障对用户体验影响的同时,指出导致问题发生的根源组件和原因。

CrossFlow BPC能够通过交易笔数、成功率、响应时间、响应率及返回码5个指标及交易时间、交易笔数2个维度对关键业务指标进行统计,并进行深入的分析。而其内置的SPV Discovery还能自动呈现被监控网络数据的IP连接性,快速梳理应用组件之间的逻辑访问关系。

也正是由于以上的种种特性,姜岩使用其对银行的核心业务进行监控,通过关键交易当前的状态分析、性能趋势对比、交易直接探测等措施,明确当前的各项交易处于什么状态、有无威胁,并通过CrossFlow BPC梳理各项应用之间的逻辑关系,降低人为出错的可能性。

在实际环境中,当其中某项业务出现故障时,CrossFlow BPC会以明显的颜色加以区分,并告知故障定位及告警数目,以方便用户做进一步的故障判断。

据姜岩介绍,通过上述一系列的应用梳理,数据采集、处理、分析工作,并在监控统一管理平台统一呈现,最终实现了应用整体监控的既定目标,即在应用整体结构管理方面,能够梳理应用整体结构,达到自动实时监测;在应用健康运行监视方面,做到实时采集并监测应用运行的状态;在应用运行故障预警方面,实时分析并监控应用运行的关键KPI;在应用运行故障报警方面,实时自动检查应用服务状态的异常情况;在应用故障原因分析方面,采集故障现场数据,并进行关联数据分析。

上一篇:纳米材料性质及应用下一篇:记一次快乐的交易比赛作文

本站热搜