医院信息系统灾备系统

2024-05-04

医院信息系统灾备系统(精选七篇)

医院信息系统灾备系统 篇1

1. 信息系统灾难恢复的意义

从全国信息化建设过程中发生灾难过后, 留给人们的思考是如何降低损失, 如何有效地防范风险, 如何使信息系统不间断等等。经历过灾难的洗礼单位, 没有制定灾难恢复机制的, 就会造成重要数据的毁灭而无法恢复工作, 造成重大的损失, 有些企业业务无法运作而倒闭, 与此同时, 有的单位因建立信息系统的灾备机制, 进行了科学有效的信息系统灾难恢复, 从而迅速恢复了运行工作, 避免重大损失, 这些典型事例给我们带来了深刻的启示, 涉及到全医院信息系统的单位, 必须构建有效的灾难恢复机制并建立业务数据连续性保障机制。灾难是一种具有破坏性的突发事件, 而且具有毁灭性, 我们所关注的是灾难时医院的正常运行和医院的正常秩序造成的影响, 其中最显明的影响是医院信息管理系统服务的中断, 致使医疗业务无法正常运行, 信息系统停顿的时间越长, 医院的信息化程度越高, 损失也就越大。

《信息系统灾难的规划及实施》这本书, 将灾难定义为:由于人为或自然的原因, 造成信息系统运行严重故障或瘫痪。使医院信息管理系统支持的医疗业务功能停顿或服务水平不可接受, 通常导致信息系统需要切换到备用场地运行的突发事件。典型的灾难事件包括自然灾害等, 还有技术风险和提供给医疗业务运行所需服务的中断, 如设备故障、软件错误、通讯网络中断和电力故障等等。此外, 人为的因素往往也会酿成大祸, 如操作员错误, 移植有害代码和小偷袭击等等因素。

灾难恢复是指将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态, 并将其支持的医疗业务功能, 从灾难造成的不正常状态恢复到可接受状态而设计恢复机制和措施。它的目的是减轻灾难对医院和社会带来的不良影响, 保证信息系统所支持的关键业务功能在灾难发生后能及时恢复和继续运作。

2. 灾难恢复的特点

根据灾难恢复的目标和内涵, 灾难恢复机制要注重的特点可以归纳如下几点:

1、灾难恢复是为高风险、小概率事件所做的恢复机制准备。

2、灾难恢复系统建设需一定的软、硬件的投资和运行成本。

3、灾难恢复对技术人员的专业水平要求较高。

4、灾难备份系统的管理十分规范和严格。

为了保持灾难备份系统的正常运行, 其管理应该具有严格的规范, 具有先进的灾难恢复理念和完善的管理制度, 用以保障平时的安全运行, 并在发生灾难或演练时能够及时接管运行。

3. 灾难恢复与灾难备份、数据备份

为了灾难恢复而对数据处理系统、网络系统、基础设施、技术支持能力和运行管理能力进行备份的过程称为灾难备份。灾难备份是灾难恢复的基础, 是围绕着灾难恢复所进行的各类备份, 要注重医疗业务的恢复。

数据备份通常包括文件复制、数据库备份、数据备份是为了在重要数据丢失时能够对原始数据进行恢复。任何灾难恢复系统实际上是建立在数据备份基础上的, 另一方面数据备份策略的选取取决于灾难恢复的目标, 灾难恢复与医疗业务连续规划, 医疗业务连续的管理。医疗业务连续规划是灾难事件的预防和反应机制, 是一系列事先制定的策略和规划, 确保医院在面临突发的灾难事件时, 关键医疗业务功能持续运作, 有效的发挥作用。

4. 容灾备份系统的实施

我院运用SAN存域网技术, 进行存储资源的集中, 在这基础上采用两台EMCCLARIION CX500型磁盘阵列设备, 其中一台作为主存储, 另一台作为容灾备份存储, 并配置EMC MIRRORVIEW软件作为数据同步镜像, 通过两台光纤通道协议交换机连接。主机上安装POWERRATH软件实现通道负载均衡和冗余切换, 利用EMC AUTOSTART群集软件把三台服务器以2比1的形式构建集群系统, 形成“3+2”容灾备份体系。其中一台容灾存储, 一台光纤交换机和一台容灾服务器存放在异地楼寓机房中, 构筑成完全冗余的主异两地容灾备份架构。在架构中的任何设备出现故障和主机房出现灾难, AUTOSTART和POWERPATH软件将自动进行通道切换, 保证数据正常传输, 确保整个操作系统和应用系统可用性, 真正意义上做到应用、数据7+24小时不间断运行。使医院信息管理系统保持正常运行。同时, 该系统模式相对传统的双机集群模式“2+1”方式, 可以节约投资, 提高IT资产利用率。

5. 结束语

“居安思危, 思则有备, 有备无患”, 事实证明, 各类灾难的到来通常具有突发性和偶然性, 但只要能够构建信息系统灾备机制, 进行行之有效的灾难恢复工作就可以将损失降低到最小。灾难恢复机制建设是现有信息系统信息安全保护的延伸, 承载灾难恢复系统建设的灾备机制是保障信息安全的重要基础设施, 灾难恢复机制是整个信息安全应急工作的一个重要环节, 是信息安全综合保障的最后一道“生命线”。

参考文献

[1]王谕次, 王秀, 杨淑琴, 等.构筑信息系统灾备防线[J].中国计算机用户, 2006, 23.

医院信息系统灾备方案的探讨和实践 篇2

随着医院的不断发展壮大,我院医疗信息化建设工作也得到蓬勃发展。医疗信息化的发展在给医院带来便利,并不断提升、优化医院运行效率的同时,越来越多的财务数据、医疗数据都以电子数据的形式保存在各种存储系统和应用系统中,医院的正常运营也越来越依赖于这些信息系统。因而,数据安全和应用安全获得了更多的关注,一旦应用数据库被破坏、数据丢失或核心系统无法正常访问,都会给医院造成不可估量的损失,都会对医院正常的医疗秩序产生重大的影响。为此,我们提出了多种容灾方案。

1 医院现状

医院管理信息系统(hospital management information system,HMIS)在医院中起着越来越重要的作用,一旦医院的HMIS在医院运营时段无法使用,医院门诊、挂号、收费等全部改为单机操作甚至是手工操作,往往给医院的正常运营带来巨大的影响,不仅是运营收入上的减少,更严重的是给医院的声誉造成巨大的损害。

我院信息系统通过2台浪潮5600服务器安装Microsoft群集服务(Microsoft cluster service,MSCS)直连EMC存储构成共享式双机,即传统的“2个运算节点+1个存储节点”模式[1]。任何一台服务器发生硬件故障或者服务停止,另一台备机能够随时接管其应用。其数据备份保护由管理员编写相应的脚本定时备份医院信息系统(hospital information system,HIS)核心的Oracle数据库,并通过手工将过期的备份集清除或拷贝到其他存储介质。其主要存在如下问题:(1)采用共享存储双机方式,存在磁盘的单点故障[2],当磁盘阵列发生故障时,信息系统的各种应用必然中断,且需要恢复HIS数据;(2)传统的脚本定时备份,由于备份窗口和数据恢复时间的存在,在故障发生时,医院往往会丢失一天甚至更长的数据;(3)数据恢复过程中,需要协调相应的磁盘空间用于数据恢复的目的地;(4)影像归档和通信系统(picture archiving and communication systems,PACS)因数据量大的特殊性需单独考虑容灾备份;(5)对于现有的HIS服务器,数据缺乏自动的无人值守的制度化备份保护措施。

2 需求分析

基于我院信息化发展中长期建设规划,结合我院现有实际情况和未来发展需求,组织专家组经过详细考察和论证,提出建设数据生产中心、灾备中心和云计算中心。采用不同技术实现医院信息系统的容灾备份,对我院的HMIS提供全面的容灾保护,最大限度地消除造成业务中断或导致系统性能下降的各种因素。在保障业务连续性的前提下争取实现RPO(恢复点目标,即数据丢失量)等于0,RTO(恢复时间目标,即业务中断时间)趋于0,整套系统设计无任何单点故障[3]。同时,对服务器操作系统、资料、数据采取集中存储。

3 容灾方案设计原则

(1)软件产品符合国际主流的技术和发展方向,具有很长的技术寿命。

(2)实现应用级和数据级容灾,保证业务不停顿、数据不丢失。同时支持未来应用系统的可扩展性,通过模块化的扩展支持未来可能投入使用的应用系统,减少额外投资。

(3)灾备系统的实施尽量避免影响到业务系统正常运行。

(4)备份性能优越,可将全网重要数据进行全方位保护,实现集中存放,并且保存多份可回溯的数据副本。

(5)保证系统的安全性。对应用服务器操作系统、生产数据、容灾数据、容灾接管、灾难恢复、容灾演习,灾备系统都应该提供高可靠的安全保障体系,保证数据的安全。

(6)保证恢复数据的可靠性。灾备系统不但要能够实现应用系统的高可用,同时还要能兼顾历史数据恢复的可靠性,真正实现业务系统的容灾。

4 主要容灾方式、技术对比分析

4.1 容灾方式对比

容灾方式对比分析见表1。

通过对不同容灾方式的对比分析,我们发现:单做数据备份中心可以节省资金成本,但只能保证生产数据的安全;生产中心采用双机架构却无法解决存储的单点故障,无法保证全院HIS的平稳运行;若容灾中心采取双机双柜的模式,资金成本投入又太大。为了充分保证生产数据的安全及HIS的全面容灾,组织专家结合我院自身实际情况,进行多次专题研究,综合平衡系统可用性、可靠性、安全性、成本等各项指标,决定采用生产中心+应急中心+容灾中心+数据备份中心的容灾备份方案,以适应我院目前及未来的业务发展。

4.2 数据复制技术分析与对比

4.2.1 容灾方式的实现

现在比较流行的容灾方式主要有基于存储的、基于数据库的和第三方复制工具来实现。

(1)基于数据库逻辑复制的容灾方式[4]。该方式分为2种:一种是数据库本身提供的容灾复制功能,例如Oracle的Data Guard、Streams、DB2的高可用性灾难恢复(high availability disaster recovery,HADR)等;另一种是基于数据库日志的第三方复制工具复制方式,该方式无需专用的物理逻辑链路,节省大量硬件环境设备投入,并且具备跨平台复制能力,在硬件平台和系统选择上极为自由。前一种复制方式需要多点部署,将增加方案的复杂度和实施维护成本;后一种方式同样无法避免由于容灾的节点数量、CPU数量的增加导致费用飙升。这种方案我们建议在业务系统较为单一、部署数量较小规模的环境下使用。

(2)基于逻辑卷复制的复制容灾[4]。如Symantec Storage Foundation等功能强、专门的容灾软件,可以应对不同环境下的同平台容灾,链路要求高、成本高,且随着医疗信息化的不断深入,医疗信息系统规模将不断扩大,业务细分程度也会更高,即意味着需要更多的软件授权。在迁移数据到Vx FS(Veritas File System)的时候,客户不得不对原有的业务系统进行格式化的破坏性迁移。

(3)基于存储的复制容灾[5]。基于SAN的存储容灾,在线路上的要求较高,但是存储复制有其特有优点,通过存储高可用复制,可以一次完成所有业务的灾备。它具有实施方便、数据IO保障、可行性高的特点,存储复制较为适合业务相对复杂的业务环境,且后期扩展更灵活。

4.2.2 数据复制技术分析

数据复制技术对比见表2。由数据复制技术的对比分析可知,应用层、数据库层数据复制技术无法满足医院高业务的需求,服务器卷管理层数据复制对服务器的资源占用率又太高,而存储层复制技术优点明显,既可以实现多路径数据镜像,充分保证数据的安全性,同时又不占用服务器的资源,是不错的选择。

5 灾备方案设计与实现

5.1 容灾方案设计

根据以上分析,依据我院对HIS业务接管的建设目标,采用生产中心+应急中心+容灾中心+数据备份相结合的灾备模式,本地生产机房采用2台服务器+2台光纤交换机+2台存储虚拟化网关+2台核心存储的双活架构,解决设备的单点故障问题,实现生产机房的本地容灾。容灾机房使用原有的2台HIS服务器,4台服务器通过局域网(local area network,LAN)、心跳网络和存储区域网络(storage area network,SAN)所提供的共享存储池搭建4节点Oracle RAC(Oracle real application cluster),实现主机端的高可用和负载均衡。通过在本地机房部署2台容灾网关GX2000和灾备机房部署1台虚拟化存储GX4000的存储虚拟化控制器,对HIS做存储同步高可用容灾方案。容灾方案架构如图1所示。

此方案的一大亮点是在SAN网络中引入了存储虚拟化网关,分离计算单元和存储单元。存储虚拟化网关向服务器代理存储访问,向存储传达I/O操作命令。其下挂的存储可以是不同品牌、不同型号,向服务器屏蔽了存储的差异,使SAN网络更加灵活可变,以适应云计算时代的变化。

5.2 备份方案设计

我院HIS、实验室信息系统(laboratory information system,LIS)、PACS、电子病历系统(electronic medical record system,EMRS)、体检、物资设备等业务系统都建有相应的备份功能。为了实现对系统和数据的多重保护,确保重要数据万无一失,同时提高系统和数据应急恢复能力,我们采用备份一体机AnyBackup 5.0对现有业务系统的的生产数据、服务器的操作系统、虚拟化平台的虚拟机系统和数据等重要数据采取统一的、集中的备份。采用增量备份和完全备份相结合的模式,提高防灾、容灾的能力。备份方案架构如图2所示。

数据容灾备份一体柜可以为医院提供统一的备份平台,为医院所有重要信息系统提供数据备份。对于其他未采用高可靠性方案的信息系统来说,更是数据恢复的最后的“救命稻草”。它也能对虚拟化系统进行备份,提高了虚拟化系统的可靠性。数据容灾备份一体柜支持完整备份及增量备份,支持快照及持续数据保护(continuous data protection,CDP)技术,在出现误操作、恶意删除等逻辑错误时,可以回退至最近的快照,进一步提高了数据安全性。

5.3 方案描述

5.3.1 搭建存储容灾体系

首先采用本地生产机房的2台虚拟化容灾网关GX2000和容灾机房的存储虚拟化网关GX4000来实现(如图1所示),异地机房GX4000虚拟化存储部署在容灾机房SAN环境。生产机房存储虚拟化网关GX2000的存储控制器则管理S1600U存储空间,将其加入GX2000和GX4000构成的虚拟存储池。GX2000和GX4000通过内置的存储虚拟化功能,将其所挂载的存储空间(S1600U和GX4000内置存储)转化为虚拟磁盘,通过高容量Cache提高读写缓存速度,并保证各个存储之间的数据一致性。通过Oracle RAC集群功能实现1∶1∶1三存储节点的高可用和负载均衡[6]。3台存储(S1600U和GX4000)任意2台损坏,不会影响存储正常对外HIS提供存储服务。GX4000的存储虚拟化控制器可以对所挂载的逻辑卷作快照,对业务数据进行安全保护。通过快照可作数据恢复或临时挂载快照数据用于数据查询。

5.3.2 构建Oracle RAC集群

新购2台服务器和原有的2台HIS服务器分别部署在本地生产机房和容灾机房,4台服务器通过万兆LAN网络、心跳网络和SAN网络所提供的共享存储池搭建4节点Oracle RAC,其中,任意一个节点失效不会影响客户端的会话或集群自身的可用性,直到最后一个节点失效,数据库才变得不可用[7]。一方面,4台Oracle主机任意3台服务器发生故障,不会影响数据库对外提供业务服务;另一方面,4台主机会根据主机负载程度对数据库进行动态分配,提高主机利用率和数据服务质量,实现主机端的高可用和负载均衡。

5.3.3 构建存储虚拟化

方案采用了存储虚拟化网关镜像技术[8],可以实现跨异构阵列的镜像,且镜像卷与生产卷的数据严格保持一致。其工作流程如图3所示。

采用虚拟化存储网关镜像的本地高可靠方案,主要实现了通过镜像功能可以得到数据的多份备份,实现数据冗余,保持业务连续性。通过镜像功能对读取的数据进行负载分担,提升读操作性能。当其中一个卷故障,另外的卷可提供连续的数据访问。

5.3.4 数据集中备份

采用数据备份一体机提供了对服务器系统、文件、数据库的实时保护、集中存储与故障恢复,整体方案建设成本高,但可对整套系统提供较全面的保护。

5.4 方案的优点

(1)通过存储虚拟化技术构建存储池,形成存储虚拟化容灾。

(2)存储池配置灵活,支持自动精简配置,存储分层等各类高级存储技术。

(3)支持异构存储环境。

(4)支持CDP数据保护和快照[9],客户可以通过快照或CDP数据进行任意时间点业务数据查询,而不影响前段业务。

(5)本次方案采用“2+1”本地异地方式,无单点故障。

(6)实现存储、容灾和备份的完美结合,使三者充分融为一体。

5.5 方案的缺点

(1)方案选择的品牌知名度不高。

(2)依据存储容量授权,后期存储容量扩展需要增购容量模块。

(3)采用直通模式无存储加速功能。

6 容灾备份方案建设成效

在容灾方案建设完成后,组织专家对方案的实际效果进行了现场验证,通过模拟各种灾难过程验证容灾系统能够达到的效果。

(1)应用系统可达到RPO=0和RTO趋于零。

(2)整套系统无论关闭哪一台设备,都不影响系统正常运行,即无论哪一台设备因故障宕机,都不会对整个系统造成影响,完全实现设备的冗余。

(3)采用全中文的Web管理界面,可以使用户在任一办公地点进行轻松管理。

(4)当发生误删除和误操作数据库数据时,可回到任意时间点实现数据回退。

(5)生产中心和容灾中心完全实现了“2+1”的“三活”数据中心,通过虚拟化网关实现3套储存实时存储3套一模一样的数据,保证了数据的正确性、可用性和安全性。

(6)备份一体机充分解决了各种数据的重复现象,同时释放出更多的备份存储空间,提高资源的利用率。

7 结语

随着国家对信息化建设的重视,信息安全已经上升为国家的战略性高度,信息安全离不开灾备系统的建设,灾备系统在受到更多关注的同时也获得了很大的发展。本文以我院灾备系统建设为例,结合实践,通过对不同的灾备技术和方案深入的研究和分析,探索一条符合我院现状的容灾之路,建设切合实际的容灾备份系统,保障业务系统平稳运行,生产数据安全可用。实践证明,生产中心、容灾中心的“三活”架构和集中备份是行之有效的灾备建设方案。

参考文献

[1]李东武.医院信息系统双机热备和数据备份的设计与实现[J].中国医疗设备,2008,23(7):38-40.

[2]李春林,简明,刘建辉,等.医院信息系统安全风险管理对策研究[J].医疗卫生装备,2013,34(3):114-116.

[3]陈文昭,李镜波,陈旭坤.中大型民营医院信息系统的云容灾与备份[J].现代医院,2013,13(8):146-147.

[4]朱朝阳.DSG的ORACLE数据库复制技术在医院HIS信息系统中的应用[J].中国数字医学,2013,8(12):98-100.

[5]王占明,黄志中.医院数据中心与容灾架构设计及实践应用[J].医疗卫生装备,2011,32(10):56-58.

[6]李民,曹阳.Oracle RAC在医院信息系统中的应用[J].中国医疗器械杂志,2011,35(3):231-233.

[7]刘晓辉,姚惠东.RAC技术在医院信息系统中的应用研究[J].中国医疗器械杂志,2010,34(4):302-305.

[8]文莎,罗宇,陈琛.一种基于存储虚拟化的动态容灾系统[J].计算机工程,2013,39(7):63-66.

金融业信息系统灾备建设探究 篇3

每次灾难事件发生都会对灾后恢复提出新的要求。回顾2008年初中国南方雪灾和四川地震, IT专家们强烈要求实现“信息互通、资源共享、协同配合、反应敏捷、组织有力、科学施救”的信息系统灾备管理模式, 将灾难恢复提升到管理层面, 以保障业务连续。证券、银行、保险等金融机构的业务是基于大型信息系统平台运作的, 信息系统灾难的发生将使其遭受致命性伤害。由于此业务特点, 金融机构跻身为灾备建设的“领头羊”。加强灾备中心的建设与运维, 成为金融业持续、健康发展的长远目标之一。

二、证券公司灾难备份中心的建设与运维

目前, 我国证券公司已基本实现交易大集中, 使交易风险主要集中于公司总部。由于交易系统存在内部非预期故障和外部自然故障, 其潜在风险不可避免。为最大限度防范风险, 降低风险带来的损失, 建设灾备中心迫在眉睫。根据信息系统灾备技术原理, 从设计规划、建设、运行维护三方面对灾备中心进行剖析。

(一) 灾备系统的设计规划

实际考察得知:同城灾备中心响应快、重续效率高;异地灾备中心能够在发生大规模灾难时保护企业数据不被灭失。应用实施时, 同城选址要考虑电力、通讯、网络、交通等要素;异地选址还应当考虑自然灾害、服务、人力资源等。如果同城灾备中心能消除主中心大部分风险, 加之异地灾备中心的补充, 将是科学的“两地三中心”方案。同时, 灾难恢复能力应实现实时数据传输及完整设备支持。[1]性能指标主要包括三个:运行性能降低预期<50%, 恢复时间<1h, 恢复点<16min[2]。

(二) 灾备系统的建设

证券业灾备中心建设的主要模式包括自建自管理模式、自购设备外包模式、完全外包模式、共建模式。目前, 国内多数证券公司采用自建自管理模式。对于业务量、数据量多的大型证券公司, 具有自建灾备中心的实力和能力。对于中小型券商, 考虑到初期投入和后期运维成本, 采用部分外包或完全外包的模式建设灾备中心较为合理。也有小部分券商采用自购设备外包模式。无论采取何种模式建设灾备系统, 都是通过备份灾难恢复技术来提高系统的安全性。以中国民族证券公司灾备中心的建设为例, 2006年该公司在深圳证通北京托管机房建设了同城灾备中心, 构建了“两个中心、三级备份”的系统整体风险防控体系, 三级备份指主机系统的双机并行处理热备份、本地二级热备份及灾备中心第三级热备份。

(三) 灾备中心的运行维护

作为企业运营系统的后备保障, 灾备中心的日常运维应做到:定期健康检查、日常运维流程化、规范化管理、应急演练计划可操作、灾备团队效率化。

三、银行灾备中心建设之路

处于数据大集中背景下的银行业, 其灾备中心建设之路与证券业相近。但由于银行业务复杂、种类繁多, 使其灾难恢复任务更加艰巨。目前国有大型银行及多数股份制商业银行都是以自建灾备中心为主, 运用数据远程复制技术, 基本实现“两地三中心”灾备建设。多数银行的同城灾备建设实现了数据零丢失, 然而如何利用异地灾备系统来承担主中心业务运营仍然是银行界专家的研究热点。

灾备建设只是保持银行业务连续性的基础环节, 人员的备份更加重要。一旦灾难发生, 能否及时到达灾备现场, 熟悉操作流程, 启动灾备系统, 接管主中心工作, 人将成为恢复过程的决定因素。营业厅要正常营业以稳定客户情绪, 避免造成进一步慌乱与恐慌。灾备中心启动后, 首先要恢复存取款及消费类相关系统的正常运行;其次是与社会、个人密切相关的, 如中间业务系统等;再次是提供增值服务的系统。此外, 银行至少还要保留一个电子渠道可满足客户的即时需求。从数据备份、系统备份上升到人员备份, 是银行业灾备中心建设工作的重心。

四、为保险企业信息化建设上险

数据大集中是信息化建设的主要趋势之一, 大集中可以提高管理水平、降低运营成本、提高效率、优化资源、提升竞争力等。然而大集中也带来了风险的集中, 数据中心一个小的故障都有可能影响整个企业所有业务的正常运营, 一旦发生大的灾难甚至可能导致企业倒闭。因此, 为信息化建设上险, 灾备中心建设被提上议程。

纯粹的保险业务比银行、证券业务更为复杂, 每笔业务数据量更大, 数据保存时间要求更长, 但业务实时性要求却没有银行、证券高, 恢复时间目标和恢复点目标要求较低, 所以应当根据自身业务需求, 设定合理的灾备目标和部署方案。可以从最简单、经济的数据备份系统建设开始, 逐步过渡到高端灾备中心。逐级建设灾备体系, 能够集中精力、提高效率、逐步培养管理人才、降低整体成本。以中国人寿保险股份有限公司灾备建设为例:中国人寿采用逐级实现的灾备体系建设方针, 在过渡性灾备建设中主要以满足监管和业务要求以及成本节约为指导, 采用集中加分散的方式进行过渡性灾备建设。集中是指在数据中心机房之间实现数据异地备份。分散是指利用数据库技术实现数据中心的数据实时复制回省级分公司。同时, 对建设中的灾备中心提出了更高的建设标准, 将采取同城备份中心加异地灾备中心的灾备模式来实现数据远程复制。[3]

五、结束语

随着金融业的发展, 对灾备技术提出了更高的要求。大型机在金融数据中心的应用日趋普遍, 基于大型机的配套灾备方案应用也越来越多。通过查阅资料、与金融业科技工作者交流, 在此对远程灾备新技术的发展提出几点建议:[4]

(一) 在进行远程复制时, 由于生产数据更新过于频繁而出现无法同步将更新数据复制到灾备中心, 导致生产端备份数据堆积, 可考虑使用单磁盘卷多进程并行复制技术。

(二) 由于生产磁盘压力过大导致异步远程复制进程无法及时读取生产磁盘的更新数据, 造成远程备份中断, 可通过新型的零中断快速镜像技术来改进。

(三) 在进行远程灾备新技术开发时, 应充分考虑数据急剧增长的备份要求, 注重系统的可扩展性和兼容性, 降低日后的更新成本。

(四) 远程灾备管理人才的教育应“授之以渔”, 而不仅仅是“授之以鱼”。在掌握远程备份和恢复技术的同时, 能根据发展需求开发新技术, 健全远程灾备系统。

参考文献

【1】GB/T-20988-2007《信息安全技术-信息系统灾难恢复规范》12-13

【2】中国证券业协会《证券公司集中交易安全管理技术指引》第四十五条

【3】中国保险业监督管理委员会2008《保险业信息系统灾难恢复管理指引》

医院信息系统灾备系统 篇4

2011年12月29日, 国家电网公司组织召开集中式信息系统灾备中心项目专家评审会。经过与会专家认真质询与讨论, 该项目顺利通过专家评审。

评审委员会专家组观看了国家电网公司集中式信息系统灾备中心建设纪实片, 听取了工作、技术、运行及效益等报告, 审查了技术资料, 观摩了相关系统的应用演示, 并进行了细致质询和深入讨论。专家组一致认为, 国家电网公司集中式信息系统灾备中心项目设计科学、体系先进, 实现了多项重要技术突破;工程组织有力、实施规范、文档齐全、应用效果显著。项目创造性地实施了适合特大型集团企业信息系统灾备中心建设, 对我国灾备系统建设具有示范作用和借鉴意义, 总体达到国内领先、国际先进水平。

集中式信息系统灾备中心提升了国家电网公司信息基础设施和重要信息系统的抗毁能力和灾难恢复能力, 保障了公司一体化企业级信息系统安全、可靠、稳定运行。

医院信息系统灾备系统 篇5

2011年3月11日, 日本发生了迄今为止有观测记录以来世界最强的地震, 9级大地震及其引发的高达10米的海啸袭击了日本东北部, 4月7日和4月14日日本本州东海岸附近海域又发生了震级分别为7.4级和6.5级的地震, 这两次地震是3月11日大地震的余震, 造成了广泛性的破坏, 至今已有近2.8万人死亡或失踪。日本虽然遭受了大地震、海啸和核电厂爆炸事件的严重冲击, 但当地大部分的银行、证券交易所和其他金融市场仍然在继续有效运转, 日本的金融信息系统是如何做到如此“坚强”的呢?我国金融业界从中又能得到怎样的启迪?首先让我们从日本如此重视灾难备份系统建设的背景说起。

一方面日本是一个地震频发的国家,全世界有20.8%里氏6级以上的地震都发生在日本,频发的自然灾害,使日本银行的经营环境变得脆弱而复杂。另一方面,信息时代把银行和信息技术日益紧密地结合在一起,信息技术在给银行带来巨大便利的同时,其潜在的威胁也随之而来。现代银行对信息技术的高度依赖,使银行的经营面临更大的风险,比如IT系统运行中断就会导致关键业务的中断,而关键业务的中断往往会造成银行的客户流失、股价下跌、丢掉市场机遇、公众形象和声誉受损等严重后果。反之,当灾害发生时,银行系统如果能以最快的速度恢复关键的金融服务,不仅可以维护社会经济秩序的稳定,树立银行的良好形象,而且还能保护股东、员工、消费者等的利益,履行企业应负的社会责任,对当地经济的尽快恢复起到正面的作用。

有鉴于此,日本金融情报系统中心 (FISC) 于1996年就制定了《金融机构等紧急时应对计划纲要》。2001年美国发生“9·ll”恐怖袭击事件以后,位于纽约世贸中心附近的美林国际投资集团公司由于事前建立了数据备份和远程容灾系统,一周内就在其他地方恢复了业务,这件事给了日本银行业界很大的启发。并以此为契机,日本银行开始关注金融信息系统的灾备建设:2002年3月,日本银行公布了《假定金融机构据点受灾的业务持续计划方案》;2003年7月,日本银行制定了指导性文件——《关于完善金融机关的业务持续体制》。2004年10月23日,日本新渴县中越地区发生里氏6.8级强烈地震,造成重大的生命财产损失。从银行业损失的调查结果来看,制定了完善灾备预案的银行受损失程度要明显低于没有做好灾备的银行,事实让日本的金融业不得不将金融信息系统的灾备建设提上议事日程。2006年3月,日本金融情报系统中心 (FISC) 再次修订了《金融机关等紧急时应对计划指南书》,金融厅也于2006年3月和4月分别制定了《面向主要银行的综合监督指引》和《面向中小地域金融机关的综合监督指引》,对金融系统的灾备建设提出了具体要求。正因为日本金融业对信息系统灾备建设的重要性有足够的重视,在平时就做好周密的灾备部署,当大型地震来临之时,才能够第一时间对公众恢复服务。

金融是国家经济运行的命脉,金融信息安全直接关系国民经济大局的稳定。推进金融信息系统灾难备份建设,保障金融信息系统的持续健康运行,是关系国计民生的大事。虽然我们都不希望灾难发生,但灾难的发生并不以人的意志为转移:2011年3月10日,云南省盈江县发生了5.8级地震;2010年4月14日,青海省玉树县发生了7.1级地震;还有2008年的汶川8级大地震,这些突发灾难都近距离考验着我国经济社会的承受能力。随着金融数据大集中的深入推进和各种天灾人祸的不断发生,金融系统信息安全问题正日益凸显,日本金融业界的经验告诉我们:只有平时未雨绸缪做好金融信息系统灾备建设,构筑好金融系统信息安全的终极防线,灾难来袭时才能够将损失降到最低限度。

二、灾难备份的定义

根据2005年中华人民共和国国务院颁布的《重要信息系统灾难恢复指南》(以下简称《指南》),灾难是指由于人为或自然的原因,造成系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定时间的突发事件。

《指南》把灾难恢复定义为“将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程”,而把灾难备份定义为“为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、技术支持能力和运行管理能力进行备份的过程”。显而易见,灾难恢复比灾难备份的外延要大。因此,对国内惯用的“灾难备份”一词,今后要搞清其所指的确切涵义后再准确应用。例如,现在人们所说的“灾难备份”,如果是指既包括技术,也包括业务、管理的周密系统工程,则应改为“灾难恢复”才更为精确。

真正的灾难备份必须满足三个要素:一是系统中的部件、数据都具有冗余性,即一个系统发生故障,另一个系统能够保持数据传送的顺畅;二是具有长距离性,因为灾害总是在一定范围内发生,因而保持足够长的距离才能保证数据不会被同一个灾害全部破坏;三是灾难备份系统追求全方位的数据复制。上述三要素也被称为“3R” (Redundancy, Remoteness, Replication)。

三、灾难备份系统简介

一个完整的灾难备份系统主要由数据备份系统、备份数据处理系统、备份通信网络系统和完善的灾难恢复计划组成。图1是典型灾难备份系统。

在灾难备份系统建设中,数据备份是关键,如何将数据(包括系统、应用和业务等数据)完整、实时地复制到灾难备份中心,是灾难备份系统建设中首先要考虑的重点。目前,主要有两种数据实时复制技术可供我们选择。

(一)基于磁盘系统的灾难备份技术

基于磁盘系统的远程数据备份技术是以磁盘系统为基础,采用硬件数据复制技术,借助磁盘控制器提供的功能,通过专线实现物理存储器之间的数据交换。它采用磁盘镜像技术在物理磁盘卷这一级上实现两地磁盘机之间的数据复制。这种方式的优点是,它独立于主机和主机操作系统之外,不占用主机的CPU、主机通道和网络资源,对主机透明,也不需要对现有应用系统作任何改动。

(二)基于软件方式的灾难备份技术

软件方式的灾难备份技术是基于操作系统级的灾难备份解决方案。其特点是与操作系统平台相关,而对应用程序是透明的。此方式通过通信网络,实现数据在两个不同地点之间的实时备份。

四、灾难备份的主要技术

数据的存储备份技术是灾难备份的关键技术,其中,存储优化是提高灾难备份系统性能的重要指标之一。目前,常用的存储优化技术有直接连接存储(Direct Attached Storage, DAS)、网络连接存储(Network Attached Storage, NAS)和存储区域存储(Storage Area Network, SAN)。

(一)DAS存储结构

DAS又称SAS (Server Attached Storage, 服务器连接存储),是目前大部分园区网采用的存储方式。如图2所示,在DAS中,数据被存储在各服务器的磁盘族或磁盘阵列等存储设备中。

DAS是最早用于网络的存储系统,它以服务器为中心,具有存取速度快、建立方便等优点,但也有如下的一些的缺点。

1. 单点错误问题

即当网络上某一设备出故障时,整个网络都将无法正常工作。克服单点故障的措施是使多个服务器共享一个存储系统,形成图3的直接连接共享存储系统。

2. 扩展困难

尽管通过添加设备可增大存储容量,但因各种计算机外部设备(如存储设备、打印机、扫描仪等)都挂在通用服务器上,而标准计算机可挂接的存储设备的接口有限,添加设备也需要较高的费用。同时,因添加设备后会出现所有服务器都试图访问存储设备的情况,势必导致网络拥塞,降低其可靠性、安全性和稳定性。

因此,DAS的存储结构适合小型企业,不适合数据吞吐量较大、并发用户数量较多的园区网的资源共享。

(二)NAS存储结构

NAS存储结构如图4所示。

开发NAS的目的是不消耗大量网络带宽而实现存储功能,这种存储结构可完全脱离服务器就能直接上网。图4中数据的存储与处理功能分离,文件服务器只用于存储数据,主服务器只用于处理数据。NAS存储系统有以下优点。

1. 实现简单

2. 消除网络的宽带瓶颈

因数据的存储和处理功能分离,可消除网络的带宽瓶颈,且当网络服务器崩溃时,用户仍能访问NAS设备中的资源;即使NAS发生故障,网络上与主服务器相关的其他操作也不会受到影响,甚至当替换或更新存储设备时也不必关闭整个网络。

3. 采用瘦服务器技术

NAS设备不依赖于通用的操作系统,而是采用了瘦服务器(thin server)技术,它只保留了通用操作系统中用于数据共享的文件和网络连接协议,使CPU、内存和I/O总线完全用于信息资源的存储、管理和共享。

总之,NAS是一种成本较低、易于安装、易于管理、易于扩展、使用性能和可靠性均较高的资源存储和共享解决方案。

(三)SAN存储结构

1. DAS和NAS的不足之处

如上所述,当DAS和NAS在访问存储设备时,必须经过LAN。在LAN中,不仅要由LAN连接多台服务器和大量客户机端的设备,还要连接存储设备,协调客户机/服务器的数据。另外,随着备份数据和数据复制需求的大幅增长,服务器间经由LAN相互频繁地进行访问,数据部分也要经过LAN实现复制和共享,而连接服务器与存储设备的SCSI (Small Computer System Interface)接口由于受距离、连接端口数和带宽的限制,容易因超载而产生瓶颈。

2. SAN的结构

SAN的存储结构如图5所示。

SAN是用于连接服务器和存储装置(大容量磁盘阵列和备份磁带库)的专用网络。这种连接是基于固有的光纤通道FC (Fiber Channel)和SCSI技术,通过SCSI到光纤通道转换器和网关,一个或多个光纤通道交换机在主服务器与存储设备之间提供相互联接,形成一种特殊的高速网络。如果把LAN作为第一网络,则SAN就是第二网络,它置于LAN之下,但又不涉及LAN的具体操作。

3. SAN的特点

(1) SAN使用光纤通道调节技术来优化服务器与存储器之间的数据块传输,通过支持存储器与服务器之间进行大容量数据块传递软件,减少了发送对数据块的分割,也减少了对通信节点的预处理,从而节省了带宽,实现了数据块的高密度传递,也使光纤通道协议可理想地用于存储空间比较紧张的情况。

(2)在SAN中,高性能的光纤交换机和光纤网络的使用,确保了设备连接的可靠性和高效率,提高了容错度。高性能的光纤通道技术大大提高了服务器与存储器的距离,最大距离可长达150 km。

(3)集中化的存储备份,给企业的数据带来了完整性、可靠性和安全性。在SAN中,一方面可利用多条FC链路建立冗余通道,以保证传输链路的可靠性;另一方面,可通过SAN内部的FC网络建立多层次的存储备份体系,以确保系统的高可靠性。

(4)基于网络的存储虚拟化,将存储与主机的联系断开,可动态地从集中存储中分配存储量。虚拟存储的可伸缩性简化了网络服务的使用性和可扩展性,也提高了硬件设备的初期回报。

(5) SAN提供的高效的故障恢复环境,大大提高了应用软件的可用性。

比较图4与图5可看出,DAS的应用程序与存储系统是一体的,通过系统总线可访问存储设备;传统的NAS是应用与存储分离的系统,应用服务器通过LAN访问文件存储系统,通常NAS以标准化协议(如NFS)提供服务。在SAN中,文件系统与存储系统完全分离,存储系统实际上成为运行应用程序的数据服务器,两者以高速光纤通道FC连接。综上所述,SAN和NAS是当今两种主流的网络存储技术,它们克服了传统存储技术的缺点,为企业和银行的存储系统提供了可靠的解决方案,网络存储必将占有未来存储系统的主导地位。

五、灾难备份建设的基本流程

(一)建立灾难备份的专门机构

灾难备份应由董事会或高级管理层决策,指定高层管理人员实施。专门机构的人员通常来自于科技、业务、财务、后勤支持等与灾难备份相关的部门。

专门机构的主要职责是:分析灾难备份需求,制定灾难备份方案;确定工程预算,监督工程实施;明确各部分的职责,协调各部分的关系;定期测试和评估灾难恢复计划;对测试和评估的结果进行审核、存档并做出相应的改进。

(二)分析灾难备份需求

重要信息系统的灾难备份分析应包括对数据处理中心的风险分析、主要业务分析及确定灾难恢复的目标等。

1. 数据处理中心风险分析

(1)分析数据处理中心的风险,如物理安全、人为因素、已有的备份和恢复系统、基础设施脆弱点、数据处理中心位置、关键技术点等。

(2)明确防范风险的技术与管理手段。

(3)确定需要采取灾难恢复的类型,如灾难备份中心的距离、数据备份方式和频率等。

2. 业务分析

(1)分析各项业务停业将造成的损失,须考虑流失客户、损失营业额、企业形象、法律纠纷和社会安定等关键因素。

(2)分析各项业务停顿的最大容忍时间。

(3)分析各项业务的恢复优先级。

(4)分析各项业务的相关性。

(5)分析可接受的交易丢失程度。

3. 确定灾难恢复目标

(1)确定恢复业务品种范围及优先级。

(2)确定灾难备份中心及服务界面的恢复时限。

(3)确定需恢复的服务网点和服务渠道。

(三)制定灾难备份方案

灾难备份方案可分为七个等级(详见表1),它们分别是0级——无异地备份、1级——实现异地备份、2级——热备份站点备份、3级——在线数据恢复、4级——定时数据备份、5级——实时数据备份、6级——零数据丢失。一个完整的灾难备份方案应基于灾难备份需求分析所得出的各业务系统灾难恢复目标,主要包括数据备份方案、备份处理系统、灾难备份中心建设、规程与管理制度。

1. 数据备份方案

根据灾难备份需求分析所确定的业务恢复和交易丢失程序确定对数据备份的要求。根据应用的重要级别、最大停顿时间、数据传输量、最大数据丢失度、数据相关性、应用相关性来确定数据备份的方案。

2. 备份处理系统

灾难备份应根据重要信息系统灾难备份需求配置相应的备份处理系统。

(1)根据数据备份方案确定相应的数据备份所需的主机、存储、网络、系统和软件等。

(2)根据灾难恢复应用对主机系统、磁盘系统、磁带备份、打印及外围设备的需求确定硬件配置;根据服务界面的范围、备份网络拓扑结构、网络传输速率要求、网络切换方式、网络恢复时间要求及本地的网络通信状况确定网络配置。

3. 灾难备份中心建设

灾难备份中心是配备了各种资源备份的计算机处理中心,当灾难发生时,它将接替数据处理中心开始运行。重要信息系统一般可采用自行建设、联合建设和租用商业化灾难备份中心的模式。

4. 规程与管理制度

重要信息系统需要制定灾难备份制定与灾难恢复的各种规程与管理制度,其内容包括数据备份日常管理制度、备份数据保存制度、灾难备份切换流程、灾难备份系统变更管理规程及人力资源规程等。

(四)实施灾难备份方案

实施灾难备份方案的主要目标是按照所制定的灾难备份方案,完成灾难备份工作。实施过程中,要严格按照灾难备份方案的要求和内容进行,要落实相应的规章制度,应用灾难备份方案,建设并运行灾难备份中心。

(五)制定灾难恢复计划

制定灾难恢复计划的目的是规范灾难恢复流程,使重要信息系统在灾难发生后能快速地恢复数据处理系统的运行和业务运作;同时重要信息系统也可根据灾难恢复计划对其数据处理中心的灾难恢复能力进行测试,并将灾难恢复计划作为相关人员的培训资料。

(六)保持灾难恢复计划持续可用

在制定灾难恢复计划后,为保证计划的可用性和完整性,需要制定变更管理流程、定期审核制度和定期演练制度。

1. 工作底稿

要确定重要信息系统中现有数据处理中心的关键参数(例如信息系统配置、恢复时间、恢复范围等),并形成工作底稿。在工作底稿中,要详细列出数据处理中心需进行灾难备份的主机、附属设备和网络设备配置清单,同时要注明数据处理中心服务对象的终端设备、网络及附属设备的硬件配置、系统版本和应用软件清单。

2. 变更流程

重要信息系统应建立变更机制以控制数据处理中心及灾难备份中心的变更,所有的变更对灾难恢复计划的影响应进行评估。上述变更包括:操作系统变化、新增应用软件、硬件配置更改、网络配置或路由更改等。为此,要制定完善的变更管理流程,保证灾难恢复计划的修改与变更同步进行。

3. 维护与评估

为保证灾难恢复计划的完整和有效,各相关部门要对其进行定期审核和更新,审核分内部审核与外部审计两种。

内部审核工作应至少6个月进行一次,审核结果要报主管领导,并对不足之处进行修正。

外部审计机构可接受主管部门委托,对重要信息系统的内部控制状况进行审计,也可接受聘请对重要信息系统的内部控制做出审计评价;外部审计机构发现重要信息系统内部控制的问题和缺陷也应及时报告主管领导并及时进行修正。

4. 测试与演练

测试的目的是为了保证灾难恢复计划的可用性和有效性,其另一个目的是为了让参与灾难恢复的有关人员熟悉灾难恢复计划。

六、对我国金融系统灾难备份建设的建议

灾难备份作为信息系统应急措施的最高形式,是信息系统安全运行的最后保护屏障。当前我国金融体系面临的安全形势正日趋严峻,金融及金融服务外包防灾体系亟待建立和完善。历史上曾发生的金融业信息科技事故表明,如果银行系统中断1小时,将直接影响该行的基本支付业务;中断1天,将对其声誉造成极大伤害;中断2-3天以上不能恢复,将直接危及其他银行乃至整个金融系统的稳定。当灾难来袭之前做好灾难备份建设,才能使企业核心数据的完整性、企业主要业务的连续性以及用户的信息安全得到有效保障。目前国内金融业界信息系统灾备建设与国外相比还存在相当差距。借鉴日本等发达国家的先进经验,我国金融信息系统灾备建设可以从以下几个方面加以改善。

一是应该从国家层面上考虑金融体系灾备建设的标准以及规划、布局等问题,确定总体建设原则,制定灾备建设路径和方法。

二是应站在全局风险控制的角度,加强监管,制定灾备建设管理政策和基本管理制度,按照“统筹规划、资源共享、平战结合”的原则,建立统一指挥、协调有序的管理框架,明确管理部门责任,有计划、有步骤地主动开展金融体系灾备建设工作,逐步建立系统内灾备建设协调机制,做到上下联动、横向互动。

三是各金融机构应制定应对各类突发事件的多级预案体系,制定应急管理组织架构,明确突发事件级别,全面评估金融机构各项资源面临的风险,重点关注核心账务处理数据中心、资源配置ERP数据中心等关键资源,开发详细的灾难备份操作流程,确定相关责任人员。

四是建立关键资源的备份,要在确保灾难备份和恢复功能的前提下,充分利用灾备资源,统筹安排,将日常运营和灾难恢复结合起来,建立完善有效的灾备架构,做到“消灭无灾备保护系统、提升低等级灾备系统、完善高等级灾备系统”的目标,使之发挥更大的作用。

五是紧密结合金融机构实际工作,开展应急灾备演练,通过演练达到检查预案、完善准备、锻炼队伍、磨合机制和培养危机意识的目的,并且验证灾备预案的完整性、易用性、明确性、有效性,提高业务连续运作能力。

六是金融机构应通过长期有效的灾难恢复资源维护计划,提升危机管理和业务连续性意识,建立并保持关注灾备建设的企业文化,不断完善灾备技能培训,逐步将灾备建设相关工作日常化、规范化。

灾备系统的问题 篇6

国内很多企业, 在进行信息化建设时, 缺乏整体规划, 随着业务不断发展, 对应用要求越来越高, 导致数据中心的机器越来越多, 而原来的机房无论是在空间、散热等方面已经不能满足现在业务的需求了。于是, 很多企业都开始寻求解决之道, 有的企业在外面租凭机房空间, 付出昂贵的租金, 有的企业开始重建机房, 投入更多的人力物力, 以满足业务所需。

无论是租凭机房, 还是重建机房, 都需要太多投入, 且面临搬迁带来的种种潜在危险。一些典型缺乏规划的数据中心面临的严峻问题。

因此, 通常情况下, 传统的数据中心建设在缺乏规划的情况下, 将面临性能、空间、功耗、安全、管理、部署方面的诸多挑战。

灾备建设的实际效果难以管理

在进行灾备数据中心的建设时, 需要从大规模灾难的影响度, 业务策略, 成本, 技术可用性, 数据中心的环境, 当地法律法规和审计的要求, 以及和政府、服务商的关系等方面进行全面考量。而在国内, 大部分灾难备份建设并不完善, 实际效果仍然不甚显著, 主要体现在以下几方面。

首先, 国内灾难备份以及业务连续性管理主要考虑IT部门, 资金投入也主要集中在IT部门。在数据中心灾难备份建设过程中, 只备份了少部分核心业务系统, 许多重要的应用系统甚至还没有建立基本的灾难备份措施, 不具备基本恢复能力。

其次, 缺乏系统的灾难恢复计划。灾难恢复包括数据、网络和应用的恢复, 是一项系统工程, 不仅仅要重视技术, 而且需要关注容灾的系统性、规范性及其具体措施。很多企业虽然完成了灾备系统建设, 但是, 没有明确本单位灾备人员和组织的职能, 不能及时对灾难发生时所带来的风险以及潜在的损失进行评估, 没有制定合理的计划来降低这些风险和损失, 也没有制订各项规章制度来保证整个灾难恢复计划的顺利实施, 影响实际防灾、减灾的效果。

灾备建设的成本收益比例失调

目前, 许多企业组织机构一味盲目地追求业务系统的连续性, 购买最先进的设备和采用最先进的技术来创建灾难备份中心, 浪费了很多资金。

首先, 在国内, 无论是灾备数据中心基础设施建设的一次性投入, 还是长期的运行维护成本方面都缺乏长远的考虑。比如, 在运维成本方面, 最为突出的是电力成本等长期运维成本的浪费, 由于数据中心的电力成本常常由行政部门或者后勤部门来承担, 这就造成了国内灾备数据中心管理者对于节省运维成本不够重视, 在认识上, 也不够全面, 不但造成了运维成本的增加, 也造成了能源的不必要浪费。

其次, 灾难备份系统存在投资浪费。虽然, 建设灾难备份中心的目的是为了保证业务的不间断服务, 从而提高服务质量, 创造更多的利润, 但是, 大部分企业也应该考虑自身的效益与发展, 应该针对自身的业务实时性需求, 购买合适的灾难备份设备, 创建适宜规模的备份中心, 在效益与投入之间取得平衡。

灾备系统建设带来资源的浪费

近两年, 国内灾备建设发展迅速, 一次性投资和运维成本明显增多。每一个企业都建设灾备系统甚至建设高等级的两地三中心灾难恢复系统, 势必造成巨大的资金浪费。

灾备系统建设方案及实现 篇7

关键词:灾备,数据集中,业务连续性

引言

一般来说, 灾难的发生是不可避免的, 只是机率有大有小, 而灾难备份是一个持续性的过程, 伴随信息系统正常运行的整个生命周期。

引起灾难的因素很多, 目前对于其定义也是众说纷纭, 没有统一的认识。在这里将灾难定义为部分或全部的计算机软硬件设备、附属设备、文档表格或机房环境损坏以至于严重影响数据处理中心正常运行的事件, 它可能由于自然灾害、突发事件、设备故障及人为因素等造成。灾难备份是指利用技术、管理手段以及相关资源确保既定的关键数据、关键数据处理系统和关键业务在灾难发生后可以恢复的过程。

一个完整的灾难备份系统主要由数据备份系统、备份数据处理系统、备份通信网络系统和完善的灾难恢复计划所组成。在灾难备份系统建设中, 数据备份是关键, 如何将数据 (包含系统、应用和业务等数据) 完整地实时复制到灾难备份中心, 是灾难备份建设中需要重点考虑的事项。目前有两种主要的方式, 一是基于磁盘系统的硬件方式灾难备份技术, 二是软件方式的灾难备份技术。

我们的信息化建设模式采用了数据集中存放、集中处理的全省大集中模式。这种模式在加强账务监管、实现数据共享、创新业务开发和降低运营成本等方面体现出巨大的优势。然而, 数据全省大集中模式对核心业务系统的稳定性也提出了更高的要求:一旦数据中心发生毁灭性灾难, 受到影响的将是全辖范围内的全部分支机构和几乎所有业务, 必将造成巨大的经济损失和声誉损失, 严重的会造成客户流失, 甚至有可能引起社会的不安定。因此, 我们建设灾备的目的就是要确保数据安全和核心业务系统不间断运行, 提高核心业务系统风险防范能力, 降低企业运营风险, 将损失降低到可接受的程度, 提升管理和服务质量, 增强银行的核心竞争力。

1 建设原则和阶段目标

我们的灾备系统应按照“统一规划、分步实施、平战结合”的原则进行建设。

坚持统一规划原则。要统一标准, 明确需求, 建立健全与灾备建设相匹配、符合国际标准和行业规范的技术标准和规章制度。要使灾备建设在投资规模和风险控制两个方面上达到平衡可控, 为业务连续性提供保障。

坚持分步实施原则。要将灾备建设的总体目标, 细化分解为多个阶段性目标和任务, 实行边建设, 边总结, 边发展的方式, 在阶段性建设过程中不断完善IT治理结构, 从组织与制度上保证灾备系统建设的连续性和完整性, 确保总体目标的最终实现。

坚持平战结合原则。要保证灾备中心的系统平时可以得到充分利用, 数据实现共享, 能够利用灾备系统提供的高性能主机资源、存储资源为我们提供更大的处理能力。实现灾难时为灾备中心, 平时为测试中心和培训中心。

整个灾备系统的建设计划分为三个阶段:

第一阶段首先在同城实现核心系统、生产数据的集中异地备份, 全面实现数据级备份;柜面、综合前置、银联、现代支付等核心系统的应用级备份。

第二阶段在同城分步实现全部业务的应用级备份, 实现测试、培训环境的综合使用。

第三阶段在异地建设能实现全面数据级备份;柜面、综合前置、银联、现代支付等核心系统的应用级备份。通过演练、评估灾备系统切换, 完善应急体系和应急管理, 逐步减少数据丢失量和系统恢复时间, 最终达到五到六级的灾备水平。需求分析数据的集中带来了风险的集中, 一旦省中心发生灾难将造成难于挽回的损失, 灾备系统建设是迫在眉睫。同时, 灾备系统建设是一个投资大, 见效慢, 结构复杂的系统工程, 必须经过科学的规划和论证, 做到既要能够快速接管生产又要充分利用设备资源。因此在系统设计上我们必须要同时解决以下三个问题, 即全省核心业务系统的灾难备份问题、全省集中性的测试培训系统建设问题和备份数据异地保存的问题。要通过一个方案解决三个问题, 就必须从设备选型、切换策略制定和网络规划上进行统一考虑, 合理分配资源、充分利用资源和有效管理资源, 真正做到花一样钱, 干三样事儿。

2 设备方案

在灾备设备的选型上, 主要考虑了资源配置的灵活性和设备维护的简化性。设备数量少, 结构简单, 可以减少机房空间的占用, 降低能源消耗, 为异地机房的选址提供了更多的可能。因此, 采用了新购置1台IBM I570主机, 划分6个动态LPAR分区 (其中1个OS400分区, 5个AIX分区) , 主机资源可以在各分区间动态调整;另新购置一台IBM DS5300存储, 连接570主机, 磁盘容量配置为30TB。按照每个分区的数据量分配相应的独立存储空间。由于灾备中心本身就是为小概率事件准备的, 主备中心同时发生故障的概率更小, 因此灾备中心没有必要配置双机系统, 采用单机方式完全能够满足要求。

核心系统的灾备环境使用一个OS400分区, 在DS5300上划分15T的存储空间建立2个ASP分别用于生产和测试, 按照生产环境配置要求, 安装操作系统和数据库, 建立与生产环境相同业务子系统。同时安装OMS数据同步软件, 并加入到生产主备机系统中, 同步内容与生产备机相同。灾备系统的处理能力是现有的生产环境的70%, 可以在灾难发生时承担起全省核心业务存、贷、汇的处理。

柜面业务系统使用3个AIX分区, 每个分区处理能力与现有生产环境相似, 可以承担全省所有终端的接入。各分区上安装与生产环境相同的操作系统和数据库, 参数配置也与生产环境保持一致。当生产柜面前置系统升级时要同步升级灾备系统中的柜面前置系统。

银联、ATM前置和支付系统各采用1个AIX分区, 安装与生产环境相同的操作系统和数据库, 参数配置及调优和程序升级也与生产系统同步进行。在灾难发生时承担银联、ATM前置和现代支付的业务处理。

3 测试培训系统的实现

在核心系统使用的OS400分区上建立测试和培训子系统, 使用单独的ASP存储区域, 按照测试和培训的要求建立库表和基础数据。平时灾备环境中启动OMS子系统和测试培训子系统, 由于各子系统使用的是自己专用库表, 因此测试培训对OMS数据同步不会产生任何影响。所有AIX系统分区中, 生产系统的用户与测试和培训环境的用户分开设置。平时生产系统用户封闭, 密码上收省中心, 测试及培训用户启用。当灾难发生或进行灾备切换演练时, 只需将培训测试子系统停止, 将生产子系统启动, 并按照制定好的切换流程修改相应的地址和参数, 即可实现灾备系统的切换。由于各环境间的资源可以实现动态调配, 因此可以满足不同测试内容和培训规模的要求。

4 数据集中备份的实现

按照数据集中备份的要求, 生产系统在实现本地数据集中备份后, 还需进行备份数据异地存放。在灾备系统中IBM DS5300可以与生产环境的DS8300存储实现存储级的数据异地备份体系。充分利用磁盘阵列复制技术, 配合使用集中备份管理系统, 可以实现生产环境中各种数据自动备份到异地, 在灾难发生时可有效减少数据丢失, 缩短系统恢复时间。具体为将灾备环境下的DS5300中剩余的15TB的存储容量分成两部分, 一部分用于AIX系统的外置存储, 大小约2TB;另外的13TB空间通过存储软件的管理做为数据备份空间使用。

参考文献

[1]周亚清, 王全刚.中小金融机构的灾备方案选择[J].金融电子化, 2008.[1]周亚清, 王全刚.中小金融机构的灾备方案选择[J].金融电子化, 2008.

[2]于锡强.金融交易系统的灾备技术研究[J].硅谷, 2008 (15) .[2]于锡强.金融交易系统的灾备技术研究[J].硅谷, 2008 (15) .

上一篇:变应性支气管肺/诊断下一篇:新型农业协作组织