黄河数据中心海量数据存储方案应用研究

2022-09-11

随着现代治黄理念的确立, 现代技术的发展和在治黄工作中的应用, 对海量数据的存储管理提出了更高的要求。传统的相互独立的数据库存储管理方式已难以满足黄委信息化建设的要求, 只有通过集中的数据存储与管理, 通过数据存储平台的建设, 逐步确立起比较完善的高效的黄河信息存储管理体系;通过建立数据管理、维护平台, 逐步确立起信息的网络交换和高度的共享访问机制。建立黄河数据存储与管理体系是黄河治理开发的各项业务应用的需求, 也是黄委信息化建设继续发展的关键。

1 海量数据存储的设计与实现

通过整体规划、政策调控和规章制度体系保障, 应用现代信息技术, 对基础性、业务性的数据资源进行规范化管理, 建立面向黄委及各机关单位的共享服务体系, 实现数据资源的开放与共用。其核心是基于信息网络、互连互通、资源共享的信息资源基础平台。它通过对黄委各部门的水利信息及其它行业领域的信息最大限度地整合、共享与集成, 为委机关、委属单位及政府提供快速、系统和简洁的各种信息服务, 最终实现黄河的数字化、网络化、可视化和智能化。

黄河数据中心系统业务应用数据的管理主要分为两个层面:其一是基于业务应用, 主要是解决具有不同数据特性数据信息资料 (包括结构化数据信息和非结构化数据信息) 的应用管理, 提供准确、快速的检索手段;另一个层面是针对安全存储, 主要是解决数据的备份与恢复、数据分级存储管理、SAN数据共享等问题, 提供透明的数据访问和安全有效的数据管理。

2 备份与恢复

任何拥有大量数据的业务应用系统, 都必须配备备份与恢复系统以保证数据不会因为逻辑故障而损失, 其包括操作系统的备份与恢复、业务数据的备份与恢复。

备份是对操作系统或者是应用数据做出一个或多个复制版本, 在系统发生问题时可以使用这个复制的版本进行恢复, 使得系统应用中断时间最小、业务数据损失最少。系统中断时间取决于系统架构的搭建, 由于黄河数据采用的双冗余架构和集群技术, 这样就不会因为部分设备损坏而中断, 但其仍然可能因为管理员的误删除操作使系统无法正常运行;业务数据的损失控制取决于备份的粒度, 备份的粒度越密集, 业务数据损失的越小。同时对于应用架构搭建的非常合理的系统采用多点 (位置备份, 几乎可以完全杜绝数据的缺失。

3 数据迁移与数据分级管理

数据迁移是一种可以把大量不经常访问的数据资源存放在磁带库离线介质上, 只在磁盘阵列上保存少量访问频率高的数据资源的技术。当那些磁带介质上数据资源被访问时, 系统自动地把这些数据资源回迁到磁盘阵列中;同样, 磁盘阵列中很久未访问的数据资源被自动迁移到磁带介质上, 从而大大降低投入和管理成本。

黄河数据中心的数据迁移是基于SAN的L A N-F R E E的海量数据迁移模式, 采用LAN-FREE模式迁移数据时, 控制路径与数据路径相分离, 数据迁移指令等控制信息通过LAN发布, 而被迁移的数据则通过基于SAN网络传输调度, 数据迁移效率由此获得提升。

数据的分级存储, 是指数据存放在不同级别的存储设备 (磁盘阵列、磁带库) 中, 通过分级存储管理软件实现数据在存储设备之间的自动迁移。数据分级存储的工作原理是基于数据访问的局部性, 通过将不经常访问的数据自动移到存储层次中较低的层次, 释放出较高成本的存储空间给更频繁访问的数据, 可以获得更好的总体性价比。数据迁移的规则是可以人为控制的, 通常是根据数据的访问频率、保留时间、容量、性能要求等因素确定的最佳存储策略。在分级数据存储结构中, 磁带库作为成本较低的存储资源用来存放访问频率较低的信息, 而磁盘阵列作为成本高、速度快的设备, 用来存储经常访问的重要信息, 从而达到性价比的最大化。

分级存储管理是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储设备作为磁盘设备的下一级设备, 然后将磁盘中常用的数据资源按指定的策略自动迁移到磁带库等二级大容量存储设备上。当需要使用这些数据资源时, 分级存储系统会自动将这些数据从下一级存储设备调回到上一级磁盘上。对于用户来说, 上述数据资源迁移操作完全是透明的, 只是在访问磁盘的速度上略显缓慢, 而在逻辑磁盘的容量上明显感觉大大提高了。

4 SAN共享系统

根据黄河数据中心的需求分析, 仅仅依靠应用网络传送数据是远远不能满足海量数据的应用需求。所以, 黄河数据中心可以建立一套基于SAN的共享系统。

SAN的共享系统包括:存储共享和文件共享。存储共享是指将物理存储设备集中在一起进行管理, 并向每一个服务器提供虚拟的专有逻辑地址空间, 但这些服务器系统必须自己管理分配给它的存储空间。文件共享是指将存储在物理存储设备中的文件集中在一起, 由一个管理器进行统一的数据管理和保护, 但它允许多个服务器访问同一逻辑地址空间的内容。

文件共享要确保一个唯一的、即时的、一致的文件视图, 异构系统间的文件共享能提供数据完整性以及简化系统数据管理中的问题。

SAN存储共享以光纤通道为基础, 实现了存储设备的共享, 突破现有的距离限制和容量限制, 服务器通过存储网络直接同存储设备交换数据, 突破了传统的网络瓶颈的限制, 并且支持服务器和存储系统之间的高速数据传输, 释放了宝贵的LAN资源。

SAN的文件共享是在基于光纤通道的SAN的服务器和存储设备间的接口, 采用的是光纤通道协议, 它按照“块地址+偏移地址”来定位数据位置, 并且通过串行SCSI协议采用Block I/O的方式直接从存储设备中存取数据。因此, 在SAN存储环境下, 可以实现异构系统间共享原始磁盘和磁带驱动器, 即允许不同的服务器访问同一个原始磁盘和磁带驱动器 (一般不为终端用户所见) 。

摘要:通过分析黄河数据中心对海量数据存储的要求, 提出了一套完备可行的数据存储管理方案, 包括数据的备份与恢复、数据迁移与分级数据管理和SAN共享系统。

关键词:黄河数据中心,海量数据存储,数据迁移,分级数据管理,SAN共享系统

上一篇:110kV输电线路架设技术要点分析下一篇:一种新型防垢剂的合成及评价