中南空管智能网络监控处理系统设计探讨

2023-02-08

为了掌握中南空管通信网络及相关设施设备的可用性和业务持续性, 确保整体运行安全, 需要建立可视化的智能网络监控处理系统, 通过直观、集中的形式, 以专业网管系统为基础, 以模块化的方式进行数据采集、处理、应用与展示, 优化网管系统建设投资, 对中南空管通信网络及相关设施设备进行集中监控和统一管理, 及时发现故障并准确定位和解决故障, 变被动维护为主动服务模式, 全面提升中南空管系统运行保障效率和管理水平。

一、概述

(一) 设计思路

根据中南空管智能网络监控处理系统应用需求, 设计时将采用基于Linux系统的硬件级多冗余高可用技术实现, 系统包括网络层、服务器及存储层及业务功能区、链路负载均衡和应用负载均衡等各区域层次。结合国内外民航通信网络信息化管理平台发展特点, 本文所述系统主要从以下方面进行设计:

1. 高可用系统架构

高可用架构设计将在系统结构、设计方案、设备选择、技术服务等方面综合考虑, 保证系统能够安全无故障运行, 并对本系统的重要核心系统实现双机互备运行, 确保故障快速切换, 避免单点故障。系统采用分级监控, 中心为一级监控, 分别部署双机网络监控系统;十二个分局 (站) 为二级监控, 分别部署采集器实现本地数据采集。

2. 可视化管理平台

为了全面掌握中南空管通信网络的可用性和业务的持续性, 确保网络的整体运行安全, 因此建立一套智能的可视化的网络监控系统, 通过直观、集中的形式, 对这通信网络、业务进行集中监控和统一管理, 及时发现故障并准确定位和解决故障。可视化包含监控可视化、机房可视化、业务可视化、事件可视化、可视化定制界面等几个部分组成。有告警的设备应有告警图标闪烁。点击告警图标, 可以查看告警内容。可以直接切换到监控系统查看更详细的告警数据。

3. 统一基础基础设施管理

本次管理平台需要提供全面的基础设施管理, 这些管理内容包括网络设备、网络安全设备、服务器 (含小机) 、数据库、中间件、存储等设备。在管理设备的基础上还包括对IP地址管理、设备配置管理、服务器硬件管理、进程管理、日志管理、报表管理等内容。通过全面的基础设施管理, 能够建设一个具备全面和精细的管理平台。

(二) 设计原则

网络监控系统的建设原则是统一领导、统一规划、统一标准、统一组织实施, 边建设、边发挥效益。系统设计时将综合考虑以下几个方面因素:

1. 标准性和可扩展性原则

该平台基于先进的IT管理理念和管理流程, 具有良好开放性、标准性、先进性和可扩充性, 并且是模块化的组织结构, 可以方便地添加模块来满足新的网络应用需求, 充分考虑到未来技术的发展和需求的变化, 具有灵活的可扩性, 便于对今后新系统的管理, 保护投资, 避免重复建设。

2. 实用性和易用性原则

作为系统管理工具, 提供直观、易用, 并提供丰富的自定义手段的客户界面, 提供丰富的图形界面, 并通过Web方式为管理人员提供访问界面。可以根据用户需要进行成功的客户化定制, 满足实际管理需要, 真正解放管理人员的日常维护工作。

3. 安全性原则

提供较高的安全性, 不会因管理系统的安全问题给原有系统带来隐患。

4. 规范化原则

任何一个完善的管理体系都是七分管理、三分技术;本系统的设计和建设通过基础管理、资产管理、流程管理几大功能模块, 最终目标是在技术的基础上构建一套科学、规范、高效的工作规范、管理体制。

5. 可靠性原则

在系统结构、设计方案、设备选择、技术服务等方面综合考虑, 保证系统能够安全无故障运行, 实现双机互备运行。

二、架构设计

(一) 总体架构

系统高可用架构设计将充分考虑技术成熟性、兼容性、稳定性, 提供可灵活扩展的应用架构。为系统提供高度灵活的、高可靠性、高性能的系统架构, 主用系统出现故障时可以自动切换到备用系统继续无缝使用[3]。

1. 服务器及存储

服务器层主要由业界通用的X86服务器构成, 存储功能分区按功能划分成多个子存储系统, 保证不同数据的安全性与隔离性。存储云中数据同样分为三个区:映像文件存放区、功能服务器模板区和业务数据区。

此外, 存储系统通过管理区设置实现不同用户、不同应用系统数据存储相对独立、安全隔离, 使不同用户、应用系统的数据无法被非授权者读写。

2. 网络层设计

为提供一个性能更高、二层域更大的网络环境, 通过交换机虚拟化技术减少设备节点, 简化配置。使网络拓扑变得简洁, 具备更强的扩展性;同时, 要求毫秒级的故障收敛时间, 为虚拟机迁移提供更加宽松的实现环境。

经过二层透明化改造后, 云计算平台的汇聚接入层是一个透明二层网络。不同业务 (虚拟服务器) 接入不同的二层VLAN, 同一个业务 (虚拟服务器) 可以在不同网络分区里灵活部署与迁移。

3. 负载均衡设计

在网络监控系统中部署负载均衡设备实现针对应用系统的负载均衡。应用负载均衡器保障内部资源的容错性, 内部任何一个应用节点出现问题都不会对用户造成任何的影响, 本地负载均衡器能够自动的屏蔽有问题的应用节点, 让其停止对外服务, 同时把该故障节点上的用户迁移到其他正常的节点上去。

(二) 高可用性设计

1. 网络拓扑架构

对网络监控中心的网管系统的数据库、中间件、应用服务器与WEB服务器, 实现应用与主机的高可用, 应用的可用性, 状态、启停、切换管理等。通过软件实现应用切换、风险评估、实时监控, 在切换演练与平时运营时, 评估应用系统在运行时存在的风险, 确保在日常演练测试或真正发生灾难时, 真正成功实现应用的切换和业务的快速接管。

通过部署高可用性集群软件, 可以实现简化管理过程, 进行所有业务系统统一的集群管理、监控网控中心网管系统的硬件资源可用性, 用以保证灾难恢复的成功率、减少各种运维人工操作带来的停机时间。统一的应用可用性管理平台, 对于业务系统的业务连续性保护需求可以提供诸如不仅仅能够切换数据库、而是整个业务系统、针对网管业务系统内部多应用之间的依赖关系管理、具有应用切换与接管管理功能、实现对数据库、中间件、应用的数据复制、应用切换、应用状态监控和业务接管管理、具有复杂的业务。

2. 访问设计

(1) 民航中南空管网络内所有访问终端日常运维均通过建设在中南的统一网管门户 (采用HA双机冗余部署) 进行访问操作;

(2) 中南一级网管平台部署主、备两台数据网络管理服务器, 以确保二级网管平台数据集中收集及处理。考虑到数据的安全性和冗余性, 还将设计一套存储灾备, 多重保障综合运维数据的完整性。

(三) 数据备份设计

对中南空管通信网运维及信息传递数据的保护比较重要, 因此需要考虑对每天的数据进行适当的备份, 并且具有备份介质多份复本的功能, 这样可以确保一旦系统出现问题, 可以采用多份的数据, 实现异地的数据快速的恢复。

三、功能设计

系统功能主要包括网络监控、主机监控、数据库监控、中间件监控、3D机房监控、存储设备监控、告警管理、报表与分析、系统管理等内容, 具体结构图如下图2所示:

(一) 网络监控

1. 设备性能

网络设备的性能管理指的是优化网络的活动, 包括对网络设备CPU、MEM等负载的监测、制定可接受的网络性能阈值, 与实际的网络设备性能进行比较, 发现偏离和性能异常, 突出进行展现。

2. 线路性能

在网络建设完成之后, 维护网络线路, 保障网络传输线路的稳定与正常, 是日常运维工作中重要的一个环节。可提供便捷的网络线路维护管理功能, 并可对网络线路的负载进行细致分析。实现网络线路流量、丢包率、错包率等指标的实时监测, 及时发现网络堵塞情况, 在问题苗头出现的时候, 及时进行处置, 保障网络不间断的平稳运行, 并可基于事实进行相关的容量规划和有效地分配网络资源。

3. 网络配置

提供了一个对交换机、路由器配置管理的平台, 此功能对IT网络系统的关键设备的运行参数进行监控, 通过TFTP方式进行相关信息的备份, 并且在当所选的设备的相关配置信息发生变动时能够及时进行告警, 帮助管理人员能够及时分析问题, 排除问题等。

4. 网络拓扑

自动根据拓扑生成算法, 快速搜索整个网络内的网络设备, 智能分析网络拓扑结构, 自动勾画出整个网络的真实物理拓扑图, 真实反映整个网络的构成状况。除拓扑生成之外, 还支持拓扑添加功能, 在保留原有拓扑图的基础上, 搜索新的网络设备, 并自动添加到网络拓扑图上。

5. IP地址薄

通过本管理模块能实现对于异常接入设备 (非规划范围内IP、设备) 的检测和快速处理;系统自动发现被管网络上的活动IP地址及其对应的硬件地址, 并定位其接入被管网络的位置 (交换设备及端口) , 能在网络拓扑图定位显示, 便于用户跟踪、掌握网络终端的使用和分布情况, 分析网络事件的影响度, 实现对网络上IP地址的上线、下线以及分布 (定位) 进行分析、追溯和统计。

(二) 主机监控

1. 主机性能

支持Agent和无Agent两种方式来实现对主机的监控管理, Agent和无Agent方式可同时混合使用;支持对Windows、Unix、Linux等各种主流操作系统的监控;支持不同的主机节点可设置不同的轮询时间;可对指定进程资源占用情况进行采集。

2. 主机硬件

主机系统支持对于厂商的硬件状态监控, 支持对于温度、风扇、磁盘、CPU、内存、电源等重要主机硬件的状态监控;智能翻译硬件各个状态, 将复杂的各个硬件运行状态, 转化成信息化管理监控的异常正常状态;便于用户快捷的设置硬件异常监控告警。

3. 主机日志

对于主机管理提供详细的日志监控方式, 包含系统日志syslog (windows/linux) 、eventlog (windows) 日志信息的获取, 通过对任意文本日志的监控, 以客户端方式实时监控文本日志的内容变化, 监控文本日志关键信息的上传。

(三) 数据库监控

数据库专项管理支持对所有数据库的统一分析和处理;支持Oracle (含Oracle RAC) 、SQLSever、DB2、MYSql、sybase、infomix、达梦等各版本的数据库监控;数据库管理操作系统管理为基础, 实现主机和数据库协同管理。数据库增加方式支持手工增加和批量导入模式;支持用户以模板为基础修改的资产清单的导入。支持对于管理信息的统计, 包含授权点使用情况, 各个数据库状态分布、各类型数据库熟练统计、数据库等级统计。支持对于各个数据库实时运行状态的实时统计, 包含数据库会话数、死锁数实时排行。

(四) 中间件监控

中间件管理对通用定义中间件的管理, 包含了应用服务器、消息中间件的管理, 支持MQ、webologic、websphere、Tongweb、IIS、Domino、Easerver、Jboss、Apache、tomcat、Tuxedo的非集群管理;实现用户对于中间件的基本状态和承载业务的基本状态监管。

支持对于管理信息的统计, 包含授权点使用情况, 各个数据库状态分布、各类型数据库熟练统计、数据库等级统计。

(五) 3D机房监控

集成显示各项机房管理对象, 实时显示各项关键参数, 使机房管理摆脱以往的纯数据的管理模式, 实现所见即所得的透明化管理。机房支持温湿度、UPS、精密空调、漏水、烟感、摄像头、门禁、机柜等多种机房关键管理设备。

1. 机柜可视化

机柜视图展现了各类实际设备在物理机柜中的真实位置, 以及设备运行状况。

设备类型包括:刀片服务器、机架式服务器、交换机、路由器、理线架、配线架、存储设备、光纤交换机及其他设备。

2. 动力环境系统可视化

支持对机房内的各类动环设备的指标进行全方位监控, 并以可视化方式呈现。可以实时更新各类指标数据信息, 也可查看历史记录信息。提供多种UPS型号的支持, 支持图形化一体展现实时UPS参数, 并且通过对多参数的历史分析, 完成对UPS的全方位管理。

(六) 存储设备监控

系统支持磁盘阵列、光纤交换机的管理, 支持SAN/NAS等各种部署方式;硬件状态管理作为基础管理部分, 以统一的视图展现被管的各个硬件子项的运行详情;涉及到磁盘阵列的电源、电池、风扇、温度、磁盘、控制器等各个关键硬件信息;支持硬件状态的实时监控。

(七) 告警管理

对管理对象按照预置的风险阈值进行检测, 并实时通知到管理员处, 是运维系统必备功能。

(八) 报表与分析

系统提供强大的报表数据处理能力, 可根据用户要求定制不同的个性化报表;同时提供灵活的数据分析工具, 实现对于历史数据的灵活分析能力;运维管理员可以在分析重大异常问题和阶段性分析时进行数据分析。系统提供多张预置报表, 包括管理上离不开的运行率和告警统计报表、性能统计报表。

(九) 系统管理

系统管理用于管理和维护系统用户信息。系统允许您添加新用户、建立用户组、对不同的用户赋予不同的权限等, 提供用户组专用视操作, 并支持设备级别的权限管理。

四、结束语

本文根据中南空管通信网络的管理需求设计出了一套比较适用的智能网络监控处理系统, 在一定程度上提高了通信网络的管理效率, 但若能够进一步与设备集中监控系统等结合起来, 可能更进一步提高工作效率, 对中南空管的发展更有促进作用。

摘要:本文通过对中南空管网络监控实际应用需求的具体分析, 利用计算机信息及通信网络相关处理技术从系统架构和功能等方面设计出了一套比较完整、适用的中南空管智能网络监控处理系统, 对中南空管通信网络的建设以及中南空管业务的发展都有一定的促进作用。

关键词:中南空管,智能网络,架构设计,功能设计

参考文献

[1] 高可用架构社区, 高可用架构 (第1卷) [M].北京:电子工业出版社, 2017:66-67.

[2] 郑天民.系统架构设计[M].北京:人民邮电出版社, 2017:25-26+121-122.

[3] 宫田宽士 (日) , 曾薇薇译.图解服务器端网络架构[M].北京:人民邮电出版社, 2015:16-17+39-41.

[4] Joachim Goll著, 贾山等译.软件架构与模式[M].北京:清华大学出版社, 2017:33-35.

上一篇:保定市绿色金融的发展促进产业结构优化下一篇:燃煤电厂二氧化硫排放现状及其治理方案