元数据管理

2024-05-01

元数据管理(精选十篇)

元数据管理 篇1

数据元是通过标识、定义、表示以及允许值等一系列属性描述的数据单元,在特定的语义环境中被认为是不可再分的最小数据单元[1]。通过对数据元及其属性的规范化和标准化,不同用户可以对数据拥有一致的理解、表达和标识,可以有效实现 和增进跨 系统和跨 环境的数 据共享[4]。

通过软件系统建立一套符合数据元标准化管理的工作程序,有利于数据元注册管理标准化。同时,也便于系统开发人员及第三方用户获取所需数据元,促进数据元字典推广应用。

1系统需求

1.1数据元注册管理机构

数据元注册和和管理工作由专门的机构负责,不同的数据元标准规范对数据元注册管理机构的划分和要求不同,通常数据元注册管理涉及3类机构,即数据元提交机构、数据元注册机构和数据元管理机构[2](见图1)。数据元提交机构[3]的主要职责是收集、发现、提取数据元,对数据元进行基本审查并提交。数据元注册机构的主要职责是汇总、审查数据元申请,并上报数据元主管机构,对批准的数据元信息进行补充,对数据元进行变更、注销,对数据元注册管理系统进行维护等。数据元主管机构负责数据元相关业务管理、对注册机构和注册用户进行授权管理、 组织数据元审查、批准数据元注册和变更等。

根据上述3种机构的职责及数据元使用需求,可以将系统使用人员分为5类(见图2)。其中,数据元普通用户主要为数据元查询需求人员,如应用系统数据模型构建人员等;数据元著录人员主要负责数据元的定义、属性编辑与提交等;数据元标准化管理人员主要负责分析提取数据元著录人员提交的数据元的管理项,根据数据元标准化专家委员会的决定进行数据字典维护、对数据元进行审核与发布等;数据元标准化专家委员会主要负责数据元属性采用与自定义、对数据元管理项进行审核、对数据元审核与发布进行决策等;系统管理员主要负责数据安全管理和系统维护,进行数据管理与备份。

1.2系统功能需求

为满足数据元标准化管理业务要求,系统应具备以下功能:1用户管理。能方便地 对组织机 构和用户 进行注册、编辑和注销;按角色对用户进行权限管理;2数据元编辑。用户能根据需要 进行数据 元创建,对数据元 进行编辑、删除、提交等操作;3数据元审核。具有相应权限的用户对提交的数据元进行审核,记录审核意见;4数据元发布。对通过审核的数据元进行发布审查,记录审查意见, 并更新数据元状态;5数据元查询。按数据元状态进行综合查询;6数据元属性管理。能自定义数据属性的添加、 修改和删除;7数据字典维护。支持对各类字典表(如单位、数据元表示词等)的维护;8日志管理。自动记录用户登录时间、操作内容等。

1.3人机界面

软件界面是软件与用户之间的交互,决定用户对软件的第一印象[5]。良好的人机界面是系统和操作人员达成信息交互的重要保证,也是满足用户功能的重要体现。系统人机界面设计主要考虑以下几个方面的要求:

(1)风格一致性。一致性的风格可以让操作人员不容易分散注意力,避免误操作。系统操作界面的布局、外观、 色彩、字体等应尽可能保持一致。

(2)操作便捷性。便捷性的操作,可以使用户通过系统快速完成相应的业务操作,系统功能按钮应一目了然。

(3)交互友好性。友好的人机界面不仅要求风格的一致性和操作的便捷性,还包括交互的友好性。需要通过人机对话、数据输入、屏幕显示、界面控制等实现。

2系统总体设计

2.1系统逻辑结构设计

系统逻辑结构由4个层次和 两个体系 构成,即支撑层、数据层、功能层、应用层和安全保障体系、数据元标准体系,如图3所示。其中,支撑层由服务器、终端、操作系统和网络等组成,主要为系统运行提供软硬件支撑。数据层由组织机构数据库、数据元标准库、数据元字典库和操作日志库等组成。功能层由用户管理、数据元编辑、数据元标准化管理、查询浏览和数据管理等组成。应用层是用户完成业务工作的入口,主要由数据元提取、数据元审核、 数据元发布、查询输出等组成。安全保障体系和数据元标准体系贯穿各层,安全保障体系是数据安全和访问安全的重要保障,数据元标准体系是系统实现的依据,也是用户的业务操作指南。

2.2系统功能设计

根据用户需求分析,系统功能主要由数据元著录、数据元管理、数据元查询、系统管理等功能模块组成,如图4所示。数据元著录功能模块主要实现已有数据元信息反馈,新数据元定义、描述以及著录人员信息维护等功能;数据元管理模块针对数据元标准化管理人员和专家的职责, 提供数据元属性管理、数据元审核发布、系统字典维护、数据元目录维护等功能;数据元查询模块实现各类人员按数据元的内容、状态进行综合查询,并输出查询结果;系统管理模块针对系统管理人员,实现系统数据备份与恢复、系统日志和查看等功能。

2.3系统功能流程设计

针对数据元注册管理与标准化操作需求,并根据系统的各功能模块的设计,满足5类角色使用需求,系统整体功能流程如图5所示。

3结语

地理信息元数据的管理探讨 篇2

地理信息元数据的管理探讨

对数据仓库、元数据等进行了简单介绍,并针对地理信息系统中元数据的作用、内容进行了阐述,在此基础上,对地理信息系统中元数据的`管理方法提出了建议,供同行参考.

作 者:马晓东 Ma Xiaodong 作者单位:青海省地理信息中心,青海西宁,810000刊 名:测绘技术装备英文刊名:GEOMATICS TECHNOLOGY AND EQUIPMENT年,卷(期):11(2)分类号:P2关键词:数据仓库 元数据 元数据库 地理信息

元数据管理 篇3

关键词: 元数据 数据服务 按需共享 XML Schema

中图分类号: TP39 文献标识码: A文章编号: 1007-3973 (2010) 04-051-02

1 引言

随着计算机软件技术和网络技术的快速发展,以及计算机应用需求的不断增强,现代企业的日常业务通常都是由众多以网络为中心的应用系统完成,每个应用系统都有具体的任务职责。通过使用这些应用系统,达到了降低管理成本,规范业务流程和提高服务质量的目的。随着信息化建设的深入,可利用信息源数目的不断增大,人们对于存取、关联、组合多信息源信息的愿望越来越强烈。因此,数据的开放式共享是网络时代的必然需求。

数据共享自被提出以来就引起了国内外众多科研人员的关注,已成为当前重要的研究方向。实现数据共享的核心就是解决数据源的数据量大;异构性强;数据格式多样;动态变化和分布;自治程度高等问题。以网络中心的信息共享的目标是确保所有的数据都是可见的、可理解的、可获取的和可利用的。

元数据通常被定义为“数据的数据”,其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估、选择等功能。目前元数据已经从简单的描述或索引发展成为用于管理数据、发现数据、使用数据的一种重要工具。因此,元数据是数据共享的重要基础。

数据服务可认为是提供给用户访问一些结构化和半结构化数据的功能组件。数据资源拥有者把数据的各种操作以服务的方式封装,发布在互联网上,供其他用户使用。其他用户不必关心共享数据存储在什么地方和存储的方式,数据对用户而言完全是透明的。

本文探讨元数据技术和服务技术在数据共享中的应用。

2数据共享总体框架

图1为基于元数据的数据共享的基本原理图。如图所示,系统可以划分为三层结构:应用层、数据服务层和数据层。应用层与数据服务层之间采用SOAP协议进行通信。其中,数据服务层是整个数据共享系统框架的核心层,它是应用层与数据层之间关于数据的抽象,以服务的方式抽象出关于底层数据源的各种操作,对外提供共享能力。从用户的角度来看,他只关心服务提供的能力,而不关心服务的具体实现,减少了程序人员学习不同数据库所消耗的精力。

图1 系统层次结构

2.1数据封装器

数据封装器位于数据源之上,它是整个共享模型中最重要的部分,将分散在各处需要共享的数据源按照我们统一的数据模型进行封装。XML Schema文件为XML文件数据类型建模提供严格而完整的标准。我们可以利用这一特性使用XML Schema文件来建模数据库表的结构和内容,以及约束条件。数据封装器使用XML Schema文件对用户所要共享的数据库信息进行建模,使用XML文件来描述数据库的基本信息(数据库类型,用户名,密码等等)和数据库表之间的逻辑关系,把所共享数据的元数据信息提交到元数据中心,完成封装和共享功能。

2.2 中介(mediation)服务

不同的数据源之间存在异构性,特别是语义上的异构性,例如不同字段上的同一名称可能代表着不同的含义,这种异构性给数据共享带来了麻烦。中介服务提供一种格式转换功能,利用存储在元数据中心的各领域的元数据标准,把异构的数据映射到一个同构的虚拟视图上。

2.3 服务封装

服务封装的功能是对共享数据的各种操作以服务的方式进行封装,对外提供数据共享能力。

2.4 元数据中心

元数据中心在数据共享系统中的作用是提供一个元数据信息的共享空间,存储着各种元数据信息,对外提供元数据注册、查询和管理功能。元数据信息包括共享数据资源的元数据,发现类元数据,不同领域的元数据标准等等。用户通过提交共享数据的元数据信息到元数据中心实现资源共享,以及参考领域内的元数据标准开发应用系统,统一数据视图,实现系统间数据的互通和互理解。

2.5 数据服务中心

数据服务中心管理着用户发布出来的数据服务,提供注册、管理和查询数据服务的功能。决定数据共享能力的关键点并不是采用何种技术对数据进行封装和共享,而是在大量的资源中满足用户快速和准确的找到资源的需求。数据服务中心采用定制的发现类元数据对数据服务资源进行描述,提升资源的发现能力。

3 关键技术研究

3.1 数据封装器

目前,数据封装器主要封装一些结构化数据,例如数据库信息。本文提出的数据共享系统对数据源的共享粒度细化到数据表级,而不是数据源级。因此,易于形成高内聚低耦合的状态,实现新加载数据源的按需共享和快速共享。用户根据需要对部分数据库表进行封装和共享,而不是为了共享某些数据而把整个数据库共享出去,实现了按需共享的目标。

数据封装器使用XML Schema文件来描述数据库表的结构和内容。下面举例说明如何使用XML Schema文件对数据库进行建模。例如,一个数据库表包含字段title, author, price, resume, recommendation,类型都为string型。用于封装该库表的XML Schema文件为:

其中可以在每一个element属性下面添加用于解释该字段含义的注释。例如:

书籍的标题名称

3.2 元数据抽取器

元数据信息抽取器属于元数据中心的功能模块,其功能是解析用户提交的共享数据的元数据文件(包括XMLSchema文件和XML文件),并提取文件内的元数据信息,存储到元数据中心。提取的元数据信息的最小粒度为数据库表的字段名和该字段的注释,也就是Schema文件内element属性下的内容。用户在元数据中心不但可以搜索到需要的共享数据,甚至能够了解到共享数据库表内字段的约束和具体含义。

3.3 发现类元数据

发现类元数据标准是一组与每个数据资源相关的通用描述性元数据要素,以支持利用搜索工具发现数据资源。如图2所示,发现类元数据采用分层方法设计,由一个“核心层”和一个“扩展层”组成。 核心层包括4个要素类别组,分别为安全目录集、资源目录集、摘要内容目录集和格式目录集合,每组都有一个描述数据资源的特殊功能重点。扩展层则是根据领域特性增加的一些元数据要素。

用户在发现类元数据目录中输入所感兴趣的核心要素,利用发现类元数据发现资源的能力在共享空间中搜索共享资源,准确地找到所需要的相关数据资源。

图2 发现类元数据逻辑模型

4 总结

本文提出了一种结合元数据技术和服务技术的数据共享方案,并给出了系统设计框架,特别是给出了数据包装器的设计说明。该数据共享设计框架具有以下特点:

(1)按需共享。数据存储在本地,按照需求有选择性的共享数据,提高了数据的安全性。

(2)透明访问。不必关心数据存放的位置和存储的方式,只需要调用数据服务就可以使用共享数据,对用户而言数据是透明的。

(3)松耦合。数据的请求者和提供者之间只有接口上的往来,移除请求者和提供者之间的依赖性。数据源的替换或者更新都与数据请求者无关。

参考文献:

[1] 李军怀, 周明全, 等. XML在异构数据集成中的应用研究[J]. 计算机应用, 2002, (9).

[2] 李学荣, 李莎. 基于元数据的异构数据源集成系统设计与实现[J]. 计算机应用,2005, (25).

[3] 丁兆青, 董传良. 基于 SOA 的分布式应用集成研究[J]. 计算机工程,2007, 33(10).

[4] 毛新生.SOA原理??方法??实践[M]. 北京:电子工业出版社,2007.

基于元数据的作战实验数据共享 篇4

关键词:元数据,数据库,数据共享

0 引言

实验数据是科学实践活动的重要产品,也是后续科学研究工作的重要依据和素材。再强大的科研团队、学术带头人,其占有的时间资源、物质资源毕竟是有限的。因此,对现有各方数据的充分利用是推动科研工作又好又快发展的一条捷径,数据共享则是通向这条捷径的必由之路,作战实验数据共享也为作战相关问题研究工作的向上发展提供了新的有力支撑。

1 作战实验数据共享的意义

随着计算机仿真技术、网络通信技术等高新技术的迅猛发展,作战实验作为公认的认识战争的重要方法,是研究军事问题的重要科学实践活动,在作战方案评估、作战结果预测及作战方法研究等军事活动中发挥的作用日益突出。尤其是近年来,作战实验受到的重视程度越来越高,很多单位和部门都建立了不同类型、不同规模、不同作用的作战实验系统,各种作战实验系统的建设的成果也越来越多,应用的范围也越来越广,但同时也存在以下不足。一方面,多数作战实验系统彼此独立,在研究相对单一条件下的军事问题方面有独到之处,但由于系统间不能实现互联、互通和互操作,数据不能共享,在面对一体化联合作战等复杂条件下的军事问题的研究时则受到很大限制,作战实验系统的规模效应、集群效应和综合效应没能显现。另一方面,在多年来作战实验的过程中生成了类型众多、数量庞大的科学实验数据,同时积累了丰富的军事经验和研究技能,这些数据的作用和深加工潜力甚至超过了作战实验系统本身,但是目前尚没有做到对这些宝贵的数据进行有效的资源整合和共享,数据的重复利用率很低,不利于信息价值的充分发掘,造成了资源的浪费。因此,数据共享已成为制约作战实验系统发展的瓶颈。

2 数据共享的方式

科学数据资源对国民经济、社会、环境发展的重要价值赢得了广泛的认同和重视。地质、海洋、气象、测绘、环境、农业等许多领域和部门已建立了多个科学数据共享平台,并制定了相应的规范和技术标准,尤其是由我国科技部主导的“科学数据共享工程”于2003年启动以来,更是将我国的数据共享工作提升到了新的高度。归纳起来,目前较普遍采用的数据共享方式主要有以下三种。

2.1 集中共享的数据共享方式

集中共享是数据共享研究中最早采用的一种共享模式,其核心是把所有参与共享的数据库统一复制或移植到共享平台上,由共享平台集中管理并向用户提供统一的数据使用服务接口,从而实现数据共享。集中共享的架构比较简单,但是在这种共享模式下,一旦数据源发生了变化就需要把新数据重新移植到共享平台,对平台维护的要求较高,否则会出现用户从共享平台访问到的数据版本滞后于数据源版本的情况。因此,该方式比较适用于各数据源更新不太频繁或数据量不太大的数据共享环境。

2.2 分布共享的数据共享方式

分布共享不再需要将数据源集中,而是依托于以共享平台服务器为核心的计算机网络,共享源数据库可以位于网络上的任何节点,共享平台提供统数据源及访问用户间的数据服务接口,但不参与数据源的管理和维护。相对于集中共享,分布共享方式可以保证所有用户访问到的共享数据都是最新有效版本。位于不同节点数据源的数据库结构和数据格式的差异性很大,共享数据的准确定位与提取依赖的核心技术主要是是搜索引擎技术及数据库中间件技术。类似于ODBC和JDBC的数据库中间件技术现在已经比较成熟,可以实现共享异构数据库资源的目的。

2.3 基于元数据的数据共享方式

元数据已经有比较悠久的历史,许多国家或领域给元数据下过各式各样的定义,但核心意思基本一致。前文提到的我国科学数据共享工程将元数据定义为数据的数据。元数据可以用既定的相同格式来对各种不同类型和结构的数据或信息资源进行描述和诠释,同时给数据源打上了统一、规范的包装。我们也可以理解为是对于数据的注解或全面指南,通过元数据可以反映出描述对象的内部特性和外部特征。元数据对内容和结构都比较简单的数据可能意义不是很大,但对内容信息量大、结构复杂的数据或数据集则非常有意义。基于元数据的数据共享方式首先要根据共享的需求和数据源的特点来制定元数据的内容和格式标准,然后按照标准由数据源生成对应的元数据信息,由共享平台对这些元数据统一管理,当用户向平台提出数据共享服务申请时,平台首先对元数据集进行检索,然后通过检索到的元数据信息索引或链接到对应的数据源进行相应的数据服务操作,从而实现数据共享。采用元数据的方式使共享平台直接管理的数据量级大幅降低、共享资源的结构更加明晰,提高了数据资源管理的效率,也提高了数据检索和定位的速度,更重要的是能更有助于用户更便捷、准确地得到感兴趣的数据。基于元数据的数据共享方式也可以根据需要与前述的两种方式结合应用。

3 基于元数据的作战实验数据共享

作战实验数据共享的目的,一是多个作战实验系统同时工作进行联合作战实验时实现互联、互通和互操作;二是实验结果分析和军事理论中能方便、准确地对各实验系统历史数据进行查询。达成数据共享目的的核心是实现对分布在各个独立作战实验系统中的异构数据快速索引和正确定位。基于元数据的共享方式是解决这个问题的有效途径。

3.1 作战实验数据共享体系结构

基于元数据的作战实验共享平台共分为三个层次结构,分别是:数据层、服务层和应用层。各层次所包含的要素及作用如图1所示。用户通过应用层提出数据操作申请后,共享平台首先在服务层元数据库中检索相应的元数据信息,然后根据元数据属性信息中指示从数据层提取对应的数据源数据。

3.2 数据层

数据层主要由参与数据共享的各作战实验系统的数据源构成,这些数据库中所包含的数据正是我们共享的对象。由于开发过程中各作战实验系统彼此独立,所以这些数据库的类型多样,有Oracle数据库,有SQL Server数据库,有Access数据库,有DB2数据库,还有XML数据库等等,而且空间上处于分布的状态;数据库结构和数据格式更是千差万别;作战实验的特点决定了各系统的数据之间可能存在部分的交叉重叠。数据源的这些特点也正是数据共享所破解的难点。

3.3 服务层

服务层的服务内容主要有两项,即元数据服务和数据源服务。作战实验所涉及到数据的类型很多,若仅使用一种元数据对所有数据源进行描述,则元数据的属性项目数量会非常庞大,而这些属性值又大部分为空值,这样就会导致生成的元数据甚至比数据源本身还复杂。所以,应按照数据源的作用和属性特点对其分类,属性相近的划为一类,由一种元数据对该类进行描述,并为每种类型制定元数据标准。元数据服务的流程为数据源首先经过分类器进行分类,然后由各类元数据标准模型对其标准化,生成与之对应的元数据,同类元数据可以组成一个元数据集,各元数据集构成元数据库,完成数据源到元数据之间的映射。数据源服务主要是指与数据源访问相关的服务。数据共享不是简单的远程读写数据,它的意义在于提高数据的利用价值,使用户从共享到的数据中获取到准确、正确、尽可能多的信息。因此,数据源服务包含数据元素提取、异构数据分析、数据语义转换及数据质量评估等多个服务过程。比如,当用户向共享平台提交了某一关键词的数据查询请求,平台首先在元数据库中检索与关键词相关的元数据,数据元素提取服务将按照检索到的元数据信息中指示的数据源位置,在各作战实验系统数据库中把相关数据逐条定位,做好提取准备,然后根据元数据中指明的数据访问协议、参数对数据元素进行提取;因为提取出来的多条数据可能原本隶属于若干类型和结构不同的数据库,所以要通过异构数据分析服务判别数据异构的形式和程度,是系统异构还是数据库异构或者是语法异构;进而通过数据语义转换服务将数据规格化,转换为一致的语义形式;为挖掘数据的信息值提高其利用价值,数据质量评估服务利用评估模型将对检索到的数据进行质量评价供用户参考,评估内容包括数据完整性、数据精度、数据来源、数据生产时间以及对应元数据中体现的其他重要属性和外部特征;最后,把数据、数据质量评估结果、数据外部关联信息呈献给用户。

3.4 应用层

应用层的主要由与数据操作、数据管理及元数据管理功能相关的程序模块构成,例如数据浏览、数据查询、数据订制、数据下载、数据维护、数据分发及元数据管理等。用户通过应用层接口同共享平台交互,使用共享数据。管理人员也通过应用层对数据源和元数据库进行管理和维护。

4 结论

建立以元数据为基础的作战实验数据共享平台是一条解决当前军事问题研究中所面临的数据共享问题的有效途径,本文在此方面仅展开了初步的研究,无论是研究的范围、深度和广度都还不够。下一步将围绕共享平台的体系结构,开展可靠性、安全性、容错性等方面的研究。

参考文献

[1]牛晓琳,季民,赵志.刚基于元数据管理的数据共享研究[J].舰船电子工程,2006,(1).

[2]严冬梅,尚翔.论科技创新的基石:科学数据共享[J].科学管理研究,2005,23(1).

地理信息系统元数据生产研究 篇5

地理信息系统元数据生产研究

本文基于笔者多年从事GIS数据制作的工作经验,以元数据生产为研究对象,深度探讨了元数据的概念、作用、存储方式,内容和标准,是对元数据生产的`一个较为全面的诠释,文中的一些方法也是笔者工作实践的总结,相信本文的研究对从事相关工作的同行有着重要的参考价值和借鉴意义.

作 者:苏聪 作者单位:广州市城市规划勘测设计研究院,广东广州,510060刊 名:科技资讯英文刊名:SCIENCE & TECHNOLOGY INFORMATION年,卷(期):“”(15)分类号:P2关键词:地理信息系统 元数据 标准 方法

元数据管理 篇6

【摘要】随着科学技术水平的提升,信息化的程度逐渐加深,图书馆在信息资源管理方面仍存在问题,为了实现对其资源的有效管理及信息化管理,因此,提出了元数据仓储的信息资源管理系统。本文将分析元数据的概况,介绍图书馆信息资源的特点,同时阐述基于元数据仓储的图书馆信息资源管理系统的具体组成及其工作流程,旨在提高图书馆信息资源管理的水平。

【关键词】元数据;图书馆信息资源;管理系统

引言:目前,图书馆在其管理工作方面不断探索与研究,为了有效的对图书馆信息资源进行管理,基于元数据仓储的图书馆信息资源管理系统随之产生,并得到了广泛的关注,并对其有了深入的研究,使图书馆信息资源管理愈加开放、集成,同时解决了图书馆信息资源的存储与管理问题,文中将对基于元数据仓储的图书馆信息资源管理系统展开分析。

1、元数据的概况

1.1元数据的涵义 元数据对其最为简单的理解是关于数据的数据。通过对元数据的深入研究,其具体涵义有多种解释,如:从数据结构化来说,元数据是结构化的数据;从数据与用户的关系来说,元数据实现了用户对数据内容的了解、范围的掌握及管理的实现;同时,元数据与对象保持着一对一的数据对应关系。元数据是数据的元素集,主要包括数据的具体内容、长度信息与位置信息等,这一涵义实现了元数据的应用,使其能够有效的在互联网信息检索中进行应用。

1.2元数据的作用

元数据的结构形式实现了信息资源管理的系统化,使其数据的描述更加规范,同时元数据通过层次结构,将数据进行有效的联系,实现了对不同数据的存储,从而保证了用户对信息的高效检索。元数据的作用主要表现在以下几方面:在信息对象方面,元数据也是数据形式中的一种,因此它具有描述信息对象的功能,这一功能使其保证了信息资源管理系统对数据信息的检索、存储。在数据定位方面,元数据在对信息对象进行描述过程中,同时将对数据对象进行定位,位置信息的有效提供使其保证了检索。在数据挖掘方面,元数据将不同的数据进行了有效的联系,这一特点保证了数据的挖掘,从而使其数据信息更加完整。在数据了解方面,元数据实现了对数据属性信息的描述,从而保证了用户对数据对象的全面了解。在数据判断方面,元数据可以根据用户的选择规则,当用户输入其数据条件后将进行数据的检索,进而显示其检索的信息结果[1]。

2、图书馆信息资源的特点

图书馆在不断发展过程中,其信息资源日益丰富,其信息资源管理有着自身的特点:多样化的类型,图书馆信息资源管理包括结构化数据、非结构化数据及多媒体类型的信息等,如:文字信息、声音信息、视频信息、电子邮件等。异构的信息资源环境,图书馆的信息资源管理系统有所不同,其数据库也因此各不相同,如:层次数据库、关系型数据库、网状数据库等。不同格式的信息资源,图书馆信息资源时按照一定的格式进行存储的,但由于信息的类型有所不同,其格式也不尽相同,同时由于文字信息、图像信息等共同存在,不同信息的格式也有所不同,如:MP3、WAV格式等[2]。

3、基于元数据仓储的图书馆信息资源管理的概况

图书馆信息资源管理为了保证其数据的有效管理,因此在建设过程中,采用了元数据进行管理,从而保证了信息服务系统的集成、共享与检索等,并使图书馆信息资源管理更加规范、有序,因此,基于元数据仓储的图书馆信息资源管理是必要的,下面将对其进行分析。

3.1基于元数据仓储的图书馆信息资源管理系统

根据元数据仓储的技术,图书馆信息资源管理系统可以分为5部分:

其一,目录管理器。在图书馆信息资源管理系统中最为关键的环节便是其目录管理器,其主要作用便是对图书馆的信息资源目录进行管理。目录管理器可以由根目录依照大类、小类进而到元数据,主要是将信息由业务管理逻辑转向数据与技术逻辑,经过抽象后将其映射到元数据;也可以实现元数据抽象到业务管理数据方向。通过抽象,将利于业务人员对其认识,从而保证对信息的有效管理。由于业务人员对元数据不够了解,为了有效解决这一问题,进行目录分类实现了业务人员对其全面的了解,从而提高了工作效率。目录管理器的功能主要是根据信息资源目录,从而自动生成相应的信息分类树,通过分类树,用户将能够有效的找到其需要的信息;构建不同的目录视图,从而满足不同用户的需求;对元数据仓储中的元数据进行检索,并显示相应的数据,从而利于用户对数据信息的掌握;对信息资源的使用情况进行统计。

其二,元数据仓储。元数据仓储主要是对元数据进行存储与管理,其功能便是根据特定的条件,从而对元数据进行采集,并组成元数据仓库,同时要保证本地数据与图书馆数据的一致性。元数据仓储通过标准化的数据,实现了数据的交换、共享,其构成主要包括信息的标识、信息的类型、信息的管理与信息的相关业务等。对元数据的标识包括别名与标识名;由于信息资源不同,所以其类型也有所不同,如:数据的类型、格式等;对信息的管理主要是对元数据进行管理、存储与保护,具体的内容包括生产者、管理者、有效时间、创建时间及其密级等。

其三,著录工具。图书馆信息资源管理的数据著录是通过自动化实现的,其工作内容主要包括以下几方面:对结构化数据的元数据进行转换、映射,使之更加规范;将自动生成的标识信息显示给用户,同时用户可以对其进行修正;明确业务管理的类别,用户可以对其进行添加,如:关键词、主题等[3]。

其四,数据交换平台。这一平台实现了交换数据系统与适配器的平衡,根据用户指定的元数据,通过适配器,便可以从其相应的系统中实现数据的获取,并可以返回目标系统。

其五,利用模块。图书馆信息资源管理利用模块实现了对信息资源的重组,同时也可以在新的领域进行应用,其主要功能有:利用数据挖掘技术对数据进行管理与分析,从而保证决策的科学性;在新的业务系统导入数据并将其集成,从而保证系统数据的高质量;对数据进行逻辑集中,从而保证图书馆信息系统的完整性,并利于图书馆的信息化建设。

3.2图书馆信息资源管理系统的工作流程

图书馆信息资源管理系统实现了用户对信息资源的高效管理,还实现了对其有效的利用,其工作流程为:根据分类树或关键字进行检索,将显示信息分类的元数据,如果是其需要的,则可以在元数据仓储中找到相应的元数据,并能够对其信息进行定位,再对其使用情况进行统计与记录;通过数据交换平台,实现对数据的获取,并使其更加规范,在将其信息返回到信息资源目录管理器。如果在其操作中未能满足其需求,则要返回检索环节[4]。

总结:综上所述,基于元数据仓储的图书馆信息资源管理是信息技术发展的必然趋势,将使其管理更加规范、更加科学,这一信息资源管理方法保证了信息资源的整合,保证了工业人员对元数据的了解与应用,进而保证了信息资源的高效利用。文中对元数据的涵义、特点及图书馆信息资源的特点进行了分析,并阐述了基于元数据仓储的图书馆信息资源管理系统及其工作流程,相信,随着信息技术的发展,元数据仓储技术的应用,图书馆信息资源管理的水平将不断提升。

参考文献

[1]李鹏云.基于元数据仓储的图书馆数据整合实践——以国家图书馆“文津搜索”项目为例[J].信息组织,2013,12(08):46-47.

[2]陈艳梅.基于元数据的数字图书馆信息资源组织[J].大学图书情报学刊,2013,3(01):40-41.

[3]王宏鼎,张智江,张范等.一种基于元数据仓储与信息资源目录的信息资源管理方法[J].图书情报工作,2012,9(03):40-41.

夏季土元管理要点 篇7

2.做好防暑降温工作。土元生命活动适温为15~30℃。在这个温度范围内, 随着温度升高, 土元的新陈代谢旺盛, 生长发育加快, 这时的温度和生长发育基本上呈线性关系。但温度超过30℃时, 就会影响土元的生长发育。一般来说, 饲养室内的温度要控制在36℃以下, 超过36℃时土元体内水分散失加快, 会引起死亡。常用降温方法有在室内地面洒水、打开窗户通风换气等。

3.防止虫害和敌害入侵。夏季打开门窗降温的同时, 要防止鸡、鸭、猫、鸟、壁虎、老鼠等敌害进入饲养室危害土元, 还要防止蜘蛛、蝎子、蜈蚣等进入饲养室吃土元若虫。防止敌害最简单有效的方法是把门、窗都装上纱网, 如果原来已装过纱窗、纱门的, 到夏季要进行检查, 有破损的应及时修理。

探讨数据仓库元数据的集成与转换 篇8

元数据是描述数据的数据,或者说是与数据有关的信息,是数字信息组织和处理的基本工具,是理解数据含义和如何使用数据的关键。所以,每一个软件产品和工具能够在数据层进行有效集成的前提是,它在元数据层就必须被有效集成。所以对数据仓库元数据集成和转换的研究是非常有意义的。

1 元数据集成与转换的设计

1.1 元数据的信息供应链

本文所设计的元数据集成与转换功能,是基于数据仓库的,该功能用来提取数据仓库中各部分产生的元数据,并应用某种策略对其进行综合管理。通过这些元数据,相关人员可以清楚地了解数据仓库中的数据结构、业务规则等,从而对决策支持产生巨大的战略价值。换句话说,元数据集成与转换管理工具的起点就是数据仓库的构建过程和业务使用过程。而数据仓库中信息流动的和处理过程常常用信息供应链(ISC,Information Supply Chain)来描述。

从数据源开始,信息经过多次处理,最终用于辅助决策支持。在整个流动过程中,顺序产生了四种数据,即源系统中的业务数据、ODS数据、DDS数据,以及OLAP数据,这几种数据的在粒度、抽象级别以及面向的应用等方面均存在不同[1]。为保证ISC的顺畅流动,并使参与此过程的软件产品都能够有效工作并基于数据层进行交互操作,就必须对描述各软件产品的元数据有一致理解。这是因为元数据定义了它们的内部处理逻辑和存储结构,通过元数据可以制定处理数据的策略。综上所述,构成ISC的每一个仓储产品和工具能够在数据层上进行有效集成的前提是,它们能在元数据层面进行有效的集成。

1.2 集成和转换的体系结构

本文以联邦式管理模式为基础提出元数据集成和转换功能的架构,主要分为元数据源、局部元数据仓储、全局元数据仓储、适配器、元数据抽取、元数据转换、元数据汇集等部分,如图1所示。

在上述架构中,所有元数据均来源于组成ISC信息供应链的软件产品。对于存储业务数据、ODS数据、DDS数据、OLAP数据的仓储软件产品,可以经过元数据抽取操作从中获得诸如存储结构等信息的元数据,存入各自的局部元数据仓储中;对于诸如ETL工具、报表工具等软件产品,产品内部往往会配备记录该工具使用规则等方面信息的局部元数据仓储,除此之外,还需对这些信息进行格式的一致性转换以提供元数据共享的途径[2]。

局部元数据仓储中是以关系型数据库的形式存放元数据的,其中的元数据可以分为两类,一类是仅为软件产品自身服务的私有元数据,另一类是需要在企业全局范围内共享的元数据,称之为共享元数据。对于前者,只需要存放在局部元数据仓储中,而对于后者,就需要进一步将其送入关系型的全局元数据仓储中保存和共享。

2 元数据集成与转换的实现

2.1 数据结构分析

本文所涉及的集成及转换工具,内部实现总共分为四个步骤。其中第一步就是将局部元模型导入到工具设计的数据结构中,利用这个数据结构,我们可以存储局部元模型的表结构以及冲突差异分析后产生的标记。本主涉及如下四个数据结构表。

1)数据结构l:记录表来源的数据结构,如表1所示。

2)数据结构数据结构2:记录列来源的数据结构,如表2所示。

3)数据结构3:临时记录一一对应的列的数据结构,如表3所示。

4)数据结构4:临时记录一一对应的表的数据结构,如表4所示。

2.2 集成与转换的流程

假设模型集成工具的两个输入模型分别为Ml和M2,目标输出模型为M3,则需要按照如下步骤完成模型集成:

Step1,将M1和M2中表的相应结构填入初始的集成工具的数据结构中。

Step2,针对数据结构中的数据进行如下流程实现模型的冲突和差异分析。

1)检查M1和M2中所有表,将无同名的表的标记Tag值设为TD(Table Difference),同名表的标记Tag值设为TS,并将同名的表Id对加入到数据结构4中。进入步骤2)。

2)针对每一对标记为TS的表,检查该表中列个数是否相同、名称是否相同。如果列一一对应则进入3),且将对应的列Id值对记录在模型集成工具的数据结构3中;否则进入步骤4)。

3)查询并记录数据结构3对应的表项个数N,即对应的列的个数,分别检查每对列的属性,开始列对检查的循环,查看其数据类型是否冲突。

4)首先将模型中无同名列的Tag标识为CDl(Column Difference1),说明这是某个输入模型的表中多出来的列。然后记录同名的列对的个数N作为循环次数,进入步骤5)。

5)检查剩下的同名列的属性,如果相同,进入步骤6):如果不相同,进入步骤7)。

6)检查同名列的数据类型。如果相同,则在数据结构2中,将该对应列的记录中Tag值设为CE,表示这两列的完全相同;如果不同,则在数据结构2中将这对列的Tag值设为CC,表示冲突。然后返回到步骤4)进行下一次的循环。

7)检查属性不同的列对。如果其中一个列的属性是默认值,则进入步骤8);否则将数据结构2中的相应两个列对应的记录的Tag值设为CC,表示属性值冲突。

8)继续检查该列对的数据类型。判断是否所有的同名列都已检查完毕,如果没有,则返回步骤4)进行下一次的循环。

Step3,针对分析过程中得到的不同种类的冲突和差异加以解决,并输出目标模型M3。在分析的流程中,我们得到了不同标记的表和列,针对不同标记有不同的冲突和差异解决方案。

2.3 列冲突差异的实现

1)列冲突CC

思路:生成列冲突的原因是列属性设置或者数据类型不同。这种情况下,本文的集成工具默认认为其不存在模型合并的必要,只需将两个输入数掘模型的表结构完全拷备,添加到输出模型中即可。但是,如果将来需要用户选择解决冲突方式的需求,也可以在本文设计的集成工具的基础上增加这个功能。

算法:遍历查询数据结构2所在表每条Tag值为CC的记录,获得该记录的OwnedTableId,到数据结构l中查找符合条件的记录,使得该记录的TableID值等于0wnedTableId,这样,就找到了相应模型中的表结构,从而添加到新模型中。

2)列差异CD

思路:CD表示某一输入模型的表较另一输入模型的表多了一些列,这种情况下,我们要将含有多余列的表结构加入到新模型中。

算法:遍历查询数据结构2所在表中每条Tag值为CD的记录,获得该记录的OwnedTableId,到数据结构1中查找符合条件的记录,使该记录的TableID值等于OwnedTableId,这样,就找到了相应模型中的表结构,将其添加到新模型中即可。

3 结束语

总之,数据仓库及其元数据是企业知识管理的重要组成,数据仓库的元数据管理终归是一个非常繁琐复杂的过程,其范围涉及数据仓库的整个环节,一个完整、通用的元数据管理系统的构建注定充满了迭代和不断反复,因此,对它的研究也应该是长期的、不断探索的过程。

摘要:该文基于对数据仓库系统本身的架构和数据模型特征研究,并结合元数据仓储架构的理论设计提出一种数据仓库元数据集成与转换功能的架构,并进行了系统实现,涉及到数据结构的分析、集成与转换的流程以及列冲突差异的实现。

关键词:元数据,集成与转换,数据仓库

参考文献

[1]黎建辉,吴威,阎保平.一种基于XML的元数据映射与转换方法.[J].微电子学与计算机,2008,(1).

基于数据元的数据集成技术研究 篇9

近年来,基于本体[2—5]的数据集成方法研究受到了高度的关注。基于本体的数据集成方法是建立全局本体和具体数据源的局部本体,以及全局本体和局部本体、局部本体之间的映射关系,完成异构数据源之间语义上的映射,最后将这种语义上的对应关系转换为数据查询,完成数据集成。但是基于本体的研究方法仅考虑了模型概念的外延即概念之间的关系,没有考虑概念的内涵,对实体属性的语义只能依靠自然语言描述或分析模型的结构,缺少对数据模式元素进行精确描述的语义方法。本文提出的基于数据元的数据集成方法,通过对概念的内涵进行形式化的语义描述,可以实现不同模型之间,乃至实例级的语义映射。

1数据元简介

数据元是用一组属性描述定义、标识、表示和允许值的数据单元,是在一定的环境下不必要再细分的最小数据单位。数据元是可识别和可定义的,每个数据元都有其基本属性,如:名称、定义、数据类型、精度、值域等。一个数据元由数据元概念和表示两部分组成。数据元概念(Data Element Concept)是能以数据元的形式表示,且以任何特定的表示法无关的一种概念。当一个表示被联合到一个数据概念时就能够产生一个数据元。按照国家标准,数据元分为数据元概念、通用数据元、应用数据元。通用数据元提供的是一般的内容,而非具体内容,具体内容则由应用数据元提出。如通用数据元可指“日期”、“姓名”,而引伸出来的应用数据元可以更为具体,如“考试日期”、“入学日期”、“学生姓名”、“教师姓名”等。应用数据元规定为一个独立应用的数据范畴。一个应用数据元必须来自某个通用数据元,遵循通用数据元给出的框架。一个数据模型中的数据项由于限定于数据模型的应用范围,因此是一个应用数据元。图1描述了用于数据元结构的术语与传统的数据建模术语的关联,在数据模型中,一个数据项可以等同于一个数据元,数据模型的数据元名称的典型形式是实体名称和实体属性名称的合成,如图2所示。

2 数据元的语义树[6]描述方法

基于数据元的数据集成需要解决的一个关键问题是语义的描述方法,本文采用的是语义树的描述方法,语义树提供了一种形式化的语义描述方式,可以方便地描述数据元的语义。

如图3所示,在数据元的语义树中,描述数据元“表示”的节点是叶子节点,不再受其它节点限定。抽象语义树通常对应一个通用数据元,通过附加规则节点可派生各种应用数据元。在数据元的语义树中,特定节点是根节点,对象类可被其它限定词进一步限定。在对数据模型中的数据项进行描述时,由于数据项与具体应用场景有关,所以在相应的数据元的语义描述上增加应用场景约束,才能真正地描述该数据项在数据模型中的语义。数据项数据元以属性、实体、约束为中心,通过对实体进行直接限定和间接限定,构成对数据模型数据项语义的完整描述,图4所示。

3 基于数据元语义树的映射实现

3.1 语义树中各节点的权值分配规则

设N为语义树T中的任意一个节点,以N为根的子树记为sub(N),N的子节点数为n,N的第i个子节点记为child(N,i),节点N的权记为W(T,N),子树sub(N)的权记为W(sub(N))。语义树中各节点的权值分配规则如下:

(1) W(T)=1;

undefined

undefined

从上可以看出,一棵语义树的权为1,等于语义树中所有节点的权值之和。子树的根节点占子树权的一半,兄弟节点代表的子树具有相同的权。可见,离语义树的根节点越近权越大,代表的语义概念越重要,这符合一般概念定义的逻辑。

3.2 数据元语义树的映射实现举例

假设两个同类数据项X与数据项Y,分属于实体t1和t2,X和Y的语义树分别为Tx和Ty,对Tx和Ty进行比较,结果如图5所示。

比较结果由Tx∩Ty、Ty-Tx、Tx-Ty三部分组成:

(1) Tx∩Ty:数据项相同的部分,是X和Y具备同类性的基础。

(2) Ty-Tx:给出了数据项Y独特的语义约束部分。如Z∈Ty,Z∉Tx,则Z∈Ty-Tx。当Ty-Tx为空时,表示数据项X下的实例只是数据项Y实例的一部分;当Ty-Tx不为空时,表明数据项Y下的实例数据只是数据项X下实例数据的一部分;Ty-Tx用来选择数据实体集。

(3) Tx-Ty:给出了数据项X独特的语义约束部分。如Z∈Tx,Z∉Ty,则Z∈Tx-Ty。当Tx-Ty为空时,表示数据项Y的实例是数据项X实例的一部分;当Tx-Ty不为空时,表明数据项Y下的实例数据只是数据项X下实例的一部分;Tx-Ty用来决定数据项Y的实例筛选条件。

例如,学生信息数据库除了存储全体学生的基本信息外,为了研究男女生英语成绩的差异还建立了男生成绩表和女生成绩表。

(1) 表“学生信息”是用来存放学生基本信息的数据表,其每一个实例描述一个学生的基本信息,包括主键学号、姓名、院系等,院系的值是一组枚举值,包括石油工程学院、化学化工学院、计算机学院、电子科学学院、外国语学院、艺术学院等。

(2) 表“男生英语”用来记录所有院系男生的英语成绩,其中字段学号是外键,引用表“学生信息”中的学号。

(3) 表“女生英语”与表“男生英语”的结构相同,但表中的实例记录的是所有院系女生的英语成绩,其中字段学号是外键,引用表“学生信息”中的学号。

现在,我们需要统计“计算机学院全体学生的英语成绩”,把“计算机学院全体学生的英语成绩”记为X,则其对应的语义树Tx如图6所示:

首先用X的语义树Tx与各数据项语义树进行比较,得到两个侯选数据项:“男生英语.成绩”、“女生英语.成绩”。令Y为“男生英语.成绩”,则对应的语义树Ty如图7所示。

比较X、Y的语义树Tx、Ty。比较结果Tx∩Ty、Tx-Ty、Ty-Tx分别在图6、图7中用虚线框标出。在图6中Tx-Ty中,可以构成路径data_value.achievement.student.department.identifier="计算机学院",而表“男生英语”的其它数据项的路径都没有与之完全匹配的,但外键“学号”与之部分匹配,由于“男生英语.学号”对应的主键是表“学生信息”中的学号,因此在表“学生信息”中查找相应的数据项,得到数据项“院系”的路径与之匹配。因此得到约束条件“学生信息.院系=′计算机学院′”和关联条件“男生英语.学号=学生信息.学号”,两者相与就得到筛选条件“男生英语.学号=学生信息.学号and学生信息.院系=′计算机学院′”。

同理,与图8中的数据项“女生英语.成绩”的语义树比较,得到筛选条件“女生英语.学号=学生信息.学号 and 学生信息.院系=′计算机学院 ′”。将以上结果用关系数据库SQL语句表达,结果是:

(1) select 男生英语.成绩 from 男生英语,学生信息 where男生英语.学号=学生信息.学号 and学生信息.院系=′计算机学院′;

(2) select 女生英语.成绩 from 女生英语,学生信息where女生英语.学号=学生信息.学号 and 学生信息.院系=′计算机学院 ′。

把两个查询结果合并在一起,可以得到“计算机学院全体学生英语成绩”需要的全部数据。

4 结论

由于数据元语义树的子树本身也是一棵树,因此容易处理子映射。在上节的例子中,“计算机学院全体学生英语成绩”不仅映射到了概念相似的数据项“男生英语.成绩”和“女生英语.成绩”,而且映射到了相关的实体和属性“学生信息.院系”,因此相关概念的映射保证了映射概念的语义完整性。在实际项目中,对7 000多条数据元进行了语义描述,通过映射计算,均能得到正确的映射结果。

参考文献

[1] Maurizio L.Data integration:a theoretical perspective.Proceedingsof the ACM SIGACT-SIGMOD-SIGART Symposium on Principles ofDatabase Systems,2002

[2]周刚,郭建胜,石磊.基于本体的异构数据源集成系统分析与设计.北京联合大学学报(自然科学版),2007;21(1):45—48

[3]张磊,吴笑凡,谢强,等.基于Ontology的多数据源语义集成研究.信息系统,2005;28(6):656—659

[4] Irina P,Heli H,Juha T.Semantic interoperability information integra-tion by using ontology mapping in industrial environment.Proceedingsof the 10th International Conference on Enterprise Information Sys-tems,ICEIS 2008,2008;5:465—468

[5]鱼滨,郑娅峰.基于本体的异构数据集成方法及其实现.计算机应用与软件,2007;24(9):30—33

元数据管理系统设计及其关键技术 篇10

元数据是描述数据的数据,其使用价值在于具体化抽象数据、提高数据管理效率和数据利用的准确性以及方便性,因此各行业都在定义符合各自使用特点的元数据标准,例如:电子政务领域GB/T19488《电子政务数据元》,交通领域JTT 747-2009《交通信息资源核心元数据》、GA 329.2-2005《全国道路交通管理信息数据库规范第2部分:机动车登记信息》,林业领域LYT 2266-2014《林业信息元数据》等。

规范元数据定义、合理有序地开展各行业元数据注册申请和审核、解决定义冲突,是元数据管理系统实施的当务之急。中国电子技术标准化研究院依靠自身在标准化方面的优势,建立一套元数据管理系统,科学合理地对元数据分门别类,并建立元数据之间的数据关联关系,提供对元数据的注册、审核管理、关联性查询、维护与网络发布功能,并提供对各行业各领域元数据定义和应用的标准化支撑。

2 软件架构设计

元数据管理系统采用B/S(浏览器/服务器)架构,用户以Internet浏览器作为工作界面,用户的主要事务逻辑通过Internet浏览器和服务器交互,事务的处理都在服务器端实现。Internet浏览器是客户端唯一需要的应用软件,省去了客户端软件开发和维护的成本;管理软件安装在服务器上,实现元数据的分类、注册、审核管理、关联性查询、维护与网络发布功能,并以Https、Web Service协议形式提供服务。

2.1 HTTP服务器技术体系选择

搭建HTTP服务器有两种主流技术:Apache httpd和IIS。Apache httpd技术是Apache组织的开源HTTP服务器项目,目前最新版本是2.4.23,可以运行在Unix、Linux或者Windows操作系统上,其源代码开放,用户可以了解底层实现技术细节。IIS服务器由微软开发,最新版本8.0,只能运行在Windows操作系统上,需要购买正版Windows系统,源代码不开放。

在Apache httpd和IIS的选择上,我们首先用Apache Bench性能测试工具比较两种技术的处理性能,在相同硬件环境下,准备一个静态网页index.html,文件大小为73 k字节。执行10 000个到index.html的HTTP GET请求,最多100个并发处理,IIS8.0每秒可处理请求数=1 821[#/sec],平均每个请求处理时间=0.565[ms];Apache Httpd 2.4.23每秒可处理请求数=1967[#/sec],平均每个请求处理时间=0.521[ms]。Apache Httpd 2.4.23对网页浏览的处理性能略好于IIS8.0。

另外,Linux上的Apache从2.4开始采用event MPM(多处理模块)。此模块通过把一些处理工作交给监听线程,从而释放工作线程的部分压力来处理更多的新请求。这是一个混合的多进程多线程服务器,使用epoll事件驱动。在4G内存、10核双CPU服务器上,理论上可以处理超过10 000个并发处理。

综合考虑以上因素,元数据管理系统的服务器技术采用Apache httpd 2.4.23。

2.2 模块化设计

元数据管理系统采用模块化设计模式,将整个应用业务以独立功能为单位进行分割,使得系统具有清晰的逻辑结构。模块划分为注册管理、关联分析、系统管理、数据库管理、工作界面、安全管理等模块。详见图1。

3 关键技术

3.1 数据关联

元数据管理系统的数据关联技术,就是要从大量的元数据集中发现元数据之间的关联性,从而为各行业的元数据注册、审核管理、关联性查询等,提供标准化支撑。

元数据具有标识类字段(名称、英文名称、中文全拼、内部标识符)、管理类字段(注册状态、注册机构、生效日期)和定义类字段(定义、对象类词、特性词)等。不同元数据之间的某些字段在语义层上可能存在一定的相似度。元数据相似度计算算法,就是通过计算元数据的名称、定义、对象类词、特性词等关键字段的加权平均Levenshtein距离来确定元数据之间的关联关系。

Levenshtein距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符、插入一个字符、删除一个字符。

例如“ABCDEFG”和“BDEH”两个字符串,最大长度为7,有4处不同,所以相似度为1-4/7=0.429。

元数据相似度计算算法流程如下:

首先定义相似度函数——edit(i,j),它表示第一个字符串的长度为i的子串到第二个字符串的长度为j的子串的编辑距离。可以用如下迭代公式计算这两个字符串的相似度:

if i==0且j==0,then edit(i,j)=0

if i==0且j>0,then edit(i,j)=j

if i>0且j==0,then edit(i,j)=i

if i≥1且j≥1,then edit(i,j)==min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)},当第一个字符串的第i个字符不等于第二个字符串的第j个字符时,f(i,j)=1;否则,f(i,j)=0。

元数据的相似度是综合元数据名称、定义、对象类词、特性词等单个关键字段的相似度来决定的。一种简单的计算方法是:元数据的相似度=各个字段相似度的算术平均。在实际运用中,可以加大定义、对象类词、特性词的权重,实现加权平均Levenshtein距离。

3.2 审核管理

元数据管理系统实现对标准元数据的注册申请的审核管理。注册机构通过管理系统提交元数据注册申请;经过管理机构审批通过后,元数据被写入元数据库。元数据注册的审核管理业务流程见图2。

注册机构通过元数据管理系统提交注册申请,申请类型可选为:新增、修订、废止,申请状态为“B-形式审批”。管理机构经过形式审查和技术审查,更新注册申请的状态为“E-标准”或“D-未批准”。具体注册申请状态详见表1。

审核分形式审查和技术审查,技术审查必须有2个对口领域专家和1个交叉领域专家参与审核。管理机构人员对所归属的注册信息进行形式审核。审核通过后提交到技术审查,管理机构人员可以通过专家库干预和设置技术审查人,专家库专家可以拒绝指派,也可以主动认领,此时注册申请的状态变为:A全部主动认领、B部分主动认领、C无人认领。技术审查时,专家需要填写技术审核表,评审结果存在于审核表中,管理机构人员根据技术审核结果,如果2个以上(含2个)技术审核通过,判断本次元数据注册申请成功。

4 系统高可用性设计

为了实现系统高可用性,我们采用主备机制、分布式数据库和集群服务器等主要技术。首先为了提高系统的可靠性,防止由于客观因素及人为误操作等原因造成系统损坏和数据丢失,必须建立服务器安全保护机制,服务器采用主备机制提供备份。同时为了在高并发情况下,保证系统服务的高可用性,缓解对单台服务器的访问压力,系统采用集群化设计,业务处理服务器和数据库服务器都采用分布式设计,系统服务和数据库分布到多台物理服务器。并且,系统具备热备份、完全恢复、选择性恢复、时间点恢复功能。

同时,系统设计具备可扩展性,服务器节点数、主备数可以根据业务需要而扩展。初期支持将系统服务和数据库部署到4~8台物理服务器上。系统服务器集群的主备架构设计可以参考图3。

4.1 主备切换

为了确保系统高可用性,元数据管理系统具备主备切换能力。当某台服务器出现故障(电源故障、网络故障、硬盘故障)时,能及时切换到备用服务器,保证整个系统不间断地提供服务。

元数据系统的主备切换方案如下:

(1)主机向备机定时发送状态帧,备机收到状态帧后,将内部计时器清零,标志主机工作正常。当备机连续N秒没有收到状态帧时,备机主动切换成主机并向对方发送切换完成帧,随后,新主机开始向备机定时发送状态帧。

(2)主备切换后,新主机内部各个服务模块会通知集群内其他服务器进行状态上报、数据收集。

(3)初始状态的确定:服务器A启动时以备机状态监听主机,如果系统内没有主机在运行,监听超时后自动切换为主机;服务器A启动后,如果系统内已经有主机在运行,服务器A直接进入正常备机监听状态。

(4)数据同步:备机启动后,由于此时主机和备机的差异比较大,主机会将当前状态和数据批量发送到备机,备机实现同步备份,这个过程称之为初始备份。初始备份过程结束后,系统进入实时备份过程,当主机数据发生变化时,备份数据将实时同步到备机。

4.2 负载均衡

单台服务器的CPU性能和内存资源都是有限的,支持的连接并发数都有上限。元数据管理系统采用负载均衡技术和多服务器集群的方法来支持高并发数,实现原理如图3集群服务器架构所示。

HTTP服务器可以采用双网卡设计,运行负载均衡器算法,可将Web访问IP地址映射为多个内部IP地址,对每次TCP连接请求动态使用其中一个内部地址,达到负载均衡的目的。负载均衡器一般采用随机选择,根据内部服务器的连接数量或者响应时间作为负载均衡策略来分配负载,并将这种技术作为网络协议第四层交换的一种功能来实现。另外把双网卡Http服务器配置成DNS服务器,也可以简单地实现网络负载均衡。

5 结语

元数据为描述数据信息而诞生,随着信息技术的快速发展,元数据在信息资源共享过程中将起着越来越关键的作用。元数据的分类、注册、审核管理、数据关联、关联性查询等是元数据管理系统实现的重点。在将来的工作中,要结合信息技术领域的新进展,对上述元数据管理机制做进一步完善。

参考文献

上一篇:心灵世界的生活下一篇:供应流程