深入探讨GIS数据字典生产

2022-11-29

随着计算机技术和GIS技术发展, 管理和访问大型数据集的复杂性正成为数据生产者和用户面临的突出问题。数据生产者需要有效的数据管理和维护办法;用户需要找到更快、更有效的方法, 以便快速寻找、访问、获取和使用现势性强、精度高的地理空间数据。在这种情况下, 空间数据的内容、质量、状况等数据字典信息变得更加重要, 成为信息资源有效管理和应用的重要手段。数据生产者和用户都已认识到数据字典的重要价值。

1 数据字典的作用

面对海量地理空间数据, 用户往往一时无法知道哪些数据是他们真正所需要的, 数据生产者和用户之间缺乏畅通的共享渠道, 而提供地理空间数据字典服务的意义也正在于此, 具体功能可归纳为以下几点。

(1) 数据字典是实现地理空间信息共享的前提条件和基本保障。只有实现了地理空间信息的收集、存储、管理、维护、发布、销售等一系列步骤的数据字典化, 才能真正实现海量空间数据的共享。

(2) 帮助数据生产者有效组织、管理和维护空间数据。可保证即便其主要工作人员调离, 仍然对过去生产的数据集有较为全面的了解, 这样可以实现对数据集的维护、更新, 确保数据生产者对数据的持续投资。

(3) 通过地理空间数据字典将大量零散的数据收集起来, 使之成为可共享的有用信息。根据数据字典中指定的数据标准、规范和格式, 数据采集者、生产者、收集者可以整合不同种类及来源的数据, 为用户提供有关数据生产单位、数据存储、分类、质量及数据销售等方面的信息。

(4) 地理空间数据字典最本质的特性之一就是具有目录索引的作用, 类似于一本书的目录功能。通过它数据管理人员可以用最核心的、最少的信息有效、清晰地管理海盆空间数据;同时也是用户检索其所需数据的智能导航器。

(5) 提供通过网络对数据进行查询检索的方法和途径, 同时也为用户处理和转换数据提供了必要的参考。

2 数据字典的层次与存储方式

2.1 数据字典的层次

数据字典并不是孤立存在的, 数据字典作为数据的数据, 它的内容将按照所描述的对象的不同而不同。而一个空间地理信息系统是由不同层次的对象组成的, 数据字典根据对象层次的由高到低可以分成为数据库级数据字典、数据集级数据字典和数据要素级数据字典。数据库级数据字典是指对地理空间数据库的描述信息, 包括数据库名称、数据库类型编号、数据库内容描述、数据库访问方法、数据库更新日期、数据源描述等。数据集级数据字典是描述整个数据集的数据字典, 包括数据集区域采样原则 (指区域性数据库) 、数据集标识、数据有效期、数据时间跨度、数据字典形成时间、数据集的获取方法等。数据要素级数据字典是指描述数据集中数据特征的数据字典, 包括时间标识、位置标识、量纲、误差标识、数据处理过程等, 它是面向每个数据项、每个数据记录的。

在实际应用中可以按照描述内容的详尽程度把数据集数据字典再进一步分为三个层次:第一层为数据字典基本集, 服务对象为非地学领域的人员, 它描述了数据集最基本、用户最想了解的信息:第二层为数据字典概要集, 服务对象为有一定地学知识背景的非数据处理和管理目的的数据用户, 它描述了数据集较详细的特征, 把基本集中的数据字典内容做了进一步的具体化:第三层为数据字典详细集, 详细列出了描述数据集内容的各种要素项, 服务对象是专业数据处理和管理人员操作控制数据库。

2.2 数据字典的存储方式

显而易见, 不同层次的数据字典存储方式是有差异的, 例如描述数据库的数据字典应该随数据库存在, 且由建立在分布式网络数据库管理系统统一管理;描述数据集的数据字典可以随数据库存在也可随数据集存在;描述数据特征的数据字典只能随数据集存在。一般而言, 数据字典的存储主要有两种策略:分散管理和集中管理。

分散管理是以数据集为基础, 即每一个数据集有一个对应的数据字典文档, 每一个数据字典文件中包含对相应数据集的数据字典内容, 集中管理是以数据库为基础, 即一个数据库只有一个数据字典文档, 文档中的每一个记录对应于一个数据子集, 这种方法的优点是管理方便, 增删和修改容易, 缺点是必须有一种技术机制进行统一管理。

与文本方式等非结构化的记录方式相比, 结构化的存储策略有利于充分发挥关系数据库系统的数据输入、查询等。

3 数据字典的内容与标准

3.1 标准化的必要性

早期因为没有考虑数据字典的共享, 各部门分别制定自己的数据字典内容, 引起了数据字典内容的不同。唯一能够在不同数据管理软件间交换数据字典的途径是统一数据字典标准。数据字典标准能够使数据生产者和用户一起着手处理有关数据字典交换、共享和管理的问题。数据字典标准描述了为了实现数据维护、数据共享、查询和传输等功能, 需要什么内容的数据字典。

3.2 地理信息数据字典标准发展现状

随着地理信息数据字典重要性日益突出, 全世界的许多国家、国际学术团体和公司都在研究和制定与其密切相关的地理信息数据字典内容与标准。目前, 一些国家、行业、国际组织已建立了自己的数据字典标准, 例如美国的FGDC的数据字典标准等, 但或多或少都存在一些问题。我国也在近几年制定了“中国可持续发展信息共享数据字典标准”等。但是这些只是形成了一些区域性或部门性的标准, 仍没有一个标准可以成为各级地理信息数据字典的统一标准, 同时形成不了一个统一的数据字典库框架结构。另外, 由于数据字典的内容涉及到各行各业的各个方面, 所以不可能出现一个能让大家都遵循的数据字典标准, 即使在地理学有了这样的标准, 但大家在具体组织数据时有着不同的应用背景, 在最终数据字典的内容上并不一定和标准完全一致。

3.2.1 美国FGDC数据字典标准

美国联邦地理数据委员会 (F e d e r a l Geographic Data Committee, FGDC) 下设的标准化工作组于1994年8月通过并发布第1版地理空间数据的数据字典内容标准 (Content Standard for Digital Geospatial Metadata, CSDGM) , 并于1997年4月发布其修订版。该标准的数据字典由数据标识信息、数据质量信息、空间数据组织信息、数据空间参考信息、实体与属性信息、数据传播及共享信息和数据字典参考信息7部分共219项数据组成, 构成了对地球空间、时间多角度、全方位的描述侧。

3.2.2 ISO/TC211数据字典标准

国际标准化组织于1996年通过了由其第三工作组组织完成的数据字典标准, 即ISO/TC211数据字典标准, 并于1997年发布了其修订版。ISO/TC211数据字典标准以FGDC等现有标准为基础, 按照国际标准化组织制定的标准导则要求制定Pal。该标准把数据字典的内容分为7类, 每一类又包括若干子类或具体数据字典项, 数据字典内容有:标识信息、数据质量信息、空间数据表达信息、空间参考信息、特征与属性信息、数据传播信息、数据字典参考信息、引述信息、联系信息, 其中最后两部分内容为数据集使用的推荐参考信息。该标准是迄今最为完整、也最为复杂的标准方案。

摘要:本文基于笔者多年从事GIS数据制作的工作经验, 以数据字典生产为研究对象, 深度探讨了数据字典的作用、存储方式、内容和标准, 是对数据字典生产的一个较为全面的诠释, 文中的一些方法也是笔者工作实践的总结, 相信本文的研究对从事相关工作的同行有着重要的参考价值和借鉴意义。

关键词:地理信息系统,数据字典,标准,方法

上一篇:利用平凡不等式证明竞赛不等式下一篇:新课程背景下的学校教学管理创新策略