元数据

2024-05-03

元数据(精选6篇)

篇1:元数据

ICS 35.240 L 70

DB34 安 徽 省 地 方 标 准 DB 34/ XXXXX—XXXX

农业基础信息数据元 Agricultural Fundamental Data Elements 点击此处添加与国际标准一致性程度的标识(征求意见稿)

-XX-XX 发布 XXXX-XX-XX 实施 安徽省市场监督管理局

发 布

DBXX/ XXXXX—XXXX I 前言 本标准按照GB/T 1.1-2009给出的规则起草。

本标准由安徽省农业农村厅提出。

本标准由安徽省信息技术标准化技术委员会归口。

本标准起草单位:安徽省农业信息中心、安徽省生态农业大数据工程实验室(安徽大学)。

本部分主要起草人:丁作坤、徐超、黄林生、丁晶晶、郑玲、梁苏丹、赵晋陵、翁士状、丁砥、张东彦、曾玮。

DBXX/ XXXXX—XXXX 1 农业基础信息数据元 1 范围 本标准规定了农业基础信息数据元的术语和定义、分类方法与表示规范。

本部分适用于农业基础信息资源的规划、采集、存储、交换、共享与利用。规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T

7408-2005 数据元和交换格式 信息交换 日期和时间表示法 GB/T

19488.1-2004 电子政务数据元第1部分:设计和管理规范 GB/T

18391.1-2002 信息技术 数据元的规范与标准化 第一部分:数据元的规范与标准化框架 3 术语和定义 下列术语和定义适用于本文件。

3.1 基础信息 Basic Information 农业农村活动必要生产要素的信息资源。

3.2 组织机构 Institutional Framework Class 农业农村活动中涉及政府机关、事业单位和企业等信息资源。

3.3 主题信息 Subject Information 按照不同时期不同阶段,农业农村工作重点领域和重点任务实施过程中产生的信息资源。

3.4 生产信息 农业生产环节产生的信息资源。

3.5 服务信息 农业服务环节产生的信息资源。

3.6 监管信息 农业监管环节产生的信息资源。

3.7 流通信息 农业流通环节产生的信息资源。

DBXX/ XXXXX—XXXX 2 3.8 产业信息 农业产业化环节产生的信息资源。

3.9 农村经营信息 农村土地制度、经营制度、产权制度、社会管理等产生的信息资源。

3.10 生态环境信息 以和谐、持续的发展方式的农业活动中产生的信息资源。

3.11 科教信息 农业科教环节产生的信息资源。分类 4.1 基础信息分为农业自然资源、农业业务空间地理信息资源。

4.2 组织机构信息分为政府机关、事业单位、企业、其他。

4.3 主题信息分为现代农业示范区、粮食生产功能区、重要农产品保护区、特色农产品优势区、农业可持续发展试验示范区、面源污染、特色产业扶贫、资源变股权、资金变股金、农民变股民、放管服改革、菜篮子工程、其他。

4.4 生产信息分为种植业、畜牧业、渔业、农机、其他。

4.5 服务信息分为政务服务、科技服务、防灾减灾、金融服务、农业保险、其他。

4.6 管信息分为农业执法、农业综合执法、投入品管理、农产品质量、兽医、其他。

4.7 流通信息分为农产品市场价格、农产品成本收益、农业综合统计、其他。

4.8 产业信息分为休闲农业、农产品加工、农村创业创新、二三产业、其他。

4.9 农村经营信息分为土地制度、经营制度、产权制度、社会管理、其他。

4.10 生态环境信息分为绿色发展、可持续发展、废弃物利用、节水节肥节地节能、其他。

4.11 科教信息分为产业技术体系、科技成果、农民教育、科技人才、其他。表示规范 采用摘要表示的方式定义和描述数据元,包括以下几个属性:中文名称、定义、汉语拼音缩写、数据类型、数据格式、值域、注释。

5.1 中文名称 数据元的中文名称。

5.2 定义

DBXX/ XXXXX—XXXX 3 数据元的解释。

5.3 汉语拼音缩写 数据元的中文名称的汉语拼音缩写。

5.4 数据类型 数据元值的类型。

5.4.1 字符型 string 通过字符形式表达的值的类型。

5.4.2 数值型 number 通过可计算的十进制形式表达的值的类型。

5.4.3 日期型 date 通过CCYYMMDD的形式表达的值的类型,符合 GB/T 7408-2005 规定。

5.5 数据格式 数据元值的表示格式。表示格式如表1。

表1 数据元表示格式表 字符 含义 C 表示数据类型为字符型 N 表示数据类型为数字型 D 表示数据类型是日期型..UL 表示长度不定的文本..从最小长度到最大长度,前面附加最小长度,后面附加最大长度。允许只附加最大长度。

N..p,q 表示数据类型为数值型,最长 p 位,小数点后 q 位(小数点前 p-q 位)。

注 1:

用 C 或 N 加上自然数的方式表示定长。

注 2:

用 D 加 4,6,8 分别表示不同数据格式的日期型数据元,D4 表示 CCYY,D6 表示 CCYYMM;D8 表示CCYYMMDD。

5.6 值域 数据元的有效值域和允许对该值域内的值进行有效操作的规定。

值域是指数据元可以取值的范围。

5.7 注释 对该数据元的其他相关说明,包括需要遵守的标准和规范。

_________________________________

篇2:元数据

[论文摘要]分析了纺织印染行业引入的有毒有害物质及生态安全性问题,介绍了国内外生态纺织品标准针对有毒有害物质提出的限制,并对纺织印染行业有毒有害物的生态安全防范对策进行了探讨。

[论文关键词]纺织印染生态安全性分析对策

纺织品是我国出口创汇的主要产品,在国民生产中占有重要位置。近年来,生态纺织品及其消费已成为国际纺织品服装贸易的新热点。发达国家纷纷制定和出台了一系列环保法规和标准,对纺织品中有毒有害物质实施安全检测,对纺织品的安全性、健康性提出了更高要求。

1纺织印染行业的污染特点和国内控制现状

纺织品的印染加工作为一个典型的化学处理工艺过程,其对环境和消费者可能带来的生态安全问题一直受到人们的普遍关注,这又与纺织品的印染加工以及部分前处理和后整理加工紧密相关。特别在印染废水中含有染料、浆料、助剂、油剂、酸碱、纤维杂质及无机盐等杂质,它具有成分复杂、难降解、有机污染物含量高、色度高、碱性大、毒性大、水量大、水质变化大等特点。

多年来,我国对纺织印染行业的污染治理特别是印染废水治理开展了大量研究工作并在大力推行行业清洁生产,取得不少成效。但在污染物的控制方面主要针对废水中COD、BOD、色度等综合指标,忽视了应同步从源头上抓染化料使用中有害物质的控制,对纺织品中引入有毒有害物质的限量、检测方法及控制技术方面研究的进展大大滞后于国外出台标准的进程。特别是对原料的生产过程、纺织品的生产工艺、环境与人体健康的关系缺乏研究,国外废弃的原料或生产工艺,国内仍在沿用,在生态纺织品的法规、标准和认证方面的发展也相对落后。

2纺织印染行业引入的有毒有害物质及生态安全性

目前纳入生态纺织品监控范围的有毒有害物质包括禁用染料、防腐剂、杀虫剂、甲醛、含氯有机载体等,范围不断扩大。

2.1禁用偶氮染料

目前市场上流通的合成染料品种约有2000种,其中约70%是以偶氮为基础的,而可能还原出致癌芳香胺的染料品种(包括某些颜料和非偶氮染料)约为210种。这些染料在与人体皮肤的长期接触中,会在人体正常代谢过程中分泌物的生物催化作用下或因色牢度差通过皮肤吸收而在人体内发生分解或还原,产生某些对人体有致癌性的芳香胺。

2.2致癌染料

致癌染料是指未经还原等化学变化即能诱发人体癌变的染料,其中最著名的品红染料早在100多年前已被证实与男性膀胱癌的发生有关。目前已知的致癌染料有7种,致癌染料在纺织品上绝对禁用。

2.3致敏染料

某些染料已被证实对人体有致敏作用,因而在国际纺织品服装贸易中,这些染料的使用也列入受控范围。

2.4重金属

使用金属络合染料是纺织品上重金属的重要来源,而天然植物纤维在生长过程中亦可能从土壤或空气中吸收重金属。此外,在染料加工和纺织品加工过程中也可能带入一部分重金属,还有一些重金属来自某些服装辅料或饰品表面。重金属一旦为人体所吸收,则会累积在肝脏、骨骼、肾脏、心脏及大脑中,达到一定程度后会对人体健康造成巨大伤害,尤其是婴幼儿。

2.5游离甲醛

在印染加工中,甲醛污染主要来自于助剂中的游离甲醛及助剂分解产生的甲醛。甲醛对皮肤粘膜有强烈的刺激作用,也可能引起呼吸道发炎,作用时间过长将引起肠胃炎、肝炎等症,亦可能诱发癌症。

2.6含氯酚

五氯苯酚(PCP)是纺织品采用的传统防霉防腐剂。动物实验证明,PCP是一种毒性物质,对人体具有致畸性和致癌性。PCP十分稳定,在纺织品中的自然降解过程缓慢,穿着时会通过皮肤在人体内产生生物积累而危害人体健康。虽然世界上已有许多国家明令禁止,但实际上仍在使用中。2,3,5,6-四氯苯酚(TeCP)是PCP合成过程中的副产物,对人体和环境同样有害。

2.7含氯有机载体

载体染色工艺是聚酯纤维纯纺及混纺产品常用的染色工艺,有助于分散染料在常压沸染条件下对聚酯纤维进行染色。某些廉价的`含氯芳香组化合物,如三氯苯、二氯甲苯是高效的染色载体。研究表明,这些含氯芳香族化合物对环境是有害的,对人具有潜在的致畸和致癌性。

2.8杀虫剂

天然植物纤维,如棉花在种植中会用到多种农药。在棉花生长过程中被纤维吸收的农药在纺织品加工过程中虽大部被去除,但仍有可能会有小部分残留在最终产品上。这些农药对人体的毒性强弱不一,且与在纺织品上的残留量有关,其中有些极易经皮肤为人体所吸收,且对人体有相当的毒性,为致癌因素之一。

2.9多氯联苯衍生物(PCBs)

人们常把在纺织品上检测出残留的多氯联苯衍生物归入杀虫剂。其实多氯联苯并非作为杀虫剂,而是作为抗静电剂及阻燃剂而可能被引入纺织品。多氯联苯对人体有毒,会引起皮肤着色、肠胃不适,并有致癌作用。

2.10环境激素

环境激素是一类对人体健康和生态环境极其有害的化学物质。目前被禁止的环境激素有70多种,与纺织助剂有关的有10种左右,除五氯苯酚、多氯联苯外还有多氯二恶英、多氯二苯并呋喃、多溴联苯、烷基酚、对硝基甲苯、邻,对二苯基苯酚等。

3国内外纺织品生态标准的发展概况

从20世纪80年代起,工业化国家就开始对纺织品中可能存在的有害物质及其对人体健康和环境的影响进行了全面研究,并从法律法规和标准的制定方面采取了积极的步骤。目前最有影响的生态纺织品标准是奥地利纺织研究院设计、国际纺织品生态学研究与检测协会颁布的Oeko-TexStandard100标准。它首次引用了生态纺织品的概念,从消费者的角度,以不伤害使用者健康为前提,规定了纺织品生态性能最低要求,包括在纺织品中禁止或限量使用的有毒有害物质限量值及分析方法。检测项目共计14个大项42个小项,具体包括:pH值、甲醛、可萃取重金属、杀虫剂、含氯苯酚、氯化苯及氯化甲苯系列、PVC增塑剂、有机锡化合物、有害染料、抗微生物整理剂、阻燃剂、色牢度、挥发性物质、气味等。

OekoCTexStandard100的“生态性”是指最终产品对人身健康无害,即所谓人类生态学,不涉及生态环境保护,也不涉及纺织品生命全周期。欧共体的“Eco-Label”所倡导的则是全生态的概念,其评价标准涵盖了某一产品的整个生命周期对环境可能产生的影响,即生产的生态性、消费的生态性、处理的生态性。列入该标准考核范围的化学品包括:纤维及纱线用助剂和整理剂,杀虫或生物抑制产品,剥色或脱色、增重、辅助化学品清洗剂、织物柔软剂和络合剂、漂白剂,染料中的杂质、颜料中的杂质,铬媒染料、金属络合染料、偶氮染料,致癌、致突变或对生殖系统有毒害的染料、具有潜在致敏性的染料、聚酯用卤化载体,印染、甲醛、湿态加工的废水排放,阻燃剂、防缩整理剂、填充材料、涂层、复合和薄膜产品等。由于欧共体的“Eco-Label”标准是以法律的形式推出的,其影响力将会进一步扩大并逐渐成为市场的主导。

2001年以来,我国先后发布了《纺织品通用安全技术要求》、《生态纺织品通用及特殊技术要求》和国家环境保护总局起草的HJBZ30-2000《生态纺织品》等标准。我国第一个有关纺织品生态安全性能要求的国家强制标准GB18401-2003《国家纺织产品基本安全技术规范》于2005年1月1日起正式施行,产品涉及由天然或化学纤维为主要原料的服用或装饰用纺织材料,其考核内容包括:pH值、甲醛含量、色牢度、耐水、耐汗、耐干摩和耐唾液、禁用偶氮染料和异味。相对于国际上的一些生态纺织品标准,该标准基于为保证纺织产品对人体健康无害,对纺织品生态安全性能考核目前只选择了五项基本的要素。总体而言,这些标准与国际相应标准相比还存在一定差距。

4纺织印染行业的生态安全防范对策

4.1加大环保宣传和生态安全性信息的收集

首先,应加强环保意识和生态安全性纺织品消费的宣传,建立专门的生态安全性纺织品信息咨询机构,使纺织企业和消费者真正具有环保意识。其次,重视纺织品生态安全性信息的收集,帮助我国纺织和服装企业及时了解和掌握国外在纺织品服装领域对有害物质限量的最新要求和认证标准。

4.2加强对纺织品生态安全性的研究

纺织工业的生产链包括原料加工、纺纱、织造、印染、后整理加工和服装制成品加工等。纺织品中的有害物质除生产工艺不当会过量残余外,有部分是上游原料带来的。因此,我们对纺织品生态性的研究必须从原料的生产、加工到半制品生产过程有害物质含量指标及检测方法、功能性产品的评价方法及对纺织品可降解性等方面进行全方位的研究,为生产企业选择原料和工艺提供技术指导,也为提高最终产品的安全健康性奠定基础。

4.3制定纺织品生态标准,完善相应检测手段

必须结合我国国情,密切关注国际上相关法规的动态,制定系列与国际接轨的“绿色”纺织品强制性标准,并使之成为国际认可的标准。国外生态纺织品标准列入考核的内容多,公布的检测方法很少,未公开的检测方法都具有相当的难度。被列入欧洲的纺织品有害物质清单的项目中,我国仍有不少项目没有统一的检测方法。因此,我们也应加强对纺织品有害物质检测方法方面的研究和探讨。

4.4开发生态安全性产品,取得国际认证

生态安全性产品是未来的发展趋势,纺织企业开发生态安全性产品应重点抓好四个环节:(1)进行生态安全性设计。注重设计易于回收、节能、耐用、无污染或低污染、不影响健康的产品。(2)实施生态安全性生产。按生态工业模式,实现清洁生产,尽量避免使用有毒有害原辅料,减少生产过程中的能源和材料浪费,减少废弃物。(3)铸造生态品牌。纺织企业产品应符合环保要求,要取得国际环境标志,创造绿色品牌。(4)实行生态包装。纺织企业要按照进口国的要求,采取使用后利于回收再利用或易于自然分解的绿色包装。

参考文献

[1]吴湘济,沈晶.生态纺织品的监控及对策[J].上海纺织科技,2003,31(2).

[2]王建平.印染工业生态标准的现状与发展[J].印染,2005,(9):50-53.

[3]李伟等.论我国生态纺织品标准体系的建立[J].中国标准化,2004,(8):14-15.

[4]夏建明,陈晓玉,吴爱莲.开发、使用环保助剂,为印染清洁生产服务[J].印染助剂.2005,22(3):1-8.

[5]曾祥全,丁关海.解读生态纺织品标准100[J].世界标准化与质量管理,2004,(5):44-45.

[6]刘海珍.关于发展我国生态纺织品的建议[J].棉纺织技术,2001,29(11):28-31.

篇3:基于元数据的作战实验数据共享

关键词:元数据,数据库,数据共享

0 引言

实验数据是科学实践活动的重要产品,也是后续科学研究工作的重要依据和素材。再强大的科研团队、学术带头人,其占有的时间资源、物质资源毕竟是有限的。因此,对现有各方数据的充分利用是推动科研工作又好又快发展的一条捷径,数据共享则是通向这条捷径的必由之路,作战实验数据共享也为作战相关问题研究工作的向上发展提供了新的有力支撑。

1 作战实验数据共享的意义

随着计算机仿真技术、网络通信技术等高新技术的迅猛发展,作战实验作为公认的认识战争的重要方法,是研究军事问题的重要科学实践活动,在作战方案评估、作战结果预测及作战方法研究等军事活动中发挥的作用日益突出。尤其是近年来,作战实验受到的重视程度越来越高,很多单位和部门都建立了不同类型、不同规模、不同作用的作战实验系统,各种作战实验系统的建设的成果也越来越多,应用的范围也越来越广,但同时也存在以下不足。一方面,多数作战实验系统彼此独立,在研究相对单一条件下的军事问题方面有独到之处,但由于系统间不能实现互联、互通和互操作,数据不能共享,在面对一体化联合作战等复杂条件下的军事问题的研究时则受到很大限制,作战实验系统的规模效应、集群效应和综合效应没能显现。另一方面,在多年来作战实验的过程中生成了类型众多、数量庞大的科学实验数据,同时积累了丰富的军事经验和研究技能,这些数据的作用和深加工潜力甚至超过了作战实验系统本身,但是目前尚没有做到对这些宝贵的数据进行有效的资源整合和共享,数据的重复利用率很低,不利于信息价值的充分发掘,造成了资源的浪费。因此,数据共享已成为制约作战实验系统发展的瓶颈。

2 数据共享的方式

科学数据资源对国民经济、社会、环境发展的重要价值赢得了广泛的认同和重视。地质、海洋、气象、测绘、环境、农业等许多领域和部门已建立了多个科学数据共享平台,并制定了相应的规范和技术标准,尤其是由我国科技部主导的“科学数据共享工程”于2003年启动以来,更是将我国的数据共享工作提升到了新的高度。归纳起来,目前较普遍采用的数据共享方式主要有以下三种。

2.1 集中共享的数据共享方式

集中共享是数据共享研究中最早采用的一种共享模式,其核心是把所有参与共享的数据库统一复制或移植到共享平台上,由共享平台集中管理并向用户提供统一的数据使用服务接口,从而实现数据共享。集中共享的架构比较简单,但是在这种共享模式下,一旦数据源发生了变化就需要把新数据重新移植到共享平台,对平台维护的要求较高,否则会出现用户从共享平台访问到的数据版本滞后于数据源版本的情况。因此,该方式比较适用于各数据源更新不太频繁或数据量不太大的数据共享环境。

2.2 分布共享的数据共享方式

分布共享不再需要将数据源集中,而是依托于以共享平台服务器为核心的计算机网络,共享源数据库可以位于网络上的任何节点,共享平台提供统数据源及访问用户间的数据服务接口,但不参与数据源的管理和维护。相对于集中共享,分布共享方式可以保证所有用户访问到的共享数据都是最新有效版本。位于不同节点数据源的数据库结构和数据格式的差异性很大,共享数据的准确定位与提取依赖的核心技术主要是是搜索引擎技术及数据库中间件技术。类似于ODBC和JDBC的数据库中间件技术现在已经比较成熟,可以实现共享异构数据库资源的目的。

2.3 基于元数据的数据共享方式

元数据已经有比较悠久的历史,许多国家或领域给元数据下过各式各样的定义,但核心意思基本一致。前文提到的我国科学数据共享工程将元数据定义为数据的数据。元数据可以用既定的相同格式来对各种不同类型和结构的数据或信息资源进行描述和诠释,同时给数据源打上了统一、规范的包装。我们也可以理解为是对于数据的注解或全面指南,通过元数据可以反映出描述对象的内部特性和外部特征。元数据对内容和结构都比较简单的数据可能意义不是很大,但对内容信息量大、结构复杂的数据或数据集则非常有意义。基于元数据的数据共享方式首先要根据共享的需求和数据源的特点来制定元数据的内容和格式标准,然后按照标准由数据源生成对应的元数据信息,由共享平台对这些元数据统一管理,当用户向平台提出数据共享服务申请时,平台首先对元数据集进行检索,然后通过检索到的元数据信息索引或链接到对应的数据源进行相应的数据服务操作,从而实现数据共享。采用元数据的方式使共享平台直接管理的数据量级大幅降低、共享资源的结构更加明晰,提高了数据资源管理的效率,也提高了数据检索和定位的速度,更重要的是能更有助于用户更便捷、准确地得到感兴趣的数据。基于元数据的数据共享方式也可以根据需要与前述的两种方式结合应用。

3 基于元数据的作战实验数据共享

作战实验数据共享的目的,一是多个作战实验系统同时工作进行联合作战实验时实现互联、互通和互操作;二是实验结果分析和军事理论中能方便、准确地对各实验系统历史数据进行查询。达成数据共享目的的核心是实现对分布在各个独立作战实验系统中的异构数据快速索引和正确定位。基于元数据的共享方式是解决这个问题的有效途径。

3.1 作战实验数据共享体系结构

基于元数据的作战实验共享平台共分为三个层次结构,分别是:数据层、服务层和应用层。各层次所包含的要素及作用如图1所示。用户通过应用层提出数据操作申请后,共享平台首先在服务层元数据库中检索相应的元数据信息,然后根据元数据属性信息中指示从数据层提取对应的数据源数据。

3.2 数据层

数据层主要由参与数据共享的各作战实验系统的数据源构成,这些数据库中所包含的数据正是我们共享的对象。由于开发过程中各作战实验系统彼此独立,所以这些数据库的类型多样,有Oracle数据库,有SQL Server数据库,有Access数据库,有DB2数据库,还有XML数据库等等,而且空间上处于分布的状态;数据库结构和数据格式更是千差万别;作战实验的特点决定了各系统的数据之间可能存在部分的交叉重叠。数据源的这些特点也正是数据共享所破解的难点。

3.3 服务层

服务层的服务内容主要有两项,即元数据服务和数据源服务。作战实验所涉及到数据的类型很多,若仅使用一种元数据对所有数据源进行描述,则元数据的属性项目数量会非常庞大,而这些属性值又大部分为空值,这样就会导致生成的元数据甚至比数据源本身还复杂。所以,应按照数据源的作用和属性特点对其分类,属性相近的划为一类,由一种元数据对该类进行描述,并为每种类型制定元数据标准。元数据服务的流程为数据源首先经过分类器进行分类,然后由各类元数据标准模型对其标准化,生成与之对应的元数据,同类元数据可以组成一个元数据集,各元数据集构成元数据库,完成数据源到元数据之间的映射。数据源服务主要是指与数据源访问相关的服务。数据共享不是简单的远程读写数据,它的意义在于提高数据的利用价值,使用户从共享到的数据中获取到准确、正确、尽可能多的信息。因此,数据源服务包含数据元素提取、异构数据分析、数据语义转换及数据质量评估等多个服务过程。比如,当用户向共享平台提交了某一关键词的数据查询请求,平台首先在元数据库中检索与关键词相关的元数据,数据元素提取服务将按照检索到的元数据信息中指示的数据源位置,在各作战实验系统数据库中把相关数据逐条定位,做好提取准备,然后根据元数据中指明的数据访问协议、参数对数据元素进行提取;因为提取出来的多条数据可能原本隶属于若干类型和结构不同的数据库,所以要通过异构数据分析服务判别数据异构的形式和程度,是系统异构还是数据库异构或者是语法异构;进而通过数据语义转换服务将数据规格化,转换为一致的语义形式;为挖掘数据的信息值提高其利用价值,数据质量评估服务利用评估模型将对检索到的数据进行质量评价供用户参考,评估内容包括数据完整性、数据精度、数据来源、数据生产时间以及对应元数据中体现的其他重要属性和外部特征;最后,把数据、数据质量评估结果、数据外部关联信息呈献给用户。

3.4 应用层

应用层的主要由与数据操作、数据管理及元数据管理功能相关的程序模块构成,例如数据浏览、数据查询、数据订制、数据下载、数据维护、数据分发及元数据管理等。用户通过应用层接口同共享平台交互,使用共享数据。管理人员也通过应用层对数据源和元数据库进行管理和维护。

4 结论

建立以元数据为基础的作战实验数据共享平台是一条解决当前军事问题研究中所面临的数据共享问题的有效途径,本文在此方面仅展开了初步的研究,无论是研究的范围、深度和广度都还不够。下一步将围绕共享平台的体系结构,开展可靠性、安全性、容错性等方面的研究。

参考文献

[1]牛晓琳,季民,赵志.刚基于元数据管理的数据共享研究[J].舰船电子工程,2006,(1).

[2]严冬梅,尚翔.论科技创新的基石:科学数据共享[J].科学管理研究,2005,23(1).

篇4:元数据

关键词 科学数据 数据仓储 元数据

分类号 G254.364

DOI 10.16810/j.cnki.1672-514X.2016.05.019

Metadata Practice Investigation and Enlightenment in Scientific Data Repositories Abroad

Wanyan Dengdeng

Abstract This paper selects 8 scientific data repositories abroad including DataCite, Harvard Datavers, 3TU.Datacentrum, etc.,and utilizes the methods of network investigation and case analysis mainly to research the metadata practice of foreign scientific data repositories from selecting metadata standard, setting metadata element, creating metadata and its quality control. Based on the analysis of foreign practice, it obtains some enlightenments to our country: metadata standard should be chosen according to the requirement of metadata types and function of data repositories; metadata elements be set should according to the characteristics of data resources and users’ needs; development of automatic metadata creation method; formulation of quality control measures for metadata.

Keywords Scientific data. Data repositories. Metadata.

科学数据(或研究数据)是指在科技活动(实验、观测、探测、调查等)中或通过其他方式所获取的反映客观世界的本质、特征、变化规律等原始基本数据,以及根据不同科技活动需要,进行系统加工整理的各类数据集[1]。元数据已经成为各个领域信息资源的组织方式,利用元数据的组织功能,对资源的组织整合起到规范作用,实现对资源集合的有序化和保存,并以提供利用为目标[2]。科学数据仓储是为科学数据提供存储空间,以促进数据集开放访问和利用的平台,元数据是科学数据仓储建设的关键问题之一。本文通过调查分析国外科学数据仓储的元数据实践现状与典型案例,总结国外实践经验,以期对我国相关实践以启示。

1 调查对象与内容

根据科学数据仓储建设主体的国别、收录数据的学科类型,选择国外8个科学数据仓储,综合性和学科性数据仓储各4个,如表1所示。登录各数据仓储网站,从元数据标准选择、元数据元素设置、元数据创建方式、元数据质量控制4个方面调查各数据仓储的元数据实践。

表1 调查对象

2 调查结果

2.1 元数据标准的选择

2.1.1 根据元数据标准的类型选择

从描述对象的学科领域进行划分,现有的科学数据元数据标准可分为综合性和学科性元数据[3]103。综合性的科学数据仓储由于包含多学科数据,一般使用与学科无关、可扩展可移植的综合性元数据,形成较固定的元数据描述标准,元数据描述元素除了主题外不反映学科特征。DC是一个与学科无关的通用元数据标准,易于理解和实施,可以方便地根据需求进行扩展,应用范围广泛,因而受到综合性科学数据仓储青睐。

特定学科的数据仓储根据其数据资源的特征与需求选择使用学科元数据,满足具体学科对全面准确描述本学科数据要求。英国数据监护中心(Data Curation Center,DCC)网站列出生物学、地球科学、物理科学、社会科学与人文科学4个学科的共34个元数据标准,如社会科学与人文科学领域的DDI,地球科学领域的FGDC,生物科学领域的Darwin Core,物理科学领域的CSMD等,这些学科元数据标准已经被超过94个不同学科的数据仓储采用[4]。被调查的4个学科数据仓储中有3个采用了学科元数据标准,SND采用了DDI,NCDC采用了FGDC,ALA采用了Darwin Core。

2.1.2 根据科学数据仓储的功能需求选择

制定科学数据仓储元数据方案首先需要考虑该仓储的功能定位[5]。由于每个科学数据仓储的目标定位与功能不同,对元数据标准的需求也不同。因此,在科学数据仓储功能需求分析的基础上选择元数据标准尤为重要。特定的科学数据项目和仓储等需要在建设前期对元数据功能需求进行调查和分析,为设定合理的科学元数据方案奠定基础[3]103。

nlc202309080946

国外科学数据仓储选择元数据标准时进行功能需求分析,针对数据的属性特征,结合元数据标准的特点与优劣选择出适当的元数据标准,以此保证元数据标准的适用性。ADS在元数据标准的选择与制定前分析了元数据制订的原因和过程、考古数据对元数据的需求,认为用于描述或发现资源的元数据的主要目的是对数据进行全面的描述并易于检索。选择DC元数据作为描述标准,是其标准中集中包含了一些描述和发现资源的核心元素,而分析考古数据特征,元数据类型方面与考古项目相关的三类元数据是项目级元数据、资源级元数据和文件级元数据,因此,确立了包含项目元数据、资源元数据、文件元数据的三级元数据体系[6]。ALA的大部分数据来源于标本馆、博物馆、其他生物馆藏、国家保护机构等,每个机构采用的元数据标准不同,面临的挑战之一是整合元数据标准各异的生物多样性数据[7]。

2.2 元数据元素的设置

元数据标准确定后,要决定从元数据标准中选择哪些元数据元素。国外科学数据仓储的元数据元素是在元数据标准确定的情况下,根据数据仓储的目标定位、数据资源特征与用户需求制订元数据元素,以实用性为目的对元数据标准进行拓展与恰当的粒度划分,既具备满足数据描述需要的元素内容,使数据被准确地描述,又使用户易于理解和使用。RDA、SND分别作为综合性和学科性科学数据仓储,其元数据元素的制定在支持数据仓储目标的实现、资源特征、用户需求等方面具有典型性,本文以其为案例就其元数据元素进行分析(见表1)。

RDA是一个综合性的科学数据仓储,提供了澳大利亚100多个组织、政府机构、文化机构的科学数据,其目标是帮助研究人员发现、获取、再利用科学数据,其元数据描述元素的设置从目标定位出发,包括发现(discovery)、获取(access)、决定(decision)、再利用(re-use)四个方面的内容。RDA考虑到数据来源、类型、格式等的复杂性,其元数据方案采用了基于ISO 2146的RIF-CS schema作为元数据标准,RIF-CS schema提供了一个灵活的结构以适应不同模式、不同标准的数据描述,而且支持不同数据仓储的互操作[8]。RDA的元数据元素由21个组成,区分必备和可选,大多数元素是可重复的。

SND是瑞典的一个人文社科与健康科学的数据服务平台,其目标是组织、维护、传播社会科学、人文科学和健康科学的研究数据,帮助研究人员与研究团体发现、获取数据,为整个研究过程提供支持。因此,选择人文社科领域、支持数据生命周期管理的DDI作为元数据标准。SND根据用户需求与人文社科领域科学数据的特征设置元数据描述元素,在此基础上对DDI进行调整,针对需求增加与删减了一些描述元素,精减了元素的粒度划分,形成24个元素,旨在通过这些元数据元素使科学数据可以被用户理解、二次分析和再利用[9]。元数据元素由3部分组成:项目描述、研究说明和变量描述,分为必备元素和可选元素,仅标题、访问级别、主要调查者为必备元素,其他均为可选元素,具备缺省值。

对上述2个科学数据仓储元数据元素的对比分析,发现二者既有共同特点又有区别。2个科学数据仓储的目标定位、数据特征不同,选择了不同的元数据标准,元数据元素的设置有差异,二者的相同点是元数据元素的分类与设置均体现了自身的目标定位与用户需求,元数据元素丰富,区分必备和可选,注重设置有助于数据发现与再利用的元素。RDA的元数据元素的特色是用于“决定”“获取”和“再利用”数据的元素,如数据的质量和相关性描述、研究人员、组织和项目的声誉、联系方式、权利、许可采样方法、仪器设置等,体现出从用户需求出发,帮助用户快速判断出数据的价值,提供从数据生产者的获取途径,使科学数据得到最大程度地利用。SND的元素中有详细的对研究说明、项目描述、数据研究方法与过程的描述,用于研究说明和项目描述的元素非常丰富,便于数据发现,用户可以通过用于项目描述的元数据元素,发现该项目的其他数据;用于变量描述的元数据元素针对人文社科与健康科学的数据属性和特征,支持数据二次分析与再利用;详尽的访问级别设置帮助用户了解某一项数据的可获取性与获取方式。

表2 RDA、SND的元数据元素

2.3 元数据创建方式

元数据创建方式有手动创建和自动创建两种。调查发现目前国外科学数据仓储主要采取用户手动的方式创建元数据,由科学数据仓储提供元数据文件模版或元数据生成工具,用户按照模版或在元数据生成软件中填写。如SND、NCDC的元数据文件都采用了元数据文件模版的自行创建方式,DataCite采用了元数据生成软件,用户在软件中填写或在下拉列表中选择。随着科学数据数量的增长,为了减轻用户创建的负担,国外一些科学数据仓储开始探索自动和半自动创建的方式,使元数据的创建与提交智能化。RDA提供手动创建和自动创建两种方式,自动创建采用OAI-PMH协议自动、定期地收割元数据,用户只需在系统中输入元数据配置文件,收割机即可对元数据元素进行自动抽取和赋值,系统可以对元数据配置文件进行格式转换,支持多种收割方式,用户可自行选择[10]。Harvard Dataverse采用元数据数据模版复用的方式减轻用户的手动输入,在Dataverse 4.0中用户可自由创建、复制、修改、删除元数据模版,当用户有多个相同领域的数据集与相似的元数据标引时,可以复制元数据模版,在模版中修改必要的元数据标引,而不必重新创建[11]。

2.4 元数据质量控制

国外科学数据仓储在元数据的质量控制方面一是为用户制订元数据创建指南或最佳实践,详细说明创建流程,元数据格式、各元素的标引要求等,提供标引词表的链接,便于用户了解与选择恰当的词,从用户创建之始提高元数据质量,确保元数据的规范性;二是用户提交元数据文件后,由科学数据仓储安排专人进行检查,评估元数据质量,通过审核才能正式提交。目前,国外科学数据仓储的元数据质量控制主要是从完整性、充分性、一致性、准确性等方面提高元数据的质量,减少输入错误与不规范,还没有制定出系统的质量控制机制;主要采用人工方式进行审核评估,还没有应用自动化的评估和控制技术。

nlc202309080946

SND的元数据文件采用电子表单形式,每项元素旁有该元素的解释说明或提供DDI控制词表的链接,点击即可展开查看,鼓励数据提交者尽可能详细地提供元数据信息,元数据文件填写完成后提交到SND,工作人员进行审核,审核通过后通知提交者上传数据文件。RDA制订的元数据原则第5条指出,好的质量、准确性和及时更新的元数据有利于科学数据的长期获取和利用,应该加强元数据记录的质量控制过程[12]。RDA为用户提供元数据描述的最佳实践,解释说明每一个元数据元素并指导用户如何标引每个元素,用户完成元数据文件后,工作人员帮助评估元数据的质量。NCDC制订了元数据指南草案(DRAFT Guidelines for NCDC Metadata),指南草案中规定了元数据必须维护,必须进行审查与更新,通过两次评审保证元数据的质量,用户创建完元数据文件后应该邀请一个同行从元数据的准确性、充分性和完整性方面进行初步评审,提交到系统后再由专业人员进行最终评审,评审员将评审结果反馈给用户,用户重新修改,直到满足质量要求[13]。

3 对我国的启示

通过上述调查分析,结合我国科学数据仓储元数据实践的现状,国外在以下几方面值得我国借鉴。

3.1 根据元数据类型与仓储功能需求分析选择元数据标准

已通过评审的23个国家科技基础条件平台的科学数据仓储的元数据标准选择与元数据元素设置,主要依据科学数据共享工程技术标准《科学数据共享元数据内容》、国家质量监督检验检疫总局和国家标准化管理委员会发布的《科技平台资源核心元数据》、数据资源的特征与专家知识,对科学数据仓储的功能需求、目标定位、元数据标准类型的考虑还有欠缺。因此,我国科学数据仓储在选择元数据标准时需要进行元数据类型、数据仓储功能需求的分析,结合元数据标准的特点与优劣选择出适当元数据标准。此外,科研基础设施之间的互操作是一个发展趋势,科学数据仓储在选择元数据标准时要注意其共享性和通用性。

3.2 以数据特征和用户需求为中心设置元数据元素

我国科学数据共享工程制订了核心元数据标准,包含各学科数据涉及的共同元素,由于学科数据的差异性,核心元数据标准不能满足具体学科的需求。我国科学数据仓储在使用核心元数据、结合需求进行扩展时,应考虑数据仓储的目标定位,分析数据的学科类别、数据特征与用户需求,以数据特征和用户需求为中心,设置适用的元数据元素,促进科学数据的有效管理与共享。

3.3 发展自动元数据创建方式

国外为用户提供元数据文件模版或元数据生成工具,用户按照模版或在元数据生成软件中填写,积极探索与实践自动、半自动的元数据文件创建与提交方式。半自动、自动的元数据创建方式可以减轻数据提交者手动创建的负担,特别是对于元数据素养不高的提交者而言自动提交的方式能够保证元数据的规范性。我国科学数据仓储应该为用户提供元数据文件模版,发展自动元数据创建方式,减少用户录入,为用户提交元数据提供便利,提高用户提交与共享数据的积极性。

3.4 制订元数据质量控制措施

在元数据互操作、数据共享的环境下,如何保证元数据的质量是一个关键问题,是用户提交数据过程中必不可少的一项措施。借鉴国外,我国的科学数据仓储应从以下两方面加强元数据质量控制:一是在提交者创建元数据文件之前,着手元数据质量控制方案的制订,例如为提交者制订元数据创建指南、制订最佳实践、提供标引词表的链供提交者查看等;二是建立元数据质量评估指标,提交后由专业人员进行审核和评估,并加强专业人员对元数据质量控制素养的培训。随着科学数据量的增长,采用人工评估的效率低,自动评估技术的应用有助于减轻人力,提高评估效率,增强评估的客观性,可以预见自动评估将是未来科学数据仓储元数据质量控制的主要方式。

参考文献:

[ 1 ] 司莉,邢文明.国外科学数据管理与共享政策调查及对我国的启示[J].情报资料工作,2013(1):61-66.

[ 2 ] 凌云,徐革,李一平,等.特色数据库建设中的元数据标准选择[J].情报杂志,2006(1):131-133.

[ 3 ] 黄如花,邱春艳.国内外科学数据元数据研究进展[J].图书与情报,2014(6):102-108.

[ 4 ] Disciplinary metadata[EB/OL].[2015-08-02].http://www.dcc.ac.uk/resources/metadata-standards.

[ 5 ] 胡芳.国外典型科学数据仓储实施的元数据方案及启示[J].图书与情报,2015(1):117-121.

[ 6 ] Project metadata[EB/OL].[2015-08-03].http://guides.archaeologydataservice.ac.uk/g2gp/CreateData_1-2.

[ 7 ] The different challenges of integrating data from many sources[EB/OL].[2015-09-07].http://www.ala.org.au/blogs-news/data/the-many-and-varied-challenges-of-integrating-data-from-different-sources/.

[ 8 ] Research data australia content providers guide:RDAbest practices[EB/OL].[2015-08-05].http://guides.ands.org.au/rda-cpg/rdabestprac.

[ 9 ] Metadata profile[EB/OL].[2015-08-06].http://snd.gu.se/en/deposit-data/documentation.

[10] Research data Australia content providers guide:Intr-oduction to metadata harvesting[EB/OL].[2015-08-05].http://guides.ands.org.au/rda-cpg/harvestintro.

[11] Dataverse management[EB/OL].[2015-08-05].http://guides.dataverse.org/en/latest/user/dataverse-manage-ment.html#dataset-templates.

[12] Metadata content requirements[EB/OL].[2015-08-05].http://ands.org.au/resource/metadata-content-require-ments.html.

[13] DRAFT guidelines for NCDC metadata National Clim-atic Data Center(NCDC)[EB/OL[20150810].http://www.ncdc.noaa.gov/oa/metadata/metadataresources.html

#ds.

篇5:地理信息系统元数据生产研究

地理信息系统元数据生产研究

本文基于笔者多年从事GIS数据制作的工作经验,以元数据生产为研究对象,深度探讨了元数据的概念、作用、存储方式,内容和标准,是对元数据生产的`一个较为全面的诠释,文中的一些方法也是笔者工作实践的总结,相信本文的研究对从事相关工作的同行有着重要的参考价值和借鉴意义.

作 者:苏聪 作者单位:广州市城市规划勘测设计研究院,广东广州,510060刊 名:科技资讯英文刊名:SCIENCE & TECHNOLOGY INFORMATION年,卷(期):“”(15)分类号:P2关键词:地理信息系统 元数据 标准 方法

篇6:元数据

【内容提要】在阐述数字图书馆元数据方案设计原则的基础上,对数字图书馆元数据方案的设计有关问题进行较为深入的思考,并且提出若干建议。

【摘要题】专题探讨

【英文摘要】Thisarticlebeginswiththeillustrationof&n

上一篇:三年级英语质量分析表下一篇:我成了“名人”作文