国内外全文文献数据描述发展研究

2022-11-22

文献是固化在一定载体上的知识[1]。文献大体可以分为书目文献和全文文献两种。书目是一批相关文献著录的集合。所谓著录, 是指在编制时对具体文献形式特征、内容特征及物质形态进行分析、选择和记录的过程[2]。目前采用书目编目是数字图书馆对文献信息资源进行有序化组织的主要手段, MARC和DC是目前使用最多的两种书目编目格式。

全文文献是存储文献或其中主要部分的一次文献。我们通常将经典著作, 法律条文和其他重要文献的全部文字转换成计算机可读形式, 建成全文文献数据库。用户可以从中直接检出所需的原始文献。与书目文献相比, 全文文献有许多特定和优点, 主要体现在检索直接, 报道详尽等方面;但缺点也是明显的, 全文文献对存储容量和检索技术要求远高于书目文献。随着信息处理技术和存储技术的发展, 这些技术问题都已得到基本解决, 但是对全文文献的描述与书目文献相比, 发展却一直很缓慢, 没有出现如MARC和DC那样广泛使用的描述标准。

全文文献与编目元数据相比有明显的不同。全文文献来源往往是文章, 书籍等, 这些原始文献用电子形式存储时, 会遇到一些问题, 如换行符、段落起止符等标识原文件格式、文种语言等问题。而这些问题由于东西方文化、语言、书写习惯的差异, 所以难以形成广泛适用的通用描述格式。

针对这种情况, 本文以TEI和中文全文文献通用格式为典型案例对国内外的全文文献的描述发展现状进行了研究, 并将之比较分析, 对我国全文文献的描述发展提出了建议。

1 TEI及其XML格式描述

文本编码创始项目TEI (Text Encoding Initiative) 是在计算机与人文协会、计算语言协会, 文字语言学会、人文语言协会的支持下确立的, 其目标是减少现存编码的多样性, 提供一个通用的支持复杂文本结构的编码方案。现在TEI已经发展成为电子文本交换的国际编码标准。

TEI规定了对电子文本的描述方法、标记定义和记录结构等, 包括元数据和文献内容两部分。第一版的TEI使用标准通用标志语言 (SGML) 作为描述语言, 最近的版本 (TEI P4, 2002) 已经使用了可扩展标记语言 (XML) 作为描述语言。

所有符合TEI标准的文件, 都包含一个TEI标头部分 (以标志) 与文件正文部分 (以元素标志) 。

编码的整体结构如下:

正文前信息包括主要文件前的任何项目 (标头、前言、献词等) , 正文后信息在主要文件后面, 包含附录等。正文主体部分一般是由一系列的段落组成, 每一个段落可以使用

来标记。若这些段落被集结成章、节, 可以再使用元素

区隔出第一层或文字区段
等第二层元素, 第二层元素又可以被再细分, 以下是 (对这些层次标记) 进一步说明:

 

:标记文章的段落。

:文件的正文前信息、本文及正文后信息

 

:文件的正文前信息、本文及正文后信息的第一层分项 (如果没有使用<第零层> () 。当第一层 () 还需要再分, 可以使用第二层 () , 第二层 () 又可分出, 以此类推, 最深可到

每个分项都还可以使用下列三项属性:

类型/type:指文件分类的名称。常用的属性值是书、章节、诗等。其它类型可能多用在诗集等类型的文献集中, 如诗歌、演讲和歌曲。

识别码/id:分项命名, 所命名称不可重复。可以用在交互参照或其它连结。在每一个主要的结构单位使用属性识别码 (id) 非常有用, 而且最好以系统方式命名, 如在文章题名后, 加上章节编号。

识别号/n:分项助记号, 可使用小名或是数字。

除了上面所述的几个基本标识以外TEI还针对散文, 诗, 戏剧制定了特定标识符如下:

<诗行>/:诗的一行, 未完成句也包含其中。

<诗组>/:形式上被视为一组的诗句, 如诗节、迭句、诗的段落部分等。

<讲述>/:单篇的演说文件或在散文和诗中以讲述方式表现的过程。

<讲者>/:剧本或文章中出现讲述的片段, 前面通常会标示一或多个讲者。

<分幕>/:剧本或文章中出现演出或动作指示。

此外TEI还对对字体, 样式, 引文, 语言特性的描述也有相应的描述符。由于文章篇幅所限, 不在此一一列出。

2 中文全文文献通用格式

我国对适合中文的全文文献通用格式的研究始于1997年, 文化部科技司将编制“数字式中文全文文献通用格式”文化行业标准的任务下达给广东省中山图书馆[4]。经过两年多的研究和试验, 完成了格式的基本设计和标准初稿, 格式是基于通用置标语言SGML。结构如下:

〈REC〉是记录初始标志, 标识一个全文记录的开始位置。记录控制号、记录版次标识、固定长编码信息等字段的结构和定义与传统MARC基本一致。

数字式中文全文文献通用格式几年来一直不断完善, 最新的修改版格式以都柏林核心元数据集 (Dublin Core) 1.1版本为基本框架, 结合中文文献数字化处理的特点和要求, 在保持符合国家和国际标准通用规则的基础上, 规定中文全文文献的编目格式以及全文数字式格式。最新格式的总体结构包括:

<1>=记录控制号

<2>=文献题名

<3>=主要责任者

<4>=主题、分类号或关键词

<5>=文献说明 (著录)

<6>=数字式资源制作者

<7>=其他责任者

<8>=数字式资源制作日期

<9>=文献类型

<10>=数字式资源数据格式

<11>=数字式资源标识符

<12>=数字式数据来源

<1 3>=语种

<1 4>=关联文献

<1 5>=内容范围

<16>=数字式资源权限管理

除了第一项记录控制号 (Record) 包含唯一标识本记录的控制号是由编制文献记录的机构提供外, 其他的十五项均对应DC元数据的十五个基本内容元素, 在其描述格式上仍采用SGML定义。

3 国内外描述比较分析

综合以上TEI和数字式中文全文文献通用格式的描述方式我们可以看出, 国内外全文文献数据描述发展总体呈现以下几个特点。

(1) 全文文献描述中都包含了对文献编目的信息描述, 比如TEI格式中TEI标头部分 (以标志) 以及数字式中文全文文献通用格式中与DC元数据的十五个基本内容元素相对应的描述部分。这表明全文文献存储的不应只包括一次文献的文献内容, 还要包括文献编目的信息, 这样能够对全文文献建立有效的检索索引, 方便用户对全文文献的查找。

(2) 全文文献都采取了置标语言进行描述。全文文献的内容多样性, 格式复杂性决定了对全文文献正文的描述不能采取不可扩展, 灵活性差的描述语言如HTML语言, 必须采用灵活性强, 能够自定义标记的置标语言如SGML或XML。从现在发展情况来看, 虽然SGML拥有强大的描述能力, 但其描述语言定义非常复杂;而XML可以看成是SGML语言的一个简化版本, 同样提供了定义标记语言的能力, 相比SGML语法比较简单, 去除了一些较复杂的SGML规则……因此, 采用XML语言进行全文文献描述将是大势所趋。

从国内外的发展比较来看, 我国在这方面的起步较晚, 目前虽然制定了中文的全文文献通用格式, 但不管是使用的描述语言还是对正文的具体描述, 与TEI格式相比都存在着不足之处, 主要表现在以下几点。

(1) 描述语言上仍然采用了SGML作为描述语言。中文全文文献通用格式的研究始于1997年, 当时XML第一版还未发布, 故采取了SGML作为描述语言在当时情况下是领先的, 第一版的TEI也是使用标准通用标志语言 (SGML) 作为描述语言。但是时过境迁, 自1998年XML首次发布后, XML的应用发展迅速, 特别是进入21世纪以后, XML已成为开放性信息组织处理技术框架的基础, 网络环境下的信息的定义、组织、处理和交换的核心。与此相适应, TEI格式在其第四版 (P4, 2002) 中, 已经使用了可扩展标记语言 (XML) 作为描述语言。而中文全文文献通用格式则始终采用SGML作为描述语言。

(2) 在编目格式上, 设计较为简单, 创新不多。中文全文文献通用格式最初的记录格式中仅有9个描述项字段, 其中的记录控制号、记录版次标识、固定长编码信息等字段的结构和定义则直接来自于MARC。虽然经过几年来的一直不断完善, 最新的修改版格式中, 记录格式中的描述项字段已大大丰富, 但都是以都柏林核心元数据集 (Dublin Core) 1.1版本为基本框架。

(3) 正文内容具体描述的缺失。中文全文文献通用格式中并没有直接对文献的全文内容格式进行定义, 而只是采取了链接的方式, 即在DC.Identifie这个字段域中, 存贮该文献的存放地址。这种做法固然有其好处, 即实现较为简单, 高效, 但其却脱离描述的本质。而反观TEI格式则制定了一套完整的内容描述体系, 所包括的不仅仅是书籍、文章还包括散文, 诗, 戏剧的描述。

综上, 中文全文文献通用格式还需要进一步发展和完善, 重点需要针对中文文献的特点, 设计出一套完整的, 有效的内容描述体系, 这其中可以借鉴国外较为成熟的描述体系如TEI格式的设计思想和经验, 结合我国实际, 取长补短, 去芜存精。

摘要:本文以TEI和中文全文文献通用格式为典型案例对国内外的全文文献的描述发展现状进行了研究, 并将之比较分析, 对我国全文文献的描述发展提出了建议。

关键词:TEI,SGML,XML全文文献

参考文献

[1] 周宁.信息资源数据库[M].武汉大学出版社, 2001, 3:149.

[2] 张永忠.数字图书馆操作与实务[M].上海:复旦大学出版社, 2005, 3.

[3] http://www.sicaedu.tw/~meta data/sandard/rarebook/TEI921224/ch_03.htm文件编码组织后设资料标志集选录版TEI Lite访问时间:2006-6-30.

[4] 中山图书馆.数字式中文全文文献通用格式标准研究获新进展[J].北京图书馆馆刊, 1998 (2) :140.

上一篇:人口结构与区域经济的相关性分析下一篇:对于我国夫妻财产制度的探讨