中文古籍数字化资源概览

2022-09-12

按照《古籍著录规则》中的定义, 古籍主要是1912年以前在中国书写或印刷的, 具有中国古典装订形式的书籍。中文古籍是前人留下的宝贵文化遗产, 对后人进行科学研究和文化传承都具有非常重要的意义。但随着时间的推移, 这些宝贵的文化遗产变得相当脆弱, 从而限制了大部分读者的使用。古籍数字化就是利用现代信息技术将古籍转化为电子媒体的形式, 通过光盘、网络等介质予以保存和传播。古籍数字化是古籍整理在数字时代提出的新要求, 也是古籍整理发展的方向。本文试图就中文古籍数字化资源进行概要的总结。

古籍数字化资源包括古籍书目型数据库 (机编古籍书目、索引、文摘) 、古籍全文数据库、古籍全图像型数据库、古籍全图文型数据库等。古籍书目型数据库是最早建立起来的有关古籍资料的数据库, 它是将馆藏古籍的书名、著者、分类、索引等信息输入计算机从而形成古籍书目数据库, 读者可以通过书名、著者等检索到某古籍的相关资料, 该类型的代表是南京图书馆建立的含四十万条数据记录的中文古籍书目数据库。另外, 北京大学、清华大学等高校图书馆以及国家图书馆等国内大型公共图书馆也有各自的馆藏古籍书目数据库。这在一定程度上方便了读者的使用, 但这种数据库只能说是古籍数字化的雏形, 还不能算是真正意义上的数字化。古籍全文型数据库是将古籍资源全文通过手工方式录入, 形成电子文本, 供用户查阅。这种数据库的优点是便于阅读和检索, 存储空间小;缺陷是未保持古籍原貌, 文字录入难度比较大。台湾的汉籍全文数据库就是这种类型数据库中的佼佼者。古籍全图像型数据库是将古籍直接以图像格式扫描加上简单的标题和分类再存储到计算机中, 这是国内采用最多的一种数据库建设方式。该方式的优点是能保存古籍原貌, 有助于专业学者的研究, 缺点是检索不方便。武汉大学出版社以文渊阁本《四库全书》为底本, 将全书二百余万页逐页扫描, 并将“总目”手工录入, 开发出“四库全书光盘版”, 就是这种类型数据库的典型。古籍全图文型数据库是在古籍书页图像存储基础上, 将书中具有检索意义的内容数字化, 转为电脑可识别的文字, 并辅以适当的软件工具, 为读者提供快捷的检索、统计、整理和编辑功能。该方式的优点是检索快捷, 原貌再现, 查证方便。这种类型结合了上两种形式的优点而克服了其不足之处, 是目前古籍数字化建设的最佳形式, 是现阶段建立古籍数据库的首选方式。香港的汉达古籍数据库采用的就是这种形式, 它可以在视窗系统上直接显示简帛等图片和对照文本。

1 台湾地区中文古籍数字化资源

中文古籍数字化网络化建设最早是从台湾地区开始的, 其中文古籍数字化工作一直处于全球领先地位。从1984年开始, 台湾“中央研究院”就着手进行古籍数字化工作。目前已开发的古籍检索系统有台湾“中央研究院”的汉籍电子文献:瀚典全文检索系统 (http://www.sinica.edu.tw/~tdbproj/handy1/) 、文物图像研究室资料库检索系统 (http://saturn.ihp.sinica.edu.tw/wenwu/search.htm) 、历史语言研究所藏内阁大库档案 (http://saturn.ihp.sinica.edu.tw/mct/newpage1.htm) 、台湾元智大学“网路展书读” (http://www.cbeta.org/index.htm) 以及故宫寒泉检索系统、简帛金石资料库等。上述网络全文检索系统所收资料主要有二十五史、十三经、诸子、通鉴、续通鉴、大正藏经、先秦至魏晋的简帛金石资料、全唐诗、全宋词等。其中汉籍电子文库规模最大, 主要收录了二十五史、阮刻十三经疏、清实录、上古汉语语料库、台湾文献丛刊、《文心雕龙》、《中华民国史事日志》等文献, 基本涵盖了唐代以前绝大部分传世文献, 并且大部分资料免费开放, 可提供网络检索和按目录路径全文浏览古籍文献。这些古籍资料都经过加工, 加上了句读和注释, 方便读者理解原文内容。最新推出的3.1测试版收集的汉籍字数已突破一亿, 系统中加入了地名、朝代等专词检索功能。以下是一些台湾地区中文古籍数字化资源的主要站点:

(1) 台湾“中央研究院”历史语言研究所资料库 (http:www.ihp.sinica.edu.tw) 按数据类别可分为影像处理、全文检索、书目及档案检索三大类型五大资料库。

(2) 文物图像研究室 (http:ultra.ihp.sinica.edu.tw~/wenwu) 。含简帛金石数据库、居延汉简补编图像、汉画论文目录、武氏祠画像数据库、安丘董家庄汉墓画像系统、番社采风图, 以上数据库可全文检索, 部份数据库可检索图像。

(3) 史语所藏内阁大库档案。史语所所收藏的内阁大库档案是宣统元年整修大库时由其中移出的一部分, 包括诏令、题奏、移会、贺表、三法司案卷、实录稿本、各种黄册、簿册等。每件档案依序列出事由、时间、职官、册别件号、登录号、文件别、备注等项。

(4) 瀚典全文检索系统 (h t t p:w w w.sinica.edu.tw/tdbproj/handy1/) 。该库自1984年起开始建置, 至1998年完成二十五史、十三经、诸子等古籍文献的数字化工作, 并以上述名称归类建档, 后又增加上古汉语语料库摘要、台湾方志与文献、清代经世文编及续编、中华民国史事日志等专业研究资料。该所决定将数据库全部打散、重整, 将所有数字化文献依其内容性质归并为“史书”、“经书与子书”、“宗教文献”、“医药文献”、“文学与文集”、“政书、类书与史料汇编”六大类, 重新上网。

(5) 傅斯年图书馆善本书目全文资料库。该馆藏有4万4千册善本书、3万8千余件金石拓片、1万余件汉简。部分馆藏已可以上线浏览影像, 但需要授权才行。

(6) 书目及档案检索资料库 (http:www.ihp.sinica.edu.tw/eve/finaladmin/w2.htm) 。包括史语所同仁辑唐宋明清史书目、史语所档案目录、善本医籍书目、汉画论文目录。

(7) 台湾“国家图书馆”古籍文献咨询网 (http:www.ncl.du.cn/f8q.htm) 提供善本图书联合目录、善本丛刊影像先导系统 (可按书名、撰者、书号浏览) 、认识中国古书多媒体系统 (教学系统) 、古籍文字辨识检索与管理系统。

(8) 古典文献全文检索资料库 (http:www.lib.tku.edu./wonline/introoldbook.htm) 此资料库内容涵盖十三经、二十五史、先秦诸子、明儒学案、全唐诗、四库总目等。

(9) 中国医药古籍文献全文检索系统 (http:www.tcmet.om.tw) 提供《新方八阵资料检索》、《古方八阵资料检索》以及《千金方方剂》、《河间六书方剂》等古籍医书的全文检索, 可进行免费下载。

2 香港地区古籍数字化建设成果

香港的古籍数字化工作是从20世纪80年代末开始, 自1988年起, 香港中文大学中国文化研究所属的“汉达古文献数据库中心” (http://www.chant.org/) 依靠香港研究资助局”等机构的拨款, 迄今完成了近3500万字的建库工作, 出版了“汉达古籍资料库”光盘, 并提供约1100万字的古籍网络检索服务。所开发的全文数据库资料包括甲骨文数据库、竹简帛书文献数据库、金文全文计算机化数据库、先秦两汉一切传世文献计算机化数据库、魏晋南北朝传世文献数据库、中国传统类书数据库。该数据库注册后可提供30天试用期, 试用的文献量大概占总量的10%, 如果要充分利用数据库, 还必须下载ICS1—ICS7等多种字库。

先秦两汉一切传世文献计算机化数据库, 是以一固定年代之全部传世文献为对象, 不论经、史、子、集和字数多寡, 将《战国策》、《礼记》等103部、约900万字的先秦两汉传世典籍均悉数入库, 入库文献所据版本均为旧刻善本而未经后人擅意改动者, 多为《四部丛刊》本, 并经过研究人员重新点校, 有助于学者全面探讨中国上古文化特质。该数据库还编制了作者索引、书目索引和年代索引, 并且可以通过输入字串进行检索。阅读资料时, 在有注释的地方会自动弹出注释, 以便读者理解原文。

甲骨文数据库的建设历时五年, 收录了当今海内外七种主要大型甲骨书籍, 共计53834片, 合并整理、校勘近一百万字甲骨卜辞, 并具有多项类目功能检索。该系统可同时显示甲骨文字原字形及隶定释文, 方便读者参照;另外收录了所有甲骨文字的字形总表和提供便捷检索功能和甲骨文字出现字数频率数据, 以便专业学者研究分析。

魏晋南北朝传世文献数据库, 共有古籍文献1000种, 计约2400万字。其中经部文献149种 (20万字) 、史部正史类文献5种、子部释家类文献127种 (共1 000万字) 、集部别集类文献64种 (80万字) 及《文心雕龙》、《曹植集》等。

竹简帛书出土文献数据库。资料库采用北京文物出版社提供的释文, 经研究人员重新点校, 共计12种、约140万字的竹简帛书出土文献, 全部输入了电脑并以光盘形式出版, 可同时显示简帛图片和对照释文。饶宗颐、李学勤等专家教授参与了领导及文献审定工作, 是一高水准的简帛研究工具。

3 大陆古籍数字化建设概况

从20世纪90年代开始, 大陆一些图书馆进行了古籍数字化建设的尝试。1996年, 上海图书馆建立了“古籍影像光盘制作及检索系统”, 该系统将古籍善本以图像形式扫描, 全文录入, 并研制了古籍善本的检索查询系统, 该系统已完成古籍善本1000多种60万页的扫描和标引工作, 使大陆地区的古籍数字化从计算机书目服务走向全文服务。主要有:中国社科院研制的《全唐诗》、《先秦魏晋南北朝诗》、《全唐文》、《诸子集成》等数据库检索系统;深圳大学的《红楼梦》数据库;北京大学的《全宋诗》等古诗研究系统;哈尔滨师范大学的《史记》全文检索系统;河南大学的“宋人笔记”检索系统等, 都为大陆的古籍数字化做出了一定贡献。目前在大陆较有影响的还有“文渊阁《四库全书》数字版”、“《四库全书》原文查阅系统”、“原文数字版《古今图书集成》及索引数据库”、“《四部丛刊》”、等等。“文渊阁《四库全书》数字版”是国家“九五”重点数字出版项目, 分“原文及标题检索版”和“原文及全文检索版”两种, 后者除了约8亿字的全文资料外, 还附加有182万多条卷内标题资料, 近3000部名著的资料以及联机字典等, 在保持原书真迹的基础上, 将书中具有检索意义的书名、作者、类目、标题以至全文中的字、词语全部数字化, 从而给读者提供了多种快捷有效的检索、统计、整理和编辑的功能, 代表了目前国内外中文古籍数字版的最高水平, 大大提高了原书的利用价值。只是售价较高。以上数字资料多是以光盘存储, 仅有少数提供网络免费检索, 例如北京大学的《全唐诗》、《十三经》、《前四史》等。

大陆主要的古籍网络资源有

(1) 国学网站 (http:www.guoxue.com) 。由尹小林先生创办的以中国传统文化为主要内容的综合网站。栏目设置包括:古籍原典、学人采风、研究机构、学术著作、期刊论文、国学动态、海外汉学、专业网站、国学入门。其中“古籍原典"栏目按照传统的经、史、子、集分类, 以GBK大字符集为平台, 十三经、二十四史、资治通鉴、续资治通鉴、秦汉诸子、佛典、道典、笔记、杂家、楚辞、文选、乐府诗集、全唐诗、全宋词、全元散曲、历代诗话、词话从编、明清小说等数百部、上亿字的古籍资料都被送上了互联网, 充分体现了开放性的时代特点。

(2) 国家图书馆数字资源 (http:www.nlc.gov.cn/main.htm) 。国家图书馆在网上提供“普通古籍、新修方志、善本古籍”数据库的检索。还建设有特色珍稀文献数据库, 这些库采用了人工智能检索、信息海量存储、自动标引等信息技术。

(3) 上海数字图书馆 (http:dllib.digilib.sh.cn/index.htm) 上海图书馆将馆藏古籍善本全部数字化, 并分期实现上网服务, 皆为海内外稀见珍品。另该馆主页“馆藏精选” (http:www.libnet.sh.cn/szzy/gcjx/index.htm) 古籍揽胜、近代珍籍、遗墨留真、碑帖菁华等栏目也可浏览。

(4) 北京大学图书馆“古籍数字特藏” (http:www.lib.pku.edu.cn) 可浏览北京大学图书馆金石拓片特藏 (样本) 的目录信息和照片, 还可翻阅舆图。北大校园网用户还可以在线查阅《四库全书》的联机光盘。

(5) 苏州图书馆 (http:www.szlib.com/82gujigmain.htm) 提供苏州地方特色的古籍全文数据库, 包括《乾隆吴县志》、《苏州织造局志》、《吴门补乘》、《县区志》、《吴江水考》等。

此外, 中文古籍的数字化建设在国外也有一定的研究。如美国的普林斯顿大学建设了中文古籍善本书目数据库、挪威的奥斯陆大学建设了先秦诸子百家全文检索系统, 这些都丰富了中文古籍数字化建设的内涵。

摘要:本文概括了中文古籍数字化资源的定义和类型, 重点对大陆、台湾、香港地区的中文古籍数字化资源进行了较详细的总结。

关键词:古籍,数字化,资源

参考文献

[1] 陈阳.古籍数字化发展状况概述[J].电子出版, 2003, (8) :2~4.

[2] 杨虎.港台地区古籍数字化资源述略[J].电子出版, 2003, (8) :8~11.

[3] 龚娅君, 刘春金.中文古籍数字化建设[J].浙江大学学报 (人文社会科学版) , 2006, (36) 4:174~176.

[4] 李明杰.古籍网络资源述略[J].图书馆建设, 2002 (3) :84~86.

[5] http:www.ihp.sinica.edu.tw.

[6] htpp:www.ccs.ncl.edu.twdata.html.

[7] http:www.chant.orgscriptsmain.asp.

[8] http:www.tcmet.com.tw.

[9] http:www.guoxue.com.

[10] http:dllib.digilib.sh.cnindex.htm.

上一篇:多媒体条件下的高校英语教学研究与分析下一篇:高中生对园林专业的认知与偏好调查分析