基于领域本体的文本信息语义检索研究

2022-09-14

1 体系结构

本系统主要包括以下几个处理模块:Ontology构建模块、语义标引模块以及查询语义扩展模块, 如图1所示。各个模块相互协作, 共同完成用户检索任务。

2 系统实现

2.1 开发环境

操作系统:WindowsXP。

IDE:Eclipse3.2+JDK1.5;Web服务器:Tomcat5.5;本体编辑工具Protege3.2;分词工具ICTCLAS;语义解析工具Jena2.2。

2.2 领域本体构建

本体, 在英文中为Ontology, 提供了对人类知识的描述和说明[1]。从知识共享的角度看, 本体可以被看作是一种概念化的显式说明, 是对客观存在的概念和关系的描述。Studer等对本体进行了深入的研究, 认为本体是共享概念模型的明确的形式化说明, 包括概念化 (Conceptualization) 、明确 (Explicit) 、形式化 (Formal) 和共享 (Share) 四层含义。

对于本体的具体构造过程, 可以用式2.1形象地给出:本体=概念 (Concept) +属性 (Property) +公理 (Axiom) +取值 (Value) +名义 (N o m i n a l) (2.1) 概念可分为“原始概念 (Primitive concepts) ”和“定义概念 (Defined concepts) ”两种, 属性则是对概念特征或性质的描述。至于“公理”, 即是定义在“概念”和“属性”上的限定和规则。“取值”则是具体的赋值, “名义”是无实例 (Instances) 的概念或者是用在概念定义中的实例。领域本体描述特定领域中的概念和概念之间的关系。本文借助本体编辑工具Protege3.2构建一个较为完善的军用飞机领域本体, 本体中共收录了参考了《中图法》中V2航空及其下位类, 主要有:V22飞机构造与设计, V23航空发动机 (推进系统) , V24航空仪表、航空设备、飞行控制与导航, V27各类型航空器, V32航空飞行术, 以及V35航空港 (站) 、机场及技术管理。在《国防科技叙词表》中主要参考了04航空工程、07动力工程、11雷达、导航、对抗等三个一级范畴。

2.3 文献语义标注

语义标注的目的, 就是用本体对Web数据进行标引, 对Web智能的实现起着至关重要的作用。Erdmann给出了语义标注的一个定义:通过一种标记Tag的手段, 在HTML或者XML中把资源的元数据同相应的资源联系起来的过程我们就称为是语义标注 (Semantic Annotation) 。本文将半结构化或者非结构化的网页等信息首先将其文本内容抽取出来, 形成结构化的文档。然后对文档的语义预处理、使用领域本体中的概念以及概念与概念之间的三元组关系对文档内容进行标注。

处理流程的步骤包括以下5步:

(1) 提取文献中的题名、摘要、关键词以及全文内容。 (2) 使用ICTCLAS对所提取内容进行切词以及词性标注。 (3) 根据领域本体的语义关系对文献的全文内容进行句法及词法分析。 (4) 对所切词进行词频统计, 并设定阈值, 对所切词进行筛选形成文献标引词。 (5) 根据词频提取全文中重要的三元语义关系。在标注的基础上以句子或者段落的形式提取包含标注特征项的知识内容片段, 并实现知识内容与文档的映射, 形成语义标引库。

2.4 用户查询语义扩展

2.4.1 查询扩展的含义

在信息检索中, 往往出现由于用户所选择的词和文档中出现的目标词不匹配, 从而导致检索效率低下乃至失败, 比如, 用户使用“全球鹰”作为检索词, 而文档中出现的却是“RQ-4A”, 尽管它们描述的是完全相同的概念, 但是对于计算机而言, 这两个却是完全不同的检索对象。因此, 查询扩展 (Query Expansion) 技术在原来查询的基础上加入与用户用词相关联的词, 组成新的更长、更准确的查询, 这样就在一定程度上弥补了用户查询信息不足的缺陷。

2.4.2 查询的语义扩展

(1) 单个关键词;这种模式下, 用户在查询提问时, 输入的是单个关键词。将用户输入的提问词带入领域本体中与领域本体中的概念以及属性实例等进行匹配, 利用匹配到的概念词进行相关知识内容的检索。 (2) 多个关键词组合查询;这种模式下的查询可以由本体中所定义的概念、关系和实例等等组成, 对于这种形式的查询可以直接根据领域本体中的定义抽取出相关的内容, 并得知出用户的查询意图。例如用户查询Q1, 2, …n为“俄罗斯歼击机”的有关信息, 在领域本体中我们发现“俄罗斯”为一个国别属性信息, “歼击机”为领域本体中的一个概念。利用领域本体的丰富语义关系以及支持推理的机制, 借助于推理工具Jena我们可以推理找出国别属于“俄罗斯”歼击机, 对用户查询反馈的时候不仅把标注有“俄罗斯”和“歼击机”的知识片段反馈给用户, 同时还将标注有国别属于“俄罗斯”的“歼击机”, 如A的知识片段反馈给用户。

3 系统评价

(1) 查全率。由于领域本体的引入, 增加了概念的同义词、概念的上下位关系以及概念的多义性等描述, 系统可根据用户提出的检索词推理出一组相关或相近的词, 共同组成扩充后的查询条件, 这样就提高了查全率。 (2) 查准率。基于领域本体的文本信息的语义标注、知识片段的提取以及查询预处理能较高地提高查准率。

4 结语

计算机以及信息技术的发展, 人们进入网络信息时代, 信息量的爆炸式地增长使人们对于检索系统的要求越来越高, 检索系统如何高效, 准确地查找到用户所需信息成为人们研究的方向, 本文提出基于领域本体的文本信息的语义检索为检索系统实现语义检索提供了一种思路, 对于未来语义检索系统的发展具有参考价值。

摘要:本文在构建军用飞机领域本体的基础上, 尝试基于领域本体的文本信息语义检索研究。重点探讨了基于领域本体的文本信息标注以及查询扩展方法以及知识片段的提取思想, 实现了基于语义的文本信息资源的检索功能。

关键词:领域本体,语义检索,查询扩展,语义标注

参考文献

[1] 邓志鸿, 唐世渭, 等.Ontology研究综述[J].北京大学学报 (自然科学版) , 2002, 20 (2) :21~25.

上一篇:马克西尼斯的比较法——读《比较法:法院与书院——近三十年史》有感下一篇:浅论刑事发回重审中的新的犯罪事实