旅游领域本体知识库

2024-05-15

旅游领域本体知识库(精选四篇)

旅游领域本体知识库 篇1

学者认为人们建立知识本体 (Ontology) 的主要理由包括:人与软件代理之间能否分享信息结构, 重复使用领域知识, 进而分析领域知识。随着现今科技日新月异的发展, 网络已成为不可或缺的重要工具, 通过这种模式, 分散的信息即可整理为有用的知识, 以提供给使用者通过网络传送并进一步浏览信息。近年来, 校园网的普及使得校园内的信息快速增长, 造成使用者必须耗费很多的时间来搜索所需的信息, 为了解决此一问题, 本研究以教师为研究主体, 依据教学管理的行为加以分析处理, 构建一个属于教师个人知识本体架构及教学管理的资料分类系统, 并根据此架构分析教师所需信息的类型, 主动给予教师相关信息, 缩短教师搜索所需相关资料的时间, 从而方便教师使用。

2相关研究与探讨

知识本体 (Ontology) , 是用来描述现实事物的本质、是一个实体概念化的明确描述、Ontology是一个以概念来构建的系统, 当使用Ontology来描述特定领域的知识, 可将Ontology表示是一种概念、属性、实例与关系的组合。目前已有许多研究应用Ontology来表达人类知识。Ontology在知识管理、语意网、信息检索、资料库设计及软件工程等方面均扮演极重要的角色。近年来, 已有许多Ontology Language被提出, 并在Semantic Web上已渐渐成为重要的组件。

(1) RDF Schema:

RDF是由全球信息网协会 (W3C) 主导发展而成的一个模式, 其提供具有语意网络机制, 可用来描述网页资源, 允许资源描述机构订定各自的控制词汇, 提供结构化的相互共容机制, RDF在语法上则是遵循XML。

(2) DAML+OIL:

DAML+OIL是由美国国防部高等研究计划局研发, 为了比RDF更能表达RDF Class的定义, 在美国政府提议的努力下, 于2000年10月发行DAML-ONT, 它是RDF的延伸语言, 其具有对象导向和框架基础知识表达。DAML小组为提供更进阶的功能服务而结合OIL, 后来发展成为DAML+OIL。

(3) OWL:

OWL是一种最新被用来定义语意网的Ontology Language。OWL提供三种不同表现能力的子语言以用于不同的使用者社群。其中, 包括OWL Lite、OWLDL以及OWL Full。

3教学管理知识本体架构

3.1教学管理知识本体架构

教学管理知识本体架构分为5部份, 其定义简述如下:

(1) Domain (领域) :所代表的是本体所要描述的特定领域, 在本研究中以Teacher为主体。

(2) Category (类别) :多个概念组成, 本研究分别为教学导向、研究导向及服务导向。

(3) Class (类) :为本体中最主要的部分, 用来描述所要说明领域中的概念。

(4) Attribute (属性) :是用来描述类或关系的特性或属性。

(5) Relation (关系) :是用来说明类与类的间的关系。

本研究将教师区分为教学导向、研究导向及服务导向等三个类型, 每一个类型的教师都有其各自的行为分析, 可以让Teaching Ontology用来归纳其个人归属类型, 并且可整合成Teaching Ontology, 往后, 这些架构即可应用在各个不同的领域, 针对不同的需求做不同的调整, 以满足各类型系统的所需。

针对某一领域的本体开发是持续且反复的过程, 其设计所谓的对与错, 通常较好的解决方式是依赖在预期的应用上, 也就是问题-解决模式。在本体架构中关系的描述就是事实的呈现, 因而这些关系也可以延用在相同类似的问题上, 若问题不相似只是表视在此问题上不具有已描述的关系, 但并不代表此关系就不存在, 因此在本体的概念中应要能反映事实与领域上的关联, 且本体发展者不是要去涵盖所有的问题, 而是需要抓住解决问题的核心。

3.2系统流程

使用者首次登录时, 通过基本资料构建的程序将使用者的基本资料记录在描述数据库;使用者再次登录后, 日志会记录其上网行为并储存于动态行为数据库。通过个人本体构建机制提取描述数据库与动态行为数据库资料, 自动转换成OWL描述的文件, 模糊逻辑推理系统抓取OWL文件内容值做模糊推论, 进而推算出教师所属的类型领域。

本系统的文献检索代理可从互联网上提取符合概念的相关文件以做资料分类。文献检索代理方面会把从互联网所提取到的资料, 传送给文件分类机制, 再从此机制接收资料作分类, 最后将结果储存至文档库供模糊逻辑推理比对。推算出教师所属类型, 再和分群好的资料做比对。例如:如果推论出某位教师为研究类别, 则该教师在下次上网时, 便可收到本系统依据该教师的类型而分类好的相关资料, 以减少使用者花费大量时间去搜索所需资料。

本系统架构主要分成三大部分:Teaching Ontology Construction (教学本体构建) 、Documents Retrieval (文献检索) 及Fuzzy Inference (模糊逻辑推论) 。

第一部份主要工作为教师本体的构建, 第二部份为文件提取, 第三部分则是比对推论。在教师本体构建中, 本系统提出教师本体代理人及日制记录机制;而在文件提取部份中, 提出检索代理;最后在比对部分中, 本系统提出文献分类代理及模糊映射机制。各项代理人及机制功能简述如下:

(1) Profile Construction:记录首次登入本系统使用者的个人基本资料。

(2) Log Recording Mechanism机制:记录使用者每一次上网的浏览行为。

(3) Personal Ontology Construction Mechanism机制:利用提取描述数据库以及在数据库的动态行为的资料, 自动转换成以OWL描述的文件。

(4) Documents Retrieval 代理:在网络上搜索相关的资料并且将资料传送至分类机制。

(5) Documents Classification 机制:将互联网所提取的文件进行分类并储存至Documents Repository。

(6) Fuzzy Mapping 机制:从教师本体以及文档库中所得到的资料进行模糊逻辑找出使用者所需的相关文件及资料。

4模糊推论机制

模糊推论本体与领域知识本体不同之处在于将归属程度嵌入每一个概念里, 构成模糊概念。在模糊推论本体中, 其每一个模糊概念都含有两种模糊概念关联。

4.1教师行为推论

Lee et al提出的Fuzzy Inference机制推论出教师类型的归属程度, 在此将教师上网的浏览信息, 分别以浏览网页的次数、时间以及互动性作为模糊变数进行推论, 且搭配OWL 文件中定义Ontology架构, 进而推断教师行为类型。

(1) 输入语言层:

此层第一层是负责直接将输入的值传送至下一层, 假设第i个“教师”的输入向量为Xi= (X1i, Xi2..., Xij) , 则Xij为第i个“教师”的第j个模糊变数。

μundefined= ( (xi11, xi12, …, xi1k1) , (xi21, xi22, …, xi2k2) , (xij1, xij2, …, xijkj) )

(2) 输入项:

这一层次是执行第一个推论步骤, 即计算输入模糊变数的每个模糊语意项的M隶属程度。本论文里采用的为三角形归属函数, 而三角形的归属函数可用三个参数[α, β, γ]所决定, 其函数如下所示:在教学管理行为知识本体系统中, 给予四个输入的模糊变数。

μundefined= ( (xundefined, xundefined, …, xundefined) , (xundefined, xundefined, …, xundefined) , (xundefined, xundefined, …, xundefined) )

(3) 规则节点:

此层是规则层, 每一个节点代表用以表示一条模糊推论规则, 这一层级的连结完成模糊逻辑规则前项假设的Match, 因此, 规则节点必须执行模糊AND运算, 且其输出必须连结至第四层级的关连语意节点, 在本研究中, 这些规则是由专家事先定义的, 其中模糊变数TIT表示教师上网浏览时间, 模糊变数TIF教师上网浏览频率, 模糊变数TII表示教师上网互动性, TBT表示教师所属的类型。假设第i个“教师”里的j个模糊变数, 分别算出的Match Degree都是第1个语意项。

(4) 输出项层:

该层的输出节点是执行模糊OR运算来整合有相同后项的模糊规则, 假设:FL、FM及FH为输出的规则节点, 并且分别连结到Low、Medium及High的语意项, 函数Centroid () 为解模糊化重心法的处理程序。

undefined

(5) 输出语言层:

主要在于完成解模糊化的处理, 以求得教学管理类型 (TBT) 的归属程度。将所算出来的重心做加权平均的运算, 则第i个“教学管理类型”的输出结果如下所示:

undefined

最后, 比较各类型教学管理的归属程度, 取其最大值为该教师知所属类型。例如:A教师的行为类型归属经模糊推论后, 各类型归属程度分别为教学导向:中、研究导向:高、服务导向:中, 则该教师推论结果则为研究导向的教师。

4.2模糊均值分类

理想的分群法则是希望将n个资料分成k个群数, 使得同一群中的资料相似性高于其它资料;而所谓相似性就是该点到类聚中心点的归属度大小, 故归属函数与类聚中心点得的位置就是Fuzzy C-Means所要求的, 为了求得最佳解, 我们定义效能指标与阀值, 一旦效能指标越小于等于阀值, 表示有较佳的分群结果。至于文献检索的部分, 本研究中的文献检索代理从网络上提取相关资料, 其提取资料的依据是来自所定义的概念;所谓的概念是一些与教学、研究与服务资料相关的关键词的同义词, 而分类的结果将会分为教学、研究与服务三种导向的资料, 再分别将这三种类型的资料储存至文件库, 以供模糊推论比对后可将分类好的资料呈现给使用者。

5系统实现

5.1系统功能概述

系统网页中主要分为5大部分:

(1) 在校务相关信息:包含教学信息、最新消息和行政会议的记录等。

(2) 课程信息中:列出教师可能的相关用书, 包含了系统书目及管理学书目等。

(3) 教学资源:包含远距教学网、国内教育资源网与本校特色教育资源等。

(4) 研究发展:列出了国内一些相关的研究中心和研究机构等。

(5) 论文信息:记录学校最新的论文记录。

5.2系统实现

登录系统利用申请的账号跟密码, 登录本系统且开始使用服务。

(1) 未分类文件显示文献检索代理根据定义到互联网搜索比对概念而得到的文件。

(2) 分类文件的呈现使用者可在下次登录系统后, 收到自己可能需要的相关文件, 分类的信息是利用模糊推论技术进行资料分类。

(3) 记录教师在线浏览行为在教师浏览网页时, 系统便会记录教师的在线浏览行为, 以便后续的分析与研究, 使用者结束浏览行为时, 点选推论的连结, 系统便会对教师浏览行为进行模糊推论。

(4) 教师类型转变时, 模糊映射机制便会分析比对的前的数据, 判断该教师类型是否改变, 并于下次登录系统时, 呈现其所属类型的信息。

6结束语

本研究以教师作为研究主体, 通过系统分析与规划, 开发教师本体架构。由实验结果可知, 此基于知识本体的模糊推论方式, 减少昂贵的搜寻成本, 具有一定的参考价值。此外还配合OWL语法、模糊理论等技术, 研究宛成代理人的技术研发, 本研究以人工方式构建教师本体。为了解所建构的教师本体的实用度, 邀请信息技术教师四名进行知识本体论建构分类测试, 使用效果良好。未来希望可以进一步将此系统与研究分析架构应用到相关领域知识教学中去。

参考文献

[1]江鹏.Ontology知识表示的艺术[J].计算机教育, 2004 (7) :41-43.

[2]宋炜, 张铭.语义网简明教程[M].上海:高等教育出版社, 2004.

[3]李善平, 胡玉杰, 郭鸣, 等.本体论研究综述[J].计算机研究与发展, 2004, 7:1040-1050

[4]郁书好, 郭学俊.基于本体的教学知识库研究与应用[J].计算机研究与发展, 2007, 8:161-164.

[5]郝泳涛, 刘峥.基于几何本体的特征建模及制造行为推理[J].微计算机应用.2010, 8:1-8.

[6]谢东成.教师个人知识本体建构技术及其运用.http://ec2006.atisr.org/proceeding/Paper/ec1392.pdf.

基于OWL的旅游领域本体构建实践 篇2

关键词:OWL,旅游,本体,类

(一)引言

一个领域本体是某个应用领域中实体概念及其相互关系的一种形式化描述。领域本体为Agent间和用户间对领域知识的共同理解和认识奠定了基础,并使领域知识的复用变得更加容易,这就为领域知识的管理提供了一种全新的模式。

旅游业是一个涉及吃、住、行、游、购、娱等多方面的综合性产业。旅游信息量大而分散,而目前的旅游信息资源建设存在技术手段落后,缺乏一致性,缺乏广泛共享,信息服务自动化和智能化程度低等缺点。要克服这些缺点就必须构建能得到广泛共识的知识管理模式,构建基于OWL (Web Ontology Language)的旅游领域本体是一种较好的解决方案。

本文首先简单介绍了本体和本体构建方法以及OWL,然后详细描述了基于OWL的旅游领域本体的构建细节并取得了良好的实践效果。

(二)本体与OWL

1. 本体与本体构建方法

本体来源于哲学领域,随着人工智能的发展被赋予了新的含义。本体在计算机领域有多种具代表性的定义,其中Neches等人在1991年给本体下了这样一个定义:给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义。Perez等人给出了本体的5个基本建模元语:classes或concepts、relations、functions、axioms和instances。本体的描述语言有非形式化语言、半非形式化语言、半形式化语言和形式化语言。本体有元本体、顶级本体、领域本体、语言本体、任务本体、方法本体和应用本体等多种类型。本体开发工具有KAON OntoMat SOEP、OntoEdit、Ontolingua、Protégé等。

目前国际上尚无一套构建本体的标准方法,许多学者在具体的应用领域中都提出了相应方案。比较有影响的方法主要有IDEF5法、TOVE法、METHONTOLOGY法、骨架法和七步法等。其中七步法比较简单易行,包含七个步骤:(1)本体领域的确定;(2)复用已有本体;(3)提炼重要词汇;(4)定义概念(或类)和概念(或类)间的层次关系;(5)定义属性;(6)定义Facets; (7)定义实例。旅游领域本体的构建遵循七步法的构建方案。

2.OWL

OWL提供三种子语言OWL Lite、OWL DL和OWL Full。OWL Lite支持那些主要需建立一个分类层次和简单约束的用户。OWL DL支持那些需要在保持计算的完整性和可判定时获得最强表达能力的用户,这里的计算完整性(computational completeness)是指所有的结论都能够确保被计算出来,而可判定性(decidability)是指所有的计算都能在有限的时间内完成。OWL Full支持那些需要最强表达能力和RDF语法自由而无需保障性计算的用户,它允许一个Ontology在预定义的(RDF、OWL)词汇表上增加内涵,从而任何推理软件均不能支持OWL FULL的所有feature。

(三)构建基于OWL的旅游领域本体

1. 定义类及其层次关系

在旅游领域专家的参与下,对旅游领域的知识进行概念化并提炼出主要的顶层类:人、组织机构、景区、旅游线路、交通工具、交通服务、食宿服务、行程、旅游团、景点。组织机构有子类:旅行社、景区经营机构、交通运输企业、食宿企业、旅游局、保险公司、民间组织。景区有子类:水文景观景类景区、气候生物景类景区、地文景观景类景区、抽象人文吸引物景类景区、现代人文吸引物景类景区、历史遗产景类景区、其他景类景区。旅游线路有子类全程线类和地接线路。交通服务有专用交通和公共交通两个子类。交通工具有子类:汽车、火车、飞机、轮船、观光车、索道,等等。利用OWL对部分类定义如下:

2. 创建属性

属性可以被用来说明类的共同特征以及某些实例的专有特征。一个属性是一个二元关系。有两类属性:datatype property表示类元素和XML datatype之间的关系;object property表示两个类元素之间的关系。

3. 设计属性的Facets

OWL中属性的Facets主要有:inverseOf、TransitiveProperty、Symmetric Property、Functional Property、Inverse Functional Property等。旅游领域本体中部分属性的Facets定义如下:

4. 创建实例

本体中的类及其层次结构和属性及其Facets为领域知识体系构建了一个大的框架结构,根据这个框架结构为类添加实例并为实例的属性赋值以约束,这样就逐步建立起该领域的本体知识库。下面是旅游线路的一个实例描述:

(四)结束语

构建基于OWL的旅游领域本体将为克服传统旅游信息服务的缺点打下知识层面的基础。本文首先简单介绍了本体和本体构建方法以及OWL,然后详细描述了基于OWL的旅游领域本体的构建细节并取得了良好的实践效果。基于OWL的旅游领域本体的应用研究是我们以后的工作重点。

参考文献

[1]许俊杰, 鲁东明, 葛锋.基于元数据的旅游信息共享系统研究及设计[J].农机化研究, 2006, (30) :165-168.

[2]NECHES R, FIKES RE, FININ T, et a1.Enabling technology for knowledge sharing[J].AI Magazine, 1991, 12 (3) :36-56.

[3]Perez A G, Benjamins V R.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem-Solving Methods[C].In:Proceedings of the IJCAI299workshop on Ontologies and Problem-Solving Methods (KRR5) 1999:1-15.

[4]Natalya F.Noy, Deborah L.Mcguinness.Ontology Development101:a Guide to Creating Your First Ontology[EB/OL].http://protégé.Stanford.Edu/publications/onto1ogy-development/ontologyl01.pdf, 2009-12-13.

基于领域本体的知识检索系统研究 篇3

第一,忠实表达问题。大多数检索系统主要是借助于目录、索引和关键字等方法来实现,结构单调统一,很多情况下,用户很难通过简单的几个关键词就能够真正表达出他所需要检索的内容,因此表达上的困难导致检索质量的降低。

第二,一词多义问题。不同的检索用户有着不同的检索目的,当以同一组关键词进行检索时会得到同样的检索结果,无法实现用户的特殊检索需求。

第三,同义词问题。基于关键字匹配的检索技术,是严格按照用户提交的查询请求在全文中进行关键字匹配的检索方式,没有理解和处理信息的能力,因此许多与关键词的同义词信息就无法检索出来。

第四,词汇孤岛问题。在人的大脑中,概念之间存在着各种各样的联系,而在基于关键字的检索系统中,这种概念之间的语义联系很难进行描述。

上述问题存在的根本原因就在传统的检索机制没有考虑到用户的检索意图,缺乏对知识的理解、表示和处理的能力,也就是缺少必要的语义性和智能性,以致于知识检索的效率和准确性较低。为了提高信息检索的效率和质量,在设计检索系统时,就需要把检索机制从传统的基于关键字层面提升到基于语义的层面上来,充分考虑用户的检索意图,以避免仅以表达式匹配的方式进行检索而形成的不足。针对以上问题,本文提出了基于领域本体的个性化信息检索方法,充分利用本体具有的良好的概念层次结构以及对逻辑推理的支持,为用户进行检索时提供检索关键词的语义分析,发掘用户在输入的简单的查询请求后所隐含的语义信息,从而更好地理解用户的真正检索意图,以便实现用户个性化的信息检索需求。

本文在充分的了解了领域本体在实现信息检索系统智能化的优越性后,以毕业生就业求职信息检索作为系统开发背景,以提高查全率和查准率为主要目标,采用领域本体作为求职招聘信息知识的组织方式,构建了基于领域Ontology的知识检索模型框架,结合模型框架开发了毕业生求职招聘知识检索系统,实验结果表明该系统能有效地提高信息检索的质量和效率。

1 基于领域本体的知识检索模型

知识检索是指根据用户的知识需求表达形式,在知识库中匹配出满足用户需求的知识项及相关知识内容。基于领域本体的知识检索是指以基于Ontology的知识表示语言表示、检索领域知识,并支持直接用自然语言进行检索的知识检索,具有良好的概念层次和表达能力,能根据一定的规则进行推理和检索。经过对本体论的分析研究,构建了基于领域本体的知识检索模型(图1)。

通过模型可以看出基于领域本体的知识检索与传统的检索区别就在于语义知识检索引入了本体知识库。当用户进行查询时系统会调用本体映射函数将用户的查询请求转化为本体规则约束中已定义好的规范化的同义或相近概念,然后将规范化的概念提交给检索引擎,检索引擎通过与知识库中的知识项进行语义匹配、单词扩展以及词间扩展等处理后,最后将查询结果返回,这样就很好地避免了在词汇理解上的歧义性。正是基于领域本体的知识检索系统能够利用推理机对用户的查询信息进行推理(即系统具有理解和处理自然语言的能力),所以系统在用户进行查询时就能够充分保证实际的检索效率,并能满足不同用户的个性化检索需求。

2 基于领域本体的知识检索系统设计与实现的关键技术

2.1 领域本体的构建方法

在知识检索模型中,领域本体是核心组成部分,它定义了领域内共同认可的概念及概念间的关系,提供了对领域知识的共同理解,对于提升信息检索的准确性起着至关重要的作用。Protégé是用Java编写的一个开放源码的高效的Ontology编译器,具有图形化界面且提供了很多插件和接口,可以将构建的本体存储为各种形式的文件并支持本体的数据库持久化。本研究利用Protégé工具构建领域本体,构建步骤如下:

第一,确定本体的领域和范围。在现实社会中多数领域和学科都存在着很大的交叉性,要想使得检索系统能够很好地为领域服务并提升检索效率,就需要明确领域所在的范围。本研究以毕业生就业管理为背景,采用领域专家问答的形式,将领域范围限制在求职简历及企业招聘信息,并结合人力资源等材料,将与该领域相关的知识部分都涵盖进来,以此来扩充领域知识,进而为验证实验系统的可行性提供保障。

第二,定义知识领域中的重要概念和术语。每个行业中都有其专业性的术语和概念,根据所要研究的领域性质,将在该领域内的专业性概念进行收集,本研究的概念收集主要通过各大院校毕业生就业管理部门的文献资料以及大型招聘网站上的数据资料。

第三,建立本体框架。在明晰了将要构建的领域本体的概念间的关系以及概念集合的定义后,就需要对步骤2中的这些概念集合之间的关系和重要性进行一个宏观的构建,进而形成具有领域性的本体框架。本研究的主要概念集合有:毕业生(Graduate)、简历(Resume)、企业(Enterprise)、招聘信息(Employ Information)等。

第四,设计类,类的属性及其层次关系。根据所要建立的领域本体知识库进行科学性的本体概念类设计,即将具有相似属性的概念集合归为一类,并根据类及其属性来合理的确定其层次间关系,进而为构建丰富的实体以及完善的本体库做准备。

第五,定义属性值和创建实例。属性值即关系的集合,在一个集合里的关系类可以是一个也可以是多个。在完成了领域本体的概念集合和概念的属性集合的建立后,就需要建立概念的实体了,也就是将存储在资源文件文档库中的散乱的文档信息(用HT-ML,XML描述的无结构、半结构的数据),参照已有的领域本体进行语义标注和抽取,构成一个个的实例。

2.2 本体持久化到Oracle 11g

Oracle 11g数据库是基于图表数据模型的,可像操作其他对象关系数据类型一样对RDF三元组进行保存、索引及查询,提供了一种开放统一的语义数据分析管理平台,全面支持RDF及OWL。本研究把本体以RDF三元组的形式存储到Oracle 11g数据库中。持久化(Persistence)即把数据(如内存中的对象)保存到可永久保存的存储设备中,它的主要应用是将内存中的数据存储在关系型的数据库中。持久化是将程序数据在持久状态和瞬时状态间转换的机制。本系统使用Jena API将本体持久化到Oracle 11g。Jena是Java中的一个工具包,它对外提供了丰富的方法、类、接口,因此可以利用Jena对OWL进行存储和查询。其持久化模型如(图2)。

2.3 文件的查询和推理

在对文件进行查询操作时,本系统实现了显式语义查询和隐式语义查询两种查询方式。对于那些已存在于本体知识库中无需进行推理就可以直接获取的信息,我们就采用了显示语义查询来实现;但对于那些一词多义、同义词等具有歧义或在本体知识库没有明确声明的数据,我们就采用了隐式语义查询方式来实现,它根据先前已有的实例和系统或自己定义的规则进行推理来得到相应的隐含信息,并将结果返回给用户。在本系统中所采用的推理机是Jena的Ontology推理机,查询语言是SPARQL。

2.3.1 显式语义查询

SPARQL是面向数据的,可以直接对RDF模型声明的概念和关系进行查询,因此只需要调用Jena包com.hp.hpl.jena.query.Query中的类和方法,并构建相关的查询语句即可实现查询操作。以按照求职简历中的学历进行查询为例,查询语句如下:

2.3.2 隐式语义查询

在RDF模型中有些信息没有进行明确的定义或表达,当用户进行此类查询时,就需要采用Jena的推理机制来对本体知识库中已有的数据进行推理(Jena对于不同类型的Ontology提供了多种类型的Reasoner,在本系统中使用的是OWLReasoner),然后利用SPARQL对推理后的数据进行查询。部分代码如下:

3 系统实现

毕业生就业求职信息检索是一个基于本体的就业知识检索系统,该系统采用B/S架构来进行设计开发。用户通过浏览器来访问系统,并将查询请求通过查询页面提交给Servlet;后台服务器端监听并响应用户的查询请求,通过查询已持久化到Oracle 11g的本体知识库以及利用Jena的推理机制,将查询结果集返回到用户界面,这样即实现了客户端与服务器端之间的通信。

在系统实现的过程中,还有比较重要的就是领域本体的加载,在进行检索前需要在检索系统的根目录中导入先前已构建好的毕业生求职招聘领域本体,并将以TXT格式存储的用户自定义规则复制到根目录的RULES文件夹里,当系统运行时系统会自动调用Protégé工具将导入的领域本体持久化到Oracle 11g中。由于系统已经预先定义并构建与毕业生就业求职相关的领域本体,因此可以直接实施知识检索。另外,本体系统具有一般系统不具备的语义相关性,在检索结果表述方面精度更高,语义指向更明确,同时能够直接显示更多的就业信息,从而提高信息使用效率。

4 结语

为了解决传统信息检索存在的效率低、精度不高以及无法为用户提供个性化服务等问题,本研究提出了将领域本体引入到信息检索的设想,构建了基于领域本体的知识检索模型并实现了一个基于领域本体的毕业生就业求职信息检索系统。实验结果表明该系统在很大程度上具有了智能检索的性能,有效地提高了系统检索的查准率和查全率。但在研究的过程中任然存在几个问题有待解决:本体中的概念都是通过人工提取的无法实现自动化获取,同时实验过程中所构建的领域本体规模比较小,而且只能对HT-ML、XML描述的无结构或半结构的数据进行标注,因此对于领域本体智能检索技术的研究还有待加强。

参考文献

[1]李善平,伊奇伟,胡玉杰,等.本体论研究综述[J].计算机研究与发展,2004(7).

[2]刘俊平,李书振,张志毅.智能搜索引擎实例分析[J].计算机应用研究,2003(1).

[3]施晓华,黄骥.信息检索新技术应用[J].情报科学,2005(8).

[4]Sougata M,Bhuvan B,Pankaj K.Information Retrieval and Knowledge Discovery Utilizing Patent Semantic Web[J].IEEE Trans actions on Knowledge Data Engineering,2005(8):1099-1110.

[5]刘植惠.本体与语义网[J].重庆图情研究.2006(7).

[6]宋峻峰,张维明,肖卫东,等.基于本体的信息检索模型研究[J].南京大学学报,2005(2).

[7]周宇.基于本体的课程知识检索系统研究[J].图书情报工作,2009(22).

旅游领域本体知识库 篇4

关键词:本体,软件工程,知识库构建,知识检索

知识作为国家文化软实力、文化产业中重要的组成部分, 它的发展和应用关系国民经济发展、社会科学的进步。而知识库的概念来自两个不同的领域, 一个是人工智能及其分支-知识工程领域, 另一个是传统的数据库领域。由人工智能 (AI) 和数据库 (DB) 两项计算机技术的有机结合, 促成了知识库系统的产生和发展。基于知识的系统 ( 或专家系统) 具有智能性, 并不是所有具有智能的程序都拥有知识库, 只有基于知识的系统才拥有知识库。

1 基本概念以及现状分析

“本体”是‘本’和‘体’两个独立的汉字组成的汉语复合词。‘本’字的基本含义是植物的根, 引申义是事物的本源或来源;‘体’字的基本含义是人的身体, 引申义是事物的身体或形体。在人工智能界, 最早给出本体 (Ontology) 定义的是Neches等人, 他们将本体定义为“给出构成相关领域词汇的基本术语和关系, 以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。Neches认为:“本体定义了组成主题领域的词汇表的基本术语及其关系, 以及结合这些术语和关系来定义词汇表外延的规则。”后来在信息系统、知识系统等领域, 越来越多的人研究“本体”并给出了许多不同的定义。其中最著名并被引用得最为广泛的定义是由Gruber提出的, “本体是概念化的明确的规范说明”。

目前就本体语义检索而言, 在国外存在有很多的检索体系, 譬如:Ontbroker、SKC以及Swoogle等语义检索系统。而我国的本体语义检索系统尚且正在处于一个起步开始的阶段, 在研究进行的过程中国内的相关专家学者对于语义检索内容的及结果的相对准确率较低。

2 本体下的软件工程领域知识库构建方法

软件工程的本体构建是在软件工程知识库构建的核心。领域本体的具体内容包括软件领域知识的内涵关系、知识结构以及属性说明等。以维基百科为例分析本体下软件工程领域知识库的合理构建。

2.1 维基百科的数据分析

维基百科 (英语:Wikipedia) 是一个强调Copyleft自由内容、协同编辑 (Collaborative Editing) 以及多语言版本的网络百科全书, 该网站也以互联网作为媒介而扩展成为一项基于Wiki技术发展的世界性百科全书协作计划, 并由非营利性质的维基媒体基金会负责相关的发展事宜。是由来自世界各地的志愿者合作编辑而成, 整个计划总共收录了超过2, 200 万篇条目, 而其中又以英语维基百科以超过404 万篇条目的数字排名第一。2015 年5 月19 日中文维基百科被关键字屏蔽和DNS污染, 而其他语言的维基百科暂未受到影响, 可以正常访问。

维基百科社区已经制定了许多方针和指引以改善这部百科全书, 但并不一定要完全熟悉这些规则后才能够作出贡献。维基百科的内容与规则是由志愿者所共同决定, 维基媒体基金会大多仅作为辅助的角色, 不干涉百科全书的内容。访客只需要依据方针, 便能够改善维基百科、修正百科解释。无论是任何年龄、来自何种文化或社会背景的人都可以参与维基百科的行列。任何人只要能连上互联网都可按下“编辑”的链接来修改多数条目的内容, 而世界上也的确有上百万人正在这么做。每个人只需要符合维基百科的编辑方针, 都能够自由添加信息、参考资料或者是注释。不需要担心不小心破坏维基百科的架构, 社区成员们会适时的提出建议或者修复错误。

2.2 有效的知识选择

维基百科的具体分类主要有页面导航、主题、目录划分这几个方面的内容, 这些设定从不同程度上方便了用户对资料的找寻和品读。在其知识库建立的过程中, 注意知识点与知识点之间的内在紧密联系, 将这些分散的软件工程知识运用他们之间的内在关联进行有效的组织和整理, 软件工程知识库的知识处理方式是知识到密集型信息再到知识处理结构这样一个知识处理模型当中。

在软件工程领域知识库的构建中有两部分主要的工作内容, 第一是知识的储备, 第二是知识的有效检索。传统意义上的语义检索是在关键词查找的结果上进行的, 但是由于用户个人所出具查找关键字词的不确定原因导致检索输出的内容与用户的查找意图不相匹配, 这主要是用户自身知识积累欠缺, 与用户自身有着很大的关系。所以构建本体下的软件工程领域知识库有助于帮助提高语义检索输出的结果与用户实际的检索意图相吻合这一技术成果的实现。

3 结束语

随着社会时代的发展, 知识的储备数量越来越多, 为实现更为精确准确的语义检索系统, 尽最大可能的切合用软件用户的查找意图, 这对本体下知识库的建立来说是时代赠与他们的挑战。本体下的软件工程领域知识库的构建是一个及时更新、时时变动的运动过程。软件工程在整个计算机技术领域都有着至关重要的地位作用, 本体的知识结构领域具备语音层面的结构意义, 它能够简单的进行用户思维逻辑的模仿, 从而达到实现用户精确的知识资料查询, 是本体下软件工程领域知识库构建的主要研究方向。

参考文献

[1]马晓丹, 邓晓晴, 彭文娟, 阎红灿.基于领域本体的知识库架构和实现[J].河北联合大学学报 (自然科学版) , 2012, 04:42-47.

[2]于鑫刚, 李万龙.基于本体的知识库模型研究[J].计算机工程与科学, 2008, 06:134-136.

[3]袁磊, 张浩, 陈静, 陆剑峰.基于本体化知识模型的知识库构建模式研究[J].计算机工程与应用, 2006, 30:65-68+104.

[4]刘雁昆.基于本体的软件工程领域知识库构建方法研究[D].北方工业大学, 2015.

上一篇:如何上好一年级体育课下一篇:创新教育培养