信息检索最终论文

2022-05-12

今天小编为大家精心挑选了关于《信息检索最终论文(精选3篇)》的文章,希望能够很好的帮助到大家,谢谢大家对小编的支持和鼓励。摘要:信息技术为人们的生活带来了巨大的改变,随着社会信息化程度的加深,各个行业、各个领域逐渐涉及到信息技术,逐渐开始重视对信息的处理与审视。信息管理与审视的主要手段是利用信息管理系统进行操作,目前在社会各个领域中备受关注。

第一篇:信息检索最终论文

跨语言信息检索及其相关问题

摘要:网络信息技术的飞速发展产生了丰富的海量信息资源。信息资源所采用语言的多样性和用户所掌握语言的差异性,带来了信息检索的多语言或跨语言困难。跨语言信息检索是为了适应这一发展要求而诞生的信息检索检索方法和技术。本文对跨语言信息检索的渊源、跨语言信息检索方法以及跨语言信息检索模型等进行了讨论。

关键词:信息检索;跨语言检索;检索模型;多语言信息资源

信息技术的发展产生了大量的数字信息,人们进入了海量信息资源和大数据时代。特别是互联网技术的快速发展,因特网上的信息资源类型和数量愈来愈丰富,所使用的语言愈来愈具有多样性。网络资源语言的多样性和网络用户所掌握语言的差异性不可避免地给人们利用网络检索信息带来了语言障碍。这种语言障碍极大地限制了人们对信息资源的有效获取,跨语言信息检索由此应运而生。跨语言信息检索由康奈尔大学的Salton于20世纪70年代初首先提出。他利用手工编制的英语—德语双语种词表,进行了跨语言信息检索的尝试;1973年,他又编制了英语—法语词表,并对跨语言信息检索的效率进行了评价。1964年,法国道路研究实验室开发了“国际道路研究文献系统”,该系统通过英、法、德三种语言索引词构成的多语言受控词表来实现跨语言信息检索。跨语言信息检索是指用户以自己熟悉的一种语言来构建和提交查询提问式,从多语言信息资源系统中检索出符合用户需求的另一种或多种语言描述的相关信息资源。例如,输入中文的提问式,从多语言信息资源系统检索出英文、法文或中文及其他语言描述的相关信息资源。用户查询提问时所使用的语言称之为源语言,而系统检索出的信息资源所包含的语言称之为目标语言。跨语言信息检索,可分为双语言信息检索和多语言信息检索。双语言信息检索是指用户以自己熟悉的语言提交查询请求,除源语言之外,系统可检索到另外一种语言表达的文献信息,即目标语言为另一种语言。多语言信息检索是指用户以自己熟悉的语言提交查询请求,除源语言之外,系统可检索到另外多种语言表达的文献信息,即目标语言为多种语言。相对于双语言信息检索,多语言信息检索往往更符合网络用户的查询需求。与跨语言信息检索相对应,查询提问式语言和检索出信息资源表述语言相同的信息检索称为单语言信息检索。跨语言信息检索是传统计算机信息检索技术和语言自动处理技术的有机结合,涉及语言学、情报学、计算机科学等多门学科知识,是一个综合性强、富有挑战性的研究领域。源语言和目标语言的统一是跨语言信息检索的关键技术,信息检索模型则是实现查询和信息资源匹配的重要理论基础。本文对此都进行了讨论,以利于图书馆员们更好地了解和掌握跨语言信息检索相关技术。

一、跨语言信息检索方法

跨语言信息检索一般可以分为如下三个过程:①多语言信息资源的搜集以及多语言信息索引的建立;②应用语言自动处理技术实现提问语言(源语言)和信息资源表述语言(目标语言)的统一;③应用单语言信息检索技术实现查询提问式与索引信息的匹配,得到检索结果。其中源语言和目标语言的统一是实现跨语言信息检索的关键技术,主要通过提问式翻译、文献翻译、中间语种转换及非翻译方法等四种方式来实现。提问式翻译是指将用户提交的查询请求翻译成系统支持的多种语言,然后对不同语言的信息集进行查询。提问式翻译主要有字典和语料库两种方法。其核心思想在于通过语料库中不同语种同一信息的对应关系对提问式进行翻译并且过滤提问式翻译后产生的非正常翻译结果。提问式翻译是实现跨语言信息检索较为经济的方法。其缺陷在于,系统返回的信息仍然用目标语言表达,只能算一种不完全的跨语言信息检索。文献翻译是指在信息检索之前,将文献信息资源表述的目标语言转化为查询提问式的源语言。目前实现文献翻译的方法主要有机器翻译和基于字典翻译文献索引词方法。文献翻译的优点是检索结果用提问语言描述,用户能够方便地选择利用。同时,文献层次的翻译与提问层次的翻译相比,其语境更加宽泛,比较容易消除歧义。不足之处在于要求所有被检索信息改变语言表述,而现有机器翻译系统的正确率还难以达到令人满意的程度,无法达到实用水平;此外,将数据库中全部文献从目标语种翻译到提问语言工作量大,代价昂贵。中间语言转换是将提问的源语言转换成中间语言,再把中间语言转换为信息资源的目标语言,或者是把提问的源语言和信息资源的目标语言都转换为中间语言。中间语言通常是计算机容易自动处理的语言。这种方法常用于多于两个语种的跨语言信息检索或者两种语言之间不存在直接对应转换的跨语言信息检索。非翻译方法是指不对提问语种或者信息语种进行翻译而实现跨语言信息检索的方法,即潜语义索引。这种方法的实现方式是,首先将原始文档与相对应的翻译文档建立联系,构建训练文档集,然后利用奇异值分解技术对其进行分析,获得双语文档集的特征信息和检索词的映射关系,最后以平行文档中的语词检索出另一语言的相关信息。这种方法的优点是,不需要字典、词表和机器翻译系统,也不存在翻译过程中消除歧义的问题,具有很高的灵活性和适应性;不足之处在于对具体问题构造优化的向量空间模型是一种经验型的工作,且向量空间模型的奇异值分解计算需要时间,训练文档不容易获取。

二、跨语言信息检索模型

信息检索模型是信息检索中的一个重要理论问题。已有的单语言信息检索模型包括布尔模型、向量空间模型、概率模型、统计语言模型和语义处理模型等。这些信息检索模型在跨语言信息检索中有着重要的作用。布尔模型是一种基于集合论的检索模型。在该模型中,一篇文档通过称之为标引词的关键词来表示,文档语义内容中标引词的重要性用一个二值权值来表示,一个查询表示为多个标引词通过逻辑联结词连接的表达式。布尔模型结构简单、容易实现,但只能判断文档相关或不相关,无法描述与查询条件的匹配程度情况。模糊集合模型和扩展布尔模型在此方面进行了改进。在模糊集合模型中,将文档看成与查询在一定程度上相关,每一标引词都存在一个模糊的文献集合与之相关。扩展布尔模型吸取了模糊集合模型和向量空间模型的长处。在该模型中,一篇文档对应的标引词被赋予了一个0~1之间数值的权值,文档与查询的相似度通过公式来计算。布尔模型及其扩展模型在跨语言信息检索的查询翻译消歧中得到成功应用。向量空间模型是将文档和查询表示为向量的检索模型。在该模型中,标引词在一篇文档中的权值是一个0~1之间的实数。查询中的标引词也有一个正的加权值。文档向量与查询向量夹角的余弦用来计算它们之间相似度。向量空间模型能根据相似度对检索结果进行排序,有效地提高了检索效率。其不足之处在于标引词被假定为相互独立,这样会丢掉大量的文本结构信息,且相似度计算量大。为此,人们对向量空间模型进行了改进,提出了广义向量空间模型。广义向量空间模型已应用于跨语言信息检索,其基本思想在于根据双语言训练文档集分别建立源语言与目标语言的检索词——文档关联矩阵。在源语言与目标语言之间建立映射关系,在不需要翻译的条件下实现跨语言信息检索。概率模型是基于概率和随机过程理论的检索模型。在该模型中,一个用户查询对应一个由相关文档构成的集合,称之为理想集合。如果知道理想集合的特征,就可以找到所有的相关文档,剔除所有的无关文档。概率模型具有严格的数学理论基础,采用相关反馈原理克服了不确定性推理的缺点。但其参数估计难度较大,缺乏理论知识。于是人们将统计学引入到概率模型中,形成了各种基于贝叶斯网络的检索模型。推理网络模型是概率模型的一种扩展形式,它模拟人脑的推理思维模式,将文档与用户查询匹配的过程转化为一个从文档到查询的推理过程。跨语言信息检索系统InQuery是基于贝叶斯推理网络模型的信息检索系统,InQuery允许使用查询算符,这在跨语言信息检索中是非常有用的。统计语言模型是关于某种语言所有语句或者其他语言单位的分布概率,也可以将统计语言模型看作是生成某种语言文本的统计模型。根据马尔可夫链的阶数,统计语言模型分为一元语言模型和多元语言模型。一元语言模型假设词与词之间是相互独立的,一个词出现的概率与这个词前面的词没有必然联系。多元语言模型假设词与词之间是相互关联的,一个词出现的概率与这个词前面的词存在一定的关联。根据目标词前面其他词个数的多少,多元语言模型可被划分为二元语言模型、三元语言模型等。统计语言模型检索方法能够利用统计语言模型来估计与检索有关的参数,在如何改善检索系统性能方面有更加明确的指导方向。但该方法隐含着词汇相互独立关系,没有考虑词汇间的相互影响。统计语言模型已经应用于跨语言信息检索,并在解决查询翻译的语言歧义性中发挥重要作用。概率模型和统计语言模型可以看作在同一概率框架下不同的推导结果,然而统计语言模型却克服了传统概率模型在概率估计上的不足。如果不进行查询扩展,概率模型的效果要稍好于统计语言模型。如果进行查询扩展,那么统计语言模型进行跨语言信息检索的效率更高。语义处理模型能够探究词语背后所指代的本质概念,明确词语的主题范畴,识别同一概念的各种表示形式。在该模型中,词语的含义、词语和文档之间的语义关联、文档的相似度分析,采取了从文档结构入手的潜在语义分析方法,以及从内容入手的利用知识组织体系的本体方法。潜语义标引模型将标引词之间、文档之间的相关关系以及标引词与文档之间的语义关联都考虑在内,将文档向量和查询向量映射到与语义概念相关联的较低维度空间中,从而将标引词向量空间转化为语义概念空间,并在降维后的语义概念空间中,计算文档向量和查询向量的相似度。潜语义标引模型克服了同义词和多义词对检索结果的影响。本体模型将用户的信息需求通过共享本体转化为计算机可理解的查询表达。为了提高查全率,再通过共享本体中概念与概念之间的关系扩展查询表达。在跨语言信息检索中,潜语义标引模型将有代表性的文档与其对应的翻译文档联系起来形成训练文档集,利用奇异值分解技术对双语检索词——文档关联矩阵进行奇异值分解,获得双语文档集的特征信息以及检索词用法上的映射关系,最后根据平行文档中语词的用法特征检索出另一种语言的相关信息。基于本体的跨语言信息检索比常规的单一语言信息检索在查全率和查准率方面有明显的优势。

传统的信息检索技术,往往只能帮助用户使用自己熟知的一种语言提出查询。互联网技术与数字图书馆技术的发展产生了大量的多语言信息资源。这样,不同的用户可能会使用不同的语言提出查询,同一个用户也可能采用同一种语言来查询不同语言表述的信息资源。由此,表述信息资源的语言的多样性以及用户使用语言的差异性,带来了信息检索的语言障碍。跨语言信息检索是为满足此要求应运而生的新方法和技术。数字图书馆以及网络信息资源服务是图书馆业务拓展的新平台,跨语言信息检索是这些资源服务中必须采用的技术手段,了解和掌握跨语言信息检索相关技术对于图书馆员有着重要的意义。

参考文献:

[1]Witten Ian H.et.al.Greenstone:Open-Source digital Library Software[J].D-Lib Magazine,2001,7(10):288-298.

[2]Wiederhold Gio.Digital Libraries:Value and Productivity[J]. Communication of the ACM,1995,38(4):85-96.

[3]Douglas W Oard,Anne R Diekema. Cross-language Information Retrieval[J]. Annual Review of Information Science and Technology,1998,(6):223-256.

[4]骆卫华.跨语言信息检索方法概述[J].数字图书馆论坛,2006,(9):1-7.

[5]Kazuaki Kishida. Technical issues of cross-language information retrieval:a review[J]. Information Processing & Management,2005,(41):433-455.

[6]吴丹,齐和庆.信息检索模型及其在跨语言信息检索中的应用进展[J].现代情报,2009,29(7):215-221.

作者:张彦文

第二篇:档案信息检索技术探析

摘要:信息技术为人们的生活带来了巨大的改变,随着社会信息化程度的加深,各个行业、各个领域逐渐涉及到信息技术,逐渐开始重视对信息的处理与审视。信息管理与审视的主要手段是利用信息管理系统进行操作,目前在社会各个领域中备受关注。其中尤其档案信息管理是目前比较常用的信息管理系统,而且档案信息管理技术对于机关、企业等领域来说非常重要,有着独特的属性,如何提高档案信息管理的效率,笔者认为要从档案信息检索技术入手,提高档案信息检索技术的有效性将会是档案信息管理工作现阶段以及未来必须重视的课题。

关键词:档案信息;检索技术;档案管理

随着时代的进步,科学技术日益完善,信息技术的发展与更新未来传统档案管理带来了新的挑战,經过很多年的累积、收集、整理档案数量十分庞大,而且目前对档案利用的方式却发生很大的变化。从传统的档案管理来看,主要是以手工信息检索的为主,在检索之前需要制作带有目录的条目卡片,让后续使用更加方便。随着时代的发展,机械式信息检索随之出现,主要是设备上的进步,采用了打孔机、分类机等等设备,能够对二次文献进行更好的记录与收集,而且可以通过电刷进行更加有效率的检索。每一次对检索方式进行改善都是一次进步。在信息技术的支持下,这些传统方式都无法满足现代档案信息管理与使用的要求,对设备依赖大,而且非常复杂,并且检索效率与检索质量都不高。因此,档案信息检索技术在这样的背景之下产生,利用计算机能够提高档案检索的效率与质量。目前,为了提高对档案的使用率,广大研究者逐步开发了档案管理系统,为了达到实现档案信息共享还建立了档案数字化馆,不仅实现了实现了档案信息化检索的目标,而且扩大了检索的范围,质量更高,能够满足广大人群事实检索的要求。可以说,档案信息检索技术的推出,让档案信息再次“活”起来。

一、档案信息检索技术的发展

信息化的发展带来新的技术、新的文化以及新的交际方式。信息技术在档案管理的应用中得到了前所未有的发展,但是从目前发展的现状来看,还有很多地方需要进行改善。目前,档案管理系统开发了档案信息检索功能,广大用户可以通过档案信息检索系统进行目标查询,用户一般在查询档案信息时采用的是关键字模糊查询,而相关查询结果则是事先经过录入做好顺利排列之后进行输出的,虽然具备检索的功能,但是其检索结果并没有像预期一样达到用户真正需要的检索意图,甚至没有对查询中一些关键因素进行深入的分析,比如,关于关键词出现的频率,关键词出现的位置以及关键词的重要程度等等,因此,很多时候检索结果都是无序状态,甚至和用户想要查询的结果没有存在基本的关联性,最终无法并没有真正满足到客户的实际需求。类似这样的档案信息检索结果并没有真正的意义,尤其是从广大用户的角度来看,这样的检索不仅浪费时间,而且整个检索过程异常乏味,而且大部分用户不可能去一一查看结果。因此,针对目前的档案信息检索存在的一些普遍问题,本文的研究主要是基于原来的基础上进行改进,主要是针对目前默认的查询结果进行改善,让查询结果排序更加人性化,以相关度为依据从高到底来进行显示,这样能够让用户在极短的时间内检索到自己想要的信息。

档案的价值最终体现在“用”这个环节上,如果档案一直被存放在库房而没有被使用,档案也就失去了原有的价值,更是一张张等着发霉的废纸。如何针对档案信息化系统进行改进,如何做好档案信息检索,如何才能在庞大的档案信息中准确找到自己的想要的信息,这才是我们必须要关注并且解决的问题。随着信息技术的发展,数字化档案建设之后浏览的人数与日俱增。而且不同的人有自己不同的思维模式,就大部分人来说他们对档案的记忆都是非常模糊的、片段的,本身自己的查询意图就不明确,在查询时一开始都是以试探的方式进行。如何满足这些用户的实际需求,如何让用户能够准毫无遗留的找到档案信息,这就要档案信息管理系统必须具备一套非常强大并且人性化的检索功能,让广大客户能够根据检索具备的基础条件进行更好的查询,这样查询结果将会更加准确、更加效率。目前,能够满足不同的用户不同需求的检索功能,主要包括了全文检索、图片检索、目录检索等。

二、档案信息检索技术

(一)信息检索的原理

所谓信息检索是一般是根据某种方式将各种信息进行重新组织,然后根据用户的查询需求将对应的信息反映给用户的一个过程。档案信息检索包括了:索引检索、查询处理、文档检索几个方面。

第一,索引生成。设计档案信息检索系统时必然会涉及到索引生成,那么如何选择索引与如何选择索引方法以及关键词表分词方法都显得非常重要。索引生成会涉及到EM算法、NGram算法、HMM算法等,它们都是统计学原理当中的分词方法,但是这种计算方法使用的范围比较小,而且工作量也很大。

第二,查询处理。档案信息在具体检索的过程中,用户在使用的过程汇提出查询条件,比如:关键词、自然语言、表达式等等,而且整个档案信息检索功能对于用户输入的查询条件不能肆意更改。例如,档案信息检索系统如果没有对用户给出的查询条件进行及时的处理,这样便会影响查询的准确率。因此,根据用户的查询条件一般要做好语义处理,这样才能准确领悟到用户想要表达的一切查询意图,通常使用的处理方法有关联矩阵、相关反馈、潜语义分析等等技术。

第三,检索。检索系统直观理解就是对关键词进行查询的处理方式,给用户及时提供查询出来的结果。检索系统的工作程序比较简单,通常可以利用对应的模型来对查询结果的关联性进行排列,主要的方式有:概率模型、布尔模型以及向量模型。

(二)检索的相关性

第一,系统相关性。系统相关性是查询结果与提出文档之间的匹配关系,在具体操作中会受到用户的个人习惯操作习惯的影响,文档的特征与实际操作包含了:语法表述、分类表、索引、文献组织、分析检索提问等等。系统相关性从本质属性上来分析是比较片面的,通常是将重心放在整个查询过程的系统的当中,这样就会忽略了用户的实际感受。

第二,用户相关性,是用户发出的查询结果与信息需求之间的匹配关系。目前,档案信息检索过程涉及到的数据量也非常巨大的,此时用户的实际操作将会影响到整个信息检索过程。而且需要考虑到用户在实际查询过程中一个心理变化过程,因此,要将用户相关性与档案信息检索的相关性充分结合起来,经过对比分析之后,得知前者更加能够提高检索结果的准确率。

三、 档案信息模糊检索

早在1956年,美国著名的自动控制专家、加州大学著名教授扎德第一次将模糊集合理论提出来,最开始是为了解决一些模糊不清的问题,目的是通过模糊集合理论将这些模糊繁杂的问题集中化、明确化。随着时代的发展,模糊集合理论被引用到信息领域当中,并且有了很快的发展,目前在档案信息检索中有属于一种非常常用的信息处理方式。档案信息模糊检索主要在检索的过程中针对字符串或者文件中一些相关部分将其作为关键词进行检索的一种方法,例如,如果检索的内容特别多,那么用户只需要记住想要查询内容的一部分作为关键词就可以进行信息检索,从而提高检索系统的可用性。

目前,很多系统的所有数据都提供了模糊检索功能,例如,SQL Server 数据库,针对这两个数据库进行模糊检索的时,要通过like关键字对定义检索类型进行约束从而形成模糊检索,同时还需要使用通配符号来进行模糊定义,例如:SELECT Field Name List FROM Table Name List WHERE Condition LIKE“aa<通配符>”,表示从表 Table Name List 中检索关键字是“aa<通配符>”的 Field Name List 字段。针对查询条件来看,通配符有这些表达形式:

第一,%,也就是代表多个任意字符;

第二,_,代表长度为1的单个任意字符;

第三,[],指定[]中某个对应的字符;

第四,[^],主要是指一种差值上的操作,可以理解为除[]之外的单个字符。

档案信息模糊检索与精确检索对比起来,模糊检索在结果范围上会更大,从而有效的提高了查全率。模糊检索在软件上的配置能够提高软件的实用性。基于模糊查询的实现原理来看,模糊检索的优点主要有这些:

第一,方便。模糊检索可以说为一些非专业领域的用户提供了很大的便利,在模糊检索的引导下更加容易理解与操作,用户不需要掌握专业技术、专业内容、专业规章,就可以直接通过软件或者系统提供的模糊检索功能通过关键词开始进行检索。

第二,易用。模糊检索一般采用的语言是常用的自然语言,这与受控语言有很大的区别,自然语言有一个非常大的优势便是非常符合用户平常的检索系统,有了模糊检索的这项功能,用户在使用检索功能时就不需要对关键词进行概念转化。通常自然语言具有比较丰富的标引检索入口词,因此可以提高检全率,从而为广大用户提供更加便利的服务,由于其实际操作非常简单,适合的人群就比较广泛。

第三,启发。模糊检索的范围很广,但是经常获得冗余结果,这样也不会影响到用户的检索需求,例如,查询结果集非常大,用户则可以根据当前结合的启发,再从里面选取需要查询的关键字,从而实现更加准确的检索。

四、档案著录与档案标引分析

档案著录与档案标引是档案信息检索系统的基础。档案著录主要从整个档案信息中提炼出符合用户查询要求的索引信息,将其完整收录下来,并且针对档案内容的主题进行分析,從而判断出该档案信息是否符合用户查询的要求。在经过概念转换之后能够让检索语言的整个过程更加规范化,然后再利用档案标引能够将档案信息中与一些文本信息不同之处揭示出来,这个过程有着比较显著的特点:

第一,目前,大部分档案所收集、记录、归档的信息是属于原始类信息,一般要更改原始类信息的可能性还是非常低的;

第二,档案信息内容涉及面非常广,但是分类非常明晰;

第三,无论什么类型的档案信息必须要符合专业标准,例如,要具备一级目录、二级目录、三级目录等等,并且还要具有文号信息、实体分类号、全宗号、案卷号以及文件号。

第四,档案信息要具备可以准确、快速被识别的特点,也就是每一个档案信息都必须要有对应的档案编号,编号是独一无二的。

第五,档案信息密级划分一般是5个级别,每一个级别所包含的授权信息内容与权限都不一样,不能混淆。

第六,档案信息的保管期限划分为3种,过期的档案要及时销毁。

第七,关于档案信息的必要追究责任。档案信息本身要具备非常明确的归档单位,要有对应的负责人,如果档案信息出现删除、篡改、泄漏等等情况,要对其追究法律责任。

五、结果统计排序方法分析

档案信息检索的最终目的是将检索的结果及时反馈给用户,但是由于现在的档案信息量特别大,导致信息检索的结果数量也非常大,一般用户是不会将检索结果一一全部浏览完,而且这本身也不符合档案信息检索开发的便利性原则。目前,档案信息检索主要采用的是模糊检索,而模糊检索一般情况下无法有效避免出现繁杂结果的问题,而繁杂的结果必然会影响到用户对检索结果的阅览性。因此,需要一个良好的结果统计排序机制,有效控制繁杂结果的出现,为广大用户提供更好的服务。从档案信息检索结果来看,结果之间地位肯定不会是对等的。根据结果是否能够满足用户检索的预期目标,一般将检索结果划分为目标结果与冗余结果,当然用户在对档案信息进行检索时肯定希望能够得到满意的结果,通常只会关注检索结果的最靠前的几条记录。由此可见,对档案信息检索结果的排序就显得非常重要,而且良好的排序也直接影响到用户的使用体验。排序无疑是检索的最为关键的一步,假如没有进行合理的排序,那么档案信息检索出来的结果必将失去价值。检索排序是基础性工作,也就是检索的必经步骤。而检索技术是对信息有效过滤最为有效的方法,通过检索才能获得高质量的信息。

综上所述,档案信息检索技术要从检索的基本原理入手,对检索的过程相关性分析,尤其是要了解检索相关性与用户相关性。另外,模糊检索是当前档案信息检索最为有效的检索功能,虽然无可避免模糊检索过程中会带来目标结果与冗余结果,但只要从这方面深入研究,结合档案信息的特殊性,从而对结果统计进行合理的排序,提高档案信息的利用率。

参考文献:

[1]赵进龙,霍明明.RFID技术在档案信息检索中的应用研究[J].电子世界,2016,(14):53.

[2]孙梅霞.新形势下档案信息公共服务方式研究[J].兰台世界,2015,(23):105106.

[3]方婷.信息技术在档案中的应用[J].东方企业文化,2015,(02):66+68.

[4]于雪红.数字档案信息安全防护对策分析[J].黑龙江史志,2014,(09):160.

[5]刘华珍.档案信息检索研究成果的统计分析[D].辽宁大学,2014.

[6]赵春苗.计算机技术在档案信息管理中的应用[J].科技创新与应用,2014,(07):250.

作者:马木生

第三篇:网络信息资源检索方法研究

摘 要:为了在拥有海量信息的因特网中充分挖掘信息资源,本文介绍了目前比较常用的信息检索手段和方法,阐述了有关隐蔽网络数据资源检索策略。对一些不能被常规检索方法获得的信息进行分析,利用隐蔽网络搜索引擎和专门的隐蔽网络目录等特殊的检索手段对蕴藏在网络中的信息资源进行挖掘,从而达到充分利用网络资源的目的。

关键词:搜索引擎;隐蔽网络目录;数据库

作为知识经济时代不可缺少的工具,因特网将全世界的信息资源带到我们面前,使得人们获取信息资源的渠道得到极大拓展。如何对大量的网络信息进行挖掘、分析、处理,并从中提炼出有价值的内容,成为摆在人们面前亟待解决的问题。目前,搜索引擎被公认为是最好的,也是我们最常用的信息检索方法。不过,单纯利用常规搜索引擎进行信息检索,很多信息无法被命中,资源利用率相对较低。繁杂冗余的内容充斥着网络,难以甄选;而真正有价值的信息资源却蕴藏在网络深处,与我们擦肩而过,无人问津。

1 常见的网络信息检索手段和途径

1.1 利用搜索引擎

目前互联网上主流的搜索引擎有:百度、360搜索、Google等等,人们几乎每天都要用到,利用这些搜索引擎,直接输入检索内容,就可得到与之相关的网址信息,使用起来简单便捷,上手快,不需要任何检索知识也可以轻松找到一些诉求信息。另外,对于学术性较强的检索,可以利用Google Scholar这样的综合性学术搜索引擎,适合专业的研究人员和学者使用,可以从中挖掘出更权威、价值含量更高的信息,但要求使用者具备一定的网络知识和信息检索水平。

1.2 资源分类主体目录

一些网站通过对网络信息进行人工评价、组织整理,形成网络主题指南,实现了资源分类的目的。像雅虎、360等门户网站导航以及Open Directory开放式目录等,分类一目了然,组织有序。用户可以根据信息需求的类目找到相应入口,缩短查找时间,提高检索效率。

1.3 专业性和综合性数据库

有的数据库收录学科比较窄,具有很强的专业性,虽然仅限于某学科专业的信息,但收录该领域的信息比较全面,如美国《化学文摘》、Worldcat联合目录等。像工程索引(EI)收录的学科就比较广泛,涉及信息的种类比较多,属于综合性文摘数据库。

2 查询隐蔽网络数据库的特殊技术手段

在浩瀚的网络资源中,有这样一类网址,它们蕴含着丰富的信息资源,内容也十分有价值,但实际利用率却很低。因为它们并没有被其他的网页链接,这些被称为“未被链接”的网址是无法通過那些常用的方法检索命中的,需要借助一些专门的网站,采用特殊的处理方式来进行查找。据不完全统计,通过搜索引擎和网络目录搜索到的信息大约只占网络信息资源的三成左右,其余的资源对于这些搜索工具是不可见的,成为隐蔽网络。隐蔽网络数据库的查找手段目前主要是利用搜索引擎挖掘和隐蔽网络专门目录。

2.1 利用搜索引擎查询隐蔽网络数据库

查询隐蔽网络数据库主要手段是利用网络搜索引擎,在检索主题词后面加入类似“searchable database”或“interactive tool”等名称,便可以检索到符合以上查询形式的数据库,然后利用数据库本身的检索系统查询具体的内容。数据库经常使用的名称有:database、search engine、searchable database、online collection、catalog、index等。此外,在检索框中输入“search form”能更好地限制检索结果,如“logistics”+“database”+“search form”可以有效地过滤掉那些仅仅含有“database”这个词,但不是数据库形式的信息资源,而找到真正与物流相关的数据库。

此外,还可以利用专门的学术搜索引擎,这些系统都关注隐蔽网络学术信息,通过一般检索手段很难系统全面地搜索到其中的内容。比如:Base是世界级海量内容的搜索引擎之一,专注于学术开放获取网络资源。Vascoda是一个交叉学科门户网站,它注重特定主题的聚合,集成了图书馆的收藏、文献数据库和附加的学术内容。

2.2 利用隐蔽网络专门目录

隐蔽网络专门目录是经过人工挑选,学术资源质量较高,得到学术研究团体广泛认可的搜索工具。例如隐蔽资源平台Complete Planet就是比较大的网络目录之一,它收录了数万个隐蔽数据库,列举了近百个主题,在各个主题下又包括了更细化的分支领域。此外,还有各个行业领域的的专门性目录,这些目录全面地、系统地整理了相关领域的网络资源。

3 网络信息资源检索的发展趋势

3.1 智能化。

智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。近几年来,智能信息检索作为人工智能的一个独立研究分支得到了迅速发展。在Internet技术迅速普及的今天,面向因特网的信息获取与精化技术已成为当代计算机科学与技术领域中迫切需要研究的课题,将人工智能技术应用于这一领域是AI走向应用的一种新的契机与突破口。

3.2 多样化。

多样化首先表现在可以检索的信息形态多样化,如文本、声音、图像、动画等。目前网络信息检索的主体仍是文本信息,基于内容的图像检索技术和语音识别技术的发展,将使多媒体信息的检索变得逐渐普遍。图像信息检索的准确率、检全率将进一步提高。多样化的另一个表现就是检索工具向多国化、多语种化方向发展。网络的迅速普及,使得整个世界变成了地球村,世界各地上网人数的不断增多,使得英语已无法满足所有用户的需要,语言障碍越来越明显。以后主流数据库和检索平台必将提供更多语种的版本,或者提供更加智能化的在线翻译服务。

3.3 个性化。

个性化主要指检索平台内容的特色化和服务的定制化。网络资源的指数级膨胀,使得用户在获得自己需要的信息资源时要花费大量的时间和精力,每个人的不同信息需求将凸现于标准化、单一的“大众需求”之上。未来检索平台为了吸引用户眼球,必将着重发展自己的特色主打产品,做到资源内容 “与众不同”。同时,利用大数据分析用户的检索内容和检索习惯,根据其兴趣、爱好、关注方向等因素,主动为其推送合适的资源内容,为其量身打造特色服务,更好地满足用户的信息需求。

4 结语

网络信息资源是无比庞大的,我们只有根据具体的情况,去确定最合适的检索策略,才能事半功倍地获取有价值的信息。常用的搜索引擎可以让我们快捷地查询到工作、学习相关的信息,已经成为我们网络生活中不可缺少的一部分。而那些隐蔽信息更蕴含着检索人员难以置信的财富。遨游“看不见的网站”可获得那些不容易查找的宝贵资源,那种成就就好比在早期地图上发现未被标识的新大陆一样,充满了惊喜和满足。随着互联网技术不断发展,网络资源检索的方法和途径也将与时俱进,推陈出新,更加智能、先进的检索手段必将使我们的信息需求得到更好的满足,帮助我们更好地认识这个信息世界。

参考文献:

[1]熊莹.关于科技文献信息检索方法的研究[J].科技传播,2014,6(21):24-25.

[2]毕欢.网络信息检索及其发展趋势研究[J].电脑知识与技术,2018(10):8-9.

[3]刘兴达.计算机信息检索技术的发展及问题研究[J].科技与创新,2018(02):121-122.

[4]李丹立,周飞.浅析检索数据库的选择[J].现代经济信息,2019(14):432.

[5]赖宏慈.图书馆信息检索途径分析[J].科技资讯,2010(19):254.

[6]周思繁.浅谈网络信息检索方法及技巧[J].科技文献信息管理,2015,29(02):17-19.

作者:孟津

上一篇:现代汉语词汇论文下一篇:工程测量测绘论文