全文数据库检索实习题

2023-02-04

实习阶段不同于校园学习,学生既能提升实践能力,也能体会到职场中的人际交往模式,以下是小编整理的关于《全文数据库检索实习题》,欢迎大家借鉴与参考,希望对大家有所帮助!

第一篇:全文数据库检索实习题

实习一 中文数据库检索实习

1.利用SinoMed检索中国医学科学院院长、中国协和医科大学校长刘德培近10年来以第一作者发表的献(写出检索流程和检索结果)。

1: 新乡医学院图书馆 中文数据库 中国生物医学文献服务系统sinomed 2:检索入口 作者 刘德培 出版时间 2002—2011年 选择中文库 检索

3:中国生物医学文献数据库 作者检索 4:刘德培 第一作者 5:共检索有关文章22篇

2.利用中国知识资源总库检索2000年以来发表在核心期刊上有关肝癌基因治疗方面的文献(写出检索流程和检索结果)。 1:新乡医学院图书馆 中国知识源总库CNKI 2:关键词 肝癌 基因治疗 从2000年—2011年 核心期刊 3:精确检索

4:结果 共194条

3.利用维普数据库检索近5年发表在《中国组织工程研究与临床康复》上除白血病以外的脑出血方面的文献(写出检索流程和检索结果)。 1:中文数据库 中文科技期刊数据库-维普 2:高级检索

3:J=刊名 中国组织工程研究与临床康复 K=关键词 脑出血

不包括K=关键词 白血病

扩展检索条件 时间2006年—2011年 4:检索

5:检索20篇文献

4.利用万方数据医药信息系统医药期刊检索尼群地平治疗高血压方面的文献(写出检索流程和检索结果)。

1:中文数据库 万方医学全文库 2:跨库检索 关键词 尼群地平

关键词 高血压

点击医药期刊 3:检索

4:共找到106篇有关文献

5.利用国家知识产权局专利数据库检索“华兰生物工程股份有限公司”的专利。(写出检索流程和检索结果)。

1:百度 中华人民共和国国家知识产权局

2:高级检索

3:专利人

华兰生物工程股份有限公司

检索

4:发明专利 8条

第二篇:外文全文专利文献及目录检索实习报告 一.

1.数据库名称:EBSCOhost全文数据库中的Business Source Premier

2.检索词:(1)e-commerce、e-business、electronic commerce

(2)platform

(3)applicat*(application、applicative)

3.检索式:(1)and(2 )and (3)

(e-commerce or e-business or electronic commerce)and platform and applicat*

4.检索途径:(e-commerce or e-business or electronic commerce)为TI Title

(platform)为TI Title

(applicat*)为TX All Text

5.检索结果数:31

6.检索结果摘录:

题目:Measuring the coverage and redundancy of informationsearch services on e-commerce platforms.

1作者:Ma, BaojunWei, Qiang

出处:Electronic Commerce Research & Applications. Nov2012,Vol. 11 Issue 6, p560-569. 10p.

1.数据库名称:中国知识产权网

2.检索词:胶原蛋白、提取、制备

3.检索词间的逻辑关系:(胶原蛋白)and(提取or制备)

4.检索途径:“胶原蛋白”为名称 ,“胶原蛋白提取”为摘要,“提取,制备”为说明书

5.检索结果数:15

6.检索结果摘录:

专利名称:一种鹿筋胶原蛋白的制备方法

申请号:CN201010143571.2

申请日:2010.04.12

公开号:CN101805775A

公告日:2010.08.18

申请人:赵雨

第三篇:WEB全文信息检索技术

摘要:本文探索了在INTERNET网上实现全文检索的技术。计论了从网上信息的标引、分类等预处理到组织信息检索的过程,并就智能检索技术的发展进行了阐述。 关键词:信息检索 因特网 全文检索

一、前言

Internet网是目前全球最大的、最有影响力的信息网络,它将政府、学校、图书馆、商务场所、研究机构和其它组织中的局域网(LAN)集成为一个单一的、庞大的、跨越全球的通讯网络。越来越多的人们利用这一网络与世界各地的人进行交流。如何利用Internet网获取有价值的信息,已成为科研人员必备的一项基本技能。

因特网是一个开放型的巨大的信息资源库,拥有上千万台以上的主机和过亿的用户;并且由于因特网信息蕴含的无限丰富,信息组织、表达的直观、生动以及信息服务的方便性和多样性,愈来愈多的信息搜索者被其独特的魅力所吸引。而在近几年,因特网用户的数量更是成倍地增长。可见,因特网检索已成为实际上最普及、最受关注、最常涉及的信息检索领域。

二、概述

网上的信息具有数量大、形式多、内容广、专业性不强等特点,给情报搜集、分类、检索等工作带来了新的问题和挑战。如何充分利用因特网上的信息资源正成为情报科学研究者所关注的热点。全文信息检索就是概据Internet信息的特点而发展起来的一种检索方式。它主要指研究对整个文档信息的表示,存储、组织和访问,即根据用户的查询要求,从信息数据库中检索出相关信息资料。

全文检索的中心环节是文件内容表达、信息查询的获得以及相关信息的匹配。一个好的全文信息检索系统不仅要求将输出信息进行相关性排列,还应该能够根据用户的意图、兴趣和特点自适应和智能化地调整匹配机制,获得用户满意的检索输出。

要实现全文检索,首先必须对WEB信息进行预处理。

三、WEB信息的预处理

信息预处理的主要功能是过滤文件系统信息,为文件系统的表达提供一种满意的索引输出。其基本目的是为了获取最优的索引记录,使用户能很容易地检索到所需信息。

(1)格式过滤:信息预处理应该能够过滤不同格式的文档,以及图片、声音、视频等信息。这使得搜索引擎不仅能够检索文字,而且能够检索原始格式文件的所有信息。

(2)语词切分:语词是信息表达的最小单位,而汉语不同于西方语言,其句子的语词间没有分隔符因此需要进行语词切分。常用的语词切分方法有按词典进行最大词组匹配、逆向最大词组匹配、最佳匹配法,联想-回溯法、全自动词典切词等。近年来,又出现了基于神经元网络的和专家系统的分词方法和基于统计和频度分析的分词方法。

(3)词法分析:汉语语词切分中存在切分歧异,如句子“网球拍卖完了”,可以切分为“网球/拍卖完了”,也可以切分为“网球拍/卖完了”。因此需要利用各种上下文知识解决语词切分歧异。此外,还需要对语词进行词法分析,识别出各个语词的词干,以便根据词干建立信息索引。对于英语语词,建立索引之前首先要去除一些停顿词(如常见的功能词“a”,“the”,“it”等)和词根(如“ing”,“ed”,“ly”等)。

(4)词性标注和短语识别:在切分的基础上,利用基于规则和统计的方法进行词性标注。在此基础上,还要利用各种语法规则,识别出重要的短语结构。

(5)自动标引:从网页文档中提取出一组能最大程度上概括其内容特征、可作为用户检索入口的关键性信息,用该组信息对文文件进行标引,使用户可以通过输入关键信息检索到该文文件的简要信息,如标题、摘要、时间、作者和URL等,进一步点击可查询到该文 1 档.

(6)自动分类:建立并维护一套完整的分类目录体系,根据文文件的信息特征,计算出与其相关程度最大的一个或多个分类,将文档划归到这些分类中去,使用户可以通过浏览分类体系直接查询到该文档.

.

四、检索

检索包括文件信息表达和查询信息表达以及相关信息预测过程。

(1)信息表达:信息的表达有多种方式,如布尔表达、矢量空间表达、自然语言表达等,每种表达方式由应用系统服务者提出并由整个应用系统的目的和需求所决定,并对应于相应的存储模式和检索算法,信息查询和组织的效率,也就是速度和存储的空间在很大程度上决定了检索服务系统的性能。

(2)查询分析:用户端的查询信息首先要进行分析处理,提取出查询项索引、逻辑表达式或其它查询特征描述。和文件信息索引不同的是:查询索引处理是及时地提交处理形成索引,而文件信息索引是由搜索引擎按某种策略进行远程数据的搜索和获取预先生成的本地索引。查询索引和文件索引采取同样的表达方式,因此能够采取相似性估计算法检索出相关文件。

(3)查询扩展:近年来,为了提高信息检索的性能,将应用领域知识和索引、相关性、估计、查询表达相结合实现查询扩展,即查询索引还包括不在用户查询中出现的查询词部分。典型的知识库查询扩展应用如图1所示,知识库中存储的知识为原始查询增添了相关词,从而扩展了原始查询。

(4)查询词的选择策略:

·非独立词:非独立词指的是和查询词具有较大相关性的词。但是预先必须计算文件集合中的所有词之间的相关性。

·反馈词:根据用户反馈的文件信息,按照在相关文件和非相关文件中词的出现频率和分布决定出重要的词,将这些词增加到用户查询中。

·交互式选择:用户从通过上述策略得出的待选词中决定最后的查询词。

反馈网络属于人机交互范畴,目的在于提高查询性能和针对性。不同的用户根据实际情况提供不同的反馈信息,不同的信息检索服务系统按照其功能与检索方法也有不同的反馈结构和交互方式,因此查询结果也不尽相同。

(5) 信息检索模型:信息检索系统的核心是搜索引擎,它需要从大量复杂信息中,筛选出符合用户需要的信息。根据搜索引擎查找相关信息方式的不同,可将信息检索分为:布尔逻辑模型、模糊逻辑模型、矢量空间模型以及概率模型等。

2 布尔逻辑模型布尔逻辑模型是最简单的检索模型,也是其他检索模型的基础。标准布尔逻辑模型为二元逻辑,即一系列对应于文件特征的二元变量。这些变量包括从文件中提取的文本检索词,有时也包括一些更为复杂的特征,如数据、短语、私人签名和手工加入的描述子。在布尔模型中有确切的文件特征表达集合。用户可以根据检索项在文档中的布尔逻辑关系递交查询。匹配函数由布尔逻辑的基本法则确定。所检索出的文档或者与查询相关,或者与查询无关。查询结果一般不进行相关性排序。

模糊逻辑模型为了处理精度和复杂性之间的矛盾,引入了模糊逻辑模型,它以逻辑真值为[0,1]的模糊逻辑为基础的,以隶属函数概念来描述现象差异的中间过渡。在查询结果处理过程中引入模糊逻辑运算,将所检索的文件信息和用户的查询要求进行模糊逻辑比较,按照相关性的优先次序排出查询结果,在布尔检索中借助模糊逻辑模型能够克服布尔逻辑查询结果的无序性。

矢量空间模型和布尔检索模型不同,矢量空间模型中查询和文件都映射为同一n维空间矢量。利用奇异值分解(SVD)、查询词和文件的内部结构联系,通过欧几里德距离和余弦法则作相似性比较,根据矢量空间的相似性,排列查询结果。矢量空间模型不仅可以方便地产生有效的查询结果,而且能够提供查询结果分类,为用户提供准确定位所需的信息。

概率模型在信息检索中存在不确定性问题,对查询本身来说,它不能唯一地表示信息需求,对于结果来说,定查询结果的正确与否。对于布尔检索也是如此,因为查询的提交本身就是一种不确切方式。为了解决在布尔检索模型中的不确定性问题,引入了概率检索模型。该模型基于概率排队理论:当文件按相关概率递减原则排列时可以获得最大的检索性能。

五、全文信息检索技术的发展

目前的全文检索技术还存在着一些未尽人意的结果,主要是通常的信息检索系统性能较低,原因是将孤立词和词汇术语作为查询描述子,因而文件内容的相似性较差。智能化信息检索是人工智能和信息检索的相结合的产物。它能使信息检索系统“理解”用户的信息需要和文件包含的信息内容。它在对内容的分析理解、内容表达、知识学习、推理机制,决策等基础上实现检索的智能化。

目前人工智能和信息检索的结合主要包括三方面:(1)信息检索和专家系统:主要研究方向是开发一个专家中介系统来协助查询形成、搜索策略选择以及预测检索文件;(2)信息检索和自然语言处理:它实际上是以字或词为符号的一种符号系统。目前自然语言处理对信息检索的应用仍停留在简单语言处理上,例如确认词根和词组等。(3)信息检索和知识表达:此领域的研究主要是通过应用领域知识来理解文件和查询的信息内容。

目前,虽然某些在WWW上的信息检索服务系统采取了智能用户代理的等方式,可以根据用户事先定义的信息检索要求,在网络上实时监视信息源,如指定Web页面的更新、网络新闻、电子邮件等,并将用户所需的信息通过电子邮件等方式,主动提供给用户,减少用户检索信息的时间。但是商用信息检索系统仍主要以布尔模糊逻辑为主,辅以部分自然语言的处理。智能化信息检索技术的发展,特别是知识学习和知识库以及人机交互方式的应用,将大大提高信息检索服务系统的精度和相关性。随着智能化技术的发展,全文信息检索技术必将更广泛地应用于网上信息检索领域。 附:参考文献

1)、WWW上的全文信息检索技术,金燕等,计算机应用研究,1999年第一期,P40-43 2)、全文数据库建库原理与应用技术,王兰成等,情报学报,1999年第4期 3)、H T Ng, W B Goh, K L Low. Feature Selection, Perceptron Learning, and a Usability Case Study for text Categorization. 20th annual international ACM SIGIR conference on Research and development in information retrieval, July 27-31, Philadelphia, 1997, 67~73

3 4)、MicrosoftCorporation.VisualInterDev6.0Programmer’s Guide[M].希望电子出版社,1999 5)、杨文清,黄宜华,张福炎. 中文Web文档库全文检索技术研究与实现. 中文信息学报,1999,13(4): 49~56

英文文献原文

The contributions of this dissertation are as follows: 1. A Chinese Web page classification algorithm that is based on SVM-Decision Tree is presented. The multiple-class classifier is composed of SVM and binary decision tree and used for Chinese Web page classification. The category whose amount of training examples is maximum is selected as the category that can be identified by current classifier and the training data of remain categories is used as negative examples when a new classifier is constructed. It can reduce the train scale of SVM classifier and improve the training efficiency. During the test process, each classifier is called in the order that it was constructed. The experiments show that it not only reduces the size of train set, but also has very high training efficiency. Its precision and recall are also very good. 2. A Chinese Web page classification algorithm that is based on the combination of SVM-Decision tree and clustering is proposed. For multi-class classification, the classifiers are composed of SVM and binary decision tree. Combined with some clustering method, we select those negative examples that may be support vectors with high probability and add them to the SVM training set. Any page can be classified by comparing the distance of clustering centers or by SVM. Experiments show that this method can greatly reduce the train scale of SVM classifiers and improve the training efficiency. Its precision and recall are also very high. 3. A valid method to use the unlabeled web page data to improve the classifier which has only a few labeled training examples is designed. It first selects some web pages with high similarity and appropriate difference from the unlabeled web page pool using vector space model and adds these unlabeled examples to the labeled training set. SVM classifiers are retrained and used for classification again. Experiments show that this method can use the unlabeled data effectively and enhances the training set. It improves the classification recall and reduces the need for labeled training examples. 4. An open Chinese web document classification system is designed and implemented. Several Chinese web page classification algorithms and research work on using unlabeled data to improve classification performance presented in this thesis are integrated into this system. It is also designed according to the practical need of experiments and use. Modular architecture is adopted to facilitate functional expansion and

4 performance improvement. 5. The application of character-based indexing technology to the search of Chinese web documents is studied. Because Chinese Web documents deal with many fields and change quickly, it is difficult to create a dictionary large enough for the information processing demand. Different meanings occur often during Chinese word segmentation and can result in segmentation errors. Some results are skipped over or some errors occur during the process of searching some words because of these problems. The recall and precision are low in these cases. Organization structure, retrieval algorithm and compression of character-based indexing is discussed in detail. Byte aligned compression method is proposed. The structure and implementation of the entire system are described at last. This system is proved to have good response time and precision and be a practical one by tests.

第四篇:2中文数据库检索-大

实习二中文数据库检索

实习目的:

1、掌握中文数据库的检索使用(维普、万方和CNKI)。

2、掌握关键词的选取、逻辑算符和检索字段的使用,能合理制定检索策略;能写出专业检索式。

3、掌握不同数据库的文献导出功能,和引文(参考文献)的规范著录格式。

4、了解英文数据库的检索使用。

实习题目:

一、在以下课题中任选择一题,分别在三个数据库中检索相关论文。

①3D打印技术的相关论文

②锂电池在汽车行业中的应用

③数字化地形测量技术的研究

④银行业的知识产权保护研究

要求:

1.分析课题,提取检索概念,用关键词表达,并考虑关键词的不同表达形式:

2.利用关键词和逻辑算符构造检索式:

第3-6步请在三个数据库中分别进行。

3.限定检索字段,确定实际的检索策略:

4.进行检索,记录检索结果数量:

5.记录文摘信息1条:

6.导出所选文献的引文格式:

7.熟悉维普数据库的查看同义词、查看同名著者等特色功能。

8.熟悉万方和知网的结果聚类功能。

9.如有时间或课后自行了解使用其他数据库,如银符考试模拟题库、新东方多媒体学习库、环球英语多媒体资源库、MeTeL国外高校外文多媒体教学资源库等。

二、练习使用英文数据库。

课题名称:

使用的数据库:

关键词:

检索式:

检索结果:

三、课后小组作业。每班分成8组,任选一个内容,制作PPT,第5次课进行小组演示,每组约5分钟演示时间。课前每组请将名单和PPT发送给学委。

内容1:英文数据库检索实例。

内容2:网络资源交流:专业网站、人气较高的专业论坛、有助于学习或提高学习效率的信息工具和资源的介绍。可从简介、应用实例、同类比较等方面作介绍。

内容3:第8章参考工具(字词典、百科全书、年鉴、手册等,任选一类)资源介绍。

第五篇:数据库信息检索上机说明

实习目的:

1.请先熟悉图书馆主页,了解信息资源以及提供的服务内容。

2.完成实习报告。

实习报告说明如下(按题号顺序说明)

一 中外文图书的检索与使用

1.通过校园网可以访问到哪几种电子图书数据库?中文、英文各列出三个。

略,了解其他数据库资源可从图书馆主页“资源检索”下的“电子资源/数据库”看到各数据库的概要说明。

2.请自行设计检索课题在超星数字图书馆中进行检索,注意检索课题与检索结果之间的相关性,完成以下内容。

检索课题:即要查找的内容,如查找某位作者的图书或查找某一主题方面的图书等。 检索字段:即检索途径或检索入口、检索项等,各数据库中说法不一。就是你选择从“作者”途径、“书名”途径、还是其他途径进行检索。

二 中外文期刊的检索与使用

1.通过校园网可以访问到哪几种期刊全文数据库?中文、英文各列出三个。

可从图书馆主页“资源检索”下的“电子资源/数据库”看到各数据库的概要说明

2.请自行设计课题并分别在指定数据库中进行检索,完成以下内容。在检索结果中选相关度最高的一篇文章并参照以下格式著录: 检索过程:包括检索方式、检索字段、检索词、检索式等,建议进行多字段、多检索词的组合检索,组合检索可以用文字叙述,也可以用检索式表达。同时检索的限定条件也要写清楚,如时间限定、期刊范围限定等。外文数据库检索时请注意使用截词等检索技术。 检索结果:严格按照报告中给出的范例格式书写。范例如下:

姚东金.金融业计算机系统的安全性.金融电子化,2000(4): P.19-23.

三 请利用万方《中国学位论文全文数据库》自命课题进行检索,写明检索过程。略

四 简述布尔逻辑检索技术并与所学数据库结合说明如何使用。

布尔逻辑检索技术包括什么,分别说明其功能。并结合数据库给出具体实例说明如何使用。

五 请利用搜索引擎在互联网上查找一份本专业的文献,将检索过程与检得文献的URL列在下面。

URL:统一资源定位符 (Uniform Resource Locator),如需说明用的什么搜索引擎,查找什么内容,并把过程和结果写清楚。

上一篇:清网行动先进事迹材料下一篇:区委书记调研街道汇报