网络信息搜索

2024-05-16

网络信息搜索(精选6篇)

篇1:网络信息搜索

《信息海洋,网络搜索》教学设计

一、教案背景

本节课是学生在掌握了互联网信息浏览基础知识上的一个提高课,主要学习利用搜索引擎在互联网上查找信息,寻找有关问题的答案,让学生体会使用搜索引擎带来的快捷与方便。

二、教学课题

生活中的“开心辞典”——信息海洋网络搜索

三、教材分析

本节课选用的教材是华中科技大学出版社出版发行的《网络技术应用》九年级上册第2课《信息海洋网络搜索》。本节课主要教学内容是使用搜索引擎在互联网上查找自己所需要的信息,包括搜索引擎的相关知识和使用技巧。这节课是学生利用网络进行探究学习的必备知识,也是以后更进一步学习分类下载的基础。

四、教学目标

1、知识与技能:了解搜索引擎的相关知识,掌握多种条件搜索的相关技巧。

2、过程与方法:以游戏方式引入使用互联网搜索答案,布置任务让学生以小组合作的形式共同完成学习任务。

3、情感态度与价值观:以解决生活中问题为切入点,培养学生使用搜索引擎自主探究学习的良好习惯。树立正确的上网意识,引导学生正确认识互联网带给我们的快捷。

四、教学方法

引导式教学、任务驱动法、自主探究

五、教学重难点

教学重点:认识搜索引擎的概念及使用方法

教学难点:使用多条件关键字查询,筛选出合适的信息

六、教学过程

(一)、教学导入

同学们都听说过“开心辞典”吧,今天我给大家也组织一次“开心辞典”,看同学们知识积累的怎么样。发送“开心辞典”题目到学生桌面上,让学生自己完成其中的答案。

教师提出问题:生活中遇到这些形形色色的问题,我们如何找寻答案? 学生:可以请教同学,家长,老师,可以查询相关书籍,上网搜索等等。。

(二)、信息搜索的方法

1、提问:“刚才有同学提到在网上搜索,那么如何在网上搜索出自己想要的答案呢?用的什么工具?”学生思考回答

2、介绍搜索引擎。

搜索引擎是帮助我们查询网上信息的服务网站,它的作用相当于我们生活中的114查询台一样。

常用搜索引擎:百度,谷歌,搜狐„„

3、演示搜索“蚂蚁传递消息依靠什么”问题的答案 方法:①打开百度网站,选择“网页”分类 ②在搜索框内输入关键字“蚂蚁” ③点击“百度一下” ④显示查看搜索结果

此时,百度会显示出很多相关网页,如何筛选自己想要的信息? 学生思考后总结进一步添加关键字。

4、学生动手完成课本第34页的10个问题,通过网络搜索找到答案,总结搜索的方法。

(三)、学生登录e21教学网站进一步学习总结搜索的各种方法:总结常见的搜索方法,比较几种方法的区别,然后完成“搜索方法对比表”(通过网站学习培养学生自主探究学习的习惯)。

(四)、布置任务:

组织去武汉春游,大家在网上搜索下去的路线,费用。分组进行搜索,完成任务。任务完成后派代表展示搜索出的成果,并一起交流。

(五)课堂小结

师生共同总结搜索的方法,特点和技巧。

七、教学反思

本节课教学中充分利用了网络资源,通过教学网站这个互动平台为学生的自主学习,协作学习,整个教学过程比较顺利,基本完成了教学目标,通过游戏的方式引入课题,激发学生学习兴趣,调动了学生的学习积极性,通过引导提问的方式锻炼了学生积极思考,自主探究的习惯。

篇2:网络信息搜索

深圳市龙岗区南联学校

陈海兰

课时:1课时

教材:小学信息技术四年级下册第二课《网络资源大搜索》

教案背景:

随着Internet网的普及和发展,小学生对这种新型的网络环境产生浓厚的兴趣,他们通过网络聊天、网络游戏对Internet并不陌生,对信息搜索也有一定的认识,具备了一定的能力。但是作为小学四年级的学生,他们对是非和好坏信息的分辨能力还不够,同时他们的兴趣和注意力也容易转移,所以我通过主题式活动激发学生兴趣,通过任务型教学让学生在完成任务的过程中获得知识,同时也形成了搜索信息的能力,掌握关于搜索引擎的一些基本技巧。

教学课题:

《学习任务单在信息技术课中的应用》是我校近期的课题之一,《中小学信息技术课程指导纲要(试行)》明确指出信息技术的教学以任务驱动为教学内容设计的中心思想,通过设定各种不同的学习任务对教学内容进行组织与整合,让学生在解决问题的学习活动中了解并掌握信息技术的各种知识、技能,达到培养和提高信息及时素养的目的。

在这一节课上,我用网络课件来给出任务单,同时提供给学生足够的帮助,让学生能过任务驱动的教学+学生自主学习的学习方法来学习信息搜索这一课。变“要我学”为“我要学”,很大程度地提高了学生的学习积极性。

教材分析:

在信息社会,面对铺天盖地迎面而来的各种信息,高效地获取有用的信息来支持自己的学习和工作,是新世纪青少年必须具备的信息素养之一,本节课主要针对这种需要设计,但教材本身结构和内容相对简单枯燥,本人结合实际,以“五一劳动节”的来源为主线,重新设计了教学内容和教学过程,以增强学生的兴趣,增强学习效果。

教学方法:

本节课采用主题活动式教学,通过任务驱动的教学+学生自主学习相结合的学习方法,教师尽可能让学生多尝试,通过反复尝试理解如何高效地搜索信息。教师可以组织学生开展竞赛活动,如何才能“在最短的时间内找到你想要的信息”,让学生自己做总结,教师注意引导,一是强调关键词的准确性,二是提倡使用多个关键词搜索资源。

教学目标:

1、知识目标:

1、掌握信息检索的几种主要策略与技巧。

2、能利用计算机解决学习和生活中的实际问题。

2、情感目标:

学生通过使用搜索引擎解决生活中的实际问题,增强其对信息技术课程的学习兴趣。

3、技能目标:

学会如何利用Internet去搜索有用的资料,学会如何去运用这些资料。教学重点

掌握搜索引擎的目录类搜索、全文搜索。教学难点:

掌握关键词搜索的技巧

教学过程:

一、创设情境,激发兴趣

[教师活动]:指导学生登录教师网页。

[教师活动]:播放关于国庆的FLASH动画.引出话题:同学们都知道五一劳动节我们会放假,那么为什么五一劳动节会有假期呢?五一劳动节是怎么来的?

二、自主研究,共同探讨

1、听一听:

[教师活动]:不知道五一节是怎么来的,怎么办?去网上找。介绍搜索引擎。

2、试一试:同学们交流探讨,试一试如何利用因特网查找五一劳动节的由来。

[学生活动]:小组探索,试着去网上搜索五一劳动节的由来。

[教师活动]:让先查到的同学汇报自己的搜索结果和所使用的方法及所使用的搜索引擎

[学生活动]:回答五一节的由来,自己所使用的搜索引擎,以及搜索时所使用的关键词。

[老师活动]:带领学生总结常用的网络信息搜索方法:

① 分类检索

② 关键词搜索

[学生活动]: 想一想,以上两类信息搜索方法中我们平时用的最多的是哪一类方法?你知道为什么吗?

[教师活动]:总结出常用的搜索引擎网址: Google:http://

雅虎:http://

百度:http://4、赛一赛:

[教师活动]:对全班进行分组。讲述竞赛规则:答对者,给所在小组加十分,抢答错者,扣十分,其他小组继续抢答。

[教师活动]:给出竞赛题目,给小组计分。

[学生活动]:利用网络进行搜索获取答案,先查到的立即举手示意进行抢答。

5、说一说:

[学生活动]:根据自己在搜索过程中的心得体会,说一说如何才能使用搜索引擎准备快速地找到自己需要的信息。

[教师活动]:引导学生进行总结描述,对总结正确的同学给其小组加分。

6、老师总结:

[教师活动]:总结搜索技巧:

1、关键词要精简

2、可以使用多关键词

3、精确查找的几种技巧:使用双引号、使用+号、使用-号。

4、不要局限于一个搜索引擎

三、协作学习,展示交流

[教师活动]:播放电子贺卡,提问问题:五一出去玩,去哪里比较合适?为什么?具体线路如何?应该采取哪种出游方式?

[学生活动]:各小组分工合作,作一份五一出游方案。比一比,看哪个组做的五一出游方案最详细,最经济,最有吸引力。

[教师活动]:广播各小组的五一出游方案。

[学生活动]:选出最佳出游方案

四、总结归纳

[教师活动]:今天我们学习了在英特网上搜索信息的简单方法,知道了怎么样去利用Internet解决实际生活中的问题,这是比报纸、电视、广播更好、更主动的一个获取信息的工具。我们要很好的利用这个工具为我们以后的学习和生活服务。

学习评价方式学习评价设计

1、测试形式与工具(打√)

堂上提问(√)

书面练习()

达标测试()分组竞赛(√)合作完成作品(√)

电子作品()

2、测试内容

(1)、学生利用搜索引擎搜索“五一节的由来”,教师提问。(2)、分小组进行抢答竞赛,教师计分,评出优胜小组。

(3)、学生分组完成任务,制定一个五一出游计划,老师展示,学生评比。

教学反思

这节课采用的是主题活动式教学,通过对这节课的反思,我认为信息技术教师要想上好一堂课,不仅要分析教材,精心设计课堂,把活动安排得很细致,更要考虑周全,有随机应变、驾驭课堂的能力,要能调动气氛。教师引导者的作用要发挥得很好,在过程中给学生帮助与指导。同时,由于学生有不同的学习风格、认知基础,教师应了解学生的学习特点,利用分组合作式的学习,通过同伴的影响提高学生的认知。

在这一节课中,我要求学生能掌握检索的几种主要策略与技巧,能利用计算机解决学习和生活中的实际问题。我利用一个五一节的电子贺卡创设情境导入,同时引导学生参与听一听、试一试、说一说、想一想、赛一赛、比一比,充分调动学生的积极性。在这些过程中学生基本上能够掌握利用关键词快速地搜索,达到了老师预期的目的。在提出最后的任务时我也采用电子贺卡引入,让学生在放松的同时不知不觉地进入了下一个环节。在这个环节中,学生利用Internet去搜索需要的资料,并对搜索到的资料进行挑选处理,做出一个五一出游方案。虽然每个小组都做出了自己的出游方案,但是由于时间太短,学生普遍是选择的跟旅游团出游,这样就导致了学生制作方案的大部分资料是旅游站点给出的,自己进行综合处理的资料比较少,跟老师预期的效果有些出入。

我的教学策略是让学生参与课堂教学之中,让学生由被动学习变为主动学习。以任务驱动、小组合作交流探究为主要活动方式,在分组过程中强调优势互补的合作方式。由于学生的信息技术能力水平参差不齐,为了完成本节的活动任务,在组织教学活动时应有意识地实行强弱结合的分组方式,帮助每一位学生在较短时间内提高信息技术水平,从而得到均衡发展。在第一道赛一赛题目时,学生因为不懂得使用精简的关键词而很长时间都没找到答案。在及时讲解了关键词的选择后,学生的搜索速度就快了很多。另外由于分组时各小组水平不均,导致有两三个小组没有成绩,抑制了一部分学生的积极性。

篇3:网络信息搜索引擎的发展研究

关键词:信息检索,搜索引擎,网络,趋势

1 搜索引擎的原理

搜索引擎是对www站点资源和其他网络资源进行组织和检索的一类检索机制。其机制一般包括数据采集和标引机制、数据组织机制、用户检索机制。其中, 数据采集机制按照一定规律和方式对网络上www站点进行搜索。并将搜索到的www页面信息存入搜索引擎的临时数据库;搜索引擎的数据组织机制对www页面信息进行整理以形成规范的页面所以, 并建立相应的索引数据库, 搜索引擎的用户检索机制帮助用户以一定方式检索引擎的索引数据库, 以获得符合用户需要的www站点或页面。

2 根据搜索引擎提取数据的方法, 可将搜索引擎系统可以分为三大类

2.1 目录式搜索引擎:

是一种网站级搜索引擎。目录式搜索引擎由分类专家将网络信息按照主题分成若干个大类, 每个大类再分为若干个小类, 依次细分, 一般的搜索引擎分类体系有五六层, 有的甚至十几层。先由程序自动搜集信息, 然后由编辑员查看信息, 人工形成信息摘要, 提供目录浏览服务和直接检索服务。由于目录式搜索引擎的信息分类和信息搜集有人的参与, 因此其搜索的准确度是相当高的, 缺点是需要人工介入、维护量大、信息量少、信息更新不够及时。Yahoo就是这类搜索引擎的代表。

2.2 机器人搜索引擎:

由一个称为蜘蛛 (Spider) 的机器人程序以某种策略自动地在互联网中搜集和发现信息, 由索引器为搜集到的信息建立索引, 由检索器根据用户的查询输入检索索引库, 并将查询结果返回给用户。服务方式是面向网页的全文检索服务。但是该类引擎返回信息过多, 有很多无关信息, 用户必须从结果中进行筛选

2.3 元搜索引擎:

这类搜索引擎没有自己的数据, 而是将用户的查询请求同时向多个预先选定的独立搜索引擎递交, 将返回的结果进行重复排除、重新排序等处理后, 作为自己的结果返回给用户。元搜索引擎的搜索效果始终不理想, 所以没有哪个元搜索引擎有过强势地位。

3 搜索引擎的局限

因特网搜索引擎的结构及工作方式的缺陷, 没有一个搜索引擎包含的WWW页超过了全球总WWW页面的16%, 而对因特网资源的覆盖面还明显下降, 也受限于数据库更新的速度, 可能导致搜索引擎有价值的信息。

搜索引擎自动巡视软件在搜集因特网信息时, 通常要将网页内容全部或部分下载到本地, 然后才能进行索引处理, 下载的页面中有许多无用或暂时的信息, 影响索引速度, 也浪费系统通信资源。各种搜索引擎使用的检索符号和对检索式的要求不一样, 给用户检索带来了困难。搜索引擎的局限性还主要表现在信息丢失、返回过多无用信息及信息无关等方面。造成现状的原因在于传统搜索引擎队要检索的信息仅采用机械的关键词匹配, 缺乏知识处理能力和理解能力, 即使搜索引擎无法处理用户看来非常普通的常识性知识, 更不能处理个性化知识, 因地区不同的区域性知识, 因领域不同的专业性知识。

还有原因在于整个检索过程中, 客户端的计算机知识起着一个终端的作用, 强大的运算能力和存储空间无法发挥作用, 就造成以下的问题:搜索结果很难精确匹配;无法对检索结果进行提炼;无法对不同的搜索引擎的结果进行综合比较与提炼;搜索引擎使用方法不同造成用户理解和使用困难;搜索结果手工下载效率低下;增加用户的网络通信费;搜索结果中的匹配文档不可能快捷地下载。

4 搜索引擎发展趋势

智能搜索引擎:智能搜索引擎是结合了人工智能技术的新一代搜索引擎, 它使因特网信息检索从基于关键词提高到基于知识或概念, 并对知识有一定的理解和处理能力, 能够实现分词技术、同义词技术、概念搜索、短语识别及机器翻译技术等。比如在表单中输入的问题, 返回的答案, 这样就要把所有的问题全部添加到数据库中, 每当用户提问的时候, 数据库将会在数据库中检测查询结果, 百度知道就是把用户的问题和正确答案添加到数据库中了, 当你在知道中查询答案, 那么将会检测到相关的词汇。智能搜索引擎实现数据挖掘、知识发现、智能代理等。智能搜索在研究机器翻译 (MT) 的领域中, 使用户可以用母语搜索非母语的网页, 并以母语浏览搜索结果。检索机制:垂直化专业领域搜索、关联式的综合搜索、检索结果自动聚类。垂直搜索是针对某一个行业的专业搜索引擎, 是搜索引擎的细分和延伸, 是对网页库中的某类专门的信息进行一次整合, 定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取, 也就是将网页的非结构化数据抽取成特定的结构化信息数据, 好比网页搜索是以网页为最小单位, 基于视觉的网页块分析是以网页块为最小单位, 而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库, 进行进一步的加工处理, 如:去重、分类等, 最后分词、索引再以搜索的方式满足用户的需求。整个过程中, 数据由非结构化数据抽取成结构化数据, 经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。垂直搜索引擎的应用方向很多, 比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎关联式的综合搜索。关联式综合搜索, 就是这样一种一站式的搜索服务, 它使得网民在搜索时只需输入一次查询目标, 即可在同一界面得到各种有关联的查询结果。这项服务的关键在于有一架构在XML基础上的整合资讯平台自动聚类可对检索结果进行自动聚类并构建树状结构, 以构建企业知识地图、检索者快速定位所需信息。应用中可实现对新闻稿件或大数据量文档的自动聚类, 实现辅助专题制作等。类似方正智思知识管理平台软件那样特色搜索引擎: (包括可视化检索和多媒体信息检索的综合运用) 检索结构可视化方法实现检索结果可视化。搜索结果的呈现方式, 结果可视化, 可以先看到每个网页长什么摸样, 再决定是否访问它。多途径的多媒体检索、多种媒体信息库的结合、多特征的综合检索、采用相关反馈和自动标注技术、高维索引技术、用户查询接口实现多媒体信息综合检索在网络信息多样化和网络用户多样化的呼唤下, 人们希望在网络上找到更丰富更实用的资源, 不再漫无目的地查找, 特色搜索引擎便应运而生了。

(1) 图像搜索引擎。图像搜索引擎虽然还没有成熟的产品, 但是这项研究工作却紧锣密鼓的进行着。据称, 美国Purdue大学的研究人员已经开发出了一种新的搜索引擎, 这种搜索引擎不再使用关键词文本进行搜索, 而是使用图像或者草图进行搜索。不就的将来, 用户自己画一幅草图, 搜索引擎就可以对数据库进行搜索, 并找到所有与草图类似的图像。不过, 这要求图像搜索引擎能够快速处理超大容量数据库。这种技术不仅为网民提供了方便, 在生物、化学、医学等领域都可能发挥极大的作用。

(2) 多媒体搜索引擎。FAST是国外著名的多媒体搜索引擎, 很多同类搜索引擎都会引用此引擎的内容。在FAST搜索多媒体文件, 可以同时搜索图像、音频、视频等多种格式的多媒体文件, 图像支持JPEG、GIF、BMP三种格式, 音频支持MP3、Wave、AIFF、RealAudio、MIDI五种格式, 视频支持AVI、DivX、QuickTime、MPEG四种。FAST为每一个搜索结果提供预览和说明, 同时还有下载的直接链接, 以及该文件所在网站的地址。

(3) 搜索在线摄像头监视画面:众所周知, 如果要与对方通过摄像头进行连接的话, 必须对方同意才可以。但是利用Google却可以突破这个限制, 因为它可以搜索网络上未经加密的网络摄像头 (机) 监视到的画面。

(4) 房产地图搜索引擎。房产地图搜索引擎是结合地理信息系统 (GIS) 、数据库系统 (DBMS) 和动态Web软件技术开发研制, 可以通过智能化地理信息分析查找特定范围内的特定目标。例如用户可以选择购房愿望:价格、面积、户型、房屋布局、地理位置、周边商业、交通、自然环境、小区状况等, 在互联网上进行查询。引擎立即会将所有满足条件的房源显示出来, 并可以任意放大、缩小、移动房源地图。

总之, 随着计算机技术和网络技术的不断发展, 网络检索将逐步朝着简单化、人性化方向发展, 检索界面会越来越简洁友好。用户可以很容易地进行网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体检索、动态连接、数据挖掘等操作, 方便、及时、准确地获得所需信息。

参考文献

[1].徐谦.网络信息检索的智能化趋势[J]图书馆理论与实践2006, 2:63-65

[2]柳群英.网络信息检索技术现状及发展趋势[J]情报探索2005, 4:66-68

篇4:网络信息搜索

关键字:文本特征;自编码神经网络;深度学习;Matlab

中图分类号:TP391.1        文献标志码:A

Information search model based on auto-encoder neural network

Yi Wan,Luo Jing,Li Yong,Guo Shaoying

(College of computer science and Information Engineering, Tianjin University of Science & Technology,

Tianjin 300222, China)

Abstract: According to user search history, the user information of interest by Title Classification, the auto-encoder neural network feature extraction value. Set the learning sample heading up to 25 Chinese characters, coding mode is adopted Chinese characters machine code (GBK code). Use the MATLAB tool for deep learning, will feature in the original space representation is transformed into a new feature space.

Key words: Text feature; The auto-encoder neural network; Deep learning; Matlab

基于自编码神经网络建立搜索信息模型的目的是根据用户搜索信息的历史,推断出网页中的内容是用户关注的信息并即时显示。首先将用户关注的历史信息按标题分类,通过自编码神经网络建立标题特征值数据库。当自编码神经网络搜索信息模型工作时,按照用户提供的关键词顺序,打开用户经常浏览的网页,读入标题文本,若具有数据库中的标题特征,则将该标题的文本内容即时显示。

直接解析网页中的标题文本,面临的基本问题是文本的表示。如果把标题文本所有的词都作为特征项,那么太多的特征向量维数导致计算量太大。例如50个标题,每个标题25个汉字,特征项将有50×25=1250个。如果将标题中的某个关键词作为特征词,将会有几千个包含关键词的标题,从而导致读入分析量过于巨大。本文采用自编码神经网络,用映射变换的方法把原始文本特征变换为较少的新特征,提高信息搜索效率。

1  自编码神经网络

1.1  自编码神经网络理论

Auto-Encoder(自编码)[1],自编码算法是一种基于神经网络算法的无监督学习算法,与神经网络算法的不同之处是将输入值作为输出节点的输出。自编码算法的另一个特征是隐藏层节点的个数一般少于输入输出节点的个数。这样的意义是将输入的特征通过神经网络的非线性变换到节点数更少的隐藏层。因此,可以通过自编码神经网络对给定的样本进行训练学习,从而得到输入数据降维后的特征,即为隐藏层的节点数,省去了人工特征提取的麻烦。

自编码神经网络结构示意图如图1所示[2]。这是一种深度学习的神经网络,包含了多个隐含层,整个网络是一种对称的结构,中心层的神经元的个数最少。网络通过对样本的训练可以得到一组权值系数,而输入数据通过这组权值系数表达成低维形式,从而达到了用降维后的特征表示出输入的数据。

图1  自编码神经网络的结构

Fig.1   The structure of auto-encoder neural network

1.1.1 预训练

(1) 输入参数的确定:标题是作者给出的提示文章内容的短语,标题一般都简练、醒目,有不少缩略语,与报道的主要内容有着重要的联系。如登陆我的钢铁网站,搜索钢管热点资讯,显示的标题有“我国自主研制*****油管成功替代进口”,学习样本选择50组标题,每个标题不超过25个汉字,如表1所示。

表1  学习样本

Tab. 1  Learning samples

1

我国自主研制高端耐热钢无缝钢管成功替代进口

2

我国自主研制K55石油套管成功替代进口

3

我国自主研制J55稠油热采套管成功替代进口

4

我国自主研制专用耐高温防火船舶用套管成功替代进口

5

我国自主研制20G高压锅炉管成功替代进口

6

我国自主研制特殊用途低温用管成功替代进口

7

我国自主研制起重机臂架无缝钢管成功替代进口

8

我国自主研制精密合金4J36船用管材成功替代进口

9

我国自主研制高强韧性高抗挤毁套管成功替代进口

10

我国自主研制三种极限规格管线管成功替代进口

……

50

我国自主研制医药化工用管成功替代进口

(2) 语句预处理[3]:学习样本句子进行预处理是把句子中的每一个汉字变换成自编码神经网络模型能接受的数字化形式。为了使神经网络能接受外部数据,首先要对句子中的汉字进行编码,编码方式是采用汉字的计算机内码(GBK码)。每个汉字机内码有16位二进制,如:“我国自主研制”的二进制码为

1100111011010010 我(GBK码)

1011100111111010 国(GBK码)

1101011111010100 自(GBK码)

1101011011110111 主(GBK码)

1101000111010000 研(GBK码)

1101011011000110 制(GBK码)

将16位二进制数转换为十进制数并进行线性变换,映射到实数[0 1]之间,作为输入神经元初值。变换公式如下:

式中:maxi和mini;tmax和tmin分别为x(p)i,t(p)量程范围的最大值和最小值。

(3)预训练:几个独立的RBM构成“堆栈”构成了预训练部分,而RBM是BM (boltzmannmachine)的一种特殊连接方式。图2即为RBM的网络构成。它是一种隐含层神经元无连接,并且只有可见层和隐含层两层神经元。

图2  RBM网络构成

Fig. 2  Construction of restricted boltzmannmachine

BM的权值调整公式为[4]

(1)

式中:在第t步时神经元i、j间的连接权值为wij(t);η为学习速率;T为网络温度;<uihj>+、<uihj>-分别为正向平均关联和反向平均关联。

在RBM中,可见层神经元的输出和隐含层神经元输出的乘积即为平均关联。系数ε由η和T统一合并而成,迭代步长即由权值调整公式ε表示。

图3  RBM网络结构图

Fig. 3  RBM network  structure  diagram

(4)MATLAB实现:

本文建立的BP神经网络模型结构为

[25,15,25],[15,12,15],[12,10,12],[10,8,10],[8,5,8]

设定网络隐含层的激活函数为双曲正切S型函数tansig,输出层的激活函数为线性激活函数purelin,网络的训练函数为Levenberg-Marquardt算法训练函数trainlm。因此对应的MATLAB神经网络工具箱的程序语句为

net=newff(minmax(P),[25,25],{‘tansig,purelin}, trainlm);

net=newff(minmax(P),[15,15],{‘tansig,purelin},trainlm);

net=newff(minmax(P),[12,12],{‘tansig,purelin},trainlm);

net=newff(minmax(P),[10,10],{‘tansig,purelin},trainlm);

net=newff(minmax(P),[8,8],{‘tansig,purelin},trainlm);

设定学习速率为0.01,最大训练步数为300,目标误差为0.00001。

(5)预训练结果:

预训练结果如表2所示。

表2  预训练结果

Tab. 2  The results of pre training

误差

学习速率

步长

[25,15,25]

0.003248

0.01

150

[15,12,15]

0.0022809

0.01

125

[12,10,12]

0.0025866

0.01

100

[10,8,10]

0.0039575

0.01

75

[8,5,8]

0.013529

0.01

50

1.1.2  展开

如图4所示,将各个RBM连接,得到自编码神经网络。预训练所得到的权值,将作为整个自编码神经网络的初始权值,参与整个网络的微调训练。

图4   RBM展开图

Fig. 4  Development of RBM network structure

1.1.3  微调

微调训练是在预训练得到初始权值的基础上,对权值进一步调整。采用以交叉熵为目标函数[5]的BP算法完成网络的微调训练。交叉熵是用来度量两个概率分布间差异性的,它是一个非负数,两个分布越相似,其越小。原始的交叉熵定义为

(4)

式中:x为随机变量;q(x)为已知概率分布;p(x)为估计概率分布。

对于随机变量x,当用q(x)估计p(x)时,通过调整受x影响的p(x)来最小化交叉熵D(p‖q),用于自编码神经网络权值调整的BP算法交叉熵函数形式为

(5)

式中:ti目标概率分布;yi实际概率分布。

整个网络训练的目的是调整权值以使交叉熵函数达到最小,权值调整公式为

根据上面的权值调整公式,可以完成网络的微调训练。训练结果如表3所示。

表3   微调训练结果

1.1.4 特征提取

50组标题(每个标题不超过25个汉字)的学习训练,通过自编码网络的逐层特征变换,将样本数据约1250(50×25)个汉字编码,在原空间的特征表示变换到一个新特征空间。其中网络最深隐含层的输出值(5个)和权值矩阵W6(5×8=40个),共计45个,为提取标题文本1250个汉字编码的特征值。

2  实  例

本文选取10组标题文本见表4,分别输入自编码神经网络。预测结果表示基本符合要求。

表4  预测结果

Tab. 4  The prediction results

序号

样本输入

结果显示

1

我国自主研制的蛟龙号深水探测器成功替代进口

2

我国自主研制首台3.6万吨垂直挤压机挤合格钢管成功替代进口

我国自主研制首台3.6万吨垂直挤压机挤合格钢管成功替代进口

3

我国自主研制的超级计算机系统成功替代进口

4

我国自主研发的1000MPa高压共轨管成功替代进口

我国自主研发的1000MPa高压共轨管成功替代进口

5

我国自主研制超临界电站无缝钢管T92、P92成功替代进口

我国自主研制超临界电站无缝钢管T92、P92成功替代进口

6

我国自主研制重载火车头下线成功替代进口

7

我国自主研制成功特高压交、直流套管成功替代进口

我国自主研制成功特高压交、直流套管成功替代进口

8

我国自主研制的Q355GNH系列耐候钢成功替代进口

我国自主研制的Q355GNH系列耐候钢成功替代进口

9

我国自主研制的涡桨支线飞机成功替代进口

10

我国自主研制钒微合金L290管线钢成功替代进口

我国自主研制钒微合金L290管线钢成功替代进口

3  结  语

本文按照标题文本分类检索信息,解决了直接按照关键词搜索信息,网页中经常显示几千条包含关键词内容的标题本文,从而导致读入分析信息量过于巨大的问题。通过自编码神经网络提取文本特征,在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,简化计算,提高了文本处理的速度和效率。

参考文献:

[2] 赵杜娟, 刘高平, 黄华, 等.自编码神经网络车牌字符识别研究[C]//多媒体学术会议(NCMT2009). 西安:清化大学出版社, 2009: 113-119.

[3] 吴芬芬. 信息抽取算法研究. 吉林大学硕士学位论文, 2006.

[4] 刘高平, 赵杜娟, 黄华.基于自编码神经网络重构的车牌数字识别[J].电子激光, 2011, 22(1): 144-148.LIU

[5] ZHANG Jian, FAN Xiaoping, et al. Research on characters segmentation and characters recognition in intelligent LPR system[C]//Proceedings of the 25th Chinese Control Conference. Harbi: Beihang University Press, 2006: 7-11.

篇5:网络信息搜索

答 案

一、选择题

1.2005年“芙蓉姐姐”的出现带动了对此现象的研究热潮,在CNKI—中国期刊全文数据库中,2005年至20007年间以”芙蓉姐姐”为主题的相关文献大概有(A.100多篇 B.200多篇 C.300多篇 D.400多篇

2.下列哪篇文章为《红树植物桐花树叶中氨基酸和微量元素的分析》的共引文献?(B)A.徐佳佳,龙盛京.桐花树化学成分及其生物活性作用的研究进展[J]时珍国医国药, 2006,(12).B.李春艳,李丹彤,银学祥,常亚青.真海鞘营养成分的分析与评价[J]大连水产学院学报, 2007,(05).C.奚刚.日粮营养成分对动物基因表达的调控[J]动物营养学报, 2000,(01).D.王继栋,董美玲,张文,沈旭,郭跃伟.红树林植物桐花树的化学成分[J]中国天然药物, 2006,(04).3.改革开放以来,中国科技的发展取得了长足的进步,根据Science Citation Index Expanded(SCIE)的统计,2007年收录的中国作者的论文是(B)。A.50800多篇 B.98700多篇 C.13900多篇 D.18700多篇

4.Cambridge Scientific Abstracts数据库中,检索项TI=和PD=分别代表(D)。

A)。A.题名和摘要 B.题名与作者 C.摘要与全文 D.题名与出版日期

5.在Web of Science 数据库中检索作者王思敏的文章,在检索框中输入作者名字的正确格式应是(C)。A.wang simin B.wang si-min C.wang sm D.wang s-m

6.世界上最早的网络搜索引擎是(A)。A.Archie B.Google C.Yahoo D.Excite

7.利用现代信息技术,改变传统的网络信息搜索模式,通过人找人、人问人、人碰人等方式实现搜索的虚拟与现实的对接,揭露事情真相,变枯燥乏味的查询过程为“一人提问、八方回应”的人性化搜索体验,这种前卫的搜索模式被称为(C)。A.肌肉搜索 B.狗狗搜索 C.人肉搜索 D.黄页搜索

8.在我校图书馆馆藏书目检索系统中查找,金庸代表作《射雕英雄传》的索书号是(B)。A.I247.58/W741c B.I247.58/J678 C.I246.58/J678 D.I247.58/G654

9.2002年美国麻省理工学院启动将本校课程资源放在网上免费使用的Open Course Ware(OCW)计划,之后世界各大高校纷纷响应,下列高校属于OCW联盟的是(ABCD)。(多选题)A.美国-约翰霍普金斯大学(John Hopkins University)B.日本-早稻田大学(Waseda University)C.澳大利亚-南昆士兰大学(The University of Southern Queensland)D.英国-开放大学(The Open University)

10.下面关于网络暴力的表述正确的是(BCD)。(多选题)A.破坏通信电缆、交换机等网络设备的行为。

B.网民借助网络舆论的力量在网络上肆意攻击他人的狂热行为,是社会暴力在网络上的延伸。

C.通过网络视频、公告等手段侮辱谩骂当事人及其亲友。D.在网上公开当事人现实生活中的个人隐私。

11.根据US News & World Report,美国大学2008年排名中,化学(chemistry)专业研究生课程排名第一的大学是(C)。A.布朗大学(Brown Univeristy)B.康奈尔大学(Cornell University)C.斯坦福大学(Standford University)D.耶鲁大学(Yale University)

12.目前主流的电子图书格式有(ABCD)。(多选题)A.TXT B.PDF C.CHM D.HTM

13.“三鹿”奶粉事件将公众的视线集中到了食品质量上。而对于食品质量进行规范的就是各种行业标准。在万方数据库中以“奶粉”为标准名称可检索到(A.20 B.40 C.60 D.80

14.小沈阳在春晚的暴红引起了公众对二人转的兴趣。二人转至今有300多年的历史,师承关系可以追溯至清嘉庆年间,而且有多种别名,如蹦蹦,小秧歌等。直到(C)多条行业标准。

C)年,在北京举行的第一届全国民间音乐舞蹈大会上,东北代表团的二人转节目正式参加演出,从而二人转这个名字首次得到全国文艺界的承认。A.1951 B.1952 C.1953 D.1954

15.AIDS是人类面临的最为危险的疾病之一,各国都投入巨大人力与财力进行研究。通过检索Web of Science 数据库得知,截止2007年,以AIDS为主题,按研究结果数量由多至少排名,前两位的研究机构是(A)。

A.哈佛大学与约翰霍普金斯大学(Harvard University & John Hopkins University)B.杜克大学与哥伦比亚大学(Duke University & Columbia University)C.埃默里大学与德克萨斯大学(Emory University & Texas University)D.加利福尼亚大学洛杉矶分校与北卡罗纳大学(California University-L.A.& The University of North Carolina)

二、是非题(正确填T,错误填F)

1.想了解某种期刊的出版信息或在某期刊内检索文献,可利用CNKI-中国期刊全文数据库中的“期刊导航”检索方式。(2.期刊《acta biologicae experimentalis sinica》是数据库Science Citation Index Expanded(SCIE)的源期刊。(3.在维普――中文科技期刊数据库的传统检索界面中,设置了“同义词”功能,勾选它的作用是缩小检索范围。(4.使用Web of Science既可以追溯一个课题的基础和起源,也可以跟踪一个课题的最新进展情况是怎样。(T)

5.1999年12月,Jorn Barger运行的“Robot Wisdom Weblog”第一次使用weblog(博客)这个正式的名字。他将log的意义从接近航海日志那种无人称、拟客观、机械式写作,转换成较接近旅游日志的“有人称、有个性”的自由书写。(T)

F)

F)

F)

三、简答题

1.热门美剧《英雄》中各位英雄的超能力令人炫目,其中能够细胞再生,有不死之身的是谁?

克莱尔·本奈特(Claire Bennet)

2.百度是目前最大的中文搜索引擎。“百度”一词来源于哪位诗人的哪句诗词?

辛弃疾,众里寻他千百度

3.我校一位教师引用了《5种药物对方斑东风螺面盘幼虫的急性毒性》为参考文献,请为他补全这篇文章的作者、刊名和发表时间等信息。

作者:李雷斌,刘志刚 刊名:广东海洋大学学报 发表时间:2008年6月

4.北京奥运会四乘一百米接力赛中,世界头号劲旅美国队出现掉棒现场,在预赛出局,成为大冷门之一。请问是哪两位队员交棒时出现失误?

多克·巴顿,泰森·盖伊

5.MP3的英文全称是什么?

篇6:网络信息搜索

《网络信息获取技巧———搜索引擎》教学设计

一、教学设想

如何应用网络、查询网络信息是中学生利用网络这一工具开展学习的一种重要技能。教学设计中要充分利用信息技术有效整合相关的教学资源、创设情景,激发学生强烈的求知欲,引导学生循序渐进地认识网络应用的重要意义及使用方法,培养利用网络开展自学与探究学习能力。

二、教学目标

1.让学生了解网络信息资源及其特点。

2.了解搜索引擎的种类和使用技巧,学会巧妙运用搜索策略。

三、教学重点

掌握常用搜索引擎的搜索技巧。

四、教学难点

让学生掌握利用关键词搜索的技巧获取信息。

五、教学环境

多媒体网络教室,Internet 网络。

六、教学过程

(一)情境导入,引出课题

师:我们再来感受一下神七飞天这一完美的历史瞬间(学生机屏幕播放《神七飞天全程模拟动画》)学生们神情专注,边看边感叹,播放完毕,有的学生问:“老师这个片子哪来的? ”

师:是昨天在网上搜索到的。生:搜索? 怎么搜索啊?

师:搜索可是网络信息获取的一种重要方法,今天我们的学习目标就是来认识搜索引擎,一旦大家掌握了搜索引擎的使用技巧,那么获取网络上的各种有用信息就得心应手了。

生:老师快教教我们吧!(学生急不可待的样子)

(二)体验中感知,网络上验证

师: 要想掌握获取网络信息的方法,首先让我们来了解一下有关网络信息资源的知识。网络信息资源是指以电子数据的形式将文字、图像、声音、动画等多种形式的信息存放在光磁等非印刷型的载体中,并通过网络通信、计算机或终端等方式再现出来的信息资源。具有数量庞大、内容丰富、覆盖面广、共享程度高、交互性强等特点。

生:老师,网络真是太好了,几乎什么信息都有,可以利用网络学到很多知识。

师:是啊,有价值的网络信息丰富多彩,但是要查询到我们需要的信息可要掌握一定的技巧才行。

一般获取网络信息可以通过什么途径呢? 共有三种:直接访问网页、使用搜索引擎、查询在线数据库,其中搜索引擎是我们习惯采用的。

1.常用的搜索引擎有如下几种: 百度、Google(谷歌)、搜狐、新浪、网易、雅虎。

2.常用搜索引擎的使用技巧:

(1)简单查询:在搜索引擎中输入关键词,然后点击“搜索”就行了,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。

(2)使用双引号(“?”):给要查询的关键词加上双引号(半角的),可以实现精确的查询。

(3)使用加号(+):在关键词的前面使用加号,同时满足两个以上条件的。

(4)使用减号(-):在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词。

(5)使用通配符(* 和?):通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。

下面我们来搜索一下“神七”或“神舟七号”(演示:打开浏览器—地址栏输入百度网址—在搜索栏输入关键字—点百度一下),涉及神七的各种信息立刻出现在眼前,点击查询的条目就可以了解具体信息了。这就是查询网络信息最简单的步骤,自己体验一下吧。

(学生按照操作步骤专注操作)

(教师到学生身边边看边适时给予指导,有的学生网址输入错误打不开搜索网页)生:老师我学会了,可是这样搜索出来的信息太多了,怎么找到你播放的这个动画呢?

师:嗯,关键词很重要,通常搜索信息的时候可能有一个或多个限制条件,条件越多查找到的信息就越精确,利用刚才介绍的搜索技巧加入“动画”或者“全过程”,再来试一试。

学生很快就找到刚才播放的《神七飞天全程模拟动画》视频了,个个欣喜若狂。

师:请大家思考一下:怎样利用最短的时间获取到最准确、最有用的信息呢?

事实上是要掌握搜索策略和技巧的。(1)首先确定提供相关信息的来源。(2)检查信息来源所提供的信息量是否合适。

(3)研究信息来源所提供的搜索命令、搜索方法,确定搜索任务。

(4)准确运用关键词,结合搜索引擎的使用技巧,缩小搜索范围,提高搜索效率。

(5)不要局限于一个搜索引擎,如遇到困难,可求助于搜索引擎的帮助系统。

(三)认识中感悟,实践中提高

师:大家打开百度和Google 的搜索页面,观察并熟悉它们各自的用法与功能及各自的帮助系统。

选取原则是哪种搜索引擎好用就用哪种。下面结合搜索技巧以小组为单位搜索以下信息,完成任务的可以做其他组的任务或搜索自己感兴趣的信息。

1.A 组搜索2008 年奥运会的图片、歌曲“北京欢迎你”(mp3 格式)。

2.B 组搜索“神七”的视频、“5.12 地震”的新闻。3.C 组搜索Office 2000 软件下载网页。4.D 组搜索迁安的地图、李晓鹏的教育博客。

(任务设置意图:通过不同任务的设置,让学生亲身感受一下百度和Google 的所具有的特点,满足学生的好奇心与求知欲,注意了知识的拓展。)

七、小结与反思

上一篇:领导论文:基层党建工作创新的实践下一篇:全球气候变暖优秀说明文