网络搜索应用能力竞赛

2024-05-23

网络搜索应用能力竞赛(共5篇)

篇1:网络搜索应用能力竞赛

小学生网络搜索竞赛试题

第一部分 文化与历史 ◆语言文字

1、利用网络搜索可以找到一些字的发音,例如,“赟”字,读作yūn(也读做bin),可以通过在搜索引擎中输入“文武贝”来找到这个字的发音。那么,东汉末杰出的政治家荀 的“ ”发音是()。

2、“单”是一个多音字,它有()种发音。

3、“歧义”一词的意思是()。

◆民族文化——四书五经

4、古代,人们常常用“熟读四书五经”来形容一个人有学问。四书五经是四书和五经的合称,是中国儒家经典的书籍。四书指的是《论语》、《孟子》、《大学》和(①);而五经指的是《诗经》、《尚书》、《礼记》、《周易》和《春秋》,其中《诗经》是我国第一部诗歌总集,这些诗篇,就其原来性质而言,是歌曲的歌词,共收入自西周初期至春秋中叶约五百年间的诗歌三百零五篇。他开创了我国古代诗歌创作的现实主义的优秀传统,它又可分为《风》、《雅》、(②)三部分。

◆民族文化——唐诗

5、唐诗是我国优秀的文学遗产之一,也是全世界文学宝库中的一颗灿烂的明珠。尽管离现在已有一千多年了,但许多诗篇还是为我们所广为流传。唐诗的形式是多种多样的,主要分为古体诗和近体诗,古体诗的风格是前代流传下来的,所以又叫古风;近体诗有严整的格律,所以有人又称它为格律诗。近体诗也有两种,一种叫做绝句,一种叫做律诗。绝句和律诗又各有五言和七言之不同。

唐代中期诗人刘禹锡,有“诗豪”之称。他有一首题为《酬乐天扬州初逢席上见赠》的七言律诗,其中的名句为:沉舟侧畔千帆过,(①)。盛唐时期伟大的现实主义诗人杜甫,与李白并称“李杜”,人称“诗圣”,一生写诗一千四百多首,他的诗大多反映民间疾苦。有一首题为《登高》的七言律诗,其中的名句为:(②),不尽长江滚滚来。

◆民族文化——宋词

6、宋词是继唐诗之后的又一种文学体裁,是中国古代文学皇冠上光辉夺目的一颗巨钻,在古代文学的阆苑里,她是一座芬芳绚丽的园圃。她以姹紫嫣红、千姿百态的风神,与唐诗争奇,与元曲斗艳,历来与唐诗并称双绝,都代表一代文学之盛。词有词牌,即曲调。例如苏轼的名句“但愿人长久,千里共婵娟”的词牌是(①);李煜的名句“问君能有几多愁,恰似一江春水向东流”的词牌是(②)。

◆民族文化——对联

7、对联的正规名称叫楹联,俗称对子,它言简意深,对仗工整,平仄协调,是我国特有的一种汉语言文学艺术形式,是中华民族的文化瑰宝,为社会各阶层人士所喜闻乐见。对联的种类可分为春联、喜联、寿联、挽联等等。

清代文学家蒲松龄年轻时有一副激励自己发愤写作的对联,是他的自勉联。同学们也可以能吸取对联里面的精神。这句对联的上联是:有志者,事竟成,破釜沉舟,百二秦关终属楚;它的下联是()。

◆历史上的今天:

8、下列若干事件中,请将在5月14日这天发生的事件选出来?()A)1953年,第一个五年计划开始实施。B)1965年,我国空投原子弹试爆成功。

C)1966年,文化大革命正式发动,自此开展了为期十年的政治运动。D)1980年,我国恢复了世界银行与国际货币基金组织的合法席位。E)1984年,中国女子羽毛球队首获尤伯杯。

F)2008年,中国四川省汶川县发生里氏8.0级特大地震。

第二部分 科学与自然 ◆科技与工程奖项

9、国家最高科学技术奖是我国2000年创立的科技界的最高奖项,奖励在当代科学技术前沿取得重大突破或者在科学技术发展中有卓越建树、在科学技术创新、科学技术成果转化和高技术产业化中创造巨大经济效益或者社会效益的科学技术工作者,该奖项每年授予人数不超过2名,奖金500万,证书和奖金由国家主席颁发。2000年,获得该奖项的科学家是著名数学家吴文俊和杂交水稻之父(①)

1987年由中国建筑业联合会设立,1993年移交中国建筑业协会。主要目的是为了鼓励建筑施工企业加强管理,搞好工程质量,争创一流工程,推动我国工程质量水平普遍提高。目前,这项标志着中国建筑业工程质量的最高荣誉,由建设部、中国建筑业协会颁发。这个奖项的名称是(②)。

◆信息技术(IT)新动态

10、众所周知,CPU是决定电脑性能的核心部件,也是整个系统的核心。过去,代表着国际IT顶尖技术的CPU芯片一直被英特尔等国外巨头所垄断,中国企业及消费者为之付出了巨额版权费。缺乏具有自主知识产权的CPU芯片,是我国计算机产业的一大“芯”病,因此国家委任中国科学院计算所担任自主研发通用CPU的科技攻关任务。目前,该研究所自主研发的最新CPU将实现对内峰值每秒500-1000亿次的计算速度,接近国际水平。该研究所为这些研发的CPU起了一个极具民族特点的中文名,叫做(①)。

“博客”就是在网络上发布和阅读的流水记录,通常又称为“网络日志”,简称为“网志”。人们可以利用博客表达个人思想、过滤与积累知识、开展网络方式的深度交流沟通。“博客”一词是根据英文音译(不是翻译)而来,那“博客”的英文名是(②)。

◆国家地理

11、目前全球共有海拔在8000米以上的山峰(①)座,全部位于亚洲。最高峰是珠穆朗玛峰,其高度为8844.43米。这些海拔在8000米以上的山峰中,完全在中国境内的有1座,在中国与其他国家边境线的有(②)座。目前全球完成登顶全部8000米以上山峰的登山家有16位,其中中国有3位,他们都来自随着西藏高峰探险队,分别是次仁多吉、边巴扎西和洛则。

◆医疗卫生 12、2009年3月,墨西哥和美国等先后发生人感染猪流感病毒,4月底,十多个国家相继发生猪流感病例或疑似病例,覆盖四大洲。其后被世卫组织正名为A(H1N1)型流感病毒,并发布5级警告。A(H1N1)型流感病毒害怕高温,猪肉加热至(①)摄氏度,就能杀死猪流感病毒。个人预防该病毒感染的主要做法是养成良好的个人卫生习惯,勤洗手,尤其是接触过公共物品后要先洗手再触摸自己的眼睛、鼻子和嘴巴;打喷嚏和咳嗽的时候应该用纸巾捂住口鼻;室内保持通风等等。省卫生厅成立了防控甲型H1N1流感专家组,由当年在抗击SARS时立下功勋的中国工程院院士(②)等3人领衔,院士多次谈及H1N1,提醒市民要提高警惕,但也无须恐慌。

第三部分 社会与生活 ◆东莞禁摩

13、东莞市政府为了打击“两抢”犯罪,维护社会治安和改善交通的需要。于2006年(① 月 日)制定并公布了《关于综合整治摩托车的通告》。东莞的禁摩自此开始,据统计,在禁摩前东莞共有摩托车近140万辆,本地号牌的摩托车大约有69万辆,异地号牌摩托车的数量大致相等。今年4月15日,我区第二轮“禁摩”专项行动正式展开,公安分局全面谋划、周密部署、行动迅速,在全区分设14个禁摩工作执勤点进行严密的路面查控。据统计,仅4月15日上午,各执勤点共查处摩托车违法行为79宗,其中冲禁区行为(②)宗,暂扣摩托车42辆,电动车19辆,治安拘留3人。

◆周末安排

14、小强的爸爸决定周六带他去市科技馆看球幕电影,你能告诉小强本周六市科技馆都是放影哪两部球幕电影吗?(①)、(②)

◆国际化

15、英文句子“Genius is 1 percent inspiration and 99 percent perspiration.”翻译成中文是()。

篇2:网络搜索应用能力竞赛

学校:_________________

教师:___________

一、网址收集(记录首页地址,并保存网页快捷方式到“E:XXX的竞赛网址”中)10分

温岭市图书馆网址: 中国教育信息网网址: K12班主任论坛网址: 课件之家网址: 温岭教育blog网址:

二、软件收集(保存在“E: XXX的竞赛软件”文件夹中,文件名以软件名称命名,破解版要提供破解方法,注册版要提供注册方法,有毒、有强制插件、功能有限制、试用版等不得分)20分

1、下载图片管理软件ACDSee。2

2、下载压缩软件WINRAR。2

3、下载一种音频格式转换软件。4

4、下载MIDI音乐制作软件。4

5、下载一种视频格式转换软件。4

6、下载一种虚拟光驱软件。4

三、教学资源收集(保存在“E: XXX的竞赛教学资源”文件夹中)40分

1、下载小学信息技术课程标准1

2、从老百晓在线网站下载《鸟的天堂》教学设计之一1

浙江教育在线网址: 温岭政府网网址:

人教论坛数学教研天地网址: 第一课件网网址: 台州教育网网址:

3、下载《三国演义》中描写刘玄德三顾草庐的章节2

4、下载王红梅、王太海教师发表在《小学科学·教师》2010年第12期上的论文《小学班级管理微探》一文。3

5、下载杨庆余发表在《教育科学研究》2008年6期上的论文《新课程背景下小学数学学业评价策略变革》一文。3

6、下载小学语文教学图片《鸬鹚》2

7、下载《中华人民共和国国歌》2

8、下载下雨声、狂风声、水流声、马叫声、飞机轰炸声等声音5

9、下载成语故事《众口烁金》的FLASH动画插入到PowerPoint中。6

10、下载浙教版科学PPT课件《运动和力》3

11、下载《盘古开天地》教学实录视频6

12、下载第九套广播体操视频6

四、资源处理(保存在“E: XXX的竞赛处理”文件夹中)30分

1、下载“关于召开温岭市中小学发展性督导研讨会的通知”的内容到WORD中,标题设置为三号黑体,大标题设置为四号宋体加粗,正文设置为小四号宋体,1.25倍行距。4

2、下载《花的勇气》教学插图,将图片大小调整为249*250像素,插入到PowerPoint中,加上边框效果。4

3、下载一张蝴蝶的GIF动画图片,改变动画速度,加上文字“快、中、慢”,存成三张动画图片,文件名为:“蝴蝶快.gif”“蝴蝶中.gif”“蝴蝶慢.gif”。6

4、下载《红星歌》,并将歌中的第一句“红星闪闪放光彩” 截取下来另行保存。主文件名为“红星歌第一句”8

5、将已下载的“第九套广播体操” 视频截取“第一节 伸展运动”的内容插入到PowerPoint中。8 *

篇3:浅谈网络搜索引擎的应用

信息时代的到来, 加速了Internet技术和以Internet为基础的web 2.0的发展, 从而实现了资料的搜集和利用打破了时间和地点的局限。据有关资料显示, 从20世纪90年代中期以来我国的网络技术得到了迅猛的发展, 随之而来的是中文信息库中的信息成倍增长。据2008年初监测数据显示, 我国的网络数据量有2477G, Internet上有多达82929个数据库, 拥有15709万个网页。特别是WEB2.0技术的广泛应用, 出现了博客、微博等, 网络上客户端个人信息量大大的增加, 网络数据存有量持续攀升。网络成了人们日常生活中不可或缺的工具, 甚至取代了以往交流方式而成了主要的交流查找的方式;网络上信息存在大量的冗余, 这种信息“噪音”的存在是每个上网的人都很苦恼的事情。

使用以往传统的手工方式来查找这些繁杂的网络数据几乎是不可能的, 要想做到准确快速, 并且查询的信息没有冗余就必须借助于一种强有力的工具。面对如此复杂的数据问题, 网络搜索引擎应运而生了。

搜索引擎, 通常指的是收集互联网上几千万到几十亿个网页并对网页中的每一个文字 (即关键词) 进行索引, 建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候, 所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后, 这些结果将

测试数据表明, 在相同的互联网接入的情况下, 通过移动应用虚拟化访问学院统一信息平台, 和通过校外SSL VPN访问相比, 访问时间约为SSL VPN的1/3, 数据流量约为15%-30%。如表1。

3结语

本文提出了一种基于虚拟化的移动办公应用, 针对学校现有的OA系统引入了Citrix技术, 节省了宝贵的网络带宽资源。用户感受取决于一次完整访问过程, 包括网络接入、发布平台登录、应用登录和应用的访问等。单一地提升应用访问速度不能代表整体感受的提升, 因此应该更多关注减少登录次数和简化登录方式, 同时注意与用户原有登录方式尽量保持一致, 多数情况下, 内网与外网访问并存, 因此需要尽量保持用户从内、外网访问方式的一致性。同时, 针对学校信息系统现状, 当校内其他业务系统需要移动应用时, 可以方便地通过在Server Farm中添加服务器来进行水平扩展。

按照与搜索关键词的相关度高低, 依次排列。现在的搜索引擎已普遍使用超链分析技术, 除了分析索引网页本身的文字, 还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以, 有时候, 即使某个网页A中并没有某个词比如“信息技术”, 但如果有别的网页B用链接“信息技术”指向这个网页A, 那么用户搜索“信息技术”时也能找到网页A。而且, 如果有越多网页 (C、D、E、F……) 用名为“信息技术”的链接指向这个网页A, 或者给出这个链接的源网页 (B、C、D、E、F……) 越优秀, 那么网页A在用户搜索“信息技术”时也会被认为更相关, 排序也会越靠前。Lucene是一个开源的、基于Java的全文检索工具包, Lucene的问世给搜索引擎的研究工作带来了巨大的反响, 甚至不少商业软件也使用Lucene作为核心。证明了其兼具研究价值和实用性。

2 网络搜索引擎的特点

我国的搜索引擎技术的发展相对落后, 想要在近期内赶超国外水平很难。国外互联网和通信技术相对成熟, 从搜索的稳定性和检索的信息量和检索结果的满意度各方面看, 人们都是比较认可的。鉴于这样的原因, 国外搜索引擎的应用要比我国广泛的多。

从目前的状况来看, 现在网络上使用的大部分搜索引擎是利用关键字索引的方法。这种搜索方式经过很长时间的使

参考文献:

[1]郑建龙, 陆冬云, 温浩.Citrix瘦客户机/服务器计算技术

在化工计算中的应用[J].计算机与应用化学, 2002, 19 (3) :

[2]董慧, 方金云, 赵红超, 程振林.基于Citrix的异地软件共

享系统的设计与实现[J].计算机工程, 2009 (1)

[3]贾鸿潜.基于虚拟架构的企业虚拟化应用研究[D].天津大

[4]钟约夫, 王瑞勋.桌面虚拟化应用中虚拟环境评估与规划

的研究[J].自动化与仪器仪表, 2011 (1)

[5]Citrix.利用Citrix Xen App和Citrix Xen Server改善虚拟化.

项目基金:2012年湖北省级教研资助项目 (项目编号2012340) 。主要研究方向为网络服务、信息系统架构。

用已经逐渐被人们所接受, 但是它具有很多弊端, 一是关键字不是人们交流的主要信息;二是要想很好的熟练的利用它必须要经过培训或长时间的实践才能掌握这种搜索技巧。很显然, 我们的日常用语、自然语言才能更好的表达自己的意图和要求, 如果使用自然语言进行检索能够更快更准确的表达用户的要求, 更具人性化。这样, 普通用户就可以摆脱人工挑选关键词, 使用集合运算来反复过滤信息的困扰。遗憾的是我国到目前为止, 还没有一个能利用中文的自然语言来进行网络信息检索的搜索引擎。国外比较成熟的产品也只有Powerset和Ask Jeeves这两个。

搜索引擎技术应该从公开源码的平台入手。在开源平台上进行基础研究, 并在开源技术的基础上改进搜索引擎, 使其能够理解中文自然语言, 服务于军事、科技、教育等各个方面。这些都是当前研究的重要意义。

3 网络搜索引擎的发展状况

上世纪90年代, 大学生Alan Emtage发明了Archie, Archie的诞生是搜索引擎的雏形, 那时候3WWW还没有开始使用, 但是internet上传输文件已经很普遍了, 要想查找分散在多个主机上的某个文件, 利用人工的方式是几乎做不到的, 因此Alan Emtage开发了一个文件名查找系统, 这就是Archie。Archie可以实现自动搜索Internet上的FTP主机文件的功能, 但是它还不能算是一个真正意义上的搜索引擎。虽然Archi可以利用文件名实现搜索功能, 但是在真正实现搜索时, 用户必须键入精确的文件名 (包括文件扩展名) 而不能实现模糊查询。虽然Archie只能进行简单的查询, 但是它也不失为搜索引擎的前身。

现在我们使用的搜索引擎也是利用了Alan Emtage的原理, 利用一个编写好了的程序实现自动搜索网络文件的功能, 并且能对搜索的结果进行索引, 以方便用户查找使用。在Archie的搜索工具被利用之后不久, 就很快地利用在了Internet上, 随后, 一个与之非常类似的搜索引擎由美国内华达System Computing Services大学开发完成。这个工具不但可以搜索FTP上的信息, 还可以搜索网络上的网页形式的多媒体信息。

1994年7月, 搜索引擎揭开了其发展史上的新篇章。一种具有现代计算机技术的搜索引擎问世了, 它就是Lycos的。当时Michael Mauldin将一种“蜘蛛”程序接入到搜索引擎的索引程序中, 自动扩充了搜索引擎的检索信息。蜘蛛程序是一种可以自动在网络上搜索并创建索引的计算机程序。值得关注的是同年4月, 我们耳熟能详的Yahoo搜索引擎问世了, 自此, 搜索引擎进入了高速发展的阶段。现在, 每个上网的用户都很熟悉的在利用搜索引擎工具, 甚至很多的浏览器将搜索引擎作为他的起始页使用, 大家经常使用的有国外的Google, 国内的Baidu等, 这些都已经成为了IT行业里的龙头企业。

搜索引擎是随着计算机技术和通信技术的发展而诞生和发展起来的, 但是随着社会和经济的发展变革, 搜索引擎从开始的单纯的文件检索, 到后来的网页多媒体信息搜索, 到当今社会企业利用搜索引擎提升自身的知名度和竞争力, 搜索引擎本身也在发生着本质的更新和变革, 以适应新时代人们应用的考验, 搜索引擎的模式也在发生着重大的变化。

4 网络搜索引擎的分类

按照不同的标准, 搜索引擎可以分为很多种类型。一般的分类方法是根据搜索引擎检索信息的方法和呈现结果方式的不同进行分类。按照这种标准, 主流的搜索引擎大致可以分成三个类型:

最常用的搜索引擎是全文搜索引擎。它的工作原理是在一定的时间周期内, 利用脚本程序或者网页自动搜集器检索信息, 目的是检索最全最多的网页信息反馈给服务器索引, 索引系统整理好所有的信息并建立好索引库之后为用户提供使用接口。用户使用时, 只需键入要查找的信息的关键词, 搜索引擎负责搜索并定位信息的位置, 接下来, 大量的相关信息要由评价系统按照一定的标准进行排序, 随后, 页面生成系统会将排序后的结果进行进一步整理加工和美化, 然后将最终的结果按相关度顺序组装成HTML页面呈现给用户。这样的搜索引擎有很多优点:信息量大, 信息时效性高, 维护工作的自动化程度高, 成本相对较少。但这类搜索引擎也非完美无暇, 当前这类引擎的缺点就是检索结果可能不精确, 主要是由于用户还不能完全适应使用关键字表达信息。这类搜索引擎的代表是:Google、百度等。

目录式搜索引擎, 对于这类搜索引擎, 用户实现搜索时不用输入必要的关键字, 单单是利用搜索引擎自带的搜索目录就能找到相关的信息。这种搜索引擎的搜索原理是:利用手工或者半自动化的方法搜索用户需要的信息, 然后, 由负责编辑的人员参与查看后, 提交一份有关信息的信息摘要, 同时还需要人工方式将摘要放到其相关的分类组中。这类搜索引擎里引入了一部分自动的模糊的查找机制, 因此检索的速度和准确性上有了很大的改观。但是也有不少缺点, 主要是一部分工作需要人工的方式处理, 因此, 信息的维护工作和实时更新工作需要耗费很大的精力, 并且速度和及时性很难保证。

元搜索引擎 (A Meta Search Engine Roundup) 。它是利用元搜索引擎的分发功能实现信息的分布式计算获得结果的一种自动化的查询机制。搜索时, 用户只需要键入一次搜索信息, 就可以得到最终的搜索结果。但是由于这种搜索引擎的搜素结果不能达到足够的精确和快速, 所以, 元搜索引擎没有得到很好的发展。

随着网络的发展搜索引擎也在不断地更新, 新的产品会更简便易用, 更贴近自然语言, 更人性化, 更有意义, 近代的集合式搜索引擎, 免费链接表搜索引擎等就具有很多新的特点。

参考文献

[1]陈继宇, 严沛瑜, 陈丽.网上交互辅导系统与学习循环[J].中国电化教育, 2005 (3)

篇4:网络搜索应用能力竞赛

关键词搜索引擎;网络资源;科技期刊

中图分类号G21文献标识码A 文章编号1673-9671-(2009)111-0082-01

1搜索引擎在科技期刊工作中的应用

搜索引擎是指根据一定的策略,运用特定的计算程序搜集互联网上的信息,对信息进行组织和处理后,为用户提供信息检索服务的系统。

1.1 通过网上搜索引擎可以搜集选题信息

选题是决定科技期刊质量的重要因素。科技期刊编辑工作者通过搜索引擎获取信息,可以为选题、组稿提供方便快捷的渠道。互联网上信息资源丰富,通过搜索引擎,编辑可以快速地收集到有关学科的信息,及时跟踪某一学科的最新发展情况,掌握最新学术动态及其发展趋势,激发选题灵感,为选题策划、组稿和审稿工作打下坚实的基础。

1.2通过搜索引擎获取最新专业动态

科技期刊作为知识传播的主要载体,担负着探索学术、传播知识的崇高使命。科技期刊编辑应及时把握学科发展趋势,了解学科研究动态,随时关注本学科的发展情况。通过搜索引擎,编辑就可以随时了解各学科正在研究的课题和进展情况,随时了解各学科的发展动态、前沿知识、新理论等;了解有关专业学术期刊发表的论文情况,及时判断稿件的科学性和创新性,正确判断作者研究的价值,从而提高科技期刊的质量。同时,查询和检索文献的过程也是学习学习、积累的过程,有利于提高编辑人员的学术素养。

1.3通过搜索引擎可以检索稿件的学术水平

编辑可以将搜索引擎运用到审稿工作中,对文稿中的资料数据等关键性内容进行查询和确认。利用搜索引擎,从作者、关键词、刊名等检索入口进行查询,对稿件的创新型和学术水平进行初审。比如利用题目和关键词的检索初审,可以初步判断待审论文的新颖性和学术性。同时,科技论文稿件中涉及许多具体的专业术语、符号、概念、公式,编辑可利用搜索引擎获取与稿件内容相关的信息,确认相关专业术语的正确性。

1.4通过搜索引擎检索参考文献的准确性

随着文献计量学的发展,参考文献在科技论文中的作用日益重要。参考文献的核对,是身高过程中十分繁琐且需要耐心和细心的工作。参考文献一般要求的信息必须齐全,有些作者往往只提供部分内容或者偶有错误,这都需要编辑人员去插队补充。按照老办法编辑要去资料室或图书馆进行查对,要耗费大量的时间和精力。利用百度等搜索引擎进行检索文献及出处省时又省力,还可及时解决文献的缺失项等问题。

信息贯穿编辑工作的始终。无论选题、组稿、审读、加工整理及后续工作,都不能离开对信息的积累和研究。搜索引擎对提高科技期刊编辑工作的质量和效率带来诸多好处,提高了学术把关能力,提高了编辑流程的效率。但同时还要对搜索到的结果慎重甄别,避免差错。

2网络资源的运用在科技期刊编辑工作中的作用

2.1利用网络资源对科技期刊论文查新

科技期刊论文查新是为了科技期刊编辑对待审论文是否具有创新性而进行的评价工作。查新工作为判断待发表论文的新颖性,减少科研重复投入起着至关重要的作用。可以有效地避免一稿多投。进行查新的数据库要具有较高的期刊收入率,并且能够及时更新查新数据库,这样才能全面反映相关研究的成果和进展。《中国学术期刊全文数据库》、《万方(全文)数据库》、CNKI网络资源共享平台都为编辑检索提供了有利条件。

2.2合理利用网络资源使繁杂的编辑工作变为快捷

编辑工作包括收稿、选题、组稿、审稿、加工整理以及很多后续工作,其中收稿、登记等工作,按照传统手抄登录方式就很繁琐,还容易出错,稿件积累多了也不便于查询核对。这种工作方式也会耽误编辑人员大量的宝贵时间。如果利用好网络资源,可以通过建立作者数据库,录入作者的相关信息,并且可以不断补充新作者,便于编辑人员对作者情况的查询,同时也避免了编辑部人员大量重复性的工作,从而大大提高工作效率。作者也可通过电子邮件进行投稿,编辑也可以与作者进行及时沟通返修、校对等问题,这些工作都可以在网上进行,不存在地域等问题,缩短了时间,也提高了工作效率。

2.3网络资源的应用在稿件初审、复审中的作用

⑴审稿工作是一项鉴定工作,它包括编辑初审和专家复审。编辑在初审时可利用网络资源中各种数据库提供的资料对稿件进行评估,以判断有无学术价值。编辑还可通过互联网,在更广泛范围内遴选审稿专家,使稿件的审理具有针对性,确保评审工作公平、准确和快速进行。

⑵网资源的应用可以防止一稿多投。“一稿多投”问题长期困扰着科技期刊界,不仅严重影响了科技期刊的声誉,而且造成了期刊版面资源的浪费。利用网络资源检索,就可以较好地解决这一问题。编辑人员可以通过各种数据库,检索作者和题名就可以了解论文是否已经发表。

⑶利用网络资源遴选审稿专家并充实审稿专家库。把好专家审稿关是提高科技期刊学术质量的关键。随着学科的发展,新学科的出现以及科研人员的流动等,都需要编辑人员不断寻找新的审稿专家,对原有的审稿专家库进行补充和更新。利用网络资源的优势,就可以发现并找到合适的审稿专家。

⑷编辑部通过电子邮件将稿件以电子文本的形式直接发给审稿专家,专家在规定时间内将稿件审毕,再通过电子邮件将审稿意见反馈给编辑部。利用网络资源,做到了审稿人、编辑、作者三方的及时沟通,提高工作效率。

由于网络的迅速发展,使现代化的编辑手段代替了传统的笔和纸。科技期刊编辑所有工作都可集中在网上实现,通过网络资源、信息搜索,缩短了对稿件的发送、筛选、编辑加工、出版发行的过程,提高了工作效率,增强了稿件的时效性。网络技术使科技期刊的编辑工作融调研、检索和服务为一体,给编辑工作带来了巨大的优势。

参考文献

[1]沙勇. CNKI网络资源共享平台在科技期刊检索中的应用[J]. 齐齐哈尔大学学报,2006,23(6):72-74.

[2]杨萌,张军. 李春丽.现代网络技术与学报编辑[J]. 韶关学院学报(社会科学版),2003,24(1):117.

[3]郑国琴,蒋宇. 网络信息环境下高校学报的编辑行为[J]. 宁夏大学学报(人文社会科学版). 2005,129(6):108.

[4]陈矩弘. 网络环境下科技期刊编辑的信息选择[J]. 编辑学报,2006,18(4):30

06-308.

[5]彭南轩.网络资源在科技学术期刊审稿中的作用探讨[J]. 编辑学报,2005,17(6):442-443.

[6]杨薇.浅析科技期刊编辑工作的现代化[J]. 鞍山师范学院学报,2008,10(6):109-110.

[7]张秀清.论科技期刊编辑工作的现代化及实现途径[J]. 长春师范学院学报,2007,26(6):158-159.

作者简介

篇5:网络搜索应用能力竞赛

网络商品信息的提取技术[1 - 3]是随着网络的普及以及网络购物的发展而发展起来的。在整个2011 年度我国网购规模达到8090 亿元, 占到了全国社会商品零售总额的4. 4% , 网购人数达到2. 12 亿, 网上购物在网民中的渗透率提高到41. 3% 。网络购物人们生活中占据了重要地位。随之而来的, 网络商品信息提取技术越来越受到人们的重视。

网络商品信息的提取可以细分成两个方面, 即网页搜索以及信息抽取: 网页搜索技术主要包括目录搜索、全文搜索和元搜索[4]三种; 信息抽取又分为人工抽取规则、通过标记样本抽取规则、自动抽取规则如RoadRunner、MDR、Find DR等。

本文基于网络商品信息特点的基础上, 对元搜索技术的网页搜索和信息提取两方面进行研究, 设计一种新的网络商品引擎。使用两个元搜索引擎, 实现购物网站信息的自动采集, 并在Find DR算法的基础上设计了一种改进算法提高信息抽取的效率。

1 网络商品引擎

1. 1 网络商品信息特点

网络商品信息与一般的网页信息相比有如下特点: 其一, 商品信息结构性很强, 尤其是同一个网站上的商品信息; 其二, 网络上的商品信息高度集中, 主要在各大购物网站中, 尤其是淘宝等知名网站; 最后, 网络商品信息提取对信息的安全可靠性要求极高。

基于此可以使用元搜索技术进行网页抓取, 使用Find DR改进算法信息抽取, 实现对网络商品信息的搜索。

1. 2 系统总体设计

系统可分为如下三大模块:

1) 元搜索模块[5], 该模块的功能主要是根据抓取范围限定模块采集到的购物网站信息将用户提交的搜索请求封装并转发给子搜索引擎, 即各大购物网站的站内引擎, 根据抽取规则库抽取搜索结果中的商品信息, 最后将商品信息集进行汇总、排序并显示给用户。

2) 搜索范围限定模块, 该模块的目的是实现元搜索子引擎的自动维护, 元搜索引擎是通过子引擎进行网页搜索的, 对于子引擎的网址、传递参数名等信息往往需要进行人工维护, 增加了系统使用成本。设计一种“双层元搜索引擎”, 通过百度对购物网站信息进行采集实现了对子引擎的自动维护。

3) 网页分析模块, 功能是对网页进行信息提取, 它通过对元搜索模块搜索到的网页样本的分析, 自动地生成抽取规则。网络商品引擎的核心流程如图1 所示。

系统的查询范围库初始为空, 可以人为地设定初始查询范围或运行搜索范围限定模块自动添加或更新查询范围。该模块通过预设定的搜索词在百度搜索购物网站, 提取其中的购物网站信息添加到查询范围库中。

当收到用户的请求时, 系统的元搜索模块根据查询范围库中信息抓取网页, 并由网页分析模块抽取页面中的商品信息, 排序返回给用户。

2 系统设计

2. 1 元搜索模块

1) 模块功能分析

元搜索模块最终目标是实现网页抓取, 与全文搜索中的网络爬虫相似, 它的主要工作如下:

1 接收用户的搜索请求。

2 将用户的搜索请求封装并转发给元搜索引擎的子引擎, 即各大购物网站的站内引擎。

3 抓取购物网站的搜索结果, 提交给网页分析模块进行后期的信息抽取。

4 对网页分析模块抽取的商品进行汇总、排序并显示给用户。

2) 元搜索原理和优势

元搜索的原理是将用户的查询请求转换成搜索引擎能够理解的底层数据格式然后同时向多个搜索引擎递交请求, 在将返回的结果进行重复排除、重新排序等处理后, 作为自己的结果反馈给用户[6]。

最早的元搜索引擎名为Metacrawler , 1995 年由Washington大学硕士生Eric Selberg和Oren Etzioni所发明, 元搜索引擎是为了弥补全文搜索引擎不足而发明与全文搜索引擎相比具有搜索效率高、成本低、搜索信息全面、信息的更新速度快等优点[7,8]。表1 是对全文搜索和元搜索的性能比较。

3) 元搜索模块设计

根据元搜索技术的核心思想设计元搜索算法的如下:

1 用户输入搜索词W并选择搜索条件集T = { T1, T2, …, Tn} , 转向2。

2 使用封装器对搜索词W和搜索条件Ti ( Ti∈ T, 且i的初值为1) 进行封装, 转发给对应的购物网站, 并得到搜索结果Pi, 转向3。

3 将搜索结果Pi提交给网页分析模块, 返回商品信息集I= { I1, I2, …, Im} , 并转向4。

4 对商品信息进行排序, 若搜索条件集T中的所以网站搜索完毕即i = n转向5。否则i自增1 并转向2。

5 将4中的排序结果显示给用户。

算法中涉及到封装器的使用, 对封装器描述如下: 封装器的目的是将用户的搜索请求封装底层数据格式同时向多个搜索引擎递交请求。系统接收到用户的请求和将用户请求封装到URL中。令URL为某购物网站站内引擎地址, NAME为传递参数名, W为搜索词, 封装后结果为URL? NAME = W。以淘宝为例, 搜索“大衣”URL为: http: / /s. taobao. com/search? q = % B4%F3% D2% C2。

2. 2 抓取范围限定模块

1) 模块功能分析

元搜索引擎是通过子引擎进行网页搜索的, 根据之前分析元搜索模块对用户请求的封装使用了URL和NAME两个参数, 但不同的购物网站URL和NAME是不同的, 这就涉及到元搜索子引擎自动维护的问题。抓取范围限定模块就是为了解决这一问题而设计的。

该模块的思想是使用元搜索技术将事先准备的一些搜索词封装并提交给百度搜索引擎, 然后对百度的搜索结果页面集中包含的购物网站搜索引擎地址进行抽取, 这相当于使用一个简单易于维护的元搜索引擎对系统的元搜索引擎进行维护。

2) 抓取范围限定模块设计

抓取范围限定模块需要解决三个问题: 一是, 使用元搜索技术获得百度搜索的结果页面集, 目的是实现对百度搜索的结果页面集进行自动抓取。二是, 百度搜索的结果页面集中网址的提取, 该问题的关键是如何从搜索的结果页面中正确地提取网址。三是, 对抽取出的网址的筛选和提取目标信息, 无论网址提取中采取的算法多么严谨都不可避免地将一些无用网页提取出来, 而且, 系统的最终目的是提取购物网站的搜索引擎网址和传值参数的参数名, 因此需要判定之前抽取的网址是否符合要求, 并提取最终目标。

算法如下:

网址集T = { url1, url2, …, urln} 是对搜索结果页面集提取到的网址集合, 对候选网址集T的每一个网址进行如下操作:

1 打开网页urli ( i的初始值为1, 1 ≤ i ≤ n ) ;

2 判断网页的编码方式, 将网页转换为字符串, 并使用htmlparser创建网页的DOM树;

3 提取网页源代码中的form表单, 若存在转到5, 否则转到4;

4 判断网页中是否含有text属性的input标签, 将网址保存到本地的txt文档中, 由手工提取, 否则转到8;

5 判断form表单是否符合要求, 有且仅有一个submit属性的input标签和一个text属性的input标签, 若是进行下一步, 否则, 转到8;

6 判断form的传旨方式, 如果为post方式, 将网址保存到本地的txt文档中, 转到8。否则转到7;

7 提取form表单中的action属性和text属性的input标签中的name属性, 并将其保存到查询范围库, 转到8;

8 i + +, 若i > n程序结束, 否则转到1。

抓取范围限定模块的输出结果是查询范围库, 它包括购物网站的URL和NAME等信息, 它要尽量保证购物网站信息是正确可靠的, 但抓取范围限定模块并不能完全地保证提取的每一条信息都是正确的。

2. 3 网页分析模块

1) 模块功能分析

网页分析模块的目标是对元搜索模块的搜索结果进行分析, 提取网页中商品信息按照指定格式输出给用户。

2) Web信息抽取算法分析

网页分析模块是通过Web信息抽取实现信息抽取[9,10], 根据规则获取方式分为三类:

1 人工制定规则: 早期的信息抽取都是通过手工抽取规则的方式进行信息抽取的, 这种方法是指提前制定好抽取规则, 系统按规则直接抽取, 比如对网页中标题进行抽取, 可以直接设定规则对每一个抓取到的网页抽取title标签中信息。这种方法的优点是简单、准确率高。但是规则的制定往往需要一定的相关知识水平人工消耗大, 而且无法满足对快速变化的网页结构进行抽取。每当网页结构发生变化, 就需要人工的重新制定规则。

2 利用标注好的样本抽取规则: 这种方法是指对已经标记好的样本进行分析, 通过一定规则自动生成对这类样本的抽取规则。这种方法的优点是实现了一定的自动化, 但由于需要对样本进行人工标记需要消耗一定的时间, 适用于大量相似结构网页信息的提取。

3 完成自动的提取规则: 这种方法通过对网页信息之间隐含结构的研究制定一套方案, 完全自动地提取网页信息。该方法的优点是适应能力强, 无需人工干预, 但抽取效率相对较差, 而且只能对特定的信息进行抽取。代表的算法有RoadRunner、IEPAD、MDR、Find DR等。

3) 购物网站页面结构分析

对网页中信息进行抽取首先对购物网站页面结构分析, 图2 ( 搜索结果页面) 和图3 ( 商品展示页面) 是购物网站中的两类包含商品信息的网页, 比较两者可以发现, 搜索结果页面包括了商品展示页面中的主要内容, 而且更利于元搜索的提取。因此对搜索结果页面进行分析, 发现其具有如下特点:

1 一个搜索结果页面显示多件商品, 一般为十件以上甚至更多, 以淘宝为例, 淘宝的搜索结果页面包含44 件商品。

2 搜索结果页面对每件商品的描述格式大体相同。

3 搜索结果页面对每件商品信息可以分为商品名、商品价格、其它信息三部分。其中其它信息由多条信息组成是对商品的具体描述。

4) Find DR改进算法

首先定义两个概念数据区域和重复度。

定义1数据区域

由两个或两个以上满足以下所有条件的结点的集合: 1 集合中相邻结点相似度大于某个阈值。2 对于集合中任意结点Ti至少存在一个结点Tj与该结点相邻。3 所有结点存在一个相同的父节点。

定义2 重复度

某数据区域的重复度为N, 表示该数据区域N个结点。

Find DR改进算法描述如下:

算法中Snode.Flag表示包含搜索词W的结点集, Snode.DataRegion Set保存目标数据区域。下面对算法中包含的三个函数进行描述。

Contains (Snode, W) :该函数的目的是求以Snode为根结点的树中包含搜索词W的结点集, 函数首先从根节点开始遍历DOM树, 将遇到的每一个包含搜索词W的结点添加到Snode.Flag中。

Identity DR (Flag, P, N) :该函数求符合如下条件的数据区域, 1该数据区域中包含结点Flag或结点Flag的祖先结点;2该数据区域的重复度大于N。函数首先求结点的父节点是否含有符合要求的数据区域, 若存在则结束, 否则, 求父节点的父节点是否含有符合要求的数据区域, 以此类推。为减少重复运算, 对结点的所有求解过的数据区域的祖先结点加标记。结点的相似度阈值由简单树匹配算法获得。如下所示:

5) 简单树匹配算法

定义3树匹配

假设A、B为两棵树, , 对于, 满足如下条件, 则M为A到B的一个匹配。

1 若Ai= Bi, 则Aj= Bj。

2若Ai为Aj的祖先, 则Bi为Bj的祖先。

3若Ai在Aj的左边, 则Bi在Bj的左边。

4 存在 ( parent ( Ai) , parent ( Bi) ) 和 ( parent ( Aj) , parent ( Bj) ) ∈M。

简单树匹配算法就是寻找树A和B的最大匹配数目, 记作Max Match ( A, B) 。设A = { Root A, A1, A2, …, Am} , B = { Root B, B1, B2, …, Bn} 为两棵树, 其中Root A和Root B为A和B根结点, 其余为根结点的子树, m和n为A和B的孩子数。A和B树的最大匹配为Max Match ( A, B) = M ( A, B) + 1, 其中M ( A, B) 为< A1, A2, …, Am> 和< B1, B2, …, Bn> 的最大匹配。M ( A, B) 可通过动态划分的方法计算:

1 若Max Match ( Am, Bn) > Max Match ( Am, Bi) , i = 1, 2, …, n - 1 。M ( A, B) = Max Match ( < A1, A2, …, Am - 1> , < B1, B2, …, Bn-1>) +Max Match (Am, Bn) 。

2 否则, M ( A, B) = Max ( Max Match ( < A1, A2, …, Am> , ) , Max Match (, ) ) 。

由1和2可得M ( A, B) = Max ( Max Match ( < A1, A2, …, Am>, ) , Max Match (, ) , Max Match (, ) +Max Match (Am, Bn) ) 。

算法实现如下:

3 实验结果

由于元搜索模块的搜索结果取决于抓取范围限定模块提取的网站信息准确率, 所以只对抓取范围限定模块和网页分析模块进行实验分析。

1) 抓取范围限定模块

抓取范围限定模块对使用get方法的购物网站进行信息采集, 只有采用合理的正则表达式, 抽取结果的召唤率为100% , 也就是说不考虑网页传输错误等情况下, 可以将百度搜索结果中包含的get方法的购物网站全部抽取出来, 但是并不是所有的抽取结果都是购物网站, 表2 是抓取范围限定模块抽取结果。

表2 中搜准率表示, 抽取结果中正确结果所占比例, 指标F为调和均值[11], 召唤率R为100% 。

实验结果表明:

1 抓取范围限定模块具有很好的召唤率和搜准率, 但不可避免地被非购物网站搜索出来, 如购物论坛等。

2 不同的搜索词对抽取结果有一定的影响, 因此要尽量选取更准确的搜索词。并可以对多个结果进行汇总, 不过在得到更多抽取结果的同时也会降低搜准率。

2) 网页分析模块

使用Find DR改进算法对购物网站进行信息抽取实验, 表3为部分网站的信息抽取结果, 表中的六个网站都可以抽取出其中的商品信息, 但是淘宝、亚马逊、凡客三个网站信息抽取结果不全, 淘宝和亚马逊对部分结果单独显示, 这两个网站将搜索结果中的前几件商品与其它商品放在不同的区域中。凡客则是由于页面的数据区域不明显。

4 结语

为解决自动地对网络上商品信息的搜索、提取, 本文结合了现有网络商品信息搜索的相关技术基础上, 设计了一种商品信息提取模型。该模型采用元搜索技术和统计与模板的网页分析方法实现了对网络商品信息的高效抽取。

摘要:在分析网络商品信息特点的基础上, 改进现有的Web信息提取技术, 设计一种基于元搜索技术的网络商品信息提取模型, 实现对搜索范围的自动确定、网页搜索、以及商品信息的自动抽取。通过大量商品信息的搜索测试, 在抓取范围的自动确定和商品信息的自动抽取上取得了很好的效果。

关键词:Web信息抽取,元搜索,提取模型

参考文献

[1]Jorge R, Gómez A.A Fuzzy Logic intelligent agent for Information Extraction:Introducing a new Fuzzy Logic-based term weighting scheme[J].Expert Systems with Applications, 2012, 39 (4) :4567-4581.

[2]Doug D, Etzionib O.Analysis of a probabilistic model of redundancy in unsupervised information extraction[J].Artificial Intelligence, 2010, 174 (11) :726-748.

[3]TakLam W, Lamb W.An unsupervised method for joint information extraction and feature mining across different Web site[J].Data&Knowledge Engineering, 2009, 68 (1) :107-125.

[4]曹林, 韩立新, 吴胜利.元搜索引擎排序技术综述[J].计算机应用研究, 2009 (2) :411-414.

[5]朝乐门, 张勇, 邢春晓.面向跨领域海量信息资源的元搜索引擎研究[J].中国图书馆学报, 2011 (2) :19-29.

[6]王新, 刘晓霞.基于关联规则挖掘的垂直元搜索引擎研究[J].计算机工程, 2011 (4) :76-77, 80.

[7]韩宇彬, 薛贺.元搜索引擎结果集成算法[J].微处理机, 2008 (5) :104-107.

[8]孟星, 丁振国.个性化元搜索引擎模型研究[J].计算机工程与应用, 2008 (36) :150-152.

[9]顾韵华, 田伟.基于DOM模型扩展的Web信息提取[J].计算机科学, 2009 (11) :235-237.

[10]张树壮, 罗浩, 方滨兴.面向网络安全的正则表达式匹配技术[J].软件学报, 2011 (8) :1838-1854.

上一篇:学校夏季疾病预防总结下一篇:幼儿园教学个人实习报告