基于WEB2.0唱片信息检索系统的研究

2022-09-12

1 Web2.0的定义

2005年9月, O’Reilly Media公司主席Tim O’Reilly在其公司网站的个人栏目中发表文章《What is web2.0—Design Patterms and Business Models for the Next Generation of Software》, 此文章成为W e b 2.0的标志性文章, 但是文章没有给出Web2.0准确的定义。目前, Web2.0还没有一个统一的定义。现在有一下几种不同的说法。

1.1 Tim O’Reilly对Web2.0的定义

Tim O’Reilly认为Web2.0没有一个明确的界限, 而是一个重力核心, 后者说是一组原则和实践。其核心是W e b作为平台、用户控制数据、和六项核心竞争力 (提供服务而不是软件、参与体系、可测量的有效成本、可混合的数据源和数据转换、软件的设备独立性以及利用集体智慧) 。

1.2“官方”Web2.0的简洁定义

Web 2.0是一个作为平台的网络, 跨越了所有连接的设备;Web 2.0的这些应用构成了这个平台的优势所在;发布软件成为一个持续更新的服务, 并使更多的人使用该服务;获取并重组各种来源的数据, 并对其他人提供自己的数据和服务以便他们能以同样的方式使用;通过一种“共享网络架构”的方式高效地创建网络, 并提供比Web 1.0页面更丰富的用户体验。

1.3 中国互联网协会对Web2.0的定义

Web2.0是互联网的一次理念和思想体系的升级换代, 有原来自上而下的少数资源控制集中控制主导的互联网体系转变为自下而上的由广大用户集体智慧和力量主导的互联网体系。

总之, Web 2.0不是一种技术, 而是一种概念, 为了与传统的Web相区别而使用的, 是对新兴的Web应用及其实现技术的归纳和总结。

2 Web2.0的特征

2.1 面向服务

传统Web的业务模式是产品, 而Web 2.0的业务模式已经从产品转向了服务。

2.2 用户参与机制

传统Web主要是站点管理员统一发布信息, 用户被动地浏览信息, 但在Web 2.0中, 个人不是被动的客体, 而是作为一种主体参与到互联网中。

2.3 内容聚合

内容聚合是一种站点之间共享内容的简洁方式。内容聚合的主要标准包括RSS2.0系列, RSS1.0和Atom等。

2.4 利用集体智慧

Web 2.0的一个本质是利用集体智慧。例如, 我们可以将互联网视为一种所谓的全球的大脑。

3 Web2.0的主要实现技术

3.1RSS

目前, 人们一般将R S S看成内容聚合的代名词, 即R S S是一种W e b内容聚合的数据格式规范。总的来说, RSS有以下特点和作用: (1) RSS形成了实时Web; (2) RSS形成一种信息发布的方式; (3) R S S是社会性的; (4) RSS适用于内容追踪。

3.2Tag

社会标签 (Tag) 是一种准确、灵活、开放、有趣的分类方式, 是由用户为自己的文章、图片、音频、视频等文件所定义的一个或多个描述。具体来说, 社会标签有以下好处: (1) 添加过标签的文章会被之间链接到网站包含相应标签的页面; (2) 可以方便地查找到使用同样标签的文章; (3) 标签的设置方式由用户自主决定; (4) 通过某些标签可以找到具有共同兴趣爱好的朋友。

3.3Ajax

A jax不是一种技术, 而是几种技术的一个组合, 这个组合有强大的功能。A jax技术的主要内容包括: (1) 使用X HTML和CSS将数据标准化地呈现给用户; (2) 使用DOM进行动态显示和交互; (3) 使用XML和XSLT使用数据交互和操作; (4) 使用XMLHttpRequest进行异步数据接受; (5) 使用JavaScript将上述技术绑定在一起。

A jax的三大特征是异步交互、基于JavaScript脚本和XML封装数据。

3.4SNS

主要采用六度关系理论的思想创建的对网络用户提供彼此交流平台的站点。与一般软件相比, SNS有以下特征: (1) 使用过程中反射社会网络; (2) 以自我为中心, 轻量级, 松散耦合, W e b链接; (3) 使用者的身份和信任在软件中体现; (4) 主动参与群体。

4 信息检索系统的实现方法

信息检索是指将信息按照一定的方式组织和存储起来, 并根据信息用户的需要找到有关的信息过程, 所以它的全程又叫“信息的存储与检索”, 这是广义的信息检索。狭义的信息检索则仅仅指该过程的后半部分, 即从信息集合中找出所需要的信息的过程。信息检索的数学模型, 简称信息检索模型, 是对信息检索任务及其实现方法的一种抽象描述。包括以下三类: (1) 布尔模型; (2) 向量模型; (3) 信息检索的概率模型。

信息检索系统的具体实现:实现分为两步:第一步是做索引, 对唱片信息自动分词, 记录并存到我们制定的xapian数据库。关键代码如下:

$doc->set_data (“$str”) ;

//记录唱片内容到xapian数据库

//根据索引词记录到xapian数据库

$database->add_document ($dac) 。

第二步根据检索词, 到对应的xapian数据库检索找到相应内容。

测试结果:可以对唱片文本进行中文自动分词、英文分词, 自动索引到特定数据库。搜索可以支持布尔查询, 相关性反馈查询, 实现了信息概率检索模型的基本功能。

5 Web2.0在唱片信息检索系统中的应用

面对当前庞大的唱片信息资源, 要实现异构数据库统一检索, 传统数据库管理系统已经很难解决, 本文在Web 2.0基础上, 对唱片信息检索系统实行了异构数据库统一检索方法。

基于Web 2.0技术的异构数据库统一检索系统主要实现了用户从统一的检索界面提交检索请求, 然后通过中间调度引擎分发给各个数据接口的目标连接器, 再根据各连接器返回的结果数据进行后期处理, 如查重、排序等, 最后把结果显示给用户, 从而实现资源的统一检索。

采用这一体系结构的优点是: (1) 对用户提供一站式个性化检索服务, 提供统一的检索界面和检索语言, 无需记忆众多复杂网址和熟悉千差万别的界面; (2) 采用Web Service技术实现, 从而提高系统的重用性、降低系统的耦合度, 且从功能角度来说, 基本上覆盖了唱片信息的实际需求; (3) 采用Web 2.0技术设计的检索界面大大提高了用户的检索效率, 还可以减轻服务器端的负载。

综上所述, 在W e b 2.0基础上, 对唱片信息检索系统实行异构数据库统一检索方法是一种行之有效的方法。

摘要：本文从Web2.0的定义和特征出发, 介绍了Web2.0的主要实现技术, 并介绍了信息检索系统的实现方法, 在此基础上着重讲解了Web2.0在唱片信息检索系统中的应用。

关键词：Web2.0,唱片信息检索系统