探讨搜索引擎在网络信息挖掘中的应用

2022-09-10

网络信息的快速增长, 使搜索引擎成为人们查找网络信息的首选工具。而网络信息挖掘必须操纵大量的数据, 其文本信息库可能是相当庞大的, 传统的做法是对网络信息进行人工分类, 并加以组织和整理。但是, 这种做法存在着许多弊端。而搜索引擎是帮助人们在庞大的网络上查找信息的重要工具。本文就是主要研究搜索引擎在网络信息挖掘中的应用。

1 搜索引擎的工作原理

搜索引擎通常通过下载Internet上的web文档, 进行过滤、分词、转换等处理工作。然后对文档信息进行预处理和形式化描述, 抽取特征并进行索引[1]。文档的收集是Web信息检索的基础。文档的预处理为后续检索工作提供了保证。

2 搜索引擎在网络信息挖掘中应用的整体设计

本文研究了一个网络信息挖掘系统, 整个系统主要由信息库和功能模块组成。信息库存储所需的Web文档, 文档的质量对分类器性能至关重要。文档质量可以从两个方面进行考察:文档的代表性。这是对单个文档来说的, 要求每个文档都能代表某一文档类中有特色时文档实例;文档的覆盖性。这是对某一类文档而言的, 要求每一文档类具备完整的代表性文档实例[2]。本系统文档不是直接从Web文档中提取信息, 而是把Web文档 (*html) 经过预处理保存为文本文件 (*.txt) , 然后再从中挖掘重要网络信息。

准备好信息库, 网络信息挖掘系统进入处理流程:Web网页经过预处理得到中文文本信息, 投入到分类样本集中, 经过分类预处理, 把文本信息表示成特征项集。这个过程为后面的处理做好准备。接下来, 转入分类器或者使用已有的分类器进行分类的过程, 这个过程中处理的是特征向量。

3 搜索引擎在网络信息挖掘中应用的实现

3.1 挖掘预处理

挖掘预处理包括网络信息预处理及分类预处理两大过程。

网络信息预处理首先从INTERNET下载的网络页面信息, 它们不同于单纯的文本, 包含了大量的格式化标记, 比如

等。这种标记表示了文本的各个不同的组成部分, 我们可以利用这些标记增大重要部分的权值, 同时还要考虑文本中不同的位置的段落重要性, 比如段首和段尾段落浓缩了文本的中心议题, 将这些重要的文本段落和句子抽取出来, 形成压缩文本, 保存成纯文本文件。经过网络信息的预处理模块, 对Web网页集进行处理, 提出挖掘无关的信息, 比如:图片, 广告, 动画等。这样得到整理好的文本内容, 把它们投入到样本集或者分类样本集中练样本集用于分类器, 分类样本集用于分类。

分类预处理过程就是对信息预处理后的文件进行分词处理。主要包括词性标注、短语识别, 去除停用词、还原词根, 统计词频。这样得到单词流构成的原始特征项集以及每个特征项的词频。原始特征项集在训练分类器阶段用于产生最优特征项集为文本以向量空间模型表示做好准备。

其中, 停用词是指由一系列没有检索意义的高频词, 如中文文献中的“的”、“关于”、“但是”、“而且”等。从相关性方面讲, 这些词会多次出现在各种类别的网页中, 没有检索意义;从词行的角度看, 一般包括如介词、限定词、感叹词等。因此在处理标签、分词之后, 需要清除停用词, 同时清除标点符号和多余的空格等冗余符号。

3.2 挖掘训练及控制分类

对于预处理后的信息文件, 进行特征加权, 从而确定最优特征项集, 接着生成文档向量, 然后使用分类算法训练分类器。其中, 特征加权就是计算原始特征项集中每个特征项的类别区分度, 即权重。通过权重的不同以反映不同特征项对文档的贡献大小, 以便后面的特征选择对其“择优”选取。

本文使用IF-IDF公式计算权重。实现的时候, 为原始特征项集里每个特征项设置一个结构svm_WeightNode, 来存放它相应的权值, 代码如下所示:

特征选择是通过特征评估函数, 确定最优特征项集。

//从m_lstWordList选出最优特征项集, 到m_lstTrainWordList中, 最终组成最优征项集, 保存到网络信息数据文件中, 该文件还有三列, 分别表示:编号、特征项、频率。编号从0开始顺序递增。特征维数的设定要注意范围, 太小不能反映实际问题, 影响分类的准确性;太大又影响计算复杂度、运行效率、时间和存储空间。

3.3 网络信息文件的操作

网络信息挖掘的过程中, 都会涉及到网络信息文件的读入读出。本文采用系统函数fget () 和fputc () 来实现, 并形成相应的几个接口函数。通过扫描整个网络信息文档集, 统计各个类别包含的网络信息文档数、该文件每行的字符数, 得到最大值, 用于系统为各个数据结构初始化内存空间, 比如docx和label, 函数scan_docs () 完成此功能。

对于整个网络信息文档集, read_docume nts () 计算每个网络信息文档包含的单词, 得到其中的最大值。对于每一个网络信息文档, 调用parse_document () 函数, 该函数对于一个网络信息文档, 解析出各个单词, 分别放到相应的数据结构中去。