浅谈搜索引擎的安全性

2023-02-17

我们生活在信息大爆炸时代, 在如此庞杂的新鲜信息与存量信息面前, 搜索引擎能够帮助人们找到及时有用或急需的信息。打开Google或百度主页, 键入想要搜索的任何一个词语, 不到10秒的时间里, 浏览器页面里就会响应出搜索结果。

但是如此倍受青睐的搜索技术在给我们带来方便快捷的服务的同时也存在着很大的不安全因素。本文着重从搜索引擎技术阐述搜索引擎所造成的信息外泄。

1 搜索引擎中不安全因素

1.1 搜索引擎分类

搜索引擎按其工作方式主要可分为三种:全文搜索引擎、目录索引类搜索引擎和元搜索引擎。目录索引仅仅是按目录分类的网站链接列表而已, 在严格意义上不算是真正的搜索引擎。而元搜索引擎则是同时利用多个引擎进行搜索, 并将结果返回给用户。

全文搜索引擎是名副其实的搜索引擎, 国外具代表性的有Google, 国内有百度。它们都是通过从互联网上提取的各个网站的信息而建立的数据库中, 检索与用户查询条件匹配的相关记录, 然后按一定的排列顺序将结果返回给用户, 因此他们是真正的搜索引擎。

1.2 全文搜索引擎

1.2.1 自动信息搜集功能

全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索, 即每隔一段时间, 搜索引擎主动派出“蜘蛛”程序, 对一定IP地址范围内的互联网站进行检索, 一旦发现新的网站, 它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索, 即网站拥有者主动向搜索引擎提交网址, 它在一定时间内定向向指定的网站派出“蜘蛛”程序, 扫描你的网站并将有关信息存入数据库, 以备用户查询。

1.2.2 PageRank:给网页排序

W e b的引用图是重要的资源, 却被当今的搜索引擎很大程度上忽视了。我们建立了一个包含518000个超链接的图, 它是一个具有重要意义的样本。这些图能够快速地计算网页的PageRank值, 它是一个客观的标准, 较好的符合人们心目中对一个网页重要程度的评价, 建立的基础是通过引用判断重要性。因此在web中, PageRank能够优化关键词查询的结果。对于大多数的主题, 在网页标题查询中用PageRank优化简单文本匹配, 我们得到了令人惊叹的结果。

1.2.3 链接描述文字

搜索引擎对链接文本进行了特殊的处理。大多数搜索引擎把链接文字和它所链接向的网页联系起来。另外, 把它和链接所指向的网页联系起来, 有以下好处。

(1) 通常链接描述文字比网页本身更精确地描述该网页。

(2) 链接描述文字可能链向的文档不能被文本搜索引擎检索到。链接描述文字是对被链接向的网页的宣传, 这个思想被用在W o r l d Wide Web Worm中, 主要因为它有助于搜索非文本信息, 能够用少量的已下载文档扩大搜索范围。我们大量应用链接描述文字, 因为它有助于提高搜索结果的质量。

1.2.4 其他特点

(1) 所有hit都有位置信息, 可以在搜索中广泛应用邻近性。

(2) 知识库存储了原始的全文html网页。

1.3 不安全因素分析

1.3.1 合法搜索

搜索软件程序只能接收H T M L格式, 这就意味着非HTML格式的局域网中信息是不能被外部的搜索引擎查到的。所以先前的P P T、W o r d、P D F等文件以及一些数据库信息会长期淹没在局域网中。而最近的一次搜索发现一种XLS格式的文件却被搜索到了, 而且还可以从它所在学校的服务器中下载, 其中存储有很多的私人信息。而且有一个XLS格式的文件由于学生毕业已经被删除了, 但是点击Google搜索到的item中的Microsoft Excel-HTML版却还可以看到其中的信息。

这里就涉及到前面介绍的搜索引擎的两个问题。首先搜索引擎搜索到的信息存储到了它的数据库中, 这些信息中包含了一些非HTML格式的文件。当然这些文件的更新速度还赶不上网站的更新速度, 但是存储却又极大的隐患。其次链接描述文字, 它具有比网页本身更精确的描述该网页的功能。虽然此次搜索的链接描述文字跟键入的搜索词没什么相同之处, 但是却发现, 在下载的XLS文件中由于搜索词精确匹配的项。也就是说Google的搜索已经可以深入到文件的内部了。

然而, 当我们试图进入到存储该XLS信息的局域网时, 却遭到了拒绝。换句话说Google的搜索技术帮我们探测到了对外保密的信息。需要提出的一点是以上操作并没有使用任何的黑客技术。

1.3.2 非法搜索

(1) 据安全公司表示, Santy蠕虫病毒攻击的对象就是运行phbBB软件的论坛网站, 而且就是利用Google查找攻击目标。在Google公司采取措施对Santy蠕虫病毒对存在有漏洞的BBS论坛网站的查找进行查杀之后, S a n t y蠕虫病毒的变种正在利用Google、AOL和雅虎等搜索引擎进行大肆的传播。 (2) 如果局域网信息甚至个人电脑硬盘都被列入搜索引擎的搜索范围那么即使个人信息不存储在电脑上也面临很大的威胁:网络入侵者可以利用Web服务器发送到电脑里的数据文件Cookies进行数据的窃取;可以使用嵌入到HTML页面里的ActiveX控件给浏览器端造成安全威胁;上网产生的缓存信息、历史记录以及临时文件夹中的内容都可以被窃取而造成个人信息的外泄。

2 人肉搜索引擎

人肉搜索引擎是指利用人工参与来提纯搜索引擎提供信息的一种机制, 它是通过其他人来搜索自己搜不到的东西, 与知识搜索的概念相似, 更强调了搜索过程的互动。人肉上搜索引擎是一种人类自身参与的智能搜索, 被称为最恐怖的社会搜索。

为了约束这种智能的搜索行为, 由网友整理了人肉搜索引擎公约。在法律的屏障都很难挡住技术进步的状况下, 公约力度可想而知。

3 结语

Google是一个大型的搜索引擎的原型, 搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引, 它的查询结果比其它现有系统都高明。这个原型的全文和超连接拥有庞大的数据库, 使其成为目前最大的搜索引擎提供者, 可是它的搜索技术越是先进, 可以搜索的范围越是扩大, 就越容易对构成威胁。

现代搜索引擎技术的升级换代, 其速度和功能得到了明显的提高。所带来的是其检测搜索对象所处的环境越来越不安全。因而受到很大安全的威胁。而目前局域网用户希望访问万维网, 而又不希望万维网上的非授权用户访问局域网, 就很难建立两套网络来满足信息安全的需要。

摘要:Internet的迅速发展, 带来了信息的全球共享, 方便了人们的交流和沟通, 但是也带来了一系列的问题。以Google为代表的搜索引擎技术快捷、高效、全面地提供了全球信息的检索。但是搜索引擎中的自动信息搜索技术和链接描述文字技术却有很大的弊端。对于一些安全性不高的网站合法非法的搜索都可以探测到保密的信息, 由此造成了保密信息的外泄。人肉搜索引擎的出现, 因其缺乏规范, 更容易产生严重的社会问题。

关键词:搜索引擎,人肉搜索,自动信息搜索

参考文献

[1] 余晨, 顾毓清.面向主题的www信息挖掘系统[J].计算机科学, 2003, 30 (2) .

[2] 李盛韬, 余智华, 程学旗, 等.信息采集研究进展[J].计算机科学, 2003, 30 (2) .

上一篇:信息时代医院人事档案的服务和利用下一篇:独立学院车辆工程专业课程体系改革研究