搜索引擎分类及其技术发展情况

所属栏目:搜索引擎论文 论文作者:/
论文摘要

  0 引言

  面对着海洋似地互联网数据,用户要查询到自己所需要的信息,如同在大海里捞针,而搜索引擎技术的出现恰好解决了这一难题。搜索引擎技术目前已经成为研究开发的热点领域。一个成功的优秀的搜索引擎能够对互联网上的信息经过特定的检索策略,对各类信息进行搜集、挖掘和归类整理,并能够分析用户的要求,按照用户的要求和个人习惯进行组织安排,从而达到用户快速检索信息的目的。

  1 搜索引擎的分类

  搜索引擎按工作方式一般可分为三种 :全文搜索引擎、目录索引搜索引擎和原搜索引擎 。
  1.1 全文搜索引擎 :全文搜索引擎是目前广泛应用的名副其实的主流搜索引擎,国外最具代表性的是国内着名的百度(Google)。它的工作原理是索引程序通过对文章中的每一个词进行扫描,对每一个词建立相应的索引,并指明出现的位置和频率,一旦检索,它就类似于通过新华字典中的检索表来查字的过程,根据事先建立的索引进行查找。从搜索过程又可细分为两种,一种是拥有检索程序,俗称“机器人(Robot)”或“蜘蛛(Spider)”程序,能自行建立网页数据库,其搜索结果直接从自己的数据库中调用 ;另一种则租用其他搜索引擎的数据库,然后按自定的格式排列搜索的结果。
  1.2 目录索引 :目录索引中最具代表性的雅虎,它是将网站分门别类地存放在相应的目录中,是按目录分级列表链接。查询时,按分类目录找到需要的信息。
  1.3 元搜索引擎 :元搜索引擎就是通过专门的检索界面,在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作,其过程是 :通过先对请求进行预先处理,转换为底层可以处理的格式,然后再向上递交,最后汇总各搜索引擎的检索结果,将其进行各种处理后,将结果返回。其优点是返回结果的信息量全面,充实 ;缺点是不能够充分利用所选用搜索引擎的功能,使用户需要做更多的筛选。
  几种非主流形式 :
  集合式搜索引擎 :是由用户从提供的数量有限的引擎中进行筛选。它可以集合一些搜索引擎的特点,容易准确的找到目标内容。免费链接列表(Free For All inks, 简称FFA) :一般只简单地滚动链接条目,只有少部分有简单的目录,不过规模和 Yahoo等目录索引来比起来要小得多。

  2 搜索引擎技术的发展动态

  2.1 不断融合的发展方向

  目前,各类搜索引擎不是并行发展,而是一个逐步融合,完善的过程。元搜索引擎就是一个典型的例子。机器人搜索引擎的优点是具有非常大的信息量,人力资源耗费的很小,但是精确度却不高,而目录式搜索引擎的优点恰恰相反,具有有效准确的信息,而唯一的缺点是信息量比较小,维护目录耗费巨大的人力资源,但是元搜索引擎却综合了上述两者的优点。

  2.2 文本信息挖掘技术

  它是将数据挖掘的思想运用到文本信息处理中的一项技术。它涉及到文本各方面的技术,包括文本的分类、索引、聚类、查询匹配等各项技术,现在引入了人工智能的处理方式、数据挖掘技术等新的思路,在 Web 个人浏览工具中存在着更广泛的应用。而基于 Web 的文本信息挖掘技术大大提高了用户查询匹配的精度,文本分类的准确度以及文本索引对文本描述的全面性。

  2.3 Robot 技术

  Robot 技术大大可以代人长时间工作,可以为人更好的工作,但它的盲目性也给网络带来了困扰,灵活性也不高,降低了搜索信息的难度,随着分布式处理技术的出现和发展,Robot 技术现在向分布式发展,改变了以往的集中性,也就是各个 Robot 之间协同合作共同工作,1个 Robot 只采集特定区域的信息,这样Robot 采集信息速度提高了。同时也可以对 Robot 的路径选择、运行周期等实施控制,也降低了盲目性。另外,随着网络应用的增多,现在出现了搜索 FTP、Use Net 的 Robot,搜索的范围更宽了。

  2.4 移动代理技术

  在现有的 WWW 和客户机 / 服务器(C/S)环境下,搜索引擎面临 2 个瓶颈。第一是在 C/S 的计算模式下,系统需要将检索的信息下载到本地存储并进行处理,从而造成了网络资源的拥堵和浪费。而Robot 也并不是实时跟踪目标变化情况,因为要到达降低网络负载,只能进行定期检测。出现了信息更新慢,搜索结果过期。
  另外互联网又是一个超大规模异构的分布式数据库系统,所包含的数据是半结构化。搜索引擎的文本信息处理的就是将这些不规范的数据信息进行结构化处理。为了解决这一问题,此时就需要建立半结构化数据模型来描述互联网上的数据和使用结构化数据抽取技术。
  移动代理技术是一种分布式计算技术,是一种指在异构互联网环境中的主机之间具有移动能力的、能够自主运行的、按照要求完成指定任务的计算机程序。在该模式下,客户端机向服务器提交的不是简单请求,而与服务器紧密联系,进行数据(包含代码)的预取,实现自适应调整机制、管理作用域范围内的等。移动对象可以代表用户,按“程序围绕数据”的原则,在服务器间自主移动,完成数据处理的任务。该模式的应用程序可以大大节省网络,提高服务速度,并能智能化地自主异步执行,能够模拟人类行为和关系。

  3 总结

  本文介绍了搜索引擎的一些基本知识,包括搜索引擎的分类和发展情况。但是伴随了互联网的信息内容不断充实,用户对在互联网检索的结果要求也逐渐提高,使得搜索引擎飞速发展。在搜索引擎系统研究已经取得的基础之上,以下方向成为研究的主要方向,包括 :对检索结果的高精准的相关度和准确性 ;能够检索完整的互联网 ;支持用户个性化和多媒体类的搜索(包括自然语言检索);检索界面的友好程度的增强等等。

  【参考文献】
  [1] 勾智楠 . 垂直搜索引擎的研究与实现 [D]. 河北科技大学 , 2012.
  [2] 高凯 , 郭立炜 , 许云峰 . 网络信息检索技术及搜索引擎系统开发[M]. 北京 : 科学出版社 ,2010.
  [3] 勾智楠 , 赵丁 . 基于 .NET 搜索引擎的研究与应用[J] .数字化用户,2014, (1).
'); })();