网络搜索引擎关键技术及其性能评价指标

所属栏目:搜索引擎论文 论文作者:/
摘要

  当今社会计算机技术迅猛发展,信息资源越发丰富,网络信息受众量庞大。根据中国互联网信息中心 CNNIC 发布第34 次调查报告最新数据显示,截止到 2014 年 6 月我国网民数目达到 6.32 亿。对于众多网民来说,搜索引擎是从海量网络数据中获取信息的最有效工具,同时也是互联网应用领域必不可少的基础组成部分之一。

  1 网络搜索引擎的工作原理

  搜索引擎属于一类 Web 上应用的软件系统,它通过一定途径在网络上搜集发现信息,然后处理和组织这些被选择的信息,进而帮助用户查询 Web 信息。搜索引擎系统遵循相关搜集策略,预先将一批网页搜集并存放在系统中。然后通过文本分析、链接分析等方式对已有的网页信息进行分析,同时建立索引。最后给用户提供人性化的接口,供用户查询,同时将最终结果返回给网站。

  2 网络搜索引擎关键技术

  2.1 网页搜集技术

  搜索引擎利用一种自动的程序网络蜘蛛(Spider)或网络爬虫来访问互联网上的 Html 网页,并建立索引数据库。我们可以将 Web 上的网页集合看作一个理论上的有向图,Web 图的顶点由页面构成,图的边是页面间的超链接。搜集过程始于给定的起始 URL 集合 S,抓取 Web 页面并且存到本地,并将网页中新超链接的 URL 解析出来并添加到集合 S 中。通过不停重复该过程,一个Spider程序可以访问整个Web页面。

  与此同时,还需设定一些重要的链接和相关的扫描策略用以保证搜集的广度和深度。另外,定期更新 Web 搜索引擎以保证及时发现新链接并删除过时链接。

  2.2 网页内容和链接分析技术

  经过网页搜集得到的 Web 页面是一种非结构化的文档,包含 html、图片、多媒体、动态网页等各种不同格式。为了从中提取出典型的主要特征,网页内容分析的主要任务是对获取到的网页进行文本分析。一般按顺序完成网页清洗、分词、消除停止词等处理,并借助于其他中英文信息处理技术提取网页主要的文本特征,进而组成网页摘要。一般而言,当搜索引擎系统查询返回时,用户可以通过网页快照的形式获得网页摘要。另一方面,Web 搜索引擎系统还会分析对网页间的链接关系,网页之间存在某种"推荐"关系,链接就可以反映出这种关系,一般链接分为导入链接和导出链接。通过一个合理地假设可以深入理解,若一篇网页被其他网页建立了较多链接,就能说明其包含有较重要或者较有用的内容。

  2.3 索引技术

  目前多数 Web 搜索引擎系统所采用的是倒排索引技术,它是一种简单高效的文档数据索引组织方式。所谓倒排文件(inverted file),是描述某个词项集合(TREMS)元素和一个文档集合(DOCS)中相应元素对应关系的数据结构,记作DOCS={d1,d2,…,dN},TREMS={t1,t2,…,tM}.倒排索引的基本组织方式是把每个索引词的倒排表按文档编号增序排列,并压缩保存为整块数据。

  2.4 检索技术

  搜索引擎返回给用户的结果是一个和用户查询相关的搜索列表。统计结果表明,以每个页面含有 10 个链接计算,大多数用户浏览的页面不多于两页。因此,正确的检索技术对于整个搜索引擎的应用十分重要。一个信息检索模型是将文档表示、查询以及模拟它们之间关系的框架,它由三元体 F[D,Q,R(qi,dj)]表示。其中,D 是文档表示;Q 是用户信息需求的逻辑视图(表示),这种视图(表示)称为查询;R(qi,dj)是排序函数,该函数输出一个与查询 qi∈Q 和文档表示 dj∈D 有关的实数。信息检索有四个传统模型分别是是布尔模型、向量空间模型、概率模型和逻辑模型。近些年来随着研究的不断深入,众多改进模型也基于原有的传统的模型被提出发展。

  3 评价搜索引擎性能的主要指标

  在传统的信息检索中,一般基于相关性的准则,以检索系统的查全率(Recall)和查准率(Precision)为主要的衡量标准。查全率用来评价信息检索系统检出相关文档能力,是指检出的相关文档与相关文档总数的比值。查准率用来评价检索的准确度,是指检索出的相关文档与检索出文档总数的比值。

  网络搜索引擎要满足用户对信息查询的需求,进一步提高用户搜索满意度,可以参照以下几个重要的评价指标。①网页覆盖率,指Web搜索引擎索引的网页数量,提高覆盖率要求尽量提高查全率,以保证基本查准率;②相关性,指搜索引擎返回的搜索结果与之前用户输入的查询请求之间的契合程度,这个特性关系到搜索效率和用户的满意度;③结果重复率,搜索引擎系统中存储大量重复网页会浪费存储资源,同时也影响检索效率。因此,搜索引擎返回的查询结果应该尽量减少或消除重复类似结果的出现;④网页作弊率,指网页为了提升自己在搜索引擎中的排名,非法借助程序或人工手段,提高自身的点击率等非法获益行为;⑤网页更新速度,该标准要求引擎及时发现新网页的同时及时删除死链。死链是指搜索结果失去原有效应的链接,一般是那些指向已不存在或无法访问资源的链接;⑥搜索服务的响应时间,指用户提交查询请求后等待返回结果的时间;⑦搜索服务的系统稳定性。

  4 结语

  随着用户数目的迅速增多,如何提供更好的个性化搜索服务,如何实现面向特定主题的有效搜索,如何做到用户与网站共赢已经成为搜索引擎发展的新方向。

  参考文献:
  [1] 梁伟贤。 网络搜索引擎发展现状的探讨[A]. 中国科协、湖北省人民政府。

'); })();