语义检索系统在专利文献搜索中的使用和创新

所属栏目:文献检索论文 论文作者:/


论文摘要
  0 引言

  专利作为技术创新的重要标志和体现,在很大程度上代表着一个国家或企业的技术水平和潜在的技术竞争力。专利文献检索在专利的申请、审查、管理和运用过程中具有重要作用。专利文献检索分为多种方式,包括关键词检索、语义检索等。为了提高查准率和查全率,使用关键词进行检索需要制定合适的检索策略,编写全面的检索式,但是由于检索策略或检索式本身的缺陷,可能导致漏检或者带来极大噪音,使得检索效率下降。因此,语义检索作为一种方便、快捷而又智能化的检索方式,在专利文献检索中得到广泛应用。

  1 语义检索在专利文献检索中的应用

  语义检索也称语义搜索,是通过对文献中原来的信息进行语义上的处理[1],将从中获得的各种概念数据组合成知识库,然后根据对用户提问的理解,从知识库中发掘用户需要的信息。其中,语义检索需要分析用户输入的各种形式的查询目标,例如通过关键字匹配或者与用户浏览交互的方法,将查询目标匹配到知识库中的类和实体,通过本体关系推导,发现与用户查询目标相关的概念。在专利文献检索领域,常见的语义检索系统有 Patentics[2]、To-talPatent[3]等,其中前者免费提供大部分功能,后者需要付费使用。

  Patentics 系统是集专利信息检索、下载、分析与管理为一体的平台系统,其网页版可以提供搜索、分类、统计以及文档和项目管理的功能。Patentics 提供智能语义搜索工具,任意字词及组合、文本段落、全文都可以作为检索词,也可以将一件专利的全文当作一个概念进行检索,并且将与检索主题最相关的专利文献放在最前面。Patentics 的数据库目前收录 1971 年至今的美国授权、申请专利全文,1981 年至今的欧洲专利局 EPO 申请全文,1981 年至今的世界知识产权组织的 WO 申请全文,1985 年至今的中国发明、实用新型专利申请全文以及 1900 年至今的世界专利英文摘要,还收录各国审查员所做的检索报告和审查报告。

  Patentics 系统可以直接通过输入专利申请的公开号,得到与该专利申请相关的对比文件。当然,系统也提供传统的布尔检索、通配符、位置算符和截词符,只要选中“关键词搜索”选项,系统就会执行传统的检索方式。在检索专利申请的对比文件时,除了输入专利申请的公开号,也可以将公开号与关键词、公开日等字段结合使用,对得到的专利文献结果进一步筛选。例如申请号为 CN2010101980992 的专利申请,其申请日为 2010 年 6 月 3 日,公开号为CN102271423A,权利要求 1 为: 一种多模终端的智能卡选择方法,其特征在于,包括: 在终端需要发起通信业务的情况下,所述终端判断是否需要根据设置的智能卡选择策略进行智能卡选择; 如果判断结果为是,则所述终端根据所述智能卡选择策略从所述终端上设置的多个智能卡中选择一个智能卡; 如果判断结果为否,则所述终端提示用户进行智能卡选择,并根据所述用户的指示选择相应的智能卡; 所述终端利用选择的所述智能卡发起所述通信业务。

  审查员在国家知识产权局的专利检索与服务系统( 以下简称“S 系统”) 中,选择中国专利文摘数据库CNABS 进行检索,使用的检索式为: ( ( 智能卡 OR手机卡 OR SIM OR USIM) S( 双模 OR 多模 OR 双卡 OR 多卡 OR 一卡多号) S( 选择 OR 选定 OR 选用 OR 选取) ) AND PD <2010 -6 -3,得到 60 篇专利文献。通过阅读这 60 篇专利文献,发现公开日为2008 年 7 月 9 日的专利文献 CN101217825A 可以用于评价上述权利要求 1 的创造性。如果在 Patentics系统中输入该专利申请的公开号 CN102271423A 并限制对比文件的公开日即: CN102271423 AND DI/20100603,在检索结果页面的第 1 页第 17 条即为专利文献 CN101217825A,因而使用 Patentics 系统只需要阅读 17 篇专利文献就可以找到对比文件,大大减少了阅读量,提高了检索对比文件的效率。

  2 语义检索系统的改进

  2. 1 提高与发明点相关的关键词的权重

    Patentics 系统虽然带来检索上的快捷,但是由于在输入专利文献的公开号时,系统是将所输入专利文献的全文当作一个概念进行检索,导致没有重点关注专利的发明点,也就是所要解决的技术问题和获得的技术效果,这样会出现很多的噪音文献,增加用户的阅读量。例如申请号为 CN2010105741098的专利申请,其申请日为 2010 年 12 月 6 日,公开号为 CN102104507A,其中权利要求 1 为: 一种补丁检查的方法,应用于包括安全策略服务器、补丁服务器和多个客户端的系统中,其特征在于,在客户端进行补丁检查之前允许该客户端接入网络,该方法包括以下步骤: 所述安全策略服务器获取各接入网络的客户端对应的上次补丁检查时间戳信息; 如果所述时间戳信息与当前时间大于预设时长,则为对应的客户端设置第一标识; 所述安全策略服务器从接入网络的具有第一标识的客户端中选择待检查客户端,并通知所述待检查客户端进行补丁检查; 如果所述待检查客户端补丁检查不合格,则通过所述补丁服务器对所述待检查客户端的补丁进行更新。该申请的说明书中记载: 现有技术中补丁检查的流程导致网络带宽和补丁服务器处理压力极大,而本发明具有的优点是可从整体上控制系统的打补丁的负载压力。审查员在 S 系统的 CNABS 数据库中使用代表解 决 的 技 术 问 题 和 有 益 效 果 的 检 索 字 段EFFECT,输入检索式: / EFFECT( 软件 or 补丁) and服务器 and 压力,得到 12 篇专利文献,发现其中公开号为 CN101179425A 的专利文献可以用于评价权利要求 1 的创造性。但是,如果在 Patentics 系统使用语义检索,输入检索式 CN101179425 AND DI/20101206,在检索结果页面的前 3 页共 60 篇专利文献中没有发现能够评价权利要求 1 的创造性的专利文献。

  专利文献通常具有解决的技术问题和获得的技术效果,如果将专利文献的全文不分重点进行检索,有时候得不到好用的检索结果。为了解决这一缺陷,在进行语义检索的时候,可以将专利文献说明书中表示解决的技术问题的词语( 例如问题、缺陷或缺点) 以及表示取得的技术效果的词语( 例如效果、目的、优势或优点等) 附近的关键词加大权重,使得检索结果聚焦于专利申请的发明点,有助于提高具有相关技术问题和技术效果的专利文献在检索结果页面中的相关度排序。

  2. 2 使用对检索结果的反馈和审核机制

    虽然 Patentics 系统收录各国审查员所做的检索报告和审查报告,但是其有一定局限性。首先,在时效上滞后,例如一件申请号为 CN2008101050784 的中国发明专利申请,通过检索中国专利查询系统[4],发现专利局已经在 2012 年 11 月 14 日发布驳回该申请的公告,但是 Patentics 系统目前仍未提供该专利申请引用的对比文件,也就是尚未收录审查意见通知书或检索报告; 其次,对于审查员更换过对比文件或者使用多篇对比文件结合评价专利申请不具有创造性的情况,Patentics 系统没有给出所引用的对比文件的优先级,即无法识别哪篇对比文件更能准确评价创造性。

  Patentics 系统向用户提供检索结果页面,并将检索结果按相关度进行排序,但是从上面为两篇专利申请检索对比文件的过程可以看出,Patentics 系统目前所给的相关度排序并不准确。为了获得更加准确的对比文件相关度和排序,需要引入用户对检索结果的反馈机制。如图 1 所示语义检索系统的反馈模型,在检索过程中,用户首先输入某件专利文献的公开号,然后对检索结果中的文献进行浏览,如果最相关的文献已经排在第一位,并且用户满意检索结果,那么检索流程结束; 如果排在前面的文献相关度不够,那么用户对各文献的相关度做出评价,将相关度最高的文献排在前面。例如在专利申请过程中,申请人可能在同一日既申请发明专利又申请实用新型专利,还有可能基于不同的保护角度,提交系列申请,那么当系统检索到完全相同的两篇专利文献时,就可以将这两篇专利文献相关度标为 100%,将相关度次之的文献标为 99%,以此类推,用户可以标出相关度排在前列的数篇专利文献。系统根据用户反馈的相关度排序,动态调整系统的检索模型,自动改进检索结果。经过用户的多次反馈以及检索模型的动态调整,系统就能建立一个比较合适的检索模型,使检索系统的性能不断提高。

  论文摘要

  虽然专利法给出了创造性的定义,但是由于对创造性评价尺度和所属技术领域技术人员的水平的理解差异,在实际评价创造性的过程中难免带有一定的主观因素[5].因此,对同一篇对比文件,不同的用户可能会反馈不同的相关度,并且二者之间的差异可能很大。为了尽量减少这种差异,尽可能使判断相关度的标准一致,需要对用户为对比文件给出的相关度进行审核,待审核通过之后再根据相关度排序调整检索模型。另外,为了鼓励用户参与专利申请相关度评价,可以根据评价结果进行评分,并根据分数区间对用户进行分组,例如为某一专利申请检索对比文件时,用户给出的对比文件的相关度越高,给予用户的评分就越高,当用户分数达到一定级别时,用户就能够晋升高一级别的用户组,当用户所属用户组达到一定级别后,可以给予用户适当奖励,例如免费向用户提供需要付费才能使用到的部分或全部系统功能。因此,通过引入用户的反馈机制,可以提高语义检索系统中检索模型的合理性,通过对用户的反馈进行评分,提高用户参与评价的积极性,在系统和用户之间形成良性循环。

  2. 3 纳入非专利文献数据

  Patentics 系统的数据库是专利数据库,无法获取和识别非专利对比文件,因而当某件专利申请的审查意见通知书或者检索报告中引用非专利对比文件时,Patentics 系统将无法根据非专利文件对检索系统模型进行调整,使其查准率和查全率受到影响。

  为了提高系统的查准率和查全率,需要录入影响较大的国内外非专利文献数据库,例如中国知网的CNKI 数据库[6]、电气电子工程师学会 IEEE 数据库[7]等。

  3 结束语

  语义检索已经成为专利文献检索中一种常见的检索方式,本文从专利文献具有发明点的特殊属性入手,通过提高与发明点相关的关键词的权重来改进语义检索系统的检索模型,同时,根据对专利申请的创造性评价具有主观性的特点,引入对检索结果的用户反馈和审核机制,提高对比文件的相关度的评价准确性,另外,还通过引入非专利文献数据提高语义检索系统的查准率和查全率。经过以上改进,将显着提高语义检索系统进行检索对比文件的准确性,使得语义检索在专利文献检索中的应用更加广泛。

  参 考 文 献:

  [1]梅翔。 语义检索中若干关键问题的研究[D]. 北京: 北京邮电大学,2007.
  [2]Patentics 系统[DB /OL].[2013 - 07 - 14].
  [3]TotalPatent 系统[DB /OL].[2013 -07 -14].
  [5] 尹新天。 中国专利法详解[M]. 北京: 知识产权出版社,2011:261 - 266.
  [6]中国知网 CNKI 数据库[DB /OL].[2013 - 07 - 14]
  [7]IEEE 数据库[DB /OL]. [2013 - 07 - 14].

'); })();