关键词自动撷取技术与相关词回馈
摘要:
关键词自动撷取乃信息检索领域的基础与核心技术。本文中我们比较关键词撷取技术的几种主要方法,说明每一种方法的优缺点、适用情况以及国内研究的现况。此外我们也简介自行发展的关键词撷取方法运用于中、英文相关词回馈的情况。初步的分析显示其错误率低(18%以下)、精确率高(50%以上)。其主要的缺点则是受限于查询结果的多寡,而查询结果的多寡则与该查询主题的馆藏量有关。除了充实该类主题的馆藏量外,亦可透过索引典的自动建立与运用加以改进。
Abstract
Automatic keyword extraction is an important and fundamental technology in advanced information retrieval system. This article briefly compares several major keyword extraction methods, lists their advantages and disadvantages, and reports recent research progress in Taiwan area. Besides, this article also describes the application of a keyword extraction algorithm developed by the author in an information retrieval system for relevance feedback. The preliminary analysis shows that the error rate of extracting relevant keywords is as low as 18%, and the precision rate is over 50%. The main disadvantage of this approach is that the extraction results highly depend on the retrieval results, which in turn highly depends on the data hold by the database. Except collecting more data, this problem can be alleviated by the application of a thesaurus constructed by the same keyword extraction algorithm.
关键词:信息检索、关键词撷取、相关词回馈
壹、前言
过去大部份的书目检索系统,受限于数据库管理系统(DataBase Management System)特殊的索引制作方式,仅能以布尔逻辑及右切截比对功能提供数据查询,对于书目记录的全文式(左右切截)检索,则以建立关键词库的方式达成。然而此类关键词库,必须以人工或半人工的方式建立,除了耗费大量人力、时间之外,还必须经常维护更新,以反应书目数据的新增异动。
目前因特网通达的程度与普及速度,使数据成长更为快速,各种检索系统的使用情况更为频繁。新一代信息检索系统,尤其是允许全文式查询的系统,必须能够运用更具效率的自动化技术,以提供简易有效的检索服务。然而此类自动化技术,如自动索引、索引典自动建立 [1]、自动摘要 [2]、自动分类 [3]、相关回馈 [4]、自动过滤 [5]、概念检索 [6] 等,大部份都必须先进行关键词撷取(keyword extraction)的动作,依此结果再进行其它的处理。因此,无论是书目性数据或网络上的全文数据,关键词自动撷取都是信息检索系统的基础与核心技术,其重要性将随网络的发展而越来越明显。
「关键词自动撷取」是一种辨认有意义且具代表性词组或词汇的自动化技术。由于用途的差别,不同的研究,对此问题的定义、采用的方法、运用的条件与撷取的成效也各有差异。例如,自然语言处理的领域将此问题定义为「断词」问题(word segmentation),其目的在扫瞄一段文句,将此文句断开成各个可赋予词类的词组或单字,以做为机器翻译或了解语意的基础 [7]。因此其运用条件是即使输入单一个句子,亦必须将构成句子的各个词汇断出来。由于断出来的字汇中包含组成句子的各种词类,如名词、动词、代名词、连结词、介系词等,这种结果对信息检索而言,并非必要。因此,底下的讨论将只针对关键词撷取应用于信息检索的领域。
贰、撷取方法的比较
从文献的分析得知 [8-12],关键词撷取的技巧主要有三种方法。第一种为词库比对法:即利用已建立的词库,来比对输入文件(或文句),将文件中出现在词库中的词组撷取出来。此种方法制作简单,只要将词库中的每个词,去比对是否出现在输入檔中即可。其结果都是词库中的正确词汇,但并不保证所有关键词都能被撷取出来。除此之外,其缺点还包括:需要耗费人力、时间维护词库以容纳各个领域的专业用语与新生词汇,无法应付未曾预料的人名、地名、机构名等专有名称,且词库越大比对速度越慢。
第二种为文法剖析法:透过自然语言处理技术的文法剖析程序,剖析出文件中的名词词组,再运用一些方法与准则,过滤掉不适合的词汇。其结果几乎也都是有意义的名词词组,但大部份的剖析程序,需要藉助已经建立的词典或语料库 [13],因此其缺点也和词库比对法一样。除此之外,有些文法剖析法甚至只能剖析合乎文法的完整文句,使得书目、标题等数据里的关键词无法被撷取出来。
第三种方法为统计分析法:透过对檔的分析,累积足够的统计参数后,再将统计参数符合某些条件的词组撷取出来。最简单的统计参数是计数词汇发生的频率,即词频,将词频落在某一范围的词汇取出。由于没有用到词库或语料库,会有撷取错误的情况发生,得到无意义或不合法的词汇。此外,统计参数不足的关键词无法被选到。然而其优点是较不受语文国别与句型的限制,而且可以撷取出未曾被词库、语料库网罗的专业用语、新生词汇与专有名称等词组。
其它的方法还包括上述方法的综合运用,或加入一些变化。例如,利用一些排版规则,将重要的词组取出,如标题项、条列项中的文字,或强调词(大写、字头语、斜体、加粗、加底线、引号内的文句)等等 [3]。可以想见,各个方法都有其优缺点,运用时需要针对不同的环境条件加以考虑。
关键词在本文中虽定义为有意义且具代表性的词组或词汇,然而关键词的认定牵涉到个人的主观判断,且相同的词汇在不同的主题下,也有不同的认定。在此情况下,要比较各种方法的撷取成效,并不容易。不过一些文献对此问题仍有初步的探讨,其中 Arppe [14] 以文法剖析方式试验其撷取成效,结果发现大约 80%-99% 的关键词为名词词组,而且虽然名词词组的撷取准确率与召回率皆可达 95% 以上,然而具代表性的名词词组不到总数的 50%,因此单纯剖析出名词词组后,仍需要依据其它特征以过滤掉不要的词汇。Godby [15] 则比较文法剖析法与统计分析法的优劣,发现统计分析法除了可以跟文法剖析法做得一样好之外,亦具备简单、不受语文国别与句法的限制、以及可同时过滤不具代表性词组的优点。
参、中文关键词撷取
国内对中文关键词自动撷取的问题也有研究。清大自然语言处理实验室曾尝试撷取关键词作为书后索引(book index),其主要方法为运用电子字典协助断出词汇 [16],再以统计方式配合自然语言处理技术剖析名词词组,最后再设定过滤条件,筛选索引词汇 [17]。在成效评估方面,以一本软件使用手册为对象,相对于人工制作的索引,其精确率与召回率可同时达到 63% 的程度。至于导致错误的主要来源有:断词错误(42%)、统计特征不足(39%)、以及无法处理复杂语法结构(19%)。
中央研究院信息科学研究所也有关键词自动撷取运用在信息检索的研究。其主要作法乃先建构一种称为 PAT-tree 的数据结构,再辅以词频等统计特征撷取出关键词 [18, 19]。PAT-tree 虽然在信息检索上有相当优良的特性,不过其建造过程需耗费相当长的时间,例如,建构 600 Mega bytes 的数据需要一个星期的时间 [20]。可以想见,此种方式的有效运用,必须要能改进 PAT-tree 的建构速度。
最近,我们也发展出一套关键词撷取的技术,并且已实际运用在辅仁大学图书馆的 OPAC 在线书目检索系统上 ,提供相关词回馈的功能 [21]。其方法为统计分析法,运用统计词频的方式来断出关键词,没有用到辞典、语料库、或自然语言处理的技巧。因此具备撷取速度快、撷取的正确率高(82%-100%)、中英文均适用、撷取的词汇没有长度限制、可同时撷取广义词与狭义词等特性 [22]。下一节将简介此种撷取方法的运用情形。
肆、相关词回馈
在信息检索领域中,有一种查询模式称为「相关回馈」(relevance feedback)。其施行的方式是在前一阶段找到的文件中,挑取重要的特征,再回馈给系统,以期找到更多相关的数据。此种特征若是文件本身,则可称为相关档回馈,若为相关词,则称为相关词回馈,或检索词提示(term suggestion)。相关回馈在信息检索中被认为对检索成效帮助甚大 [20]。研究显示,在一些全文数据库中,可提升检索成效20% [23],而在医学书目数据库 MEDLINE中,可提升16% 的检索成效 [24]。
过去对于相关回馈的研究中,以相关档回馈的方式居多,使用者只要在查询结果的显示屏幕上点选相关的文件,送回系统即可。然而在全文检索环境中,要判断哪些檔相关,需要对檔做相当程度的浏览,此种情形常常造成使用者额外的负担。相较之下,相关词回馈因为牵涉到的额外信息较少,使用者较易判断,因此是一种比较好的相关回馈方式。然而目前提供此种回馈方式的系统比较少,这是因为让系统自动断出有用的相关词,比起让系统只提供文件让使用者判断,是较为复杂而困难的工作。一些系统即使做到相关词回馈,目前也还不甚理想。以拥有鉅量网页著称的AltaVista 检索引擎为例,其所提供的相关词为英文单字词,至于对区分檔能力更具效果、表达更精确、对检索成效帮助更大的英文词组则尚未提供。
在辅大书目检索系统中 [25],使用者可以利用模糊搜寻方式下达检索条件,系统会将检索结果以每页二十笔数据的方式分页显示,在此同时,系统也会显示从该页书名中撷取出的关键词,由于同一页的结果应该都是与检索条件相近的书目,因此从中撷取出来的关键词应该是与此次检索主题相关的相关词。
表一列出十个检索主题查询得出的相关词结果。从错误词数当中可以了解此关键词撷取方法撷取错误的情形很少,错误比率最低0% ,最高18%(2/11)。另外撷取出的关键词有一半以上与检索主题相关,最低比率50%(4/8),最高100%(3/3)。这些与检索主题相关的词汇可概略分为广义词、狭义词、相关词等具备近一步查询参考价值的词汇。这里所谓广义词、狭义词、相关词主要是指字面上的意义而言。例如,从「服装设计」检索主题得出的四个相关词中,「服装」、「设计」为广义词,「实用服装」归类为相关词,而「服装设计」与检索词完全一样,可以与其它相关词一起运用,但没有进一步单独引用的必要,因此没有归类为上述任一词类。
由于相关词是从检索结果撷取出来的,而检索结果大都与原检索主题字符串相近,因此撷取出的相关词也大都跟检索主题字符串相近。然而仍然会有与原检索字符串差异较大的相关词汇出现。例如「素食」主题中的「健康」、「长寿」、「营养」,以及「Prolog与人工智能」中的「专家系统」。对具备模糊搜寻的检索系统而言,这类与原检索字符串差异较大的相关词,比较能够拓展检索的范围。而与检索字符串相近的相关词,其检索效果则近似重新排列检索结果。然而不管是拓展检索范围或是近似重新排列结果,对使用者而言都能提供检索上的方便性。
此种相关词撷取方式的主要缺点在于其相关词汇太依赖于检索结果。如果检索结果太少或是得不到任何结果,则相关词汇跟着减少,甚至付诸缺如。例如「subject searching in online catalog systems」主题中,系统只找回五笔数据,可供撷取相关词的资料太少,以致只得出三个相关词。如要改进此项缺点,除了充实该类主题的馆藏外,势必事先建立索引典。因此,索引典的自动建立与运用,将是未来的工作目标。
伍、结语
关键词自动撷取乃信息检索领域的基础与核心技术。过去中文方面的研究较少,未来如要将中文信息检索的领域拓展到自动索引、索引典自动建立、自动摘要、自动分类、相关回馈、自动过滤、概念检索等地步,则中文方面的基础技术还要再投入更多的研究。
本文中我们介绍了关键词撷取技术的数种方法,说明每一种方法的优缺点与适用情况。此外,我们也简介自行发展的关键词撷取方法运用于相关词回馈的情况。初步的分析显示其错误率低(0%-18%)、精确率高(50%-100%)。而「召回率」方面,则由于系统内所有相关词的认定困难而无法取得。未来的工作将在既有的基础上进行索引典的自动建立与运用,以进一步提升中、英文相关词回馈的成效。
导航:




网站建设