《结构句法基础》中的基本概念及其影响

所属栏目: 普通语言学论文 论文作者:/
论文标题

  一、引言

  吕西安·泰尼埃(Lucien Tesnière)是20世纪上半期法国著名的语言学家,他于1893年5月13日出生,1954年12月6日逝世,享年61岁。

  2014年12月6日是泰尼埃逝世60周年的日子,在本文中,我们回顾泰尼埃的学术生涯,重温泰尼埃的语法理论,作为对这位著名的语言学家的纪念。

  泰尼埃的主要成就是提出了“结构句法”的一般理论。“结构句法”后人也称为“依存语法”或“从属关系语法”。为了提出一种普适的语法理论,他作了大量的语言对比研究,涉及的语言有古希腊语、古罗马语、罗曼语、斯拉夫语、匈牙利语、土耳其语、巴斯克语等。泰尼埃曾在斯特拉斯堡大学和蒙彼利埃大学任教,研究斯拉夫语言和普通语言学。1934年,他在《斯特拉斯堡大学语文系通报》(Bulletinde la Faculté des Lettres deStrasbourg)上,发表了《怎样建立一种句法》(Commentconstruire une Syntaxe),阐述了“依存语法”的基本论点。

  从1939年起,他开始写依存语法的巨著《结构句法基础》(lément de Syntaxe Structurale),边写边改,历时十余载,一直到1950年才完成。

  1954年,泰尼埃去世之后,他的朋友们整理了他的遗稿,于1959年出了《结构句法基础》的初版,1965年出了第二版。

  《结构句法基础》一书篇幅近700页,有5000多个句子(短语)的语例,这些例子选自60余种语言,书中含有句法结构图式366个。一般认为,泰尼埃是现代“依存语法”和“配价理论”的创始人。

  除了《结构句法基础》一书之外,泰尼埃还编撰过一部小型的“俄语语法”(Petite grammaire russe),其他主要论文有《斯洛文尼亚语中的双数形式》(Les formesdu duel en Slovene)、《用于研究斯洛文尼亚语双数形式的语言地图》(Atlas linguistique pour servir à l’étude du duel enslovènel)等等。

  《结构句法基础》一书是用法语出版的,没有英文译本,更没有中文译本,由于语言的隔绝,很多读者无法了解到此书的真实内容。1978年到1981年,我在法国格勒诺布尔理科医科大学留学期间,为了研制多语言机器翻译系统,我曾经熟读过此书的法文原文。在泰尼埃逝世60周年的日子,我愿意根据自己所熟悉的法文原版来介绍此书,以飨读者。

  二、《结构句法基础》中的基本概念

  《结构句法基础》一书中最基本的概念是“关联”(connexion)和“转位”(translation)。下面我们介绍这两个基本概念。

  (一)关联

  法语句子“Alfred parle”(阿尔弗列德讲话)是由“Alfred”和“parle”两个形式构成的。但操法语的人在说这句话时,其意思并不是指一方面有一个人叫阿尔弗列德,另一方面有一个人在讲话;而是指阿尔弗列德做了讲话这个动作,而讲话人是阿尔弗列德,“Alfred”和“parle”之间的这种关系,不是通过“Alfred”和“parle”这两个单独的形式来表达的,而是通过句法联系来表达的,这种句法联系就是“关联”。是“关联”把“Alfred”和“parle”联在一起,使它们成为一个整体。

  泰尼埃说:“这种情况与在化学中的情况是一样的,氯和钠化合形成一种化合物氯化钠(食盐),这完全是另外一种东西,它的性质不论与氯的性质或是与钠的性质都是迥然不同的”。“关联”赋予句子以“严谨的组织和生命的气息”,它是句子的“生命线”。“所谓造句,就是建立一堆词之间的各种关联,给这一堆词赋予生命;反之,所谓理解句子,就意味着要抓住把不同的词联系起来的各种关联。”

  “关联”要服从于“层次”(hiérarchie)原则,也就是说,关联要建立起句子中词与词之间的从属关系。这种从属关系可用“图式”(Stemma)来表示。例如,“Alfred mange une pomme”(阿尔弗列德吃苹果)可用下面的图式来表示:

  论文摘要

  这里 , 动词 “ mange ” ( 吃 ) 是句子的 “ 结 ”(noeud),“Alfred”和“pomme”从属于动词“mange”,它们被置于“mange”的下方;“une”从属于“pomme”,它被置于“pomme”的下方。

  泰尼埃认为,动词是句子的中心,它支配着别的成分, 而它本身却不受其他任何成分的支配。因此,他把主语和宾语同等看待,把它们都置于动词的支配之下。

  泰尼埃认为 , 应该把 “ 结构顺序 ” ( ordrestructurale)和“线性顺序”(ordre linaire)区别开来。例如,词组“un petit garon poli”(一个有礼貌的男孩)有关相同的结构顺序:

论文摘要

  名词“garon”在图中是支配者,形容词“petit”和“poli”都从属于这个名词。但是,这两个词组的线性顺序却不同:在“un petit garon”中,形容词在名词“garon”的左侧;在“un garon poli”中,形容词在名词“garon”的右侧。显而易见,结构顺序是二维的,而线性顺序则是一维的。

  句法理论中的一个重要问题,就是确定那些把二维的结构顺序改变为一维的线性顺序的规则,以及那些把一维的线性顺序转换为二维的结构顺序的规则。“garonpoli”的顺序是离心的或下降的,形容词“poli”离开中心名词“garon”而下降;而“petit garon”的顺序是向心的或上升的,形容词“petit”向着中心名词“garon”而上升。有的语言有向心倾向,有的语言有离心倾向。例如在英语中,名词的修饰语一般是向着被修饰的中心名词而上升的,有向心倾向;在法语中,名词的修饰语有许多是离开被修饰的中心名词而下降的,有离心倾向。

  在表示句子结构顺序的图式中 , 直接处于动词结点之下的,是名词词组和副词词组。名词词组形成“行动元”(actant),副词词组形成“状态元”(circonstants)。“状态元”的含义是不言自明的,而“行动元”的含义则必须加以界说。

  泰尼埃是这样来定义“行动元”的:“行动元是某种名称或某种方式的事或物,它可以通过极简单的名称或消极的方式来参与过程”。

  行动元的数目不得超过三个:主语、宾语1、宾语2。

  例如:

  (1)Alfred donne le livre à Charles.

  (阿尔弗列德给查理一本书)在例(1)中,从属于动词“donne”的行动元有三个:第一个行动元是“Alfred”,作主语;二个行动元是“livre”,作宾语1;第三个行动元是“Charles”, 作宾语2。其图式如下:

  论文摘要

  从理论上说,状态元的数目可以是无限的。例如:

  (2)Ce soir,je passerai vite,chez lui,ensortant du bureau,pour….

  (今晚,我从办公室出来,将很快地到他家去,为了……)其中,“Ce soir”“vite”“chez lui”“ensortant du bureau”“pour”等,都是状态元。

  行动元的数目决定了动词的“价”(Valence)的数目。如没有行动元,则为零价动词;如有一个行动元,则为一价动词;如有两个行动元,则为二价动词;如有三个行动元,则为三价动词。例如:

  “零价动词”(Verbes avalents):

  Il pleut 0个行动元(下雨)“一价动词”(Verbes monovalents):

  Il dort 1个行动元(他睡觉)“二价动词”(Verbes bivalents):

  I1 mange une pomme 2个行动元(他吃苹果)“三价动词”(Verbes trivalents):

  Il donne son livre à Charles 3个行动元(他把他的书给查理)(二)转位。

  泰尼埃提出了四个基本词类:动词、名词、形容词、副词。动词用“I”表示,名词用“O”表示,形容词用“A”表示,副词用“E”表示。它们之间的从属关系如下图所示:

 论文摘要

  按照图式的结构层级看,第一级是动词,第二级是名词和副词,第三级是形容词和副词。第四级只能是副词。

  泰尼埃把这种含有符号的图式叫作“虚图式”(stemmavirtuel)。泰尼埃认为,这些符号的使用,提供了用代数方法来计算语法的手段,只不过在这种操作中,是用字母代替了数字而已。这种类似于代数操作的方法,为我们提供了一种从无限的、个体的语言材料中抽取有限的、一般的句子结构的手段,即:用一般的公式来代替众多具体句子的分析。

  虚图式作为一种句子结构的一般模式在泰尼埃的结构句法理论中占有非常重要的地位。从某种意义上说,泰尼埃的结构句法是一种基于虚图句式的、面向句子分析的理论。泰尼埃理论指导下的句法分析和研究,就是想办法将所有的句子纳入到上面这个图里。这个图不但给出了一个句子的合格性条件,也指明了理解句子的目标。

  为了能把分析的句子(词组)纳入这种虚图式,泰尼埃在其理论中引入了“转位”(translation)概念。

  在词组“le livre de Pierre”(皮埃尔的书)中,“dePierre”在结构上与“livre”发生关系,它起着类似于形容词的作用。这样,我们就可以认为,介词“de”把名词“pierre”转位为话语中的形容词。

  这种情况如下图所示:

 论文摘要

  这时,“de”是转位者(translateur),“Pierre”是被转位者(translate),它们合起来构成一个转位。根据转位所涉及的词类,泰尼埃把转位区分为“一度转位”和“二度转位”。如果转位的被转位者是名词(O)、形容词(A)和副词(E),那么,这种转位就是一度转位。如上例就是一度转位。如果转位的被转位者是动词(1),动词本身是支配者而不是被支配者,那么,这种转位就是二度转位。例如:

  (3)Je crois que Alfred reviendra(我相信阿尔弗列德会回来的。)例(3)中,“Alfred reviendra”代替了名词的位置,动词“reviendra”被“que”转位为名词。所以,这种转位是二度转位。

  论文摘要

  在一度转位和二度转位的内部,泰尼埃还区分了“简单转位”和“复杂转位”。如果转位只是把一个成分转位到另一个成分,就是简单转位,如上述各例都是简单转位。如果转位可连续地从一个成分转位到另一个成分,又由这个成分转位到其他成分,也就是先转位为成分C1,再由成分C1转位为成分C2,再由成分C2转位为成分C3……一直转位到成分Cn,那么,这种转位就是复杂转位。例如,在“trancher dans le vif”(割到肉里)中,“vif”一词的转位就是复杂转位:形容词“vif”由转位者“le”转位为名词,而“le vif”的功能就其对动词“trancher”的关系来说相当于副词,其转位者是“dans”。图示如下:

 论文摘要

  从理论上说,转位有6种类型:O>A O>E A>OA>E E>O E>A泰尼埃在《结构句法基础》一书中,用了300页的篇幅来论述“转位”的概念及其应用,这几乎占了他的著作一半的篇幅。尽管在大多数语言学家眼里,“转位”的意义和价值远不如“配价”和“依存”等概念,但我们认为“转位”是基于虚图式句法分析理论的必要成分:没有“转位”,基于虚图的句法结构体系就无法运作,就无法将无限的语句纳入有限的句式中,就难以在整个句法体系中实现递归操作,就很难将依存规则限制在一个可控的范围之内,就无法将简单句的规则推广到复杂句的分析领域。

  因此,“转位”是泰尼埃结构句法的重要组成部分,它对于完整地理解泰尼埃的理论是不可缺少的。

  三、《结构句法基础》对语言学界的影响

  《结构句法基础》在1959年出版之后,泰尼埃的语言学思想逐渐地引起了语言学家的重视,从事语言信息自动处理的语言学家们特别推崇这一理论。这一理论在自动翻译、人机对话的研究中,显示出越来越大的作用。

  在法国格勒诺布尔理科医科大学教授沃古瓦(B.Vauquois,1929~1985)所领导的GETA(Groupe d’Etudepour la Trandiction Automatique)自动翻译实验室中,采用这一理论来设计多语言自动翻译系统,成果累累。

  1980年,冯志伟把泰尼埃的依存语法与乔姆斯基的短语结构语法巧妙地结合起来,在GETA研制了世界上第一个把汉语自动地翻译成多种外国语的汉-法/英/日/俄/德多语言机器翻译系统,展现了依存语法在自然语言信息处理中强大的生命力。

  《结构句法基础》是在泰尼埃去世5年之后才出版的,他的这部著作被众多的法国语言学家引用,但遗憾的是一般只是作为一本语言学的经典引用一下而已,在法国语言学界并没有人深入挖掘这本巨著的内涵,更谈不上进一步的发展了。

  20世纪90年代以来,这种状况有了一些改善。例如,在玛德莱-磊鑫(Madray-Lesihne)和理查-扎佩拉(Richard-Zappella)编辑的《泰尼埃诞生百年学术纪念文集》中,大多数文章就是法国学者用法语写的。计算语言学界在巴黎第七大学西尔万·卡恩(Sylvain Kahane) 的努力下,出版了有关依存语法研究的文集并在巴黎召开了首届“意义文本理论”(Meaning Text Theory,简称MTT)国际会议。在法国还成立了泰尼埃研究中心(Centrede Recherche, Lucien Tesnière)。这些都有助于泰尼埃的思想在法国的进一步发展。

  除了在法国本土之外,依存语法在德国、北欧、英国、俄罗斯也得到了很大的发展。

  德国语言学家采用短语结构语法来处理德语时遇到了重重困难,因此,他们采用了泰尼埃的依存语法理论来研究德语,特别是接受了“配价”的概念。

  第一部采用依存语法的原则来描述德语语法的,是赫林格(Heringer)在1970年发表的《德语句法理论》(Theorie der Deutschen Syntax)。这部语法著作采用的是一种将短语结构语法和依存语法两者结合起来的形式化模型,但一般认为他的这部语法著作可以归为依存语法。经过20多年的努力,赫林格的依存语法已经发展成为一种纯粹的依存语法,可读性也大有改善,在他1996年的语法书《德语依存句法》(Deutsche Syntax Dependentiell)里,再也看不到短语结构语法的影子了。此外,在赫林格等人于1980年编写的句法教科书中,首次对依存语法进行了较完整的形式化处理,建立了一种依存语法的形式化模型。

  20世纪60年代后期,在东德的莱比锡和西德的曼海姆产生了两个研究配价理论和依存语法的团体,分别形成了莱比锡学派和曼海姆学派。

  莱比锡学派的领军人物是赫尔比希 ( GerhardHelbig),他和申克(Schenkel)于1969年编辑出版了第一部德语动词配价词典。此后,他们又编辑出版了德语形容词配价词典(1974年)和德语名词配价词典(1977年)。除发表了大量的文章之外,莱比锡学派还出版了一些有关“配价”的论文集,其中赫尔比希在1992年出版的《配价和格理论问题》(Probleme der Valenz-und Kasustheorie)和维尔科(Welke)在1988年出版的《配价和格理论导论》(Einführungin die Valenz-und Kasustheorie)被认为是研究配价理论的入门必读书。赫尔比希还写了几本语言学方面的教科书。这些被广为使用的教科书对配价理论的普及起到了积极的作用。

  莱比锡学派的贡献主要在配价理论和配价词典的编撰方面。在他们的影响下,很多德国学者干脆把“依存语法”直接叫作“配价语法”(Valenz Grammatik)。

  曼海姆学派的核心人物是恩格尔(Ulrich Engel)。

  虽然曼海姆的学者们也编辑出版了德语动词的配价词典,但是这一学派的主要贡献在于研究并实现了用依存语法的原则来全面描述德语中主要的语言结构的思想。

  恩格尔编写了两部德语语法著作分别在1982年和1992年出版,他的这两部著作可能是语言学历史上第一次只用依存语法的原则来完整地描述一种语言的语法书籍。

  1980年,恩格尔把泰尼埃的依存语法经典著作《结构句法基础》翻译成了德语,虽然不是全译,但仍有助于德国学者对泰尼埃经典著作的学习和研究,并进一步推动了依存理论在德国的发展。

  莱比锡学派和曼海姆学派的一个共同之处是把配价语法作为“对外德语教学”(Deutsch als Fremdsprache,简称DaF)的理论基础。无论是1969年最早出版的莱比锡德语配价词典,还是2004年最新出版的曼海姆的德语配价词典,以及近年来在德国出版的各种配价词典,都强调了配价词典在对外德语教学领域的作用。

  德国研究配价语法的学者,并不是全都集中在莱比锡和曼海姆这两个地方。配价语法研究在德国算得上是遍地开花。

  鲍姆(Baum)1976年出版的《依存语法》是目前研究泰尼埃理论起源最好的德文本著作。埃蒙斯(H.W.Eroms)于1981年发表过大量有关配价的文章和著作,他在2000年编著的《德语句法》完全建立在依存语法的原则之上,反映了德国学者在这一方面研究的新成果。

  在埃蒙斯和其同事们的努力下,世界最著名的语言学出版社之一Walter de Gruyter出版了当今内容最全面的配价和依存研究参考书《依存和配价研究手册》。

  1978年,赫尔维希(Peter Hellwig) 在自己的博士论文里,创立了一种基于配价概念的自动语义分析方法,今天这种思想已经发展成了依存语法的代表理论之一:“依存合一语法”。

  1975年,昆泽(Kunze)等人从自然语言处理的需要出发,研制了一种面向语言信息处理的依存语法。

  1993年,罗宾(Lobin)出版了一本专门研究如何在依存语法的框架下处理语言中的并列结构的专著。

  科赫(P.Koch) 是德国的罗曼语学者,他用依存和配价原理来研究罗曼语族语言,1991年编辑了《罗曼语依存和配价研究》。

  托依拜特(W.Teubert)于1979年出版了研究名词配价的专著,首次提出名词也有“配价”,并且系统地研究了名词的配价问题。

  维尔奈尔(E.Werner)于1993年出版了一本研究泰尼埃的“转位”理论的最全面的著作。

  除了按照依存语法原则编写的德语句法书之外,也有一些用德语写成的有关依存语法理论的一般性(导论性)著作。其中最有名的要数德国计算语言学家韦伯(Weber)发表于1997年的著作《依存语法》,此书可视为泰尼埃《结构句法基础》的浓缩精华本。

  依存语法研究的另外一支力量,是欧洲特别是北欧的日尔曼语言学者。

  很多北欧学者也像德国学者那样,把依存语法称为配价语法。

  挪威的阿斯科达尔(J.O. Askedal)从多种角度探讨了配价问题,他在2003年发表的研究泰尼埃“配价和依存”的文章值得每一位研究“依存”和“配价”的学者阅读;他1996年发表的关于美国符号学家皮尔斯(Pierce)和泰尼埃的比较研究的文章,对更深入地认识“依存”和“配价”的普遍性具有十分重要的意义。1979年,他还用挪威语出版过一本《配价语法》,介绍了现有各家的配价思想,其中有两章是研究句模和助动词配价的。

  芬兰学者科罗纳(J.Korhonen)研究配价的历时演变,他于1977年和1978年出版了两本有关配价和依存的著作,覆盖面广,内容丰富,资料翔实,直到今天仍是许多研究者的案头必备书籍。

  芬兰的另外一位学者塔尔万尼(K. Tarvainen)在1981年出版了一本关于配价和依存语法理论的教科书,此书也有芬兰语的版本。

  瑞典的尼库拉(H.Nikula)对配价与语义、语用的关系进行过深入的研究,他在1986年用瑞典语出版了一本《依存语法》的教科书。

  匈牙利学者艾格尔(gel)不但参与主编了《依存和配价研究手册》等重要著作,而且在2000年还出版了一本名为《配价理论》的教科书。

  日本的自然语言处理研究者在许多系统中采用了依存语法作为句法模型,但在语言学界有关依存语法的专论却不多见。

  児玉徳美1987年出版的《依存语法研究》是我们所知道的唯一的一本这方面的专著。児玉徳美的著作严格说来是一本论文集,全书共九章,其中的四章主要介绍英国语言学家哈德森(Richard Hudson)的“子依存语法”(Daughter dependency grammar)和“词语法”(WordGrammar);其中两章介绍依存语法的一般原则和方法;还有一章简单分析了用依存语法来处理汉语的可能性;其余两章与依存语法的关系不大。这本书的贡献不在于为日本读者提供了一本含有“依存”字样的专著,而在于它讨论了依存关系和语言词序类型的问题,并用日语和汉语的例子进行了说明。

  管山謙正在2002年编辑了一本有关“词语法”的论文集,所收录的文章均为英文,七篇文章中有三篇的作者是日本学者。

  用英语出版的有关配价理论的著作不多,最有名的是爱乐彤(Allerton)在1982年出版的《配价和英语动词》。

  安德森(Anderson)在1971年出版的《格语法》(TheGrammar of Case:Towards a Localistic Theory)和在1977年出版的《论格语法》(On Case Grammar:Prolegomena to aTheory of Grammatical Relations ),虽然从书名看都有“格语法”的字样,但和我们大家熟知的菲尔摩(Fillmore)的“格语法”不是一回事。安德森的“格语法”是一种结合了“依存”和“格”的理论,这一理论对斯塔罗斯塔(Stan Starosta)的“词格理论”(Lexicase)和哈德森(Hudson)的“词语法”(Word Grammar)都产生过不小的影响。

  费舍尔(Fischer)在1997年出版的《德英动词配价对比研究》虽然是一本用英语写的著作,但采用了恩格尔(Engel)的框架来进行德-英动词的比较,对于不懂德语的人来说,这是不错的参考资料。

  索牟斯(Somers)在1987年出版了《计算语言学中的价和格》一书,他认为“价”和“格”是两个紧密相连的概念。索牟斯在书里介绍了有关“价”和“格”的主要流派和方法,以及它们在计算语言学中的一些应用,但是还没有形成一套完整的理论和方法。

  2004年赫尔布斯特(Herbst)等主编的《英语配价词典》是第一部关于英语的真正意义上的配价词典。这本词典所收词类不但有动词,还有名词和形容词。

  四、基于依存关系的语言学理论

  基于依存关系的语言学理论,目前主要有“词语法”(Word Grammar,简称WG),“意义文本理论”(MeaningText Theory,简称MTT),“功能生成描述理论”(Functional Generative Description,简称FGD)和“词格理论”(Lexicase)。

  “词语法”是英国语言学家哈德森(Richard Hudson)在1984年提出的一种语言理论。哈德森认为,语法是由一种语言中所有的词构成的网络,语法没有天然的边界,因此,不存在语法甚至语言模块;语法网络只是有关词汇知识的整个网络的一部分,它和这个网络中有关百科知识、社会结构、语音等子网络密切相关。在“词语法”中,“语法”和“词汇”在描写上没有什么本质的区别,只不过语法处理的是一般性的模式,词汇描述的是有关单词的事实。从形式上看,一般模式虽然涉及的是有关词类方面的事情,但表现方式与描写具体单词的方法没有什么不同。虽然词间依存是构成“词语法”的基础,但不能把“词语法”理论简单地看成是一种句法理论,而应当看成是一种几乎涵盖了共时语言学各个分支的语言学理论,“词语法”把各个分支的研究领域统一在一面旗帜之下:

  “语言是一个概念网络”

  “意义文本理论”是从苏联早期机器翻译研究发展起来的一种形式化程度很高的语言学理论。这是一种分层次的、基于依存关系的语言理论,多年来,“意义文本理论”已经被用在了众多的自然语言处理应用上。但总的说来,在生成方面的研究和应用要远远多于剖析方面,这可能与“意义文本理论”创始人之一的梅里楚克(Mel’uk)对于语言的根本看法有关。梅里楚克认为对语言学家而言,生成过程是可研究的,而理解过程却因为牵涉到不少非语言的东西,难以做完全彻底的研究。这一点,也可从理论的名字“意义文本”的先后顺序看出。研究“意义文本理论”的学者主要分布在加拿大、俄罗斯、德国和法国。2003年在巴黎,2005年在莫斯科,2007年在奥地利的克拉根福,召开过“意义文本理论”的国际会议。

  “功能生成描述理论”是以斯加尔(Petr Sgall)为首的一些布拉格数理语言学家创立的一种分层次、基于依存原则的语言描写和形式化理论。布拉格的学者在像捷克语这样的自由词序的语言的依存语法的形式化理论和计算机实现方面做了许多开拓性的工作。

  “词格理论”是美国夏威夷大学的斯塔罗斯塔(StanStarosta)于20世纪70年代初创立的一种句法理论,它不但是一种泛词汇主义的理论,也是一种依存理论。斯塔罗斯塔本人和他的学生已经用这种理论分析了大约50种语言的各类问题。遗憾的是在斯塔罗斯塔去世后,这种理论基本处于停滞状态。

  20世纪80年代初期,我国学者冯志伟以开发机器翻译系统的实践为基础,研究了“依存树”(dependency tree)中结点之间的关系。他认为,这样的关系主要有“支配关系”(dominance)和“前于关系”(precedence)两种。

  如果从“结点x”到“结点y”有一系列的树枝把它们连接起来,系列中所有的树枝从“x”到“y”自上而下都有同一个方向,那么,就说“结点x”支配“结点y”,它们之间存在着支配关系。

  依存树中的两个结点,只有当它们之间没有支配关系的时候,才能够在从左到右的方向上排序,这时,这两个结点之间就存在着前于关系。

  根据自然语言处理的要求,特别是根据机器翻译研究的实践,冯志伟提出,依存关系是两个词之间一种有向的、非对称的关系;依存关系具有三个组成部分:支配词、从属词、依存关系标记;依存树应该满足如下五个条件:

  1.单纯结点条件:在依存树中,只有终极结点,没有非终极结点,也就是说,依存树中的所有结点所代表的都是句子中实际出现的具体的单词。

  2.单一父结点条件:在依存树中,除了根结点没有父结点之外,所有的结点都只有一个父结点。

  3.独根结点条件:一个依存树只能有一个根结点,这个根结点,也就是依存树中惟一没有父结点的结点,这个根结点支配着其他的所有的结点。

  4.非交条件:依存树中的树枝不能彼此相交,在大多数语言中,应当满足映射依存关系的要求,不容许存在相互交叉的树枝。

  5.互斥条件:依存树中的结点之间,从上到下的支配关系和从左到右的前于关系是互相排斥的,也就是说,如果两个结点之间存在着支配关系,那么,它们之间就不能存在前于关系。

  冯志伟提出的依存树的这五个条件,形象地描述了依存树中各个结点之间的联系,便于在自然语言的计算机处理中运用。

  冯志伟提出的第四个条件“非交条件”,要求大多数语言应当满足映射依存关系的要求。这意味着,在少数自然语言中还存在“非映射依存关系”(non-projectivedependency relation)。对于存在这种非映射依存关系的语言,句子的依存结构图中会出现交叉的树枝。如图所示:

  论文摘要

  例如,英语句子“I saw a dog yesterday which wasa terrier”(昨天我看到一个猎狐狗)中,“yesterday”处于“a dog —— which was a terrier”这个短语之中,而“yesterday”是从属于动词“saw”的,这样会在依存树中造成交叉的树枝,出现“非映射依存关系”。

  这种非映射依存关系在20种语言中的分布情况如下:

  论文摘要

  可以看出,在20种语言中,存在这种非映射依存关系最多的语言是荷兰语,占6%;存在这种非映射依存关系最少的语言是汉语,占0%。因此,在冯志伟提出的依存树的这五个条件中,对于“非交条件”的要求可以适当放宽一些。

  用依存语法来进行自动分析是很好的,因为分析得到的依存树层次不多,结点数目少,清晰地表示了句子中各个单词之间的依存关系。但是,用依存树来进行自动生成时,必须把表示句子层次结构的依存树转变成线性的自然语言的句子,根据依存树的第5个条件(互斥条件),依存树中结点之间的支配关系和前于关系是互相排斥的,从结点之间的支配关系不能直接推导出它们之间的前于关系,所以,还应该按照具体自然语言中词序的特点,提出适当的生成规则,把表示结构关系的依存树,转变成表示线性关系的句子。在这方面,各种自然语言的生成规则是不尽相同的。例如,汉语的修饰成分一般应置于中心成分之前,而法语的某些修饰成分则置于中心成分之后;汉语主动句的宾语一般应置于谓语之后,而日语的宾语则置于谓语之前。

  与短语结构语法相比,依存语法也有它的不足之处,在短语结构语法的成分结构树中,由于终极结点之间的前于关系直接地反映了单词顺序,只要顺次取终极结点上的单词,就能够直接生成句子。所以,在自动生成方面,依存树不如短语结构语法的成分结构树方便。为了弥补依存树的这种不足,许多学者在自然语言处理的研究中,把短语结构语法和依存语法结合起来,较好地解决了句子的自动生成问题。

  五、结语

  2011年8月11日至2011年10月12日,我曾在《新浪博客:冯志伟文化博客》上写过《语言学早期关于“依存”和“配价”的观念》《配价理论之父——泰尼埃》,……《配价语法:概率配价模型的可行性》等31篇博文,系统地介绍了依存语法的来龙去脉,有兴趣的读者可以参阅。

  泰尼埃的《结构句法基础》一书奠定了依存语法的理论基础,泰尼埃是当之无愧的“依存语法之父”。

'); })();