研究理论语言学与计算语言学中的依存语法

所属栏目:比较语言学论文 论文作者:/
论文摘要
  
  依存语法是法国语言学家Tesnière在其1959年出版的着作《结构句法基础》(Éléments de syntaxe structurale)中提出的一种语法理论。因此,Tesnière也被称为“现代依存语法之父”(冯志伟,2010)。《结构句法基础》一书在出版后被译为德语、西班牙语和意大利语等多种语言,但由于没有英文版的译作,依存语法并没有短语结构语法的影响范围广泛。依存语法认为句法结构是由词与词之间的依存关系构成的,依存关系的种类包括主语-谓语、谓语-宾语和限定词-名词等。依存关系中的中心词支配附属词,因此是一种非对称的二元关系。依存语法没有短语结构语法中的句法成分概念,换言之,依存语法中的非终极符和终结符都由词构成。依存语法的上述特性适合于描述和解释德语、俄语、捷克语和汉语等语序比较灵活的语言(Nuges,2006),因此,近年来基于依存语法的语言对比和类型学研究逐渐增多(Liu,2013)。同时,由于依存语法较之短语结构语法更为简洁,更加适合用计算机建立语言模型,计算语言学的很多研究都借助依存语法进行自动信息提取和语义标注。
  
  一、理论语言学视角下的依存语法
  
  理论语言学视角下的依存语法流派众多,但大多以Tesnière的研究为基础,对依存关系的表层语法结构和深层语义结构进行扩展,并试图在两者间建立联系。Tesnière(1959)通过分析世界上的60多种自然语言指出句法是以动词为中心的词与词之间的关联(connection),这种关联可以由图式(stemma)来表示。下面笔者通过图1来说明如何用图式来描述自然语言中的关联图1:关联理论中的图示  图1是一个简单的法语句子,“Alfred吃了一个苹果”的图式。Tesnière指出,语句的理解和产出是一个在线性/一维顺序和结构/二维层次之间的转化过程。线性顺序是指语言表面都是按线性顺序排列的,但我们在理解和产出的过程中可能涉及一些更抽象层面的关系,也就是图1所示词与词之间的层级关系。这些层级关系有上下左右之分,构成了一个二维结构。同时,图示中的层级关系具有方向性,由中心词支配附属词。Tesnière认为图示中处于顶点的支配词是句子的谓语,谓语可以统领句子中的其他成分如行动元和状态元。行动元指完成动作的必选成分,比如句子的主语和宾语,行动元的数目可以有一个、两个或三个;状态元指完成动作的可选成分,比如状语,也有学者将其称为“可自由添加的成分”.
  通过行动元和状态元的划分可以看出Tesnière的关联理论强调了句法和语义的密切联系。实际上,Tesnière更关注语义层面的关联,这一点在他提出的转位概念中最为明显。转位是指实义词在特定的句法关系中通过功能词变换词性的过程。如在句子“Marylovestodrink.”中,动词“drink”通过“to”转换为名词。通过这一转换过程后可以很容易得到动词“love”的论元结构:“love(Mary,drink)”.Tesnière提出的关联理论是依存语法的原型,该理论对句法-语义界面的重视影响了后续依存语法的研究。
  
  二、计算语言学视角下的依存语法
  
  与理论语言学不同,计算语言学视角下的依存语法研究侧重于依存语法的形式化研究。为了便于依存语法的形式化描述,计算语言学家经常使用图来构建句子中的依存关系。这里所说的图是一种在计算机中存储数据的结构,由两部分组成:节点集合V(G)和弧集合E(G)。依存语法中的词可以用图的节点表示,词与词之间的依存关系可以用弧表示。
  下面笔者通过图2来说明如何用节点和弧来描述依存关系。
  图2是句子“Hewantstoeatcake”的依存关系图示,图中的节点集合V(G)={He,wants,to,eat,cake};弧集合E(G)={wants-He,wants-eat,eat-to,eat-cake}.因为依存关系中除顶部节点词外,每个词只隶属于一个中心词,所以弧集合的元素数量=节点集合的元素数量–1.在计算语言学中,研究者经常对依存关系图的特征进行如下限定(Nugues2006:266-267):
  第一,依存关系图是一个有向无环图。有向是指弧(即依存关系)中的节点具有方向性。例如在图2中,节点的方向是从中心词指向附属词。无环是指从图中的任意节点v出发,无法经过若干弧后返回v.
  第二,依存关系图是一个连通图。连通是指图中任意两个节点间都存在一条路径。
  第三,依存关系图是一个投射图。投射是指可以画在平面上并且使得不同的弧互不交叉。对依存语法形式化的研究的目的是进行依存关系的自动切分。目前,依存关系的自动切分已达到了较高的准确率(Nivre,2007)。
  
  三、小结
  
  从以上文献可以看出,理论语言学视角下的依存语法研究强调句法和意义的不可分割性,强调自然语言是以意义和功能为主导的。而计算语言学视角下的依存语法研究更加注重依存语法的形式化以及依存关系的自动切分。需要注意的是,两种视角下的依存语法研究互相为彼此提供养分,共同促进了依存语法的发展。在计算语言学领域,依据依存语法理论设计的语言模型提高了自动句法分析的准确率,推进了机器自然语言理解的步伐;在理论语言学领域,经过依存关系自动切分建立的依存树库为语言学家提供了基于真实语言的数据,为完善和验证传统的语言学理论奠定了坚实的基础。
  同时,从文献中可以看出依存语法的理论并不统一,存在很多变体,例如有些理论认为助动词是句子的中心词,应该位于树库的顶点;而有些理论则认为句子的中心词应该是谓语动词。另一个在依存语法中存在争议的语法现象是并列结构,因为这种结构是一种离心结构,具有多个中心词,与依存语法理论的中心--附属二元关系--相悖。这些问题也导致了依据依存语法开展的实证研究并没有一套标准的标注体系,研究者往往根据实际的研究需求来决定依存关系的标注方式。
  
  【参考文献】
  [1]Liu, H. Syntactic variations in Chinese-English code-switching[J]. Lingua, 2013, (123): 58-73.
  [2]Nivre,J., J. Hall, J. Nilsson, A. Chanev, G. Eryi?it,S. Kübler, S. Marinov and E. Marsi. MaltParser: A language-independent system for data-driven dependency parsing [J].Natural Language Engineering, 2007, (2): 95-135.
  [3]Nugues, P. M. An Introduction to Language Processing with Perland Prolog [M]. Berlin: Springer, 2006.
  [4]Tesnière, Lucien. ?léments de syntaxe structurale [M]. Paris: Klincksieck, 1959.
  [5]冯志伟 . 自然语言处理的形式模型[M]. 合肥:中国科学技术大学出版社,2010.
  [6]刘海涛 . 依存语法的理论与实践[M]. 北京:科学出版社,2009.
'); })();