
作者:徐艳华
页数:163
出版社:中国社会科学出版社
出版日期:2007
ISBN:9787500465454
电子书格式:pdf/epub/txt
作者简介
p>作者简介
徐艳华,女,1976年生,山
东烟台人,2003年获烟台师范学
院文学硕士学位,2006年获南京
师范大学文!学博士学位,现为
本书特色
中文摘要
随着信息社会对信息自动化处理要求的不断提高,越来越需要
计算机能对自然语言进行深层分析,比如文本校对、机器翻译、自
动文摘等等,这就要求我们为计算机提供尽可能多的语言知识尤其
是语法知识,使其能够进行正确的分析进而做到真正的“理解”。
现有的汉语语法体系,可以说已经研究得比较深入了,但其主要是
面向人的,面对计算机这个新的交际伙伴,其研究成果还是显得有
些粗糙。因此,要真正实现信息自动化处理,必须加大汉语语法研
究的力度,加细语法刻画的颗粒度,构建真正适合计算机处理自然
语言需要的汉语词类体系。本书正是在这样的服务宗旨下展开研
究的。
本书研究主要从如下三个方面展开:
1.以语料库为信息源,采用统计并辅以内省的方法,详细考
察了名词、动词、形容词和副词中高频的3514个词的语法功能,
构建了语法功能信息库,并以信息库中统计的数据为依据,彻底贯
彻“按照词的语法功能划分词类的标准”,依据“句法功能完全相
同即为一类”的原则,对3514个常用词进行了分类,最终分出
676类,其中,一词一类的有364类,两词一类的有107类,两词
以上同类的有205类,对于一词一类和两词一类的,我们放到词典
里描述,剩下的205类就是新实词词类体系所包含的类别。
2.从句法功能复杂度和分类结果两个方面对现有的词类体系
和我们构建的词类体系进行了对比研究。研究结果表明,只有
lO.1%的词在两种体系中的句法功能复杂度是相同的,而有
84.1%的词在旧体系中的句法功能复杂度是高于新体系的。这说明
现有的词类体系夸大了汉语中词的多功能现象,归属同一类别的
词,不管是有1项功能还是具有10项功能都给以相同的标记显然
有失偏颇,不能客观地反映汉语的实际情况。另外,从分类结果
看,新体系中存在一个词类包含旧体系中多个词类的情况,这说明
旧体系通过找“特点”来为词归类的做法不可取,必须在详细考
察的基础上才能做到“词有定类”。
3.从清华大学100万字的汉语句法树库中提取了l 1206个v+v
序列和10081个v+n序列进行了考察。前一种序列匹配后只有一
种句法关系的有2679种组合模式共10296个实例,正确率分别为
82.9%和91.9%。后一种序列匹配后只有一种句法关系的有1462
种组合模式共7189个实例,正确率分别为70.7%和71.3%。其他
有两种以上句法关系的模板,尽管不能确定具体实例中究竟是哪种
关系,但相对于旧体系来说,其歧义的数量大大减少了。统计结果
表明,新体系在外显式歧义结构的消解和基本名词短语的识别方面
都起到了很好的作用。
关键词:句法功能;词类体系;句法分析;歧义消解
节选
r />
前言
一课题的提出
本书的研究工作是以大规模语料为基础,在充分考察每一个实
词语法功能的基础上自底向上地重构现代汉语实词词类体系。这是
一种彻底按照词的句法功能标准重构汉语实词词类体系的尝试,同
时也为计算机进行自动句法分析提供更详细完备的句法信息,以期
减少句法分析中的结构歧义现象。
在过去的语法研究中,有关现代汉语词类问题一直是语言学界
关注的焦点,诸多语言学家曾投人大量精力进行了深入研究,形成
了现代汉语词类体系,但其研究的服务对象主要是面向人的。随着
计算机科学技术飞速发展以及信息社会对信息自动化处理的要求不
断提高,语法研究的应用对象由过去面向人发展到现在不仅面向人
还面向计算机,而且后一个方面显得越来越迫切和重要。鉴于此,
本书的研究工作由以往主要是面向人的语法研究转向主要面向计算
机。目前的信息处理技术,比如文本校对、机器翻译、自动文摘等
越来越多地需要对自然语言进行深层分析。开发这类应用系统,就
要求我们为计算机提供尽可能多的有关自然语言知识和非语言知
识,前者又包括句法知识、语义知识乃至语用知识等等。
衡量一个自然语言处理系统的水平,可以看它处理到语言单位
中的哪个层级,同时更要看它对不同性质的语言知识掌握到什么程
度。无论是比较传统的基于规则的处理策略,还是基于统计的方
法,在对语言知识的需求这一点上实际都是一致的。所不同的是,
采用基于规则方法的研究者一般诉诸专家的理性知识,由人根据已
有的知识储备来对语言知识进行抽象,比如根据一个词能作主语、
宾语、定语、中心语等功能给以名词“n”的标记;而采用基于统
计方法的研究者一般求助于计算机对大规模语料库进行统计分析,
由计算机来抽象出语言知识,比如以一定的数据结构记录统计结果
等。两种研究方法孰优孰劣,不能笼统判断,只能跟具体的应用目
标结合起来,由实践结果来评价。统计方法已经在像语音识别、自
动分词和词性标注这样相对浅层的自然语言处理中有不俗表现,但
在深层分析方面,比如分析句子的树结构或者句法成分的语义关系
等领域还没有显示出特别的优势。于是又有学者提倡把两种方法结
合起来使用,比如通过统计,给出带有概率值的规则。在我们看
来,无论采用哪种方法,首先都要求人自身先对自然语言有深入的
了解。就规则方法来讲,这一点是显然的;就统计方法来讲,虽然
不那么明显,但道理也是一样的。现有的对自然语言深层知识的统
计,一般是建立在经过标注的熟语料库基础上的,而从生语料库到
熟语料库,就具体的加工方式而言,当然有人工方式,也有计算机
自动加工方式或者人机互助的方式等等,但加工什么内容,标注哪
些信息,仍然取决于人对自然语言的认识。
具体到中文信息处理方面,如果从宏观上以处理对象的单位大
小为指标来看,中文信息处理在汉语的字处理方面已经比较成熟,
词处理阶段的形式方面比如说分词和词性标注等已经取得了一定的
成果,并且基本上可以达到应用的目的,词的意义处理、词组和句
子的结构处理还比较薄弱,至于篇章处理和各层次的环境处理还在
摸索中。目前的研究主要在句子一级展开,包括自动分析句子的内
部句法关系、给出结构成分间的语义关系等不同深度的分析。单就
自动句法分析来看,作为汉语研究者需要考虑这样两个问题:一是
从自动句法分析的需要考虑,重点应该为计算机提供哪些语言知
识;二是现有的技术条件和语言学研究水平又能够为计算机提供
多少。
基于对上述两个问题的思考,选择了本研究课题。
对于第一个问题的回答,主要是根据中文信息处理已有的研究
成果和从目前的实际需要出发,初步确定了本课题研究的主要内
容。一般来说,自动句法分析的操作对象是句子或短语的词类标记
序列,“客观的句法分析只能根据词类的标记序列来推知句法结
构,如果词类问题没有解决好,或者词类和句法分析脱钩,那就无
法根据词类序列去分析句法结构,这样就会影响整个语法体系的科
学性和实用价值。”①由此看来,要进行自动句法分析,除了要为
计算机提供必要的语义知识、词语搭配知识以及关于客观世界的知
识外,更重要的是要为其提供比较完备的语法知识,尤其是语法基
础的词类知识。从20世纪80年代中后期开始直到现在,研究人员
已经在汉语词语的语法功能分类和属性特征描述方面开展了卓有成
效的工作,希望为计算机分析汉语句子结构打下一个很好的基础。
但实际上,这个“基础”并不能真正满足计算机进行自动句法分
析的需要,因为其分类并不是在详细考察每个词的语法功能的基础
上进行的,所以目前迫切需要解决的问题是,对汉语实词的句法功
能进行全面系统的考察,在这个考察过程中得到的结果,不仅可以
检验以往对词的语法知识的概括是否合适,从而进行相应的调整;
而且可以根据统计分析的结果为自动句法分析构建比较合理的实词
词类体系,这样的知识对于没有任何隐含知识的计算机来说是进行
句法分析必不可少的。只有尽可能地把每类词的句法功能描述清
楚,为计算机提供更加精细和完备的词类体系,才能指导它分析出
正确的句子结构,给出正确的语义解释。而从发展趋势来看,越来
越多的高级自然语言处理应用系统的研究与开发,诸如信息提取、
机器翻译等,也都离不开这样的语法知识的支持。
对于第二个问题的回答,则主要是结合我们对目前现代汉语词
类体系以及自动句法分析的具体需要这两方面的认识,大致确定了
本课题研究应该追求的合理目标。从历史上看,汉语的词类体系是
以印欧语语法的词类体系为蓝本的。尽管经过几代语言学家的研
究,根据汉语的实际情况作了一些局部调整,比如增加了量词、助
词和语气词,从形容词中分出区别词等等,这些局部调整的确不乏
闪光之处,但是基本的格局没有改变,依然无法摆脱模仿的痕迹。
由于始终摆脱不掉印欧语词类体系的羁绊,所以最终导致汉语词类
划分并不是严格地按照词的语法功能来进行的。特别是实词分类,
似乎名词、动词、形容词是生来就有的、不必加以验证的词类。尽
管说语言学界对词类问题进行过几次大讨论之后逐步达成共识,认
识到语法功能是词类划分的唯一标准,但在实际操作中,这一标准
并没有被真正彻底地贯彻。就现有的词类体系看,“不管哪种类
型,也不管是哪个版本,无一不带有先验性。它们都不是对客观存
在的词进行全面分析和全面归纳的产物,而是先由语法学家所构拟
然后又由语法学家加以解说的框架,这样的框架必然带有语法学家
的成见和缺陷。”①具体说来有这样几个方面:(1)每个词类到底
有哪些语法功能,这一点很不明确,一般的语法书上仅列出几条
“语法特征”。例如,说名词可以受数量结构修饰;不能受副词修
饰;可以作主语、宾语等等,但即便是这几条特征也往往缺乏普遍
性。(2)属于同一词类的词,其语法功能可能有很大差异。例如,
“领导”可以作主语、宾语、定语、体词性偏正结构的中心语等,
而名词“期间”只具备上述功能的最后一项。(3)不同词类的词,
其语法功能也许反而相似。例如,形容词“富裕”跟动词“信
任”,形容词“虚假”跟名词“实物”等等。(4)一些词的语法
功能没有得到充分的描写。例如, “期间”用在体词性偏正结构
中,另一直接成分通常是动词或动词性结构,把“期间”看作名
词或现有词类体系中的其他词类都不太合适。(5)缺乏对词的各
种语法功能的定量描写。例如,一个词能作主宾语的概率是多少,
作谓语的概率是多少,这种数据对于自动句法分析很有用处。①目
前还只有对词类语法功能频率的一些小规模调查。这样粗糙的词类
体系在句法分析中能起到多大作用呢?我们不妨举个例子来看一
下。例如“接待/v两/m位/q领导/n期间/n”这个短语,计算机
在进行自动句法分析时,处理的是这样一个词类标记序列:
VT M Q N N
我们希望给计算机提供一套形如“NP+VP—s”的句法规则
后能够得到正确的句法分析结果,实际上这样的句法分析难度是很
大的。任何一位读者,如果仅仅知道VT、M、Q、N分别代表及物
动词、数词、量词、名词,不看具体的词语序列,都很难确定标记
序列所对应的是哪一种句法结构,更何况是机器。对于这样的情
况,计算机只能给出所有可能的句法结构。对于上述例子,在人看
来是没有句法歧义的,因为人看到词语序列中的每个词语时都能激
活跟具体词语相联系的许多知识,而在计算机看来却是充满歧义
的。怎样才能使计算机在分析的过程中自动选择正确的结构分析,
那就只能尽量为计算机所面对的每一个词类标记提供尽可能详细的
信息。就现有的词类体系看,“领导”和“期间”的语法功能差别
很大却给以相同的标记,这样粗糙的词类知识,难以有效地支持自
动句法分析。诚然,自动句法分析中的歧义现象并非都是由语法方
面的因素造成的,还有语义等其他方面的一些因素,所以我们构建
的实词词类体系,并不奢望能解决自动句法分析中碰到的由于复杂
语义和篇章层面等因素造成的诸多问题,只是期望对因句法关系的
不同而产生的歧义能起到一定的作用。
在整个研究过程中,面对上述第一个问题,促使笔者关注这项
研究的实用价值,而对第二个问题的思考,则引导笔者从计算机的
角度来对现有的现代汉语语法理论和具体的语言研究工作进行评
第四章
新旧词类体系的对比研究
现有的各家词类体系,不管采用何种分类标准,总的说来是大
同小异的。第一个层次上的分类,数目多少会有差别,名称术语也
不一致,但是结合第二个层次上的小类或者说附类总体考虑,会发
现这些差别大多是非实质性的。因为大类和小类在不同的词类体系
中可以上下浮动,两者之间并没有绝对界限,所以说是非实质
性的。
现在争议较多的、分歧较大的是三大类实词的句法功能问题、
兼类问题,以及某些类的范围问题。后两个分歧,不是本文研究的
重点,所以在此不展开讨论。我们关注的重点是各类词究竟具有哪
些句法功能,只有功能确定了,才便于进行句法分析。对于三大类
实词的句法功能问题,尽管各家词类体系列举的都是每类词的主要
语法功能,但是也不尽相同。为了跟新体系的实词句法功能进行对
比,我们首先对目前具有代表性的几家词类体系的实词句法功能研
究情况进行了梳理。
第一节三大类实词的句法功能
汉语中的词不像印欧语那样有丰富的形态变化,所以不论一个
词可以出现在多少语法位置上,其词形都是相同的。汉语词在句法
上的这种多功能现象,使语法学界在三大类实词的句法功能问题上
存在分歧。汉语中词的多功能现象究竟严重到什么程度?能不能加
以适当处理,找到一种可操作的解决办法?带着对这两个问题的思
考,我们根据比较权威的朱德熙《语法答问》、《语法讲义》、黄伯
荣、廖序东《现代汉语》、胡裕树《现代汉语》、陆俭明《现代汉
语语法研究教程》等几部语法著作以及其他一些比较有影响的论
文,对现有的词类体系中提到的这三类词的句法功能进行了梳理。
一名词的句法功能
根据统计,现有词类体系认为名词的句法功能主要有以下
几种:
1.能作主语,如:
卫星发射成功。
2.能作宾语,如:
去信阳罗山、光山看亲戚。
3.能作定语,如:
生产力是生产关系的物质基础。
4.能作谓语,如:
今天周末。
5.能作状语,如:
集体参加课外活动。
我们电话联系。
6.能作宾语,如:
把书递给我。
7.能作中心语,如:
学校领导给我们提出了几点建议
给我一些纸。
二动词的句法功能
根据统计,动词的句法功能汇总结果如下:
1.能单独作谓语,如:
你来我很高兴。
我上学,他上班。
2.能受副词“不”或“没有”修饰,我们称这种功能为
中:,如:
不思考就不会进步。
她今天没有来。
3.能带宾语,我们称这种功能为述语。,如:
作为新一代的接班人,要勇于探索,勇于创新。
满脸皱纹的老农,放下了手中的工具,开始讲述当年的情景。
4.能作补语,如:
他工作了60年之后,才从总裁的岗位上退下来。
教练、队医、心理老师以及父母的帮助鼓励下,他逐渐地调整
过来。
5.能作动词的宾语,我们称这种功能为宾,如:
同时,积极推进城镇医药卫生体制的改革,打破垄断。
我的夫人以及代表团的每位成员都深受感动。
6.能带补语,我们称这种功能为述,如:
部分比赛紧张激烈,秩序井然,一些场次的比赛踢得较为
精彩。
奥运火炬将于明天抵达澳大利亚,在澳境内传递历时100天。
7.能作状语,如:
对棉花、石油等战略物资运输优先安排。
《上海星报》等英文报刊的全文供读者免费查阅。
8.能作主语,如:
我们一方面资源短缺,供给不足。















