第一篇:语料库的应用(最终)
语料库的应用
语料库方法广泛应用于语言学理论研究、军事等领域。当代语料库语言学(以语料库方法为取向的研究语言的分支就被称为语料库语言学)已是高歌猛进,日新月异,新的语料库更是层出不穷,经过科学选材和标注,具有适当规模的语料库能够反映和记录语言的实际使用情况,人们通过语料库观察和把握语言事实,分析和研究语言系统的规律,极大地方便了语言研究者。
军事语料库对信息化条件下的军事斗争具备潜在价值,积极开展军事语料库的研究和建设实践活动,并把研究成果转化到实战之中。和平时期对信息化高科技武器的建设不可小视,对战场态势的综合信息捕捉、把握和利用的能力建设至关重要,但对身边已有的各类信息的综合收集和利用也同样不可忽视。军事语料库的建设正是针对实现信息化战争中争夺与占有信息资源、获取不对称的战争中的信息掌握和信息利用的不对称优势。
【一】、语料库成为语言学理论研究的基础资源
语料库是计算语言学的基础。语料库对应的英文是corpus,复数形式为corpora。这个词既可以指语料也可以表示语料库。英国语言学专家戴维•克里斯特尔认为,语料库“指收集的一批语言学数据,或为书面文本或为言语录音的转写,可用作语言学描写的出发点,也可作为验证语言假说的手段。计算机语料库是一大批机器可读文本的结集。各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究,社会语言学研究,口语研究,词典编纂,语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。
起初语料库主要用于语言学研究,而且建成的语料库多为通用语料库,服务的研究领域主要集中于词典编纂、词语搭配与结构、基于平行语料库的英汉互译、文学作品和作家语言风格的研究以及基于语料库的外语教学研究等。随着研究的不断深入,各种专业领域语料库也相继建立,语料库的应用研究逐渐扩大到其他学科。
我国在语料库的应用上还处于起步阶段,在计算语言学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息和概率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果。
目前国外已建成且较有影响的主要为以下的语料库:美国:布朗大学的今日美国英语标准语料库(The Brown University Standard Corpusof Present Day American English)、兰卡斯特一奥斯陆/卑尔根语料库(The Lancast-er-Oslo/Bergen(LOB)Corpus)、英语语库(TheBank of English)、英国国家语料库(The BritishNational Corpus(BNC、伦敦一隆德语料库(Lon-don-Lund Corpus(LLC》、美国传统中介语料(American Heritage Intermediate(AHI)Corpus)以及英语国际语料库(The Intemational Corpus ofEnglish(ICE》等。国内在语料库建设方面虽然较晚,但已体现出较强的后发优势,个别语料库在世界上也形成了一定的影响。趋于领先地位的有广东外语外贸大学的中国英语学习者语料库(Chinese Learner English Corpus(CLEC)、中国社科院语言所的汉语情景会话口语库(北京地区)(Spoken Chinese Corpus of Situated Discoursein Beijing Area)以及上海交大的科技英语语料库(JDESt)近期由文秋芳等编著的中国学生英语口笔语语料库无疑是对以上的语料库的有效补充。
【二】、语料库在军事领域的应用
<一>、信息化条件下的军事语料库的应用背景
从世纪之交的几场局部战争来看,信息化战争已成为当代和未来战争的主要形式。信息化战争的核心是对信息资源的争夺与占有,信息匮乏或信息弱势的一方注定会成为战争的输家。不对称的战争中很大的不对称就是信息掌握和信息利用的不对称。要想实现信息化的部队,避免在战争中成为信息弱势的一方,和平时期对信息化高科技武器的建设不可小视,对战场态势的综合信息捕捉、把握和利用的能力建设至关重要,但对身边已有的各类信息的综合收集和利用也同样不可忽视。对于后者,军事语料库的建设正是针对实现这一目标的有力依靠和手段,具有不可低估的价值。首先,可以借助语料库对海量信息进行情报处理和分析外,从中生成重要的情报,为相关部门和专家提供决策辅助;还可以借助语料库的后台支持,开发出战场针对交战对方或所在地的语言自动翻译和语音处理的软硬件,更好地服务于战场信息控制与掌握,提高战斗人员的生存能力,确保对敌的信息优势。
以美国为首的西方发达国家已经意识到军事语料库对信息化条件下的军事斗争所具备的潜在价值,积极开展军事语料库的研究和建设实践活动,并把研究成果转化到实战之中。比如,利用语料库的资源支持,借助自然语言的处理技术,美军为驻伊拉克的美军部队开发和配备了一种“多语言自动讲话翻译机”,它能迅速将英语翻译成阿拉伯语,以解决美军与伊拉克人交流的问题。美国防高级研究计划局
(DARPA)也正在着手开发新一代双路语音翻译技术,并采用该技术为驻伊部队开发英语和阿拉伯语的翻译系统。
美国的GALE(全球独立语言开发)计划通过构建多国语料库,运用语料库技术来处理库中多国语言的大量语音和文字材料,这些工作
包括采集、翻译、分析和解释这些材料,旨在消除对语言学家和分析学家的依赖,以适当的方式自动地向军事指挥官或其他人员提供相关、简洁、可操作的信息。此外,美国军方DARPA计划中,有很多项目涉及语料库基础上的计算机语言处理技术,其中包括机器自动翻译、跨语言情报侦测、情报抽取、情报摘要、特定事件情报追踪等方面。在以上系统的研制过程中,美国建立了大量的军事语料库,大大提高了信息收集与处理的效率,并积累了丰富的军事语料库开发经验。日本、俄罗斯、欧盟等其他发达国家和国际组织也不甘落后,在军事语料库研究与开发等方面投入大量资金,并取得了显著的效果。我军未来面临的战争形势更为复杂,需要做好打赢“多战场”战争的准备,而且在情报电子对抗等方面面临的竞争更为激烈。“多战场”战争即意味着战争的多地域性、多语言性。这就要求我们研究与开发多种语言的军事语料库,并且开发多种载体的军事语料库,譬如文本、音频、视频等。同时,情报电子对抗领域竞争的加剧也要求我们开发多种专业的军事语料库,譬如心理战语料库、核情报语料库、各种尖端武器语料库以及对方重要军政领导人物的语言语料库等。
<二>、军事语料库独特的发展空间
作为一种专业语料库,军事语料库具备语料库的共有的功能。这些功能可以归纳为军事语料库的一般应用;同时,在信息化条件下,军事语料库也有自身独特的发展空间和应用前景。
军事语料库是指由服务于军事甚至内容涉及军事的单一语种或多语种的文本所组成的语料库,也可以是含图片、语音、视频等媒体形式的语料库。根据具体用途不同可以有军事通用语料库,指的是即覆盖军事思想、政策与规定、科学研究、教育训练、装备与技术、作战与指挥等各领域的语料,也可以是单一用途或对象的语料库,如军事术语语料库、军事科技文献语料库、军事装备与技术语料库(可以含军事装备本体的研究)、军事情报语料库、舆论战、心理战语言素材语料库、军事文学语料库、军事外语教学语料库等。部分内容不涉及军事,但明显具有服务军事功能的语料库包括:对象国语言文化百 科知识语料库,对象国政情语料库,对象国自然资源语料库,对象国科技情报语料库,对象国经济情报语料库,对象国新闻报道语料库等等。
总的说来,军事语料库的建设、开发与研究对大多数国家来说仍然是刚刚起步的新鲜事物,美军在此方面的研究较早,具体应用方面已经取得了明显的突破,因此我国也应该加紧军事语料库的建设步伐。
1、军事语料库的一般应用
(1)革新军事语言研究方法,提高军事语言研究效率
军事语言研究主要集中在五个方面,即军事术语研究、军事书面语研究、军事口语研究、军用主题词研究、军事现象与语言现象共变理论等研究。这些方面的研究在局部已取得了令人振奋的成果,对军队建设发挥了积极的推动作用。但目前,这样的研究许多仍基于以往的传统研究方法,即依靠人力进行语料的收集、分类、提取和分析,不仅效率低下,而且研究结论的可信度容易引起人们的疑问。如果能借助于相关的军事语料库,军事语言的研究可以大大提高效率和准确度。其中,可以为军事词汇的研究提供军事运用中的全貌,常用军事用语也可以更符合语言应用的实际情况,对于语言结构的研究也可以更好地体现军事用语的分布、变化和来龙去脉。由于军事语料库具有使用方便、查询科学、信息抽取准确的优点,因而还能够满足军事用语应用和研究的各类应急需要。
(2)加速各类军事辞典编纂,提高军事辞典应用价值
目前,国内已经有相当数量的针对我军和外军的军事词典,既有一般性的军语词典,也有专门性的术语词典,还有武器装备、科学技术词典和百科全书等。但这些词典由于多是用传统人工收集语料的编纂而成,词典的覆盖面较窄,选词的代表性不高,也不易体现符合军事语言实际使用的全貌。另外,由于选材的原因,军语和军事词汇的系统性较差,未能较好地体现当代语言使用的特点,也不能反映军语的历史变化和相互关系。具体说来,就是对新词的收集未能全面覆盖,未能准确反映国内外军事发展的新动态,对旧词的采用没有有力的依据,例句的使用也不能保证是否是军语使用的实际情况,因而,其结果是容易造成随意性的编撰。另一个突出的弱点是,几乎所有军语词典都没有考虑按照国际目前词典出版的新趋势去考虑,即配以语料库基础上生成的电子词典光盘版。实际上,创建军事语料库,将词典的整个编撰和使用建立在军事语料库基础上,将能够有效弥补传统军事辞典的上述缺憾,能够保证军事辞典的理据性、系统性、全面性、准确度和时效性,从而提高军事辞典的实际应用价值。(3)创新语言战法研究,大力促进新军事变革
在新的国际斗争环境下,语言已成为当今军事斗争中的主要武器和媒介,其表现形式为信息战、心理战、舆论战、法律战等,作用和地位不断凸现。舆论宣传和心理攻击已经成为新的大规模杀伤武器。西方军队纷纷组建起大批专门从事上述作战形式的部队和研究机构。美军在各军种的指挥学院都开设了心理战的课程,专门的心理战部队更是花样繁多,不断加强心理战的作战样式和作战能力。对语言的巧妙运用是心理战的重要基础。传统的做法是,组织人员针对某一特殊情况临时编辑创作心理战和舆论战的文本和稿件,但由于工作量大,任务紧急,单一的人工做法很难满足信息时代快节奏行动的需要。因而,建立心理战、舆论战、法律战的语料库,利用语料库的快捷查询、数据准确、处理能力强、生成快捷的特点,可以定量和定性开展这方面的理论探索和应用研究,从而更好地发挥语言的实战作用,提高语言的杀伤力。这样做,才能真正做到针对信息战的“未雨绸缪”,“即需即用”。
(4)推动军事语料库辅助教学研究,提高军事外语教学水平
军事语料库不但为军事语言研究提供了丰富的语言素材,为编写军事词典提供大规模的词汇源头,还可以为各种军事教材提供重要的依托和依据,而且在军事外语教学理论、内容、方法等方面也可以发挥重要作用。传统的军事外语教学主要是凭感觉进行主观设计,在经验下行事,往往在出现问题后再进行补救。而建立在军事语料库基础上的军事外语教学,将实现对传统外语教学的变革与创新。总的说来,军事语料库可以在军事外语教学语言教学中从事以
下的主要活动:
(1)避免课堂授课内容与人们实际使用的军事语言之间的差距;
(2)发现过去被忽略的军事语言规律;
(3)理解军事词语在实际交际中的意义和用法;
(4)揭示和认清军事语域的特点;
(5)发现学习者使用军事语言时的问题;
(6)解决语言学习测试的有效性和合理性;
(7)实现语言学习错误的科学分析;
(8)提供军事语言学习的策略和辅助素材;
(9)帮助学生实现自主学习、自我检查和自我提高。
总之,军事语料库的建立,对传统的军事语言研究、词典编撰、舆论战和心理战的语言使用策略和战略以及语言教学会带来新的革命性的转变。
2、军事语料库在信息化条件下的创新应用
信息化条件下的战争对信息掌握、信息控制、信息处理和信息传递的能力提出了非同一般的要求,而各类军事语料库的建立,能更好地满足和适应这些能力的建设。
(1)推动军事情报检索发展,提高情报获取能力 我们处在一个信息大爆炸的时代,仅互联网上每秒传递的各类信息都很难以统计,无线电话的语音信息也是一个海量。这其中蕴藏着 大量的有价值的情报,如果能有选择性地收集其中的信息,建成语料库,再利用语料库对信息进行过滤和筛选,就会为军事情报提供重要的参考和判断依据。如果直接收集敌方军事人员的各类电话和互联网信息,建立分门别类的语料库,其潜在军事价值就更为可想而知了。比如,为了针对特殊对象的信息收集、情报侦听、方位跟踪等,可以建立该人物群体的军事语音语料库。利用特定人物的语音样本,对相关人员的无线电话可以实现全球跟踪和定位。据传,美国在打击基地组织的关键人物中就采用了这一技术,这也就是为什么拉登很少使用手机的原因。值得指出的是,美国的GALE(全球独立语言开发)机构利用语料库的技术,结合计算机语言学的其他技术,已经开始研究并应用处理多国语言中的大量语音和文字材料,这些工作包括采集、翻译、分析和解释这些材料。通过计算机对大量语料的快速处理,自动地向军事指挥官或其他人员提供相关、简洁.可操作的信息。这样可以部分消除对语言学专家和信息分析专家的依赖。军事人员只用掌握简单的操作命令,就可以对某一信息或某一问题在当前海量信息中的权重或分量得出结论,从而对下一步采取何种应对措施和行动提供参照。当然,如果是情报分析专家来利用这套系统,对情报的掌握就更加全面和准确了。
(2)方便多国协同军事行动,实现战场实时军事翻译
当前国际多国多语种的联合演习、联合反恐、国际维和、军事谈判和军事交流日益扩大,范围也越来越广;另一方面,一国军队人员往往远程作战,对战斗地区和占领区的文化都缺乏了解,语言沟通就更加困难了,这对军事翻译提出了很强的需求。然而,单纯的人工现场翻译显然已经无法满足要求,也无法实现。在军事行动过程中,用人工进行实现翻译的代价也太高。因此开发自动翻译系统迫在眉睫,而机器翻译实现的重要基础就是语料库技术和方法。
目前开发类似于人类智能的通用机器翻译系统比较困难,然而对于特定领域的机器翻译,借助语料库的技术,还是可以实现的。比如,在多国协同作战中,由于涉及的词汇和用语较为简单,语句变化性小,战场用语单一,因此,对它们实现军语自动翻译是完全可能的。可以建立一定规模的语料库,然后通过计算机软硬件技术,尤其是自然语言的处理技术,对它们进行可信度较高的快速翻译,这也就是我们通常所说的机器翻译。机器翻译的基础就是语料库,而且是双语或多语种的语料库。
美军已经开始了这方面的探索和研究。由于美军在全球各地行动,并且经常在短时间内处于非英语的陌生环境。出于对安全和行动有效性的考虑,他们必须了解相当广泛的快速变化的新信息。然而,这些信息在第一时间经常只是以外语的形式出现。它可能包括当地居民的话语交流、广播电视、不同领导人对行动地区人民的讲话以及当地居民的反应。由于作战部队里具有能完全听懂当地语言的官兵相对较少,再加上临时培训的代价又较高,而且语种繁多,一时间很难做很好的语言提高。这种情况下,收集并建立当地活的语言的语料库,在此基础上实现机器翻译,被美军认为是目前较好的可行方案。实际上,美军已在最近的两场局部战争中采用了这种技术。
驻伊拉克的美军部队配备一种“多语言自动讲话翻译机”,它能迅速将英语翻译成阿拉伯语,以解决美军与伊拉克人交流的问题。据路透社报道,开发这种翻译机的美国国际商用机器公司(IBM)已向驻伊美军交付了装有语音识别和翻译软件的笔记本电脑。这些电脑将首先配备给美军医务人员、特种部队和海军陆战队,目的是在需要医疗救援时能及时与伊拉克安全部队和伊平民沟通。其中一款就是下图所示的Babylon双语翻译机,涉及了阿拉伯语、汉语、英 语、法语、德语、意大利语、日语、朝语等8种语言的相互对译,其内核中配有大量的实时言语交流的语料库数据,然后通过处理软件,对输入的话语信息进行数据比对和排错,最后输出认为最为合适的翻译结果。
报道说,尽管翻译机暂时还不会应用于冲突或作战环境中,因为这些紧急状况需要瞬间沟通和决策;但是,IBM的最终目标是让军队在翻译缺乏的真实战场环境下实现操不同语言者之间的有效交流。IBM研究翻译技术的技术高管纳哈默(David Nahamoo)说,使用装备了Mas-tor的笔记本电脑或掌上电脑,交谈一方对着麦克风说话,经软件识别和翻译后,电脑就会自动把翻译好的话读给另一方听。现在提供给美军的翻译机能翻译5万多英语单词和10万阿拉伯语单词。纳哈默指出,这种翻译机与现有翻译软件最大不同在于,它并不局限于程序事先存人的语句,还可以在机器学习的基础上,进一步识别人们不同的文法、词序和句子结构。不过,由于任何翻译机都不可能达到准确无误,为了防止翻错,出现误会,Mastor先在屏幕上显示三种翻译方式,由使用者进行选择。
英国《防务系统日刊》2007年3月29日报道,美国防高级研究计划局(DARPA)授予Flu-ential公司一份价值120万美元的设计项目,开发新一代双路语音翻译技术,该技术将用于为驻伊部队开发英语和阿拉伯语的翻译系统。为了能够实现英语和阿拉伯语的同步双向语音交流,DARPA开展了战术用话音通信和翻译系统(TRANSTAC)项目。Fluential公司首席执行官俄萨尼(Farzad Ehsani)表示,DARPA要求开发一种能够进行快速、精确话音翻译的应用系统。作为DARPA合同的一部分,Fluential公司将开发一种能够用于多种任务的灵活系统,该系统将可以适应野外的工作环境。新系统将为队提供广泛的翻译能力,目前这些士兵缺乏与伊拉克平民、警察和士兵进行交流的能力。
从以上可以看出,建立在语料库技术至上的机器翻译已在美军中大行其道,颇受青睐。随着技术的进步,不久的将来,以语料库技术为支撑的战场实时翻译肯定会取得突破,并出现在战场上。<三>、结论
综上所述,建立大规模的军事语料库,可以提高我军的军事语言研究水平,加速军事辞典编纂,提升舆论战、心理战的作战和研究水平,提高情报检索效率,推动军事行动中机器翻译发展,也能促进军事外语教学改革。尽管军事语料库研究在我国还处于初级阶段,但鉴于军事语料库的独特作用,加快各类军事语料库的建设已经刻不容缓。它既可以革新军事领域中的许多理念,促进相关科研和教学的提高,也能大大加快军队信息化的步伐,从而最终将大大提高我军信息化作战的战斗力和生存力。因此,我们需要抓住机会,以语料库语言学理论和相关的军事理论为指导,加大军事语料库的开发力度,为促进我军新军事变革、提高打赢未来信息化战争的能力做贡献
第二篇:语料库在对外汉语教学中的应用专题
语料库在对外汉语教学中的应用
卢 伟
摘要以语料为基础的语言研究方法及其成果语料库,在对外汉语教学与研究方面可以得到广泛的应用。现代汉语语料库可以为编制教学大纲提供定量依据,为编写教材提供真实的语言素材,为编纂教学专用辞书提供语料和语言信息,还有助于研究语言形式的语境意义和用法,有助于发现第二语言学习和习得的规律,有助于发现和修正语言规律,促进汉语研究和教学的发展。因此,有必要加强我国语料库建设及其在对外汉语教学与研究中的应用。
关键词语料库应用对外汉语教学
Applications of Corpora in Teaching Chinese as a Foreign Language
Lu Wei
Abstract:The language research method based on linguistic data and computer corpora is of wide application in teaching Chinese to foreigners.A modern Chinese corpus can provide quantitative basis for syllabus design, authentic language materials for textbook making, linguistic data and relevant information for pedagogic dictionary compiling.In addition, corpora can contribute to study on the contextual meaning and usage of linguistic forms, exploration of L2 learning and acquisition patterns as well as discovery and correction of linguistic rules.Therefore, development and application of computer corpora should be strengthened for the teaching and research of Chinese as a foreign language.Key words: corpora, application, teaching Chinese as a foreign language
语料库在对外汉语教学中的应用
卢 伟
一、基于语料的语言研究方法
收集真实语言环境中的语言材料,并将它们作为素材来解释和例证现存的语言现象,或者发现新的语言规律,这一直是语言研究的基本方法。我国的方言研究,更是以语料采集为基础的。汉语方言学的开山之作《方言》,就是这种研究方法的成果。在计算机尚未应用于语言研究之前,语言研究人员只好通过手工来收集、记录和整理语言材料。然而,利用语料进行语言描述的传统曾经受到过生成语法学派的批评,他们夸大语料库的缺陷,认为语料“只不过是语
①言行为的取样”,未能反映说话人的语言能力。从此,西方语言学研究趋向于从偏重归纳转
向偏重演绎,语言学家凭借语感,通过内省或者依照语法规则演绎所得的例子成为语言研究的主要材料。Chomsky理论的冲击使西方早期的语料库语言学发展受到阻碍,也使得基于语料进行语言研究的优良传统一度受到忽视。
随着计算机运行速度和存储容量的提高,加上光学扫描仪、光盘只读存储器、电子出版物、光学字符识别(OCR)、因特网以及语料标注和检索软件技术的迅速发展,建立语料库所需的技术设备日臻完善。近年来,就语料库本身的建设而言,规模不断扩大,功能越来越强大,检索愈来愈方便,利用语料库进行语言研究的手段也随之得到改善。正如语言学家Halliday所言,“现代语料的巨大包容性及开发语料的种种手段的出现构成了深化我们对语言的认识和理解
②的强大力量。”不断涌现的研究成果改变了人们对语言研究的固有观念和模式,也使得利用语
料进行语言研究的优良传统得以发扬光大。越来越多的语言研究人员参与语料库建设,并运用定量统计和分析的方法利用语料库进行语言研究。如今,语料库的建设和利用它进行语言研究,正在发展成为一门新兴的语言学分支学科——语料库语言学。它对语言研究的许多领域产生愈来愈大的影响,并广泛地应用于语言的词汇、语法、语义、语用、语体等方面的研究、社会语言学研究、口语研究、词典编纂以及自然语言处理、人工智能、机器翻译、言语识别和合成等研究。
二、语料库在对外汉语教学中的应用
对外汉语教学是将汉语作为外语或第二语言的教学,属于语言学的应用学科,涉及多种相关学科的交叉研究,必须从相关的新兴学科中汲取研究方法和应用成果,以丰富自身的学科理论,促进学科的发展。以计算机存储的语料为基础的语言研究方法,是当今语言学任何分支学科研究的一种自然的、现代化的、甚至是不可或缺的辅助方法。因此,我国的对外汉语教学也
必须从相关的语料库中提取真实、客观、丰富的语言素材,进行教学与学术方面的研究。从这一意义上讲,语料库在对外汉语教学与研究方面可以得到广泛的应用。
1.为研制汉语词汇、语法和汉字教学大纲提供科学的参考依据。我们知道,定量统计是研制任何标准应该遵循的原则。我国对外汉语教学界的两个指导性纲领《汉语水平词汇与汉字等级大纲》和《汉语水平等级与语法等级大纲》,也把“多学科定量统计”作为编制原则之一。如果我们建成一个学科覆盖范围广泛的大规模现代汉语语料库,那么就可以为从事对外汉语教学和研究的人员提供大量反映各种语体和语域的真实语料,便于对现代汉语的字、词和语法项目进行更加科学、客观、准确的定量统计分析。可见,汉语作为外语或第二语言教学的各种等级大纲,如果能够建立在语料库提供的汉字、词汇和语法项目使用频率的定量统计基础上,就更具有广泛性、客观性、科学性和权威性,因而对教学实践和相关的学术研究也更有指导意义。
2.为编写对外汉语教材提供真实的语言素材,为教学中描写和解释语言项目提供活生生的例证。对外汉语教学的最终目的,就是培养留学生运用汉语进行言语交际的能力,因此必须强调用于教学的语言材料的真实性,也就是语言素材应该具有实际的言语交际价值。如果我们能从大量真实的口头与书面语料中选取素材,就能减少课堂上所学习的与实际交际中所使用的语言之间的差距,让学生学到自然的、地道的汉语。反之,如果用于第二语言教学的汉语教材中,关于词汇和语法教学的语言素材和例子是编者依靠经验、凭借语感或者按照语法规则演绎编造出来的,那么其中有些例子就可能与实际交际中的言语事实有差距,甚至可能失去交际价值。英国语言学家Quirk曾批评道:“从这些自己编写的例证出发”,“把材料仅仅当作‘例证’来使用,用来证明先验的、或者是语法学传统规定的、甚至是凭直觉认定的某些语法上的区别和结构,而不是从大量自然语言材料中归纳这些语法上的差别,这只能是一种很不令人满意的③权宜之计。”有鉴于此,我们首先应该利用语料库所提供的材料进行分析和统计,从而发现使
用频率高的词语、表达方式和句型等,将它们编入教材并作为教学重点,这样就可以减少教学的盲目性,保证教材的真实性。其次还应该根据语料库所提供的语料,解释和例证语法规则和词语用法。根据语料处理教学中的语言项目,具有量化的标准和统计学的依据,能够使语言描写更加全面客观,解释更加准确科学,例证更有说服力。
3.有助于研究语言形式在语境中的意义和用法。如果没有语料库为我们提供大量的语言材料,仅仅依靠有限的语料对语言形式进行意义和用法研究,可能会因为材料不足导致研究结论不够准确全面。相反地,利用语料库的定位检索系统,比如“上下文中的关键词(KWIC)”索引形式,可以从大量的语料中检索出某个汉语单词、短语、语法结构等语言形式以及它们出现的上下文。现代化的手段使得我们有可能从宏观的角度,对语言形式及其语境进行全面的观察和分析,因此,利用语料库进行各种语言形式在语境中的语义和语用研究,可以避免分析和判断的失误,有助于更加全面准确地认识汉语语言形式在交际语境中的意义和用法,据此所进行的描写也更加可靠。其研究成果可以帮助学习者掌握汉语单词、短语和表达方式的正确用法,加深对词语的语境意义的理解,还有助于克服第二语言学习过程中的“语用失误”(pragmatic failure)。
4.可提供第二语言学习者的“中介语”(interlanguage)形式,有助于发现第二语言学习和习得的规律。第二语言学习与习得理论重视对学生在学习过程中所犯的言语错误进行对比分析,特别是对“中介语”进行偏误分析。传统的作法是,教师通过人工收集学生的病句,但是
由于受到种种客观原因的限制,所能搜集到的病句毕竟有限,而大规模的第二语言学习者语料库却能为教师提供现代化的研究工具。比如北京语言文化大学的“汉语中介语语料库系统”,收集了汉语中介语语料350多万字,其中核心语料100多万字作了断句、分词和词性标注。通过语料检索系统,实现了对语料在字、词、句、篇等不同层次上快捷方便的自由检索和浏览,可以提供各种单项的或综合的资料、数据和信息。它为中介语研究和偏误分析提供了大量宝贵的资源,为这方面的研究提供了科学便捷的集成环境和先进技术手段。与人工收集有限的学生病句卡片资料相比,“中介语”语料库能够更加真实详尽地反映第二语言学习者的汉语中介语本来面貌,帮助我们更加全面系统地观察他们学习和习得汉语的过程,了解影响学习和习得的各种因素,所发现的规律反过来可以为第二语言教学的总体设计、教材编写、课堂教学、测试等各个环节的研究提供依据。此外,建立在中介语语料库基础上的偏误分析,也有助于预测和纠正第二语言学习者的言语错误。
5.为编写第二语言教学专用的辞书提供真实的语料和相关的语言信息。我们知道,西方早期的某些语料库是为编纂词典收集语料而建立的。比如,1987年美国Harper Collins出版社出版的《柯林斯合作英语词典》(第一版)是根据“COBUILD语料库”的2千万语料编纂的。1995年英美两国出版的四本英语词典《朗文当代英语词典》(第三版)、《牛津高级学习者词典》(第五版)、《剑桥国际英语词典》以及《柯林斯合作英语词典》的第二版,都是以至少1亿词量的大型语料库为基础的。西方所谓的“语料库革命”给信息资料学带来了根本变化,因此我们完全有理由说,大型的汉语语料库也必将引起汉语辞书编纂的变革。同时,也为编写对外汉语教学专用的辞书提供大量真实客观的语料和相关的语言信息,诸如词频统计、词汇分级、词性标注、词语搭配、语体特征、词语用法、语境中的例句,等等。此外,在编纂词典的时候,首先应该坚持“描写性”(descriptive)而不是“规定性”(prescriptive)的方法,也就是要客观地描述语言事实,而不是单凭编者的主观判断来规定词语的用法。因此,如果对外汉语教学专用的汉语词典能够以大型的汉语语料库为基础,那么,这样的词典必将更加具有统计学的定量依据,对词语的意义和用法的描述也会更加客观全面,其科学性和权威性也就更强,对教学与研究也就更有参考价值。
6.有助于从汉语的实际使用情况中发现和修正语言规律,促进汉语研究的发展。英国语言学家Quirk等人编写的《当代英语语法》之所以被公认为权威之作,很重要的原因在于这本语法专著是建立在“英语用法调查”语料库的基础上的。后来,他们又根据扩充了的语料合编了更有权威性的《当代英语语法大全》。这本巨著发现了一些新的语法规律,补充或修正了一
④些原有的语法规则。“语料库可用来作为验证有关语言假说的手段”。西方语言学家利用语料
库研究语言(特别是语法)的经验和成果表明,对语料库提供的大量语料进行分析,有时可以发现一些过去被忽略的语言规律,比如语法书上没有或者没有详细描述过的语言规律。有时,以语料库的大量语料为基础所进行的语言研究,更有可能使语言研究者发现原有对某些语法现象的解释与自然语言中的实际情况不相符合,这就使得他们有机会去修正或补充前人的结论,促进语言研究不断发展。因此,语料库不但有助于汉语语言的应用研究,而且为高效、全面、科学地进行现代汉语的理论研究提供了强大的现代化技术保证,特别是在发现和修正语言规律方面大有可为。毫无疑义,语言规律的发现和修正对于汉语研究具有重要的意义,而对汉语本体的研究成果,也必将促进对外汉语教学与研究进一步发展。
三、促进语料库建设及其应用
我国语料库建设发展较慢,这对于一贯重视利用真实语料进行语言研究的我国语言研究传统来说,显得更加不相适应,尤其是在对外汉语教学的应用方面,还有待于进一步发展。比如我国的对外汉语教学界,虽然成功地研制了“汉语中介语语料库系统”和“现代汉语研究语料库系统”,为第二语言教学与研究提供了基于大规模真实语料的现代化研究环境和技术手段,但是仍然远远不能满足教学与研究的实际需求,况且还有很多理论和技术问题没有解决,诸如怎样汲取和应用西方语料库语言学的研究方法和建库经验,现有的语料库规模偏小,语料标注加工的广度和深度不够,语料检索软件还有待改进,等等。针对这些不足,我们认为至少必须重视以下几个方面的工作。
首先必须继续学习西方语料库语言学的理论和方法以及语料库建设的经验和教训,并结合汉语特点加以汲取和应用。其次,继续收集样本语料扩充并标注现有的语料库,使之语料更丰富,覆盖面更广,标注更科学。可以利用光电扫描技术和语音录入软件提高语料输入的效率,也可充分利用现有的电子出版物和“因特网”上的中文信息作为语料来源。应该特别加强语义层面和语用层面的标注。第三,有关部门统一组织力量研制不同用途的新语料库,比如普通话口语语料库、“专用型(specialized)”语料库、双语“平行对照型(parallel)”语料库等,以利于普通话口语研究、汉语与外语的双语比较研究。第四,在技术方面,提高现有语料库的运行速度,引进国外的或者改进现有的标注和检索程序,开发新的工具软件,使语料检索更加方便快捷,功能更加强大。第五,尽最大可能地发挥现有语料库的作用。已建成的语料库不要只局限于小范围内的研究人员使用,而应该推向社会,至少应该对全国从事对外汉语教学与研究的人员开放。建议采用有偿服务的方式为有关人员提供检索查询的方便,或者通过“中国教育和科研计算机网”(CERNET)上网,提供(有偿)查询浏览,才能达到信息资源共享,更好地为全国对外汉语教学与研究服务。
注:
①④ David Crystal: A Dictionary of Linguistics and Phonetics(2nd Edition).Blackwell, 1985, p.78, p.77.② M.A.K.Halliday: Corpus studies and probabilistic grammar, in Aijmer and Altenberg(eds).1991.English Corpus Linguistics: Studies in Honour of Jan Svartvik.London: Longman.pp.41-42.③ 胡明扬译《英语用法调查》,《国外语言学》1992年第4期,第39页。
参考文献:
Aarts, Jan and Willem Meijs(eds.), 1990: Theory and Practice in Corpus Linguistics.Amsterdam-Atlanta: Rodopi.Aijmer, K.and B.Altenberg(eds), 1991: English Corpus Linguistics: Studies in Honour of Jan Svartvik.London: Longman.Johansson, Stig and Anna-Brita Stenstrom(eds.), 1991: English Computer Corpora: Selected Papers and Research Guide.Berlin and New York: Mouton de Gruyter.陈建生1997《关于语料库语言学》,《国外语言学》第1期。
陈小荷1996《“汉语中介语语料库系统”介绍》,《北京语言文化大学入选第五届国际汉语教学讨论会论文汇编》,北京语言文化大学教务处1996年8月编,第305至313页。丁信善1998《语料库语言学的发展及研究现状》,《当代语言学》第1期。
胡明扬1992《现代汉语通用语料库的建库原则和设想》,《语言文字应用》第3期。刘连元1996《现代汉语语料库研制》,《语言文字应用》第3期。
孙宏林等1996《“现代汉语研究语料库系统”概述》,《北京语言文化大学入选第五届国际汉语教学讨论会论文汇编》,北京语言文化大学教务处1996年8月编,第314至322页。
发表在《厦门大学学报》(哲社版),1999年第4期,第112-115页。CN35-5001/C
第三篇:初中英语作文语料库
要求熟练掌握句式表达!!9月29日编辑完成。
写作表达句式
1,I am a middle-school student.My dream is to enter into a better senior school.2,MY friend always encourage me to study hard.we are lonely and stressed out(我们很孤独并且压力大)4 we are short of parents’ care(我们缺乏父母的关心)5 I used to be poor in English but now I am always able to make full marks.我过去英语很差,但现在我能够取得满分
6,crossing road can be dangerous if we are not careful enough.如果我们不足够小心,过马路可能危险。7 waste water is used to water flowers。or computers are used to do a lot of things in daily life 废水可以用来浇花。电脑可以用来做很多事情。(苏文注意)
7,watching TV overly can be bad for our study if parents don’t limit screen time.如果父母不限制看电视时间过度看电视会对我们学习不利,8,as a teenager ,I always meet the same problems as you.here are some suggestions foryou 作为青少年,我常常遇到和你一样的问题,这里一些建议给你。,as you know, our environment are becoming worse and worse nowadays 正如你所知,如今我们的环境正变得越来越差。
10.We should also never forget to turn off the lights when we leave the classrooms in order to save energy.What‘s more, it would be better if we walk or ride a bike to school.We should try our best to reduce pollution and waste.自行翻译
1,the more I want to memorize the words, the more difficult I find it 十(也可以替换为the harder)
我想记得的单词越多时,我发现这个过程更难.2.一些凳子是由木材做的,另一些是塑料做的。所有凳子在中国生产的。
Some chairs are made of wood, others are made of plastic.all chairs are made in china.2 to my joy(高兴),my classmates always encourage me and give me a lot of help in study and life.(令我高兴的是,我的朋友同学总是鼓励我并且在我的学习生活方面给我足够帮助)Our class is made up of six groups(如何组成的。班级分成6个小组)our school organize “hand –in-hand “activity to call on more people(students)to help lonely elders.学校组织手拉手活动呼吁更多学生帮助孤独老年人、4,I WOULD like to visit the Great Wall.It is about more than 6500 kilometers long.It is so great.我想去游玩长城,她大概是6500长,如此宏观。With the help of the Internet, shopping is not a difficult job.Just click your mouse to choose the article you like, and the shopping is finished.You needn't step out of the room.It seems easy and quick.在电脑帮助下,购物不是件困难的工作。只要一点鼠标去选择自己喜欢的物品,整个购物过程就完成了。你不需要走出房间,这看起来简单快速。6.he is more interested in sports than computer games.他对体育的兴趣多余电脑游戏节目 a growing number of students have learned about the shortcomings of going on-line.越来越多的学生已经了解到上网的缺点
8There are many traditialfestivals in China, such as Spring Festival, Mid-Autumn Day and so on.在中国与许多节假日如春节,中求节等等including 老师们提醒我们过马路时要小心
Our teachers always remind us to be careful when crossing the road 10 there are two sides to everything, and A is without exception(也可以替换为so is A)该句用于中间转折,意思是凡事都有两面性,A也是不例外(如此。
替换表达:Although there are many advantages ,its shortcomings can not be overlooked by us 尽管它有很多优点,但它的缺点不可以忽视,(这里用被动语态起强调作用)I have learned not only how to make friends but also how to talk to others during the learning process.我不仅学会了如何交朋友而且学会了如何与人交流 great changes have taken place in our hometown(china)我的家乡发生巨大的变化(词句用一般现在时也ok 3the life of people is much better than ever before(时态比较)人民的生活比曾经or过去好很多。
4we always waste water resource while millions of people in dry areas are in great need of water(while用法,用于两者在同一件事情做对比)
我们总是浪费水资源而干旱地区成千上万的人却急需用水。
5there is a need for us to deal with the rubbish in cities and fight against the pollution 对于我们有必要处理城市垃圾,和与污染做斗争。
6it is necessary /important /beneficial/difficult to do sth(必须、重要、有益、困难)都某件事 7.We should not cut down the trees because trees can clear air and also can better our environment.(另外一种表达:and this can …..)因为树可以进化空气而且改善我们环境,我们不可以砍树。这里的better 是动词词性。I need to spend more time studying in order to come true my dream 替换:so that , 9 I plan to go swimming instead of going shopping this afternoon。我计划去钓鱼而不是去购物(替换词汇rather than.)
10.we should not spit in a public place,we must pick up some rubbish andthrow it into a dustbin.If everyone makes contribution to protecting the environment, the world will become much more beautiful(学生自行翻译。
第四篇:语料库语言学综合
语料库语言学基础知识
2008-09-11 01:45:34| 分类: 学术|举报|字号 订阅
语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
语料库建设中涉及的主要问题包括:
(1)设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。
(2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。
(3)语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。
(4)语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。
(5)语料库的应用:针对语言学理论和应用领域中的各种问题,研究和开发处理语料的算法和软件工具。
我国语料库的建设始于80年代,当时的主要目标是汉语词汇统计研究。进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。
语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符编码、文本输入和整理,语料的自动分词和标注,到语料的统计和检索,自然语言信息处理的研究都为语料的加工提供了关键性的技术。
下面先简要叙述1998年到2003年中国语料库建设的基本情况,然后介绍语料库的加工、管理和规范问题,最后谈谈语料库方法在语言研究和语言工程等方面的应用。由于以前的《中国语言学年鉴》很少谈及语料库问题,为了尽可能全面地反映我国语料库研究和应用的情况,必要时会将时间上限向前延伸几年。
二 中国语料库建设的基本情况
90年代末到新世纪初这几年投入建设或开始使用的语料库有数十个之多,不同的应用目的使这些语料库的类型各不相同,对语料的加工方法也各不相同。下面是其中已开始使用并且具有一定代表性的语料库。
(一)现代汉语通用语料库
这是一个由国家语言文字工作委员会主持建立、面向全社会应用需求的大型通用语料库,从90年代初开始建设,计划规模7000万字,主要应用目标是语言文字信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育、以及语言文字的社会应用。
这个语料库收录的语料以书面语为主、以书面语转述的口语为辅。语料来源是1919年至今,主要是1977年至今出版的教材、报纸、综合性刊物、专业刊物和图书。在设计原则上,讲求通用性、描述性、实用性和抽样的科学性。在语料分类方面,以“门类为主,语体为辅”为原则制定三个大类:
第一类:人文与社会科学类(包括8个次类、30个细类)1.政法类: 哲学 政治 宗教 法律 2.历史类: 历史 考古 民族
3.社会类: 社会学 心理 语言文字 教育 文艺理论 新闻 民俗
4.经济类: 工业经济 农业经济 政治经济 财贸经济 5.艺术类: 音乐 美术 舞蹈 戏剧
6.文学类: 小说 散文 传记 报告文学 科幻 口语 7.军体类: 军事 体育 8.生活类
第二类:自然科学类(包括6个次类)1.数理类 2.生化类 3.天文地理类 4.海洋气象类 5.农林类 6.医药卫生类
第三类:综合类(包括6个次类,30多个细类)
1.行政公文类: 请示 报告 批复 命令 指示 布告 纪要 通知等
2.章程法规类: 章程 条例 细则 制度 公约 办法 法律条文等 3.司法文书类: 诉讼 辩护词 控告信 委托书等 4.商业文告类: 说明 广告 调查报告 经济合同等
5.礼仪辞令类: 欢迎词 贺电 讣告 唁电 慰问信 祝酒词等 6.实用文书类: 请假条 检讨 申请书 请愿书等
在不同类别、不同来源、不同时期的语言材料中,按照不等密度的思路确定合适的语料选取比例,从共时和历时两个角度保证入选语料的平衡性,是这个语料库的特点。譬如,在语言材料的年限方面,选材比例是:
1919年 – 1925年 5% 1926年 – 1949年 15% 1950年 – 1965年 25% 1966年 – 1976年 5% 1977年以后 50% 在语言材料的门类、语体和来源方面,选材比例是:
人文与社会科学类占59.6%。其中各个次类在本大类中的比例是:
政法 12.7% 历史 8.4% 社会 14.0% 经济 9.8% 艺术 6.7% 文学 44.9% 军体 2.3% 生活 1.4% 自然科学类占17.24%。其中各个次类在本大类中的比例是:
数理 17.2% 生化 19.1% 天文地理 14.1% 海洋气象 9.1% 农林 22.8% 医药卫生 17.7% 综合类占9.36%。其中各个次类在本大类中的比例是:
各类应用文 91.1% 其他 8.9% 报纸类占13.79%。其中各个次类在本大类中的比例是: 全国性报刊 25% 省市报刊 75% 这个语料库在选材过程中收集和记录语料的有关描述信息,为每个语料样本设立了20个描述项目:总号、分类号、样本名称、类别、作者、写作时间、书刊名称、编著者、出版者、出版日期、期号(版面号)、版次(初版日期)、印册数、总页数、开本、选样方式、样本起止页数、样本字数、样本总数、繁简字。用户可以利用这些语料描述标记根据各自的需要进行各种方式的检索。语料库的建库工作分为两步,第一步先建立核心语料库(由7000万字的语料中筛选出2000万字语料组成)。到90年代末,完成了2000万字生语料的收录工作。从2001年开始,对2000万字核心语料进行分词和词性标注加工。
(二)《人民日报》标注语料库
《人民日报》标注语料库由北京大学计算语言学研究所和日本富士通公司合作,从1999年开始,到2002年完成,原始语料取自1998年全年的《人民日报》,共约2700万字,到2003年又扩充到3500万字,是我国第一个大型的现代汉语标注语料库。这个语料库加工的项目有词语切分和词性标注,还有专有名词(人名、地名、团体机构名称等)标注、语素子类标注、动词、形容词的特殊用法标注和短语型标注。下面是一段语料标注的示例,对于1998年1月1日第5版第1篇文章的第11段:
我国的国有企业改革见成效。位于河南的中国一拖集团有限责任公司面向市场,积极调整产品结构,加快技术改造和新产品研制步伐。图为东方红牌履带拖拉机生产线。(赵鹏摄)
标注后的形式是:
19980101-05-001-011/m 我国/n 的/u 国有/vn 企业/n 改革/v 见/v 成效/n。/w 位于/v 河南/ns 的/u [中国/ns 一拖/j 集团/n 有限/a 责任/n 公司/n]nt 面向/v 市场/n,/w 积极/ad 调整/v 产品/n 结构/n,/w 加快/v 技术/n 改造/vn 和/c 新/a 产品/n 研制/vn 步伐/n。/w 图/n 为/v 东方红牌/nz 履带/n 拖拉机/n 生产线/n。/w(/w 赵/nr 鹏/nr 摄/Vg)/w 在每一个切分出来的词和标点符号后面,是该词语的标记。譬如词性标记(n,v,a,u,m,w等),专有名词标记(nr,ns,nz等),语素子类标记(Vg等),动词和形容词特殊用法标记(vn,ad)。所有的标记都是以北京大学的《现代汉语语法信息词典》为基础词库,在一个加工规范的指导下标注的。
利用《人民日报》标注语料库,人们可以从各个角度考察和分析语言事实,统计各种语言单位出现的频率,譬如,词语或词类的分布、搭配和共现,专有名词的结构方式、兼类词在句子中的表现,语素字的使用情况,等等。也可以从语料里提取各种语言单位或语句片段作为研究实例。与仅仅以汉字串的形式表示的“生语料”相比,经过标注的“熟语料”显然含有更多的语言学特征信息,对汉语词汇研究、语法研究和汉语信息处理系统来说是更好的语言知识资源。
《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。
(三)用于语言教学和研究的现代汉语语料库
建立现代汉语语料库的主要目的之一是对外汉语教学和现代汉语研究,可以分为书面语语料库和以文本形式表示的口语语料库两类。前者如北京语言大学的汉语中介语语料库、现代汉语研究语料库,后者如中国社会科学院语言研究所的北京地区现场即席话语语料库。
汉语中介语语料库的建设目标是为对外汉语教学、中介语研究、偏误分析和汉语本体研究提供资源,因此它的语料来源很有对外汉语教学的特点。作者先在北京和其他省市的9所高等院校里,从来自96个国家和地区的1635位外国留学生那里收集了成篇成段的汉语作文或练习材料5774篇,共3528988字。再从中抽取了740人的1731篇语料,共有44218句,1041274字。全部语料都记录了学生姓名、性别、年龄、国别、是否华裔、第一语言、文化程度、所学主要教材、语料类别、写作时间、提供者等23项属性。然后对这104万字的语料进行词语切分、词性标注以及一些专用的语言学特征标注。例如,标出了字、词、句、篇等不同的层次,对语料的非规范形式(例如:错字、别字、繁体字、拼音字、非规范词等)做出索引标记,记录其对应的规范形式。这个语料库的管理系统有语篇属性登录、文本过滤、文字预处理信息登录、语料抽样、断句、分词、词性辅助标注、自动标注以及语料的主题检索、全文检索和数据浏览等各种功能,分别处理语料库的建立、管理和维护,以及用户浏览、查询和检索等。与人工收集的学生病句卡片资料相比,中介语语料库能够更好地反映学生学习汉语的情况,帮助教师更加全面地观察他们的学习过程,了解影响学习和习得的各种因素。在汉语作为第二语言的教学中,为教材编写、课堂教学、测试等环节提供依据。
现代汉语研究语料库的建设目标是为语言学家提供一个研究平台,由2000万字的粗语料库和200万字经过分词和词性标注的精语料库两个部分组成。粗语料库收录的语料样本中绝大部分是九十年代的出版物,有《人民日报》1000万字,《中国新闻》500万字,各种书籍250万字,文学作品150万字,准口语材料(书面形式的对话、独白)100万字。精语料库的200万字语料样本是从粗语料库中按照规定的比例由计算机随机抽取的,有书面语语料160万字,准口语语料40万字,是从语体、题材、体裁三个方面均衡选取的平衡语料库。为了对这些语料进行词语切分和词性标注,作者制定了词语切分的细则和词性标记体系的原则,采用了一个含有112个词类标记的标记集,确定了兼类词的处理方法。这个语料库的管理系统具有建库、检索、浏览、统计、输出等功能,可以按词或词类检索,统计出词的频率、词类频率、词类共现频率、平均词长、平均句长等结果。这个语料库建成以后,很快应用在现代汉语语法、汉语教学和汉语信息处理的研究中,研究内容涉及现代汉语的插入语、汉语句子的主题-主语标注、V+N序列实验分析、词性标注中词语归类问题、动宾组合的自动获取与标注,等等。
建设北京地区现场即席话语语料库的目的是,通过收集大量的现场即席话语语料研究现场即席话语的各种动态机制,以揭示现场即席话语的使用规律。这个语料库的研究策略和取样方法很有特点,首先是严格区分资源库和语料库,资源库收集符合现场即席话语定义的录音材料,语料库收录按照一定标准从资源库提取出来的材料;另外在语料采样前先做摸底性研究,通过研究对现场即席话语的真实情况有所了解,确定取样域,再定取样范畴,然后根据取样范畴去录现场典型材料,这是一种层次范畴化的取样方法。这个语料库目前正在建设之中,已经取得了近600小时的录音材料和50多小时的录象材料。
在用于汉语研究的语料库中,讲究选材均衡,注重语料加工,同时也提供公开服务的,当数台湾中央研究院历史语言研究所的现代汉语平衡语料库(简称Sinica Corpus)。这个语料库的规模为500万个词,每个句子都依词断开,标示词类标记,并且配备了检索系统,在网上开放供大家使用。根据自己制定的一套汉语文本属性特征为语料分类,在不同的类别上尽量均衡地采集语料,是这个语料库的特点之一。文本属性用来说明文档的呈现方式、文章的写作方式、文章写作的内容和文档的来源出处,包括7类,每类下设若干小类:
文类(文档的呈现方式)
报导、评论、广告图文、信函、公告启事、小说故事寓言、散文、传记日记、诗歌、语录、说明手册、剧本、会话、演讲、会议记录 文体(文章的写作方式)记叙、论说、说明、描写 语式(文档的呈现方式)
书面语、演讲稿、剧本/台辞、口语谈话、会议记录 主题(文章写作的内容)
哲学、科学、社会、艺术、生活、文学
媒体 报纸、一般杂志、学术期刊、教科书、工具书、学术论著、一般图书、书信、视听媒体、其它
作者 姓名、性别、国籍、母语
出版 出版单位、出版地、出版日期、版次
不同研究目的的语言学者可以自己按语式、文体、媒体和主题的小类选取不同类别的语料,组成“自订语料库”,在“自订语料库”的范围内进行语料的检索和统计。除了通常的按词语、词类的检索和统计以外,这个语料库的管理系统还提供了一种“进阶处理”功能,对检索出来的数据作进一步处理,对处理的结果还可以再次处理,形成多层的检索结果。
(四)面向语言信息处理的现代汉语语料库
90年代中后期,面向语言信息处理的现代汉语语料库开始建立并投入应用。其中最早开发的是清华大学用于研究和开发汉语自动分词技术的现代汉语语料库,经过几年的积累已达到8亿多字生语料。在这个语料库的支持下,用统计语言模型的方法研究了汉语自动分词中的理论、算法和技术,编制了总数为9万多个词语的《信息处理用现代汉语分词词表》。这些研究工作体现了我国汉语自动分词技术的发展水平,词表被许多汉语自动分词系统作为底表使用,是不可缺少的基础资源。
TH通用语料库系统是清华大学建立的另一个现代汉语语料库。这个语料库有两个特点,一是语料库管理系统根据不同的加工深度,分四个等级管理语料。第一级是生语料分库,有4千余万字;第二级以上都是加工程度不同的熟语料库,其中第二级存放经过自动分词并由人工校对过的初加工语料500余万字;第三级存放经过词性标注和人工校对的语料约300万字;第四级是经过句子成分标注和人工校对的语料。每个分库又按语料的来源分成一般书籍、报纸、杂志、论文和工具书五类子库。不同等级的语料可以为不同的应用目标服务。第二个特点是在这个语料库的支持下,进行了汉语信息处理技术的研究。譬如,采用以谓语为中心的句型成分分析与语料统计相结合的方法,自动分析汉语的句型,提出了一个“汉语句型频度表”;在汉语文本中自动标注句子成分和句型成分的边界;根据指定的句型在语料库里搜寻句子实例,等等。
HuaYu人工标注语料库是清华大学和北京语言大学合作建立的一个现代汉语平衡语料库。这个语料库按文学、新闻、学术、应用文四个大类收录了200余万字语料。它的特点是讲究加工的深度,除了词语切分和词性标注以外,还根据语句中动词的类型和句子的长度进行“语块”标注和“句法树”标注,目的是为建立汉语短语分析或句法分析的语言模型获取统计数据提供资源。下面分别是语块标注和句法树标注的示例。
对句子“自古以来,人类就重视档案的保存和利用,设置馆库、选派专人进行管理。”进行语块标注以后得到的是一个无嵌套的线性序列,其中S是主语语块,P是述语语块,O是宾语语块: [D 自/p 古/t 以来/f,/, [S 人类/n [D 就/d [P 重视/v [O 档案/n 的/u 保存/vN 和/c 利用/vN,/, [P 设置/v [O 馆库/n、/、[P 选派/v [O 专人/n [P 进行/v [O 管理v。
对句子“我哥哥送给我一本很漂亮的书。”进行句法树标注以后,得到的是一个与树形结构等价的线性序列:
[ zj-XX [ dj-ZW [ np-DZ我/ rN 哥哥/n ] [ vp-PO [ vp-PO [ vp-SB送/v 给/v ] 我/rN ] [ np-DZ [ mp-DZ 一/m 本/qN ] [ np-DZ [ ap-ZZ很/d 漂亮/a ] 的/u 书/n ] ] ] ]。/w ]
(五)用于开发特定语言分析技术的专用语料库
这类语料库是针对汉语信息处理技术的需要专门建立的。例如山西大学的专有名词标注语料库和分词与词性标注语料库。
分词与词性标注语料库,规模为500万字,带有分词标记、词性标记和句法标记。标注时依据《信息处理用现代汉语分词规范》和《信息处理用现代汉语词类及标记集规范》。在这个语料库的支持下,开发汉语自动分词和词性标注软件,研究自动分词和词性标注的评测技术。为了解决汉语自动分词中的切分歧义问题,还建立了交集型歧义字段库和组合型歧义字段库,专门收集这两种类型的歧义切分实例。前者有7.8万字,后者收录了140多条。并且在分词和词性标注语料库里作了这两类切分歧义的标注。利用这些语料调查交集型歧义当中的“伪歧义”现象(既切分结果只可能有唯一选择的那些交集型歧义切分字段),发现这种现象在歧义切分字段中很普遍,可以达到90%以上。
专有名词标注语料库用于研究汉语自动分词中专有名词的识别算法。其中包括标注了中国地名的语料280万字,标注了中国人姓名的语料300万字,标注了西文姓名的语料250万字,标注了汉语机构名称的语料50万字,还有标注了网络新词语的语料150万字。利用这些语料,建立了中国地名用字、用词库,姓氏人名库,姓氏用字频率表,名字用字频率表等,用统计语言模型的方法识别专有名词。
(六)双语语料库
基于实例的机器翻译(Example-based)需要大规模的双语平行语料库来支持。语料库里的源语和目标语实例要按照相同级别的翻译单位一一对齐。目前已有的双语平行语料库主要是汉语和英语的,语料对齐的单位有句子级的、子句级的、短语级的,也有词汇级的。机器翻译系统把要翻译的句子与语料库里的源语实例进行对比,分析相似程度,找到最适合的源语实例,再参照与它对齐的目标语实例生成译文。用于这类机器翻译系统的双语语料库必须有一定的规模,用人工做语料对齐的工作显然很难满足要求。这就使文本自动对齐成为建立双语语料库的关键技术。
在目前已有的双语语料库中,哈尔滨工业大学的汉英平行语料库已经直接用来开发英汉双向机器翻译系统。这个语料库有6万个汉语和英语的句子,使用多级对齐加工技术,分别按照句子、短语结构和词一一对齐。中国科学院计算技术研究所的汉英双语语料库有20万个句对,也完成了句子一级的对齐,并在网上提供查询服务。北京大学、中国科学院软件研究所等单位也建立了按句对齐的汉英双语语料库。除此之外,还有以语段或短语为单位收集的汉英双语语料库,譬如中国科学院自动化研究所的汉英双语短语库,有3~5万对已对齐的汉语和英语短语。东北大学的英汉双语语段库,用来帮助建立电子版的英汉搭配词典。
(七)面向汉语史研究的语料库
面向汉语史研究的语料库建设是从搜集汉语史文献资料开始的。台湾中央研究院历史语言研究所从90年代初期就开始了这项工作,他们先收集上古汉语的语料,然后扩展到中古汉语和近代汉语。90年代中后期逐步开始上古汉语语料和近代汉语的标注,在该院信息研究所和计算中心的协助下进行标注技术和检索技术的开发。根据是否经过分词处理和词性标注,台湾中央研究院的古汉语语料库和近代汉语语料库可以分成两类:生语料库和标记语料库。目前生语料库收集的语料已涵盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)的大部分重要文献资料,并己陆续开放使用。在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注工作,也逐步提供网上检索。2001年底,开放了近代汉语标记语料库WWW版供各界使用,首先提供查询的文献是《红楼梦》及《三遂平妖传》。在查询方面,除了常用的功能以外,还可以在显示词项及词类的同时给出例句的出处,便于历史语法的研究者使用。
多年来中国社会科学院语言研究所也一直在致力于文献资料的建设,搜集整理了近代汉语书面语语料150万字,中古近代汉语语料约1千万字,部分语料已作了标注。目前已经完成了一个小型语料库,包括:敦煌变文集、祖堂集、三朝北盟汇编、碧岩录、朱子语类、刘知远诸宫调、西厢记诸宫调、元刊全相平话五种、元典章 刑部、老乞大谚解、朴通事谚解、孝经直解、鲁斋遗书、经筵讲义等十余种文献,成为汉语史和语言学理论研究的重要资源。此外,语言研究所的先秦专书电子文档有4部文献,共约120万字,并且已由古汉语学者逐篇逐句标注了语法信息。
上海师范大学、浙江师范大学、四川大学等学校也依据各自汉语史研究的方向,建立了历史文献语料库。四川大学的中古汉语语料库有1亿字的中古汉语语料和有关中古汉语研究的资料。浙江师范大学的楚辞语库、前四史语库、六朝语库、太平广记语库、唐诗语库、宋词语库,已用于“前四史”语言研究和唐宋诗词语词研究。
目前历史文献语料库建设的特点是依托学科建设和研究方向,广泛收集资料,注重校勘精审。随着汉语史研究和语料库应用的发展,资源共享和语料加工将得到越来越多的重视。历史文献资源共享,首先要避免语料的重复收集,还要采用国际通用的标准处理语料文本,使语料能够准确、方便地交换和使用。语料加工则是充分发掘语料应用价值的基础工作,从收集历史文献的电子文档,到建成一个具有必要的语言学标记信息、合理的逻辑结构和方便的检索功能的语料库,语料的加工是不可或缺的一步。
(八)比较语料库
为了研究汉语在不同地区的使用情况,香港城市大学建立了LIVAC共时语料库(Linguistic Variation in Chinese Speech Communities)。语料来自香港、台湾、北京、上海、澳门及新加坡六地有代表性的中文报纸,以及电子媒介上的新闻报道。自1995年7月开始,每四天一次,收集这六个地区的对等书面语文本,每次约两万字。内容包括新闻、特写、评论等文章。到2003年上半年,已收集了1亿1千多万字、超过56万个词条。计划收集到2005年6月,囊括新旧世纪交接点前后各五年各地华语社区有代表性的重要语言数据,供汉语的各种共时比较研究使用。
在语料的组织和加工方面,这个语料库用计算机自动分词,再经人工校对分类,可以依字、词、句为基础进行检索,提供字、词配搭、分布等数据,有统计功能。语言学家能通过这个语料库考察上述六地出现的新词、词义有所发展或转移的旧词、以及有地方特色的词语,还可以对具体字或词的频率作统计比较,对字词的差别作计量分析。对研究华人社区的文化、社会、语言差异也有作用。这个语料库的一部分已经在网上提供服务。
(九)少数民族语言语料库
新疆大学从2002年起开始建设现代维吾尔语语料库系统,计划包括5个部分:语料库、电子语法信息词典、规则库、统计信息库和检索统计软件包。其中语料库部分又分成生语料库(经初步整理的原始语料)和加工语料库(经过标注和校对的语料)。目前已有生语料800万词。另外,新疆大学也正在以新闻领域的维汉-汉维机器翻译为目标,建设双语平行语料库。内蒙古大学的中世纪蒙古文语料库收集了《元朝秘史》、《黄金史》、《回鹘蒙古文文献集》等历史文献。他们还建立了500万词的现代蒙古语语料库,研究了蒙古文附加成分的自动切分、复合词的自动识别和语料的词性标注,获得了词频统计、音节统计、词类统计、附加成分统计等数据。西北民族大学建立了1亿3千万字节的大型藏文语料库,用于藏文词汇频度和通用度的统计。中国社会科学院民族学与人类学研究所建立了500万藏语字符的藏语语料库,进行词语切分和标注的研究。新疆师范大学也建立了200万词的维吾尔语语料库。
与汉语语料库相比,少数民族语料库的建设还需要解决一些特殊的问题,譬如拼音文字转写的标准和规范,词语分类体系及其标记集等。
到2003年,已建和在建的各种文本语料库还有很多(包括书面语语料库和以文本形式表示的口语语料库),以上提到的只是有代表性的一部分。与文本语料库相对的,是语音语料库。语音语料库不仅记录语图、声学参数等语音学数据,还有句法、韵律等各种语言学信息标记和副语言学信息标记,可以在语音识别与合成系统中用来建立语音模型,用于语音研究、语音工程开发和汉语普通话教学等领域。语音技术是当前信息技术和通讯领域里最具潜力的发展方向之一,语音语料库在科研和工程上有很高的使用价值。关于语音语料库的详细情况,请见“语音学和言语工程研究综述”。
三 语料库的加工、管理和规范
(一)语料的加工
一个计算机语料库的功能主要与三个因素有关,一是语料库的规模,二是语料的分布,三是语料的加工程度。规模的大小关系到统计数据是否可靠,语料的分布涉及统计结果的适用范围,语料加工的深度则决定这个语料库能为使用者提供什么样的语言学信息。
加工语料主要指文本格式处理和文本描述两项工作,前者是对采集的语料文本进行整理,转成统一的电子文本格式,例如数据库格式、XML文本格式等。后者是描述每一篇语料样本的属性或特征,包括篇头描述和篇体描述。篇头描述说明整篇语料样本的属性,例如语体、内容所属的领域、作者、写作时间、来源出处等等,篇体描述是在文本里添加各种语言学属性标记,对于汉语书面语语料库来说,常见的是词语切分标记、词性标记、专有名词标记,还有某些语法特征如短语标记、子句标记,或语义信息标记,等等。对汉语书面语语料的加工一般是从词语切分、词性标注,到语法、语义属性标注,按顺序进行。标注的信息逐步增多,语料加工的深度也就逐渐增加。人们通常把没有篇体描述信息的语料叫做生语料。对汉语的生语料只能以字为单位进行检索和统计。经过词语切分处理的语料,就能以词为单位进行检索、统计和定量分析。如果还作了词性标记,那么可以获得的语言学信息就更多了。语料的标注如果由人来做,当然能够保证准确性,但是人工标注对处理大规模的语料显然不够现实。所以几乎每一个大规模语料库的加工都需要借助自动化的手段,词语自动切分、词性自动标注等就成为备受关注的语料加工技术。
自动分词是我国最早开始研究的汉语信息处理技术之一。语料库的建设开始以后,自动分词技术在语料加工中又得到了应用和发展。自动分词和词性自动标注一般都需要一个词典,作为分词和词性标注的基础。这个词典与常用的语文词典相比,收录的词目不大一样,包括了语言学家认可的词,以及一些比词小的单位(如语素字、词缀等)和一些比词大的单位(如成语、习语、简称略语等)。词典中也包括词类信息和其他语法信息。目前的自动分词技术是基于字符串匹配原理的,有正向最大匹配、逆向最大匹配等基本算法。在切分过程中会出现歧义现象,如何处理歧义是自动分词研究的重点之一,在这方面投入的研究也最多,先后提出了“短语结构法”、“专家系统法”、“隐马尔科夫模型”、“串频统计和词匹配”等辩识歧义的方法。识别未登录词是自动分词研究的第二个重点。未登录词指没有被分词底表收录的词语,包括人名、地名、机构名等专有名词和新出现的词语。对未登录词的识别一般以基于语料库的统计语言模型方法为主。
词性自动标注通常与自动分词同时进行,根据带有词类信息的分词词典,给切分出来的词语标上初始的词类标记。对于兼类词,必须在句子里判断类别。因此需要分析兼类词语在上下文中的分布特点和语法功能,并用形式化的方式表达出来,作为词性标注系统排除兼类的规则。近年来,已经有几个自动分词和词性自动标注系统投入了应用,其中北京大学用自己研制的系统为《人民日报标注语料库》做分词和词性标注的初加工,北京语言大学的自动分词系统也成为其《面向语言教学研究的汉语语料检索系统》中的关键技术。此外,经过十几年的研究和实践,2001年发布了收录9万多词语的《信息处理用现代汉语分词词表》和《现代汉语词类及标记集规范》。对于1993年制定的国家标准《信息处理用现代汉语分词规范》的可操作性问题,也进行了积极的讨论和实验,提出了有效的解决方法。关于自动分词和词性自动标注的详细情况,请见“计算语言学和自然语言信息处理研究综述”。
经过分词的语料,除了标注词性以外,还可以进一步标注其他语言学属性,譬如韵律、语调、短语结构、句法结构、语义关系等等。句子的语法结构需要有形式化的方式来表达,大多数语料库或者采用短语结构树,或者采用依存语法树的方式,这样标注过的语料库就成为短语树库或句法树库。一般情况下,在词性标注的基础上再作进一步的语法标注加工,多以人工为主,也有关于自动短语定界和句法信息自动标注的研究和实验。目前已有的汉语短语库、句法树库规模都不大,至多百万词级。
在双语语料库的建设中,除了上述语料加工项目以外,还有一项不可缺少的语料加工任务:双语语料对齐。语料对齐分为段落、句子、子句、短语和词语几个不同的层次。如果考虑用计算机程序做自动对齐,不同的层次要解决的问题各不相同。每种语言的段落都有可识别的标志,因此段落的对齐最容易实现,句子的对齐在印欧语言之间比它们和汉语之间要容易,词语的对齐需要借助词典,句子内的各种结构要自动对齐则是最难的。目前双语自动对齐技术的研究主要是针对句子和句子内的结构,采用的方法有基于长度的、基于词典的,或者是这两种方法的混合策略。
(二)语料库管理系统
经过科学选材和标注、具有适当规模的语料库,还应该有一个功能齐备的管理系统,包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、语料对齐、标记处理等)、用户服务功能(查询、检索、统计、打印等)。其中数据维护部分主要涉及汉字字符处理、文本处理、文件管理等计算机程序设计技术。语料自动加工部分的主要内容是自动分词、各种语言学属性的标注技术,已经在前面专门介绍过了。这里主要谈谈面向用户的语料检索、统计和分析技术。
语料检索是一种全文检索技术,但是也有自己的特点,仅用普通的全文检索技术还不能满足语料检索的需要。这是因为,全文信息检索关心的是检索目标的意义,不是检索目标的语言表述形式。而面向语言研究的语料检索则特别注重语言的表述形式,它既需要按照字、字串和词检索,也需要把词语的语言学属性作为检索的目标和约束条件,还要求把检索的结果或目标的出处按照研究的需要排序、输出。除此之外,还要有字频、词频和特定语言形式出现频率的统计功能。
对汉语生语料的检索和统计是以字或字串为单位进行的。这一类检索系统主要以单字索引和字符串匹配为关键技术,由于把词语当作字串来检索,所以检索结果中经常出现“非词”的问题。例如要查找“出警”,检索结果中除了“迅速出警”、“拒绝出警”、“出警次数”等实例以外,“发出警告”、“放出警犬”等也混在其中。为了解决这些问题,常常需要为字符串匹配的检索表达式另外设置限制条件。这些限制条件大多是个性的,只能排除一部分“非词”的实例。要想从根本上解决这个问题,就必须对语料作词语切分。经过词语切分处理的熟语料,能以词为单位进行检索、统计和定量分析。但是熟语料库的加工代价很高,而且对于语料的词语切分和词性标注,目前还没有既成熟又便于操作的规范,所以近年来,面向生语料库的检索技术一直在广泛应用,并且在用户功能方面不断发展。譬如,可以对用户给出的任何生语料快速生成索引;可以使用具有复合逻辑关系的检索表达式;可以按照汉字、拼音、笔画对检索结果的上下文自动排序;可以提供检出实例的来源、出处;可以按字频统计的数据排序;检索结果和统计结果既可以按文本形式输出,也可以按数据库形式输出;还可以通过网络支持多用户远程检索。
对于经过词语切分处理和词性标注的熟语料库,除了所有生语料的检索功能以外,语料检索系统还可以把词语或词性作为检索的关键字或限制条件,得到关于这些语言学属性的检索和统计结果,并按各种排序和输出形式的提供给用户。语言学属性来自语言学家对汉语的研究,研究过程中有各种观点和认识,从词的定义到词类的确定,一直还没有统一的意见。另一方面,人们检索语料时的目的也各不相同,有的关心词汇问题,有的关心语法现象,还有的目标是汉语信息处理的应用问题。因此对于熟语料库检索来说,一个好的检索系统应该能够包容各种不同的语言学观点,可以用于不同的检索目的。
为了做到这一点,通常采用的办法是,把用于语料库自动分词的底表和附着于底表的词性、构词等属性都看作语言学属性表,使这个属性表与检索系统的程序相互独立,检索系统只把属性标记作为抽象的字符串处理,而把建立属性表的工作交给用户。以北京语言大学的《面向语言教学研究的汉语语料检索系统》为例,它的自动分词词表、词属性集和每个词的属性标记都由用户提供,提供的方式是把词目和它的属性标记登记在数据库里。检索系统使用用户提供的这个属性表对生语料自动分词,并生成索引,供给用户检索。检索系统对属性表没有任何限制,规模可大可小,表中的词目也可以跟通常认为的词没有关系,属性可以是语法的,也可以是构词的、语义的、语音的,等等。这样用户就能根据自己的需要检索和研究各种字串在语料中的表现。
把语料加工技术集成在检索系统里面,是语料库检索系统的另一个特点。语料加工技术一般指词语自动切分和词性自动标注。在北京语言大学的语料检索系统中,未登录词的自动识别技术比较有特点。它可以识别各种数字串、中西人名、中西地名、机构名、后缀短语等,并为它们建立索引,供用户检索和统计。
(三)语料库的规范问题
语料库的规范问题主要是对语料加工而言的。汉语语料库首先遇到的规范问题是词语切分。我国90年代初发布了国家标准《信息处理用现代汉语分词规范》(标准号为GB/T13715-92)。这个规范基本上采用《暂拟汉语教学语法系统》中的观点,把词定义为“最小的独立运用的语言单位”。针对汉语语素、词和词组界限不够清晰的问题,还特别提出了“分词单位”的概念。把“分词单位”定义成“汉语信息处理使用的具有确定的语义或语法功能的基本单位”,并且用“结合紧密、使用稳定”的原则作为判断分词单位的标准。这样做的目的是避免关于如何界定词的争论。但是“结合紧密、使用稳定”的原则缺少可操作性,对于自动分词研究中的具体问题常常难有定论。于是就有了根据规范制定一个词表,用“规范+词表”的办法指导分词的建议。这样在90年代中期和末期,分别提出了收词43570条的《信息处理用现代汉语常用词表》和收词9万多条的《信息处理用现代汉语分词词表》。其中后者是在8亿字的大规模语料库支持下,采用“串频”、“互信息”、“相关度”等计算统计方法,依据定量的数据分析结果辨识“分词单位”的。与此同时,语言学家也参与了制定这个词表的工作,他们提出的各种语言学规则,从定性分析的角度与统计数据相互作用,最后经过人工审定,确定了92843个词目,其中一级常用词56606个,二级常用词36237个,成为目前许多自动分词系统使用的词表。
90年代中期,台湾的计算语言学会也提出了一个《资讯处理用中文分词规范》。这个规范有三条基本原则,一是分词单位必须符合语言学理论的要求;二是在信息处理上切实可行;三是能够确保真实文本处理的一致性。它把分词规范分成信、达、雅三个不同的等级,“信”级是基本资料交换的标准,“达”级是机器翻译、情报检索等自然语言处理的标准,“雅”级则是分词的最好结果。这样可以根据不同的应用目的做难易程度不同的分词处理。
词语切分以后,下一个规范问题就是词性标注。经过十多年的词性标注研究和实践,教育部语言文字应用研究所于2001年提出了《信息处理用现代汉语词类标记集规范》。这个规范吸收了语言学家的研究成果,也兼顾了已有的各个用于语言信息处理的词类系统,制定了标记现代汉语书面语词类的符号集,使各种汉语信息处理应用系统能够尽量使用统一的词类标记,有助于信息交换和资源共享。
标注短语和句子结构是语料库进一步深加工的内容,虽然目前尚处于起步阶段,但已经在标注的同时考虑了规范的问题。清华大学提出的《汉语句子的句法树标注规范》,主要包括句法标记集的内容描述、句法树的划分规定、歧义结构的处理、结构分析的方向性等问题。上海师范大学根据自己制定的《汉语文本短语结构人工标注规范》,对100万字的1997年《读者文摘》进行了分词、词性标注和人工标注短语的试验。哈尔滨工业大学采用包含23个短语符号的标记集合,开发了一个8000个句子的汉语树库。清华大学还建立了一个基于语义依存关系的语料库,也涉及到标注体系的选择和标注关系集的确定。这些工作规模都不大,在规范方面还处于各自为政的状态。随着语料的进一步深入加工,统一规范将成为不可避免的问题。
北京大学的《人民日报》标注语料库是目前规模最大的汉语基本标注语料库。在它的开发过程中,各种加工规范起了关键的作用。在这些加工规范中,有词语的切分规范,主要规定把句子的汉字串形式切分为词语序列的原则;有现代汉语词类及标记集规范,规定切分出来的词语、短语、标点符号的类别和标识符号;有切分和标注相结合的规范,规定语素构成合成词的方式(重叠、附加和复合);有标注规范,规定词性标注与词库的关系,主要解决如何在上下文环境里确定兼类词的词性;还有收词7万余条的词库《现代汉语语法信息词典》。加工大规模的语料是一项浩大的语言工程。语料标注的准确性和一致性需要靠完善、合理的词库和严谨、实用的加工规范来保证。《人民日报》标注语料库的加工规范和《现代汉语语法信息词典》是语言学家和信息处理专家合作,在汉语语法研究的理论和方法指导下,根据汉语信息处理的实际需要制定和开发的。在标注大规模语料的实践中,又得到了验证和完善。
除了语料加工以外,语料库还应该在语料的采集和存储格式上有所规范。对于平衡语料库来说,采集规范主要是为了保证语料的平衡性,而类别分布和时间分布是语料平衡的两大要素。每个语料库都要对语料进行分类,分类的原则各不相同。有的根据内容涉及的主题分类,有的根据语体分类。在众多平衡语料库当中,台湾中央研究院的现代汉语平衡语料库的分类标准很值得注意。这个语料库的研制者认为,用传统的文体单一特征来界定平衡语料库不足以反映影响整个语言全貌的内在因素。因此他们采用的是多重分类原则:把所有语料都标上五个不同特征的值:(1)文类(2)文体(3)语式(4)主题(5)媒体。利用以主题为主的五个特征的多重分类来进行语料库的平衡。这样做还使研究者能够任选其中几个特征的组合,定义自己的次语料库(sub-corpora),也可以在次语料库间作比较研究。另外,多重分类原则也有利于以后平衡语料库的更新。语料存储格式的规范一般指采用统一的编码规范为电子文本作标记,目前可扩充置标语言XML被广泛地用作语料库标注的元语言,存储格式的标准化有助于语料的交换和共享。
四 语料库在语言研究中的的应用
在语言研究中,语料库方法是一种经验的方法,它能提供大量的自然语言材料,有助于研究者根据语言实际得出客观的结论,这种结论同时也是可观测和可验证的。在计算机技术的支持下,语料库方法对语言研究的许多领域产生了越来越多的影响。各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究,社会语言学研究,口语研究,词典编纂,语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。我国在语料库的应用上还处于起步阶段,在计算语言学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息和概率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果。
语料库与自然语言信息处理有着相辅相成的关系,大规模的语料库是用统计语言模型方法处理自然语言的基础资源。然而统计语言模型本身并不关心其建模对象的语言学信息,它关心的只是一串符号的同现概率。譬如N元语法模型,它只关心句子中各种单元(比如字、词、短语等)近距离连接关系的概率分布,而对于许多复杂的语言现象,它就无能为力了。在统计语言建模技术最先得到成功应用的自动语音识别领域,语料库的开发和建设受到格外的重视,标注语料库成为不可缺少的系统资源,就是因为,要想改进N元语法的建模技术,必须利用语料库引入更多的语言特征信息和统计语言数据。同样,在书面语语言信息处理领域里,语料库提供的语言知识也越来越多地用在统计语言模型方法中。除了词语自动切分、词性自动标注、双语语料对齐等语料加工技术以外,人们还在语料库的支持下,建立有关语法、语义的语言知识库,开发信息抽取系统、信息检索系统、文本分类和过滤系统,并且把基于统计或实例的分析技术集成到机器翻译系统里面。
近年来在语料库的支持下,从信息处理的角度研究汉语词汇、语法和语义问题的报告也日渐增多。这些研究包括:根据逐词索引作汉语词义的调查;对词语搭配进行计量分析;利用量词--名词的搭配数据研究汉语名词分类问题;进行现代汉语句型的统计和研究;做短语自动识别(例如基本名词短语、动宾结构)和自动句法分析的试验;研究在句子里为词语排除歧义的算法;分析和统计汉语词语重叠结构的深层结构类型及产生方式;等等。
对于词汇学、语法学、语言理论、历史语言学等研究来说,语料库的作用目前大多还是通过语料检索和频率统计,帮助人们观察和把握语言事实,分析和研究语言的规律。语料库方法的发展会使这种仅起辅助作用的手段逐步变成必备的应用资源和工具。利用语料库,人们可以把指定的语法现象加以量化,并且检测和验证语言理论、规则或假设。
在少数民族语言和方言调查研究方面,比较有代表性的工作是“藏缅语语料库及比较研究的计量描写”。它建立了我国境内藏缅语族五大语支82个语言点16万词条的词汇语音数据库,对藏语方言的音节、音位、声母、韵母、声词、词素、构词能力和语音结构等10余项特征作了分布和对比分析。对藏语15个方言点作了语音对应关系和音系对比关系的量化描述,并且在这个基础上做出具有历时和共时比较研究意义的相关分析,得出了语言分类的相关矩阵和聚类分析图表。
在应用语言学领域,词典编纂和语言教学同是语料库的最大受益者。目前已有多部词典在编纂或修订过程中,不同程度地使用语料库或电子文档收集词语数据,用于收词、释义、例句、属性标注等。南京大学近年来开发了NULEXID语料库暨双语词典编纂系统,涉及英汉两种语言,在《新时代英汉大词典》的编纂过程中起了重要作用。从词典编纂的整体情况看,我们还缺少充分的语料资源和有效的分析工具,很多有意义的事情还做不了。譬如,分析语料中显现的词语搭配现象,利用语料库进行词语意义辨析,在动态的语料库中辅助提取新词语,等等。把语料库用于语言教学的一个例子是上海交通大学的JDEST英语语料库,利用这个语料库,通过语料比较、统计、筛选等方法为中国大学英语教学提供通用词汇和技术词汇的应用信息,为确定大学英语教学大纲的词表提供了可靠的量化依据。这个语料库也在英语语言研究中发挥了作用,支持基于语料库的英语语法的频率特征、语料库驱动的词语搭配等项研究。2003年,中国学习者英语语料库由上海外语教育出版社正式发行。这个语料库是一个100多万词的书面英语语料库,涵盖我国中学生、大学英语4级和6级、英语专业低年级和高年级的学习内容,并对所有的语料作了语法标注和言语失误标注。根据这个语料库得到了词频排列表、拼写失误表、词目表、词频分布表、语法标注频数表、言语失误表等,还把这些数据与一些英语本族语语料库(如BROWN,LOB,FROWN,FLOB)进行了某些比较。这个语料库为词典编纂、教材编写和语言测试提供了必要的资源。目前上海交通大学正在建设大学英语学习者口语英语语料库。
在几年来语料库建设和应用的基础上,2003年国家“973”计划开始支持中文语言资源联盟(Chinese Linguistic Data Consortium,简称ChineseLDC)的建立。ChineseLDC是吸收国内高等院校、科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的、通用的中文语言信息知识库。ChineseLDC将建设和收集中文信息处理所需要的各种语言资源,包括词典、语料库、数据、工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。
几年来在计算语言学和语言信息处理领域的学术会议上,语料库的建设和应用一直是重要论题之一。讨论的重点集中在基于语料库的语言分析方法,以及语料的标注、管理和规范等问题上。语言学家更多关心的是语料库的规划和建设,语料库方法在语言研究和教学中的应用。近年来语言学界也召开有关语料库的专门学术会议,譬如2001年由中国社会科学院语言研究所主办、在清华大学召开的语料库语言学与计算语言学研究与实践研讨会(主要讨论了语料库的建设和应用、语言信息处理等问题);2003年由上海交通大学等单位主办、在上海交通大学召开的语料库语言学国际研讨会(会议主题是语料库研究与外语教学)。
第五篇:语料库研究综述
语料库研究与应用综述
目录 一概述
二中国语料库建设的基本情况 三语料库的加工、管理和规范 四语料库在语言研究中的的应用 五参考文献
语料库研究与应用综述
一概述
语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
语料库建设中涉及的主要问题包括:
(1)设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。
(2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。
(3)语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。
(4)语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。
(5)语料库的应用:针对语言学理论和应用领域中的各种问题,研究和开发处理语料的算法和软件工具。
我国语料库的建设始于80年代,当时的主要目标是汉语词汇统计研究。进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。
语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符编码、文本输入和整理,语料的自动分词和标注,到语料的统计和检索,自然语言信息处理的研究都为语料的加工提供了关键性的技术。
下面先简要叙述1998年到2003年中国语料库建设的基本情况,然后介绍语料库的加工、管理和规范问题,最后谈谈语料库方法在语言研究和语言工程等方面的应用。由于以前的《中国语言学年鉴》很少谈及语料库问题,为了尽可能全面地反映我国语料库研究和应用的情况,必要时会将时间上限向前延伸几年。
二中国语料库建设的基本情况
90年代末到新世纪初这几年投入建设或开始使用的语料库有数十个之多,不同的应用目的使这些语料库的类型各不相同,对语料的加工方法也各不相同。下面是其中已开始使用并且具有一定代表性的语料库。
(一)现代汉语通用语料库
这是一个由国家语言文字工作委员会主持建立、面向全社会应用需求的大型通用语料库,从90年代初开始建设,计划规模7000万字,主要应用目标是语言文字信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育、以及语言文字的社会应用。
这个语料库收录的语料以书面语为主、以书面语转述的口语为辅。语料来源是1919年至今,主要是1977年至今出版的教材、报纸、综合性刊物、专业刊物和图书。在设计原则上,讲求通用性、描述性、实用性和抽样的科学性。在语料分类方面,以“门类为主,语体为辅”为原则制定三个大类:
第一类:人文与社会科学类(包括8个次类、30个细类)
1.政法类:哲学政治宗教法律
2.历史类:历史考古民族
3.社会类:社会学心理语言文字教育文艺理论新闻民俗
4.经济类:工业经济农业经济政治经济财贸经济
5.艺术类:音乐美术舞蹈戏剧
6.文学类:小说散文传记报告文学科幻口语
7.军体类:军事体育
8.生活类
第二类:自然科学类(包括6个次类)
1.数理类
2.生化类
3.天文地理类
4.海洋气象类
5.农林类
6.医药卫生类
第三类:综合类(包括6个次类,30多个细类)
1.行政公文类:请示报告批复命令指示布告纪要通知等
2.章程法规类:章程条例细则制度公约办法法律条文等
3.司法文书类:诉讼辩护词控告信委托书等
4.商业文告类:说明广告调查报告经济合同等
5.礼仪辞令类:欢迎词贺电讣告唁电慰问信祝酒词等
6.实用文书类:请假条检讨申请书请愿书等 在不同类别、不同来源、不同时期的语言材料中,按照不等密度的思路确定合适的语料选取比例,从共时和历时两个角度保证入选语料的平衡性,是这个语料库的特点。譬如,在语言材料的年限方面,选材比例是:
1919年– 1925年
5%
1926年– 1949年
15%
1950年– 1965年
25%
1966年– 1976年
5%
1977年以后
50%
在语言材料的门类、语体和来源方面,选材比例是:
人文与社会科学类占59.6%。其中各个次类在本大类中的比例是:
政法
12.7%
历史
8.4%
社会
14.0%
经济
9.8%
艺术
6.7%
文学
44.9%
军体
2.3%
生活
1.4%
自然科学类占17.24%。其中各个次类在本大类中的比例是:
数理
17.2%
生化
19.1%
天文地理
14.1%
海洋气象
9.1%
农林
22.8%
医药卫生
17.7%
综合类占9.36%。其中各个次类在本大类中的比例是:
各类应用文
91.1%
其他
8.9%
报纸类占13.79%。其中各个次类在本大类中的比例是:
全国性报刊
25%
省市报刊
75%
这个语料库在选材过程中收集和记录语料的有关描述信息,为每个语料样本设立了20个描述项目:总号、分类号、样本名称、类别、作者、写作时间、书刊名称、编著者、出版者、出版日期、期号(版面号)、版次(初版日期)、印册数、总页数、开本、选样方式、样本起止页数、样本字数、样本总数、繁简字。用户可以利用这些语料描述标记根据各自的需要进行各种方式的检索。语料库的建库工作分为两步,第一步先建立核心语料库(由7000万字的语料中筛选出2000万字语料组成)。到90年代末,完成了2000万字生语料的收录工作。从2001年开始,对2000万字核心语料进行分词和词性标注加工。
(二)《人民日报》标注语料库
《人民日报》标注语料库由北京大学计算语言学研究所和日本富士通公司合作,从1999年开始,到2002年完成,原始语料取自1998年全年的《人民日报》,共约2700万字,到2003年又扩充到3500万字,是我国第一个大型的现代汉语标注语料库。这个语料库加工的项目有词语切分和词性标注,还有专有名词(人名、地名、团体机构名称等)标注、语素子类标注、动词、形容词的特殊用法标注和短语型标注。下面是一段语料标注的示例,对于1998年1月1日第5版第1篇文章的第11段:
我国的国有企业改革见成效。位于河南的中国一拖集团有限责任公司面向市场,积极调整产品结构,加快技术改造和新产品研制步伐。图为东方红牌履带拖拉机生产线。(赵鹏摄)
标注后的形式是:
19980101-05-001-011/m 我国/n 的/u 国有/vn企业/n 改革/v 见/v 成效/n。/w 位于/v 河南/ns 的/u [中国/ns 一拖/j 集团/n 有限/a 责任/n 公司/n]nt面向/v 市场/n,/w 积极/ad 调整/v 产品/n 结构/n,/w 加快/v 技术/n 改造/vn和/c 新/a 产品/n 研制/vn步伐/n。/w 图/n 为/v 东方红牌/nz履带/n 拖拉机/n 生产线/n。/w(/w 赵/nr 鹏/nr 摄/Vg)/w
在每一个切分出来的词和标点符号后面,是该词语的标记。譬如词性标记(n,v,a,u,m,w等),专有名词标记(nr,ns,nz等),语素子类标记(Vg等),动词和形容词特殊用法标记(vn,ad)。所有的标记都是以北京大学的《现代汉语语法信息词典》为基础词库,在一个加工规范的指导下标注的。
利用《人民日报》标注语料库,人们可以从各个角度考察和分析语言事实,统计各种语言单位出现的频率,譬如,词语或词类的分布、搭配和共现,专有名词的结构方式、兼类词在句子中的表现,语素字的使用情况,等等。也可以从语料里提取各种语言单位或语句片段作为研究实例。与仅仅以汉字串的形式表示的“生语料”相比,经过标注的“熟语料”显然含有更多的语言学特征信息,对汉语词汇研究、语法研究和汉语信息处理系统来说是更好的语言知识资源。
《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。
(三)用于语言教学和研究的现代汉语语料库
建立现代汉语语料库的主要目的之一是对外汉语教学和现代汉语研究,可以分为书面语语料库和以文本形式表示的口语语料库两类。前者如北京语言大学的汉语中介语语料库、现代汉语研究语料库,后者如中国社会科学院语言研究所的北京地区现场即席话语语料库。
汉语中介语语料库的建设目标是为对外汉语教学、中介语研究、偏误分析和汉语本体研究提供资源,因此它的语料来源很有对外汉语教学的特点。作者先在北京和其他省市的9 所高等院校里,从来自96个国家和地区的1635位外国留学生那里收集了成篇成段的汉语作文或练习材料5774篇,共3528988字。再从中抽取了 740人的1731篇语料,共有44218句,1041274字。全部语料都记录了学生姓名、性别、年龄、国别、是否华裔、第一语言、文化程度、所学主要教材、语料类别、写作时间、提供者等23项属性。然后对这104万字的语料进行词语切分、词性标注以及一些专用的语言学特征标注。例如,标出了字、词、句、篇等不同的层次,对语料的非规范形式(例如:错字、别字、繁体字、拼音字、非规范词等)做出索引标记,记录其对应的规范形式。这个语料库的管理系统有语篇属性登录、文本过滤、文字预处理信息登录、语料抽样、断句、分词、词性辅助标注、自动标注以及语料的主题检索、全文检索和数据浏览等各种功能,分别处理语料库的建立、管理和维护,以及用户浏览、查询和检索等。与人工收集的学生病句卡片资料相比,中介语语料库能够更好地反映学生学习汉语的情况,帮助教师更加全面地观察他们的学习过程,了解影响学习和习得的各种因素。在汉语作为第二语言的教学中,为教材编写、课堂教学、测试等环节提供依据。
现代汉语研究语料库的建设目标是为语言学家提供一个研究平台,由2000万字的粗语料库和200万字经过分词和词性标注的精语料库两个部分组成。粗语料库收录的语料样本中绝大部分是九十年代的出版物,有《人民日报》1000万字,《中国新闻》500万字,各种书籍250万字,文学作品150万字,准口语材料(书面形式的对话、独白)100万字。精语料库的200万字语料样本是从粗语料库中按照规定的比例由计算机随机抽取的,有书面语语料160万字,准口语语料40万字,是从语体、题材、体裁三个方面均衡选取的平衡语料库。为了对这些语料进行词语切分和词性标注,作者制定了词语切分的细则和词性标记体系的原则,采用了一个含有112个词类标记的标记集,确定了兼类词的处理方法。这个语料库的管理系统具有建库、检索、浏览、统计、输出等功能,可以按词或词类检索,统计出词的频率、词类频率、词类共现频率、平均词长、平均句长等结果。这个语料库建成以后,很快应用在现代汉语语法、汉语教学和汉语信息处理的研究中,研究内容涉及现代汉语的插入语、汉语句子的主题-主语标注、V+N序列实验分析、词性标注中词语归类问题、动宾组合的自动获取与标注,等等。
建设北京地区现场即席话语语料库的目的是,通过收集大量的现场即席话语语料研究现场即席话语的各种动态机制,以揭示现场即席话语的使用规律。这个语料库的研究策略和取样方法很有特点,首先是严格区分资源库和语料库,资源库收集符合现场即席话语定义的录音材料,语料库收录按照一定标准从资源库提取出来的材料;另外在语料采样前先做摸底性研究,通过研究对现场即席话语的真实情况有所了解,确定取样域,再定取样范畴,然后根据取样范畴去录现场典型材料,这是一种层次范畴化的取样方法。这个语料库目前正在建设之中,已经取得了近600小时的录音材料和50多小时的录象材料。
在用于汉语研究的语料库中,讲究选材均衡,注重语料加工,同时也提供公开服务的,当数台湾中央研究院历史语言研究所的现代汉语平衡语料库(简称Sinica Corpus)。这个语料库的规模为500万个词,每个句子都依词断开,标示词类标记,并且配备了检索系统,在网上开放供大家使用。根据自己制定的一套汉语文本属性特征为语料分类,在不同的类别上尽量均衡地采集语料,是这个语料库的特点之一。文本属性用来说明文档的呈现方式、文章的写作方式、文章写作的内容和文档的来源出处,包括7类,每类下设若干小类:
文类(文档的呈现方式)
报导、评论、广告图文、信函、公告启事、小说故事寓言、散文、传记日记、诗歌、语录、说明手册、剧本、会话、演讲、会议记录 文体(文章的写作方式)
记叙、论说、说明、描写
语式(文档的呈现方式)
书面语、演讲稿、剧本/台辞、口语谈话、会议记录
主题(文章写作的内容)
哲学、科学、社会、艺术、生活、文学
媒体报纸、一般杂志、学术期刊、教科书、工具书、学术论著、一般图书、书信、视听媒体、其它
作者姓名、性别、国籍、母语
出版出版单位、出版地、出版日期、版次
不同研究目的的语言学者可以自己按语式、文体、媒体和主题的小类选取不同类别的语料,组成“自订语料库”,在“自订语料库”的范围内进行语料的检索和统计。除了通常的按词语、词类的检索和统计以外,这个语料库的管理系统还提供了一种“进阶处理”功能,对检索出来的数据作进一步处理,对处理的结果还可以再次处理,形成多层的检索结果。
(四)面向语言信息处理的现代汉语语料库
90年代中后期,面向语言信息处理的现代汉语语料库开始建立并投入应用。其中最早开发的是清华大学用于研究和开发汉语自动分词技术的现代汉语语料库,经过几年的积累已达到8亿多字生语料。在这个语料库的支持下,用统计语言模型的方法研究了汉语自动分词中的理论、算法和技术,编制了总数为9万多个词语的《信息处理用现代汉语分词词表》。这些研究工作体现了我国汉语自动分词技术的发展水平,词表被许多汉语自动分词系统作为底表使用,是不可缺少的基础资源。
TH通用语料库系统是清华大学建立的另一个现代汉语语料库。这个语料库有两个特点,一是语料库管理系统根据不同的加工深度,分四个等级管理语料。第一级是生语料分库,有4千余万字;第二级以上都是加工程度不同的熟语料库,其中第二级存放经过自动分词并由人工校对过的初加工语料500余万字;第三级存放经过词性标注和人工校对的语料约300万字;第四级是经过句子成分标注和人工校对的语料。每个分库又按语料的来源分成一般书籍、报纸、杂志、论文和工具书五类子库。不同等级的语料可以为不同的应用目标服务。第二个特点是在这个语料库的支持下,进行了汉语信息处理技术的研究。譬如,采用以谓语为中心的句型成分分析与语料统计相结合的方法,自动分析汉语的句型,提出了一个“汉语句型频度表”;在汉语文本中自动标注句子成分和句型成分的边界;根据指定的句型在语料库里搜寻句子实例,等等。
HuaYu人工标注语料库是清华大学和北京语言大学合作建立的一个现代汉语平衡语料库。这个语料库按文学、新闻、学术、应用文四个大类收录了200余万字语料。它的特点是讲究加工的深度,除了词语切分和词性标注以外,还根据语句中动词的类型和句子的长度进行“语块”标注和“句法树”标注,目的是为建立汉语短语分析或句法分析的语言模型获取统计数据提供资源。下面分别是语块标注和句法树标注的示例。
对句子“自古以来,人类就重视档案的保存和利用,设置馆库、选派专人进行管理。”进行语块标注以后得到的是一个无嵌套的线性序列,其中S是主语语块,P是述语语块,O是宾语语块:
[D 自/p 古/t 以来/f,/, [S 人类/n [D 就/d [P 重视/v [O 档案/n 的/u 保存/vN和/c 利用/vN,/, [P 设置/v [O 馆库/n、/、[P 选派/v [O 专人/n [P 进行/v [O 管理v。
对句子“我哥哥送给我一本很漂亮的书。”进行句法树标注以后,得到的是一个与树形结构等价的线性序列:
[ zj-XX [ dj-ZW [ np-DZ我/ rN哥哥/n ] [ vp-PO [ vp-PO [ vp-SB送/v 给/v ] 我/rN ] [ np-DZ [ mp-DZ 一/m 本/qN ] [ np-DZ [ ap-ZZ很/d 漂亮/a ] 的/u 书/n ] ] ] ]。/w ]
(五)用于开发特定语言分析技术的专用语料库
这类语料库是针对汉语信息处理技术的需要专门建立的。例如山西大学的专有名词标注语料库和分词与词性标注语料库。
分词与词性标注语料库,规模为500万字,带有分词标记、词性标记和句法标记。标注时依据《信息处理用现代汉语分词规范》和《信息处理用现代汉语词类及标记集规范》。在这个语料库的支持下,开发汉语自动分词和词性标注软件,研究自动分词和词性标注的评测技术。为了解决汉语自动分词中的切分歧义问题,还建立了交集型歧义字段库和组合型歧义字段库,专门收集这两种类型的歧义切分实例。前者有7.8万字,后者收录了140多条。并且在分词和词性标注语料库里作了这两类切分歧义的标注。利用这些语料调查交集型歧义当中的“伪歧义”现象(既切分结果只可能有唯一选择的那些交集型歧义切分字段),发现这种现象在歧义切分字段中很普遍,可以达到90%以上。
专有名词标注语料库用于研究汉语自动分词中专有名词的识别算法。其中包括标注了中国地名的语料280万字,标注了中国人姓名的语料300万字,标注了西文姓名的语料250万字,标注了汉语机构名称的语料50万字,还有标注了网络新词语的语料150万字。利用这些语料,建立了中国地名用字、用词库,姓氏人名库,姓氏用字频率表,名字用字频率表等,用统计语言模型的方法识别专有名词。
(六)双语语料库
基于实例的机器翻译(Example-based)需要大规模的双语平行语料库来支持。语料库里的源语和目标语实例要按照相同级别的翻译单位一一对齐。目前已有的双语平行语料库主要是汉语和英语的,语料对齐的单位有句子级的、子句级的、短语级的,也有词汇级的。机器翻译系统把要翻译的句子与语料库里的源语实例进行对比,分析相似程度,找到最适合的源语实例,再参照与它对齐的目标语实例生成译文。用于这类机器翻译系统的双语语料库必须有一定的规模,用人工做语料对齐的工作显然很难满足要求。这就使文本自动对齐成为建立双语语料库的关键技术。
在目前已有的双语语料库中,哈尔滨工业大学的汉英平行语料库已经直接用来开发英汉双向机器翻译系统。这个语料库有6万个汉语和英语的句子,使用多级对齐加工技术,分别按照句子、短语结构和词一一对齐。中国科学院计算技术研究所的汉英双语语料库有20万个句对,也完成了句子一级的对齐,并在网上提供查询服务。北京大学、中国科学院软件研究所等单位也建立了按句对齐的汉英双语语料库。除此之外,还有以语段或短语为单位收集的汉英双语语料库,譬如中国科学院自动化研究所的汉英双语短语库,有3~5万对已对齐的汉语和英语短语。东北大学的英汉双语语段库,用来帮助建立电子版的英汉搭配词典。
(七)面向汉语史研究的语料库
面向汉语史研究的语料库建设是从搜集汉语史文献资料开始的。台湾中央研究院历史语言研究所从90年代初期就开始了这项工作,他们先收集上古汉语的语料,然后扩展到中古汉语和近代汉语。90年代中后期逐步开始上古汉语语料和近代汉语的标注,在该院信息研究所和计算中心的协助下进行标注技术和检索技术的开发。根据是否经过分词处理和词性标注,台湾中央研究院的古汉语语料库和近代汉语语料库可以分成两类:生语料库和标记语料库。目前生语料库收集的语料已涵盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)的大部分重要文献资料,并己陆续开放使用。在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注工作,也逐步提供网上检索。2001年底,开放了近代汉语标记语料库WWW版供各界使用,首先提供查询的文献是《红楼梦》及《三遂平妖传》。在查询方面,除了常用的功能以外,还可以在显示词项及词类的同时给出例句的出处,便于历史语法的研究者使用。
多年来中国社会科学院语言研究所也一直在致力于文献资料的建设,搜集整理了近代汉语书面语语料150万字,中古近代汉语语料约1千万字,部分语料已作了标注。目前已经完成了一个小型语料库,包括:敦煌变文集、祖堂集、三朝北盟汇编、碧岩录、朱子语类、刘知远诸宫调、西厢记诸宫调、元刊全相平话五种、元典章刑部、老乞大谚解、朴通事谚解、孝经直解、鲁斋遗书、经筵讲义等十余种文献,成为汉语史和语言学理论研究的重要资源。此外,语言研究所的先秦专书电子文档有4部文献,共约120万字,并且已由古汉语学者逐篇逐句标注了语法信息。
上海师范大学、浙江师范大学、四川大学等学校也依据各自汉语史研究的方向,建立了历史文献语料库。四川大学的中古汉语语料库有1亿字的中古汉语语料和有关中古汉语研究的资料。浙江师范大学的楚辞语库、前四史语库、六朝语库、太平广记语库、唐诗语库、宋词语库,已用于“前四史”语言研究和唐宋诗词语词研究。
目前历史文献语料库建设的特点是依托学科建设和研究方向,广泛收集资料,注重校勘精审。随着汉语史研究和语料库应用的发展,资源共享和语料加工将得到越来越多的重视。历史文献资源共享,首先要避免语料的重复收集,还要采用国际通用的标准处理语料文本,使语料能够准确、方便地交换和使用。语料加工则是充分发掘语料应用价值的基础工作,从收集历史文献的电子文档,到建成一个具有必要的语言学标记信息、合理的逻辑结构和方便的检索功能的语料库,语料的加工是不可或缺的一步。
(八)比较语料库
为了研究汉语在不同地区的使用情况,香港城市大学建立了LIVAC共时语料库(Linguistic Variation in Chinese Speech Communities)。语料来自香港、台湾、北京、上海、澳门及新加坡六地有代表性的中文报纸,以及电子媒介上的新闻报道。自1995年7月开始,每四天一次,收集这六个地区的对等书面语文本,每次约两万字。内容包括新闻、特写、评论等文章。到2003年上半年,已收集了1亿1千多万字、超过56万个词条。计划收集到2005年6月,囊括新旧世纪交接点前后各五年各地华语社区有代表性的重要语言数据,供汉语的各种共时比较研究使用。
在语料的组织和加工方面,这个语料库用计算机自动分词,再经人工校对分类,可以依字、词、句为基础进行检索,提供字、词配搭、分布等数据,有统计功能。语言学家能通过这个语料库考察上述六地出现的新词、词义有所发展或转移的旧词、以及有地方特色的词语,还可以对具体字或词的频率作统计比较,对字词的差别作计量分析。对研究华人社区的文化、社会、语言差异也有作用。这个语料库的一部分已经在网上提供服务。
(九)少数民族语言语料库
新疆大学从2002年起开始建设现代维吾尔语语料库系统,计划包括5个部分:语料库、电子语法信息词典、规则库、统计信息库和检索统计软件包。其中语料库部分又分成生语料库(经初步整理的原始语料)和加工语料库(经过标注和校对的语料)。目前已有生语料800万词。另外,新疆大学也正在以新闻领域的维汉-汉维机器翻译为目标,建设双语平行语料库。内蒙古大学的中世纪蒙古文语料库收集了《元朝秘史》、《黄金史》、《回鹘蒙古文文献集》等历史文献。他们还建立了500万词的现代蒙古语语料库,研究了蒙古文附加成分的自动切分、复合词的自动识别和语料的词性标注,获得了词频统计、音节统计、词类统计、附加成分统计等数据。西北民族大学建立了1亿3千万字节的大型藏文语料库,用于藏文词汇频度和通用度的统计。中国社会科学院民族学与人类学研究所建立了500万藏语字符的藏语语料库,进行词语切分和标注的研究。新疆师范大学也建立了200万词的维吾尔语语料库。
与汉语语料库相比,少数民族语料库的建设还需要解决一些特殊的问题,譬如拼音文字转写的标准和规范,词语分类体系及其标记集等。
到2003年,已建和在建的各种文本语料库还有很多(包括书面语语料库和以文本形式表示的口语语料库),以上提到的只是有代表性的一部分。与文本语料库相对的,是语音语料库。语音语料库不仅记录语图、声学参数等语音学数据,还有句法、韵律等各种语言学信息标记和副语言学信息标记,可以在语音识别与合成系统中用来建立语音模型,用于语音研究、语音工程开发和汉语普通话教学等领域。语音技术是当前信息技术和通讯领域里最具潜力的发展方向之一,语音语料库在科研和工程上有很高的使用价值。关于语音语料库的详细情况,请见“语音学和言语工程研究综述”。