语料库研究综述

时间:2019-05-15 10:07:24下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《语料库研究综述》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《语料库研究综述》。

第一篇:语料库研究综述

语料库研究与应用综述

目录 一概述

二中国语料库建设的基本情况 三语料库的加工、管理和规范 四语料库在语言研究中的的应用 五参考文献

语料库研究与应用综述

一概述

语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。

语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。

语料库建设中涉及的主要问题包括:

(1)设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。

(2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。

(3)语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。

(4)语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。

(5)语料库的应用:针对语言学理论和应用领域中的各种问题,研究和开发处理语料的算法和软件工具。

我国语料库的建设始于80年代,当时的主要目标是汉语词汇统计研究。进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。

语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符编码、文本输入和整理,语料的自动分词和标注,到语料的统计和检索,自然语言信息处理的研究都为语料的加工提供了关键性的技术。

下面先简要叙述1998年到2003年中国语料库建设的基本情况,然后介绍语料库的加工、管理和规范问题,最后谈谈语料库方法在语言研究和语言工程等方面的应用。由于以前的《中国语言学年鉴》很少谈及语料库问题,为了尽可能全面地反映我国语料库研究和应用的情况,必要时会将时间上限向前延伸几年。

二中国语料库建设的基本情况

90年代末到新世纪初这几年投入建设或开始使用的语料库有数十个之多,不同的应用目的使这些语料库的类型各不相同,对语料的加工方法也各不相同。下面是其中已开始使用并且具有一定代表性的语料库。

(一)现代汉语通用语料库

这是一个由国家语言文字工作委员会主持建立、面向全社会应用需求的大型通用语料库,从90年代初开始建设,计划规模7000万字,主要应用目标是语言文字信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育、以及语言文字的社会应用。

这个语料库收录的语料以书面语为主、以书面语转述的口语为辅。语料来源是1919年至今,主要是1977年至今出版的教材、报纸、综合性刊物、专业刊物和图书。在设计原则上,讲求通用性、描述性、实用性和抽样的科学性。在语料分类方面,以“门类为主,语体为辅”为原则制定三个大类:

第一类:人文与社会科学类(包括8个次类、30个细类)

1.政法类:哲学政治宗教法律

2.历史类:历史考古民族

3.社会类:社会学心理语言文字教育文艺理论新闻民俗

4.经济类:工业经济农业经济政治经济财贸经济

5.艺术类:音乐美术舞蹈戏剧

6.文学类:小说散文传记报告文学科幻口语

7.军体类:军事体育

8.生活类

第二类:自然科学类(包括6个次类)

1.数理类

2.生化类

3.天文地理类

4.海洋气象类

5.农林类

6.医药卫生类

第三类:综合类(包括6个次类,30多个细类)

1.行政公文类:请示报告批复命令指示布告纪要通知等

2.章程法规类:章程条例细则制度公约办法法律条文等

3.司法文书类:诉讼辩护词控告信委托书等

4.商业文告类:说明广告调查报告经济合同等

5.礼仪辞令类:欢迎词贺电讣告唁电慰问信祝酒词等

6.实用文书类:请假条检讨申请书请愿书等 在不同类别、不同来源、不同时期的语言材料中,按照不等密度的思路确定合适的语料选取比例,从共时和历时两个角度保证入选语料的平衡性,是这个语料库的特点。譬如,在语言材料的年限方面,选材比例是:

1919年– 1925年

5%

1926年– 1949年

15%

1950年– 1965年

25%

1966年– 1976年

5%

1977年以后

50%

在语言材料的门类、语体和来源方面,选材比例是:

人文与社会科学类占59.6%。其中各个次类在本大类中的比例是:

政法

12.7%

历史

8.4%

社会

14.0%

经济

9.8%

艺术

6.7%

文学

44.9%

军体

2.3%

生活

1.4%

自然科学类占17.24%。其中各个次类在本大类中的比例是:

数理

17.2%

生化

19.1%

天文地理

14.1%

海洋气象

9.1%

农林

22.8%

医药卫生

17.7%

综合类占9.36%。其中各个次类在本大类中的比例是:

各类应用文

91.1%

其他

8.9%

报纸类占13.79%。其中各个次类在本大类中的比例是:

全国性报刊

25%

省市报刊

75%

这个语料库在选材过程中收集和记录语料的有关描述信息,为每个语料样本设立了20个描述项目:总号、分类号、样本名称、类别、作者、写作时间、书刊名称、编著者、出版者、出版日期、期号(版面号)、版次(初版日期)、印册数、总页数、开本、选样方式、样本起止页数、样本字数、样本总数、繁简字。用户可以利用这些语料描述标记根据各自的需要进行各种方式的检索。语料库的建库工作分为两步,第一步先建立核心语料库(由7000万字的语料中筛选出2000万字语料组成)。到90年代末,完成了2000万字生语料的收录工作。从2001年开始,对2000万字核心语料进行分词和词性标注加工。

(二)《人民日报》标注语料库

《人民日报》标注语料库由北京大学计算语言学研究所和日本富士通公司合作,从1999年开始,到2002年完成,原始语料取自1998年全年的《人民日报》,共约2700万字,到2003年又扩充到3500万字,是我国第一个大型的现代汉语标注语料库。这个语料库加工的项目有词语切分和词性标注,还有专有名词(人名、地名、团体机构名称等)标注、语素子类标注、动词、形容词的特殊用法标注和短语型标注。下面是一段语料标注的示例,对于1998年1月1日第5版第1篇文章的第11段:

我国的国有企业改革见成效。位于河南的中国一拖集团有限责任公司面向市场,积极调整产品结构,加快技术改造和新产品研制步伐。图为东方红牌履带拖拉机生产线。(赵鹏摄)

标注后的形式是:

19980101-05-001-011/m 我国/n 的/u 国有/vn企业/n 改革/v 见/v 成效/n。/w 位于/v 河南/ns 的/u [中国/ns 一拖/j 集团/n 有限/a 责任/n 公司/n]nt面向/v 市场/n,/w 积极/ad 调整/v 产品/n 结构/n,/w 加快/v 技术/n 改造/vn和/c 新/a 产品/n 研制/vn步伐/n。/w 图/n 为/v 东方红牌/nz履带/n 拖拉机/n 生产线/n。/w(/w 赵/nr 鹏/nr 摄/Vg)/w

在每一个切分出来的词和标点符号后面,是该词语的标记。譬如词性标记(n,v,a,u,m,w等),专有名词标记(nr,ns,nz等),语素子类标记(Vg等),动词和形容词特殊用法标记(vn,ad)。所有的标记都是以北京大学的《现代汉语语法信息词典》为基础词库,在一个加工规范的指导下标注的。

利用《人民日报》标注语料库,人们可以从各个角度考察和分析语言事实,统计各种语言单位出现的频率,譬如,词语或词类的分布、搭配和共现,专有名词的结构方式、兼类词在句子中的表现,语素字的使用情况,等等。也可以从语料里提取各种语言单位或语句片段作为研究实例。与仅仅以汉字串的形式表示的“生语料”相比,经过标注的“熟语料”显然含有更多的语言学特征信息,对汉语词汇研究、语法研究和汉语信息处理系统来说是更好的语言知识资源。

《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。

(三)用于语言教学和研究的现代汉语语料库

建立现代汉语语料库的主要目的之一是对外汉语教学和现代汉语研究,可以分为书面语语料库和以文本形式表示的口语语料库两类。前者如北京语言大学的汉语中介语语料库、现代汉语研究语料库,后者如中国社会科学院语言研究所的北京地区现场即席话语语料库。

汉语中介语语料库的建设目标是为对外汉语教学、中介语研究、偏误分析和汉语本体研究提供资源,因此它的语料来源很有对外汉语教学的特点。作者先在北京和其他省市的9 所高等院校里,从来自96个国家和地区的1635位外国留学生那里收集了成篇成段的汉语作文或练习材料5774篇,共3528988字。再从中抽取了 740人的1731篇语料,共有44218句,1041274字。全部语料都记录了学生姓名、性别、年龄、国别、是否华裔、第一语言、文化程度、所学主要教材、语料类别、写作时间、提供者等23项属性。然后对这104万字的语料进行词语切分、词性标注以及一些专用的语言学特征标注。例如,标出了字、词、句、篇等不同的层次,对语料的非规范形式(例如:错字、别字、繁体字、拼音字、非规范词等)做出索引标记,记录其对应的规范形式。这个语料库的管理系统有语篇属性登录、文本过滤、文字预处理信息登录、语料抽样、断句、分词、词性辅助标注、自动标注以及语料的主题检索、全文检索和数据浏览等各种功能,分别处理语料库的建立、管理和维护,以及用户浏览、查询和检索等。与人工收集的学生病句卡片资料相比,中介语语料库能够更好地反映学生学习汉语的情况,帮助教师更加全面地观察他们的学习过程,了解影响学习和习得的各种因素。在汉语作为第二语言的教学中,为教材编写、课堂教学、测试等环节提供依据。

现代汉语研究语料库的建设目标是为语言学家提供一个研究平台,由2000万字的粗语料库和200万字经过分词和词性标注的精语料库两个部分组成。粗语料库收录的语料样本中绝大部分是九十年代的出版物,有《人民日报》1000万字,《中国新闻》500万字,各种书籍250万字,文学作品150万字,准口语材料(书面形式的对话、独白)100万字。精语料库的200万字语料样本是从粗语料库中按照规定的比例由计算机随机抽取的,有书面语语料160万字,准口语语料40万字,是从语体、题材、体裁三个方面均衡选取的平衡语料库。为了对这些语料进行词语切分和词性标注,作者制定了词语切分的细则和词性标记体系的原则,采用了一个含有112个词类标记的标记集,确定了兼类词的处理方法。这个语料库的管理系统具有建库、检索、浏览、统计、输出等功能,可以按词或词类检索,统计出词的频率、词类频率、词类共现频率、平均词长、平均句长等结果。这个语料库建成以后,很快应用在现代汉语语法、汉语教学和汉语信息处理的研究中,研究内容涉及现代汉语的插入语、汉语句子的主题-主语标注、V+N序列实验分析、词性标注中词语归类问题、动宾组合的自动获取与标注,等等。

建设北京地区现场即席话语语料库的目的是,通过收集大量的现场即席话语语料研究现场即席话语的各种动态机制,以揭示现场即席话语的使用规律。这个语料库的研究策略和取样方法很有特点,首先是严格区分资源库和语料库,资源库收集符合现场即席话语定义的录音材料,语料库收录按照一定标准从资源库提取出来的材料;另外在语料采样前先做摸底性研究,通过研究对现场即席话语的真实情况有所了解,确定取样域,再定取样范畴,然后根据取样范畴去录现场典型材料,这是一种层次范畴化的取样方法。这个语料库目前正在建设之中,已经取得了近600小时的录音材料和50多小时的录象材料。

在用于汉语研究的语料库中,讲究选材均衡,注重语料加工,同时也提供公开服务的,当数台湾中央研究院历史语言研究所的现代汉语平衡语料库(简称Sinica Corpus)。这个语料库的规模为500万个词,每个句子都依词断开,标示词类标记,并且配备了检索系统,在网上开放供大家使用。根据自己制定的一套汉语文本属性特征为语料分类,在不同的类别上尽量均衡地采集语料,是这个语料库的特点之一。文本属性用来说明文档的呈现方式、文章的写作方式、文章写作的内容和文档的来源出处,包括7类,每类下设若干小类:

文类(文档的呈现方式)

报导、评论、广告图文、信函、公告启事、小说故事寓言、散文、传记日记、诗歌、语录、说明手册、剧本、会话、演讲、会议记录 文体(文章的写作方式)

记叙、论说、说明、描写

语式(文档的呈现方式)

书面语、演讲稿、剧本/台辞、口语谈话、会议记录

主题(文章写作的内容)

哲学、科学、社会、艺术、生活、文学

媒体报纸、一般杂志、学术期刊、教科书、工具书、学术论著、一般图书、书信、视听媒体、其它

作者姓名、性别、国籍、母语

出版出版单位、出版地、出版日期、版次

不同研究目的的语言学者可以自己按语式、文体、媒体和主题的小类选取不同类别的语料,组成“自订语料库”,在“自订语料库”的范围内进行语料的检索和统计。除了通常的按词语、词类的检索和统计以外,这个语料库的管理系统还提供了一种“进阶处理”功能,对检索出来的数据作进一步处理,对处理的结果还可以再次处理,形成多层的检索结果。

(四)面向语言信息处理的现代汉语语料库

90年代中后期,面向语言信息处理的现代汉语语料库开始建立并投入应用。其中最早开发的是清华大学用于研究和开发汉语自动分词技术的现代汉语语料库,经过几年的积累已达到8亿多字生语料。在这个语料库的支持下,用统计语言模型的方法研究了汉语自动分词中的理论、算法和技术,编制了总数为9万多个词语的《信息处理用现代汉语分词词表》。这些研究工作体现了我国汉语自动分词技术的发展水平,词表被许多汉语自动分词系统作为底表使用,是不可缺少的基础资源。

TH通用语料库系统是清华大学建立的另一个现代汉语语料库。这个语料库有两个特点,一是语料库管理系统根据不同的加工深度,分四个等级管理语料。第一级是生语料分库,有4千余万字;第二级以上都是加工程度不同的熟语料库,其中第二级存放经过自动分词并由人工校对过的初加工语料500余万字;第三级存放经过词性标注和人工校对的语料约300万字;第四级是经过句子成分标注和人工校对的语料。每个分库又按语料的来源分成一般书籍、报纸、杂志、论文和工具书五类子库。不同等级的语料可以为不同的应用目标服务。第二个特点是在这个语料库的支持下,进行了汉语信息处理技术的研究。譬如,采用以谓语为中心的句型成分分析与语料统计相结合的方法,自动分析汉语的句型,提出了一个“汉语句型频度表”;在汉语文本中自动标注句子成分和句型成分的边界;根据指定的句型在语料库里搜寻句子实例,等等。

HuaYu人工标注语料库是清华大学和北京语言大学合作建立的一个现代汉语平衡语料库。这个语料库按文学、新闻、学术、应用文四个大类收录了200余万字语料。它的特点是讲究加工的深度,除了词语切分和词性标注以外,还根据语句中动词的类型和句子的长度进行“语块”标注和“句法树”标注,目的是为建立汉语短语分析或句法分析的语言模型获取统计数据提供资源。下面分别是语块标注和句法树标注的示例。

对句子“自古以来,人类就重视档案的保存和利用,设置馆库、选派专人进行管理。”进行语块标注以后得到的是一个无嵌套的线性序列,其中S是主语语块,P是述语语块,O是宾语语块:

[D 自/p 古/t 以来/f,/, [S 人类/n [D 就/d [P 重视/v [O 档案/n 的/u 保存/vN和/c 利用/vN,/, [P 设置/v [O 馆库/n、/、[P 选派/v [O 专人/n [P 进行/v [O 管理v。

对句子“我哥哥送给我一本很漂亮的书。”进行句法树标注以后,得到的是一个与树形结构等价的线性序列:

[ zj-XX [ dj-ZW [ np-DZ我/ rN哥哥/n ] [ vp-PO [ vp-PO [ vp-SB送/v 给/v ] 我/rN ] [ np-DZ [ mp-DZ 一/m 本/qN ] [ np-DZ [ ap-ZZ很/d 漂亮/a ] 的/u 书/n ] ] ] ]。/w ]

(五)用于开发特定语言分析技术的专用语料库

这类语料库是针对汉语信息处理技术的需要专门建立的。例如山西大学的专有名词标注语料库和分词与词性标注语料库。

分词与词性标注语料库,规模为500万字,带有分词标记、词性标记和句法标记。标注时依据《信息处理用现代汉语分词规范》和《信息处理用现代汉语词类及标记集规范》。在这个语料库的支持下,开发汉语自动分词和词性标注软件,研究自动分词和词性标注的评测技术。为了解决汉语自动分词中的切分歧义问题,还建立了交集型歧义字段库和组合型歧义字段库,专门收集这两种类型的歧义切分实例。前者有7.8万字,后者收录了140多条。并且在分词和词性标注语料库里作了这两类切分歧义的标注。利用这些语料调查交集型歧义当中的“伪歧义”现象(既切分结果只可能有唯一选择的那些交集型歧义切分字段),发现这种现象在歧义切分字段中很普遍,可以达到90%以上。

专有名词标注语料库用于研究汉语自动分词中专有名词的识别算法。其中包括标注了中国地名的语料280万字,标注了中国人姓名的语料300万字,标注了西文姓名的语料250万字,标注了汉语机构名称的语料50万字,还有标注了网络新词语的语料150万字。利用这些语料,建立了中国地名用字、用词库,姓氏人名库,姓氏用字频率表,名字用字频率表等,用统计语言模型的方法识别专有名词。

(六)双语语料库

基于实例的机器翻译(Example-based)需要大规模的双语平行语料库来支持。语料库里的源语和目标语实例要按照相同级别的翻译单位一一对齐。目前已有的双语平行语料库主要是汉语和英语的,语料对齐的单位有句子级的、子句级的、短语级的,也有词汇级的。机器翻译系统把要翻译的句子与语料库里的源语实例进行对比,分析相似程度,找到最适合的源语实例,再参照与它对齐的目标语实例生成译文。用于这类机器翻译系统的双语语料库必须有一定的规模,用人工做语料对齐的工作显然很难满足要求。这就使文本自动对齐成为建立双语语料库的关键技术。

在目前已有的双语语料库中,哈尔滨工业大学的汉英平行语料库已经直接用来开发英汉双向机器翻译系统。这个语料库有6万个汉语和英语的句子,使用多级对齐加工技术,分别按照句子、短语结构和词一一对齐。中国科学院计算技术研究所的汉英双语语料库有20万个句对,也完成了句子一级的对齐,并在网上提供查询服务。北京大学、中国科学院软件研究所等单位也建立了按句对齐的汉英双语语料库。除此之外,还有以语段或短语为单位收集的汉英双语语料库,譬如中国科学院自动化研究所的汉英双语短语库,有3~5万对已对齐的汉语和英语短语。东北大学的英汉双语语段库,用来帮助建立电子版的英汉搭配词典。

(七)面向汉语史研究的语料库

面向汉语史研究的语料库建设是从搜集汉语史文献资料开始的。台湾中央研究院历史语言研究所从90年代初期就开始了这项工作,他们先收集上古汉语的语料,然后扩展到中古汉语和近代汉语。90年代中后期逐步开始上古汉语语料和近代汉语的标注,在该院信息研究所和计算中心的协助下进行标注技术和检索技术的开发。根据是否经过分词处理和词性标注,台湾中央研究院的古汉语语料库和近代汉语语料库可以分成两类:生语料库和标记语料库。目前生语料库收集的语料已涵盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)的大部分重要文献资料,并己陆续开放使用。在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注工作,也逐步提供网上检索。2001年底,开放了近代汉语标记语料库WWW版供各界使用,首先提供查询的文献是《红楼梦》及《三遂平妖传》。在查询方面,除了常用的功能以外,还可以在显示词项及词类的同时给出例句的出处,便于历史语法的研究者使用。

多年来中国社会科学院语言研究所也一直在致力于文献资料的建设,搜集整理了近代汉语书面语语料150万字,中古近代汉语语料约1千万字,部分语料已作了标注。目前已经完成了一个小型语料库,包括:敦煌变文集、祖堂集、三朝北盟汇编、碧岩录、朱子语类、刘知远诸宫调、西厢记诸宫调、元刊全相平话五种、元典章刑部、老乞大谚解、朴通事谚解、孝经直解、鲁斋遗书、经筵讲义等十余种文献,成为汉语史和语言学理论研究的重要资源。此外,语言研究所的先秦专书电子文档有4部文献,共约120万字,并且已由古汉语学者逐篇逐句标注了语法信息。

上海师范大学、浙江师范大学、四川大学等学校也依据各自汉语史研究的方向,建立了历史文献语料库。四川大学的中古汉语语料库有1亿字的中古汉语语料和有关中古汉语研究的资料。浙江师范大学的楚辞语库、前四史语库、六朝语库、太平广记语库、唐诗语库、宋词语库,已用于“前四史”语言研究和唐宋诗词语词研究。

目前历史文献语料库建设的特点是依托学科建设和研究方向,广泛收集资料,注重校勘精审。随着汉语史研究和语料库应用的发展,资源共享和语料加工将得到越来越多的重视。历史文献资源共享,首先要避免语料的重复收集,还要采用国际通用的标准处理语料文本,使语料能够准确、方便地交换和使用。语料加工则是充分发掘语料应用价值的基础工作,从收集历史文献的电子文档,到建成一个具有必要的语言学标记信息、合理的逻辑结构和方便的检索功能的语料库,语料的加工是不可或缺的一步。

(八)比较语料库

为了研究汉语在不同地区的使用情况,香港城市大学建立了LIVAC共时语料库(Linguistic Variation in Chinese Speech Communities)。语料来自香港、台湾、北京、上海、澳门及新加坡六地有代表性的中文报纸,以及电子媒介上的新闻报道。自1995年7月开始,每四天一次,收集这六个地区的对等书面语文本,每次约两万字。内容包括新闻、特写、评论等文章。到2003年上半年,已收集了1亿1千多万字、超过56万个词条。计划收集到2005年6月,囊括新旧世纪交接点前后各五年各地华语社区有代表性的重要语言数据,供汉语的各种共时比较研究使用。

在语料的组织和加工方面,这个语料库用计算机自动分词,再经人工校对分类,可以依字、词、句为基础进行检索,提供字、词配搭、分布等数据,有统计功能。语言学家能通过这个语料库考察上述六地出现的新词、词义有所发展或转移的旧词、以及有地方特色的词语,还可以对具体字或词的频率作统计比较,对字词的差别作计量分析。对研究华人社区的文化、社会、语言差异也有作用。这个语料库的一部分已经在网上提供服务。

(九)少数民族语言语料库

新疆大学从2002年起开始建设现代维吾尔语语料库系统,计划包括5个部分:语料库、电子语法信息词典、规则库、统计信息库和检索统计软件包。其中语料库部分又分成生语料库(经初步整理的原始语料)和加工语料库(经过标注和校对的语料)。目前已有生语料800万词。另外,新疆大学也正在以新闻领域的维汉-汉维机器翻译为目标,建设双语平行语料库。内蒙古大学的中世纪蒙古文语料库收集了《元朝秘史》、《黄金史》、《回鹘蒙古文文献集》等历史文献。他们还建立了500万词的现代蒙古语语料库,研究了蒙古文附加成分的自动切分、复合词的自动识别和语料的词性标注,获得了词频统计、音节统计、词类统计、附加成分统计等数据。西北民族大学建立了1亿3千万字节的大型藏文语料库,用于藏文词汇频度和通用度的统计。中国社会科学院民族学与人类学研究所建立了500万藏语字符的藏语语料库,进行词语切分和标注的研究。新疆师范大学也建立了200万词的维吾尔语语料库。

与汉语语料库相比,少数民族语料库的建设还需要解决一些特殊的问题,譬如拼音文字转写的标准和规范,词语分类体系及其标记集等。

到2003年,已建和在建的各种文本语料库还有很多(包括书面语语料库和以文本形式表示的口语语料库),以上提到的只是有代表性的一部分。与文本语料库相对的,是语音语料库。语音语料库不仅记录语图、声学参数等语音学数据,还有句法、韵律等各种语言学信息标记和副语言学信息标记,可以在语音识别与合成系统中用来建立语音模型,用于语音研究、语音工程开发和汉语普通话教学等领域。语音技术是当前信息技术和通讯领域里最具潜力的发展方向之一,语音语料库在科研和工程上有很高的使用价值。关于语音语料库的详细情况,请见“语音学和言语工程研究综述”。

第二篇:初中英语作文语料库

要求熟练掌握句式表达!!9月29日编辑完成。

写作表达句式

1,I am a middle-school student.My dream is to enter into a better senior school.2,MY friend always encourage me to study hard.we are lonely and stressed out(我们很孤独并且压力大)4 we are short of parents’ care(我们缺乏父母的关心)5 I used to be poor in English but now I am always able to make full marks.我过去英语很差,但现在我能够取得满分

6,crossing road can be dangerous if we are not careful enough.如果我们不足够小心,过马路可能危险。7 waste water is used to water flowers。or computers are used to do a lot of things in daily life 废水可以用来浇花。电脑可以用来做很多事情。(苏文注意)

7,watching TV overly can be bad for our study if parents don’t limit screen time.如果父母不限制看电视时间过度看电视会对我们学习不利,8,as a teenager ,I always meet the same problems as you.here are some suggestions foryou 作为青少年,我常常遇到和你一样的问题,这里一些建议给你。,as you know, our environment are becoming worse and worse nowadays 正如你所知,如今我们的环境正变得越来越差。

10.We should also never forget to turn off the lights when we leave the classrooms in order to save energy.What‘s more, it would be better if we walk or ride a bike to school.We should try our best to reduce pollution and waste.自行翻译

1,the more I want to memorize the words, the more difficult I find it 十(也可以替换为the harder)

我想记得的单词越多时,我发现这个过程更难.2.一些凳子是由木材做的,另一些是塑料做的。所有凳子在中国生产的。

Some chairs are made of wood, others are made of plastic.all chairs are made in china.2 to my joy(高兴),my classmates always encourage me and give me a lot of help in study and life.(令我高兴的是,我的朋友同学总是鼓励我并且在我的学习生活方面给我足够帮助)Our class is made up of six groups(如何组成的。班级分成6个小组)our school organize “hand –in-hand “activity to call on more people(students)to help lonely elders.学校组织手拉手活动呼吁更多学生帮助孤独老年人、4,I WOULD like to visit the Great Wall.It is about more than 6500 kilometers long.It is so great.我想去游玩长城,她大概是6500长,如此宏观。With the help of the Internet, shopping is not a difficult job.Just click your mouse to choose the article you like, and the shopping is finished.You needn't step out of the room.It seems easy and quick.在电脑帮助下,购物不是件困难的工作。只要一点鼠标去选择自己喜欢的物品,整个购物过程就完成了。你不需要走出房间,这看起来简单快速。6.he is more interested in sports than computer games.他对体育的兴趣多余电脑游戏节目 a growing number of students have learned about the shortcomings of going on-line.越来越多的学生已经了解到上网的缺点

8There are many traditialfestivals in China, such as Spring Festival, Mid-Autumn Day and so on.在中国与许多节假日如春节,中求节等等including 老师们提醒我们过马路时要小心

Our teachers always remind us to be careful when crossing the road 10 there are two sides to everything, and A is without exception(也可以替换为so is A)该句用于中间转折,意思是凡事都有两面性,A也是不例外(如此。

替换表达:Although there are many advantages ,its shortcomings can not be overlooked by us 尽管它有很多优点,但它的缺点不可以忽视,(这里用被动语态起强调作用)I have learned not only how to make friends but also how to talk to others during the learning process.我不仅学会了如何交朋友而且学会了如何与人交流 great changes have taken place in our hometown(china)我的家乡发生巨大的变化(词句用一般现在时也ok 3the life of people is much better than ever before(时态比较)人民的生活比曾经or过去好很多。

4we always waste water resource while millions of people in dry areas are in great need of water(while用法,用于两者在同一件事情做对比)

我们总是浪费水资源而干旱地区成千上万的人却急需用水。

5there is a need for us to deal with the rubbish in cities and fight against the pollution 对于我们有必要处理城市垃圾,和与污染做斗争。

6it is necessary /important /beneficial/difficult to do sth(必须、重要、有益、困难)都某件事 7.We should not cut down the trees because trees can clear air and also can better our environment.(另外一种表达:and this can …..)因为树可以进化空气而且改善我们环境,我们不可以砍树。这里的better 是动词词性。I need to spend more time studying in order to come true my dream 替换:so that , 9 I plan to go swimming instead of going shopping this afternoon。我计划去钓鱼而不是去购物(替换词汇rather than.)

10.we should not spit in a public place,we must pick up some rubbish andthrow it into a dustbin.If everyone makes contribution to protecting the environment, the world will become much more beautiful(学生自行翻译。

第三篇:语料库语言学综合

语料库语言学基础知识

2008-09-11 01:45:34| 分类: 学术|举报|字号 订阅

语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。

语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。

语料库建设中涉及的主要问题包括:

(1)设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。

(2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。

(3)语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。

(4)语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。

(5)语料库的应用:针对语言学理论和应用领域中的各种问题,研究和开发处理语料的算法和软件工具。

我国语料库的建设始于80年代,当时的主要目标是汉语词汇统计研究。进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。

语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符编码、文本输入和整理,语料的自动分词和标注,到语料的统计和检索,自然语言信息处理的研究都为语料的加工提供了关键性的技术。

下面先简要叙述1998年到2003年中国语料库建设的基本情况,然后介绍语料库的加工、管理和规范问题,最后谈谈语料库方法在语言研究和语言工程等方面的应用。由于以前的《中国语言学年鉴》很少谈及语料库问题,为了尽可能全面地反映我国语料库研究和应用的情况,必要时会将时间上限向前延伸几年。

二 中国语料库建设的基本情况

90年代末到新世纪初这几年投入建设或开始使用的语料库有数十个之多,不同的应用目的使这些语料库的类型各不相同,对语料的加工方法也各不相同。下面是其中已开始使用并且具有一定代表性的语料库。

(一)现代汉语通用语料库

这是一个由国家语言文字工作委员会主持建立、面向全社会应用需求的大型通用语料库,从90年代初开始建设,计划规模7000万字,主要应用目标是语言文字信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育、以及语言文字的社会应用。

这个语料库收录的语料以书面语为主、以书面语转述的口语为辅。语料来源是1919年至今,主要是1977年至今出版的教材、报纸、综合性刊物、专业刊物和图书。在设计原则上,讲求通用性、描述性、实用性和抽样的科学性。在语料分类方面,以“门类为主,语体为辅”为原则制定三个大类:

第一类:人文与社会科学类(包括8个次类、30个细类)1.政法类: 哲学 政治 宗教 法律 2.历史类: 历史 考古 民族

3.社会类: 社会学 心理 语言文字 教育 文艺理论 新闻 民俗

4.经济类: 工业经济 农业经济 政治经济 财贸经济 5.艺术类: 音乐 美术 舞蹈 戏剧

6.文学类: 小说 散文 传记 报告文学 科幻 口语 7.军体类: 军事 体育 8.生活类

第二类:自然科学类(包括6个次类)1.数理类 2.生化类 3.天文地理类 4.海洋气象类 5.农林类 6.医药卫生类

第三类:综合类(包括6个次类,30多个细类)

1.行政公文类: 请示 报告 批复 命令 指示 布告 纪要 通知等

2.章程法规类: 章程 条例 细则 制度 公约 办法 法律条文等 3.司法文书类: 诉讼 辩护词 控告信 委托书等 4.商业文告类: 说明 广告 调查报告 经济合同等

5.礼仪辞令类: 欢迎词 贺电 讣告 唁电 慰问信 祝酒词等 6.实用文书类: 请假条 检讨 申请书 请愿书等

在不同类别、不同来源、不同时期的语言材料中,按照不等密度的思路确定合适的语料选取比例,从共时和历时两个角度保证入选语料的平衡性,是这个语料库的特点。譬如,在语言材料的年限方面,选材比例是:

1919年 – 1925年 5% 1926年 – 1949年 15% 1950年 – 1965年 25% 1966年 – 1976年 5% 1977年以后 50% 在语言材料的门类、语体和来源方面,选材比例是:

人文与社会科学类占59.6%。其中各个次类在本大类中的比例是:

政法 12.7% 历史 8.4% 社会 14.0% 经济 9.8% 艺术 6.7% 文学 44.9% 军体 2.3% 生活 1.4% 自然科学类占17.24%。其中各个次类在本大类中的比例是:

数理 17.2% 生化 19.1% 天文地理 14.1% 海洋气象 9.1% 农林 22.8% 医药卫生 17.7% 综合类占9.36%。其中各个次类在本大类中的比例是:

各类应用文 91.1% 其他 8.9% 报纸类占13.79%。其中各个次类在本大类中的比例是: 全国性报刊 25% 省市报刊 75% 这个语料库在选材过程中收集和记录语料的有关描述信息,为每个语料样本设立了20个描述项目:总号、分类号、样本名称、类别、作者、写作时间、书刊名称、编著者、出版者、出版日期、期号(版面号)、版次(初版日期)、印册数、总页数、开本、选样方式、样本起止页数、样本字数、样本总数、繁简字。用户可以利用这些语料描述标记根据各自的需要进行各种方式的检索。语料库的建库工作分为两步,第一步先建立核心语料库(由7000万字的语料中筛选出2000万字语料组成)。到90年代末,完成了2000万字生语料的收录工作。从2001年开始,对2000万字核心语料进行分词和词性标注加工。

(二)《人民日报》标注语料库

《人民日报》标注语料库由北京大学计算语言学研究所和日本富士通公司合作,从1999年开始,到2002年完成,原始语料取自1998年全年的《人民日报》,共约2700万字,到2003年又扩充到3500万字,是我国第一个大型的现代汉语标注语料库。这个语料库加工的项目有词语切分和词性标注,还有专有名词(人名、地名、团体机构名称等)标注、语素子类标注、动词、形容词的特殊用法标注和短语型标注。下面是一段语料标注的示例,对于1998年1月1日第5版第1篇文章的第11段:

我国的国有企业改革见成效。位于河南的中国一拖集团有限责任公司面向市场,积极调整产品结构,加快技术改造和新产品研制步伐。图为东方红牌履带拖拉机生产线。(赵鹏摄)

标注后的形式是:

19980101-05-001-011/m 我国/n 的/u 国有/vn 企业/n 改革/v 见/v 成效/n。/w 位于/v 河南/ns 的/u [中国/ns 一拖/j 集团/n 有限/a 责任/n 公司/n]nt 面向/v 市场/n,/w 积极/ad 调整/v 产品/n 结构/n,/w 加快/v 技术/n 改造/vn 和/c 新/a 产品/n 研制/vn 步伐/n。/w 图/n 为/v 东方红牌/nz 履带/n 拖拉机/n 生产线/n。/w(/w 赵/nr 鹏/nr 摄/Vg)/w 在每一个切分出来的词和标点符号后面,是该词语的标记。譬如词性标记(n,v,a,u,m,w等),专有名词标记(nr,ns,nz等),语素子类标记(Vg等),动词和形容词特殊用法标记(vn,ad)。所有的标记都是以北京大学的《现代汉语语法信息词典》为基础词库,在一个加工规范的指导下标注的。

利用《人民日报》标注语料库,人们可以从各个角度考察和分析语言事实,统计各种语言单位出现的频率,譬如,词语或词类的分布、搭配和共现,专有名词的结构方式、兼类词在句子中的表现,语素字的使用情况,等等。也可以从语料里提取各种语言单位或语句片段作为研究实例。与仅仅以汉字串的形式表示的“生语料”相比,经过标注的“熟语料”显然含有更多的语言学特征信息,对汉语词汇研究、语法研究和汉语信息处理系统来说是更好的语言知识资源。

《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。

(三)用于语言教学和研究的现代汉语语料库

建立现代汉语语料库的主要目的之一是对外汉语教学和现代汉语研究,可以分为书面语语料库和以文本形式表示的口语语料库两类。前者如北京语言大学的汉语中介语语料库、现代汉语研究语料库,后者如中国社会科学院语言研究所的北京地区现场即席话语语料库。

汉语中介语语料库的建设目标是为对外汉语教学、中介语研究、偏误分析和汉语本体研究提供资源,因此它的语料来源很有对外汉语教学的特点。作者先在北京和其他省市的9所高等院校里,从来自96个国家和地区的1635位外国留学生那里收集了成篇成段的汉语作文或练习材料5774篇,共3528988字。再从中抽取了740人的1731篇语料,共有44218句,1041274字。全部语料都记录了学生姓名、性别、年龄、国别、是否华裔、第一语言、文化程度、所学主要教材、语料类别、写作时间、提供者等23项属性。然后对这104万字的语料进行词语切分、词性标注以及一些专用的语言学特征标注。例如,标出了字、词、句、篇等不同的层次,对语料的非规范形式(例如:错字、别字、繁体字、拼音字、非规范词等)做出索引标记,记录其对应的规范形式。这个语料库的管理系统有语篇属性登录、文本过滤、文字预处理信息登录、语料抽样、断句、分词、词性辅助标注、自动标注以及语料的主题检索、全文检索和数据浏览等各种功能,分别处理语料库的建立、管理和维护,以及用户浏览、查询和检索等。与人工收集的学生病句卡片资料相比,中介语语料库能够更好地反映学生学习汉语的情况,帮助教师更加全面地观察他们的学习过程,了解影响学习和习得的各种因素。在汉语作为第二语言的教学中,为教材编写、课堂教学、测试等环节提供依据。

现代汉语研究语料库的建设目标是为语言学家提供一个研究平台,由2000万字的粗语料库和200万字经过分词和词性标注的精语料库两个部分组成。粗语料库收录的语料样本中绝大部分是九十年代的出版物,有《人民日报》1000万字,《中国新闻》500万字,各种书籍250万字,文学作品150万字,准口语材料(书面形式的对话、独白)100万字。精语料库的200万字语料样本是从粗语料库中按照规定的比例由计算机随机抽取的,有书面语语料160万字,准口语语料40万字,是从语体、题材、体裁三个方面均衡选取的平衡语料库。为了对这些语料进行词语切分和词性标注,作者制定了词语切分的细则和词性标记体系的原则,采用了一个含有112个词类标记的标记集,确定了兼类词的处理方法。这个语料库的管理系统具有建库、检索、浏览、统计、输出等功能,可以按词或词类检索,统计出词的频率、词类频率、词类共现频率、平均词长、平均句长等结果。这个语料库建成以后,很快应用在现代汉语语法、汉语教学和汉语信息处理的研究中,研究内容涉及现代汉语的插入语、汉语句子的主题-主语标注、V+N序列实验分析、词性标注中词语归类问题、动宾组合的自动获取与标注,等等。

建设北京地区现场即席话语语料库的目的是,通过收集大量的现场即席话语语料研究现场即席话语的各种动态机制,以揭示现场即席话语的使用规律。这个语料库的研究策略和取样方法很有特点,首先是严格区分资源库和语料库,资源库收集符合现场即席话语定义的录音材料,语料库收录按照一定标准从资源库提取出来的材料;另外在语料采样前先做摸底性研究,通过研究对现场即席话语的真实情况有所了解,确定取样域,再定取样范畴,然后根据取样范畴去录现场典型材料,这是一种层次范畴化的取样方法。这个语料库目前正在建设之中,已经取得了近600小时的录音材料和50多小时的录象材料。

在用于汉语研究的语料库中,讲究选材均衡,注重语料加工,同时也提供公开服务的,当数台湾中央研究院历史语言研究所的现代汉语平衡语料库(简称Sinica Corpus)。这个语料库的规模为500万个词,每个句子都依词断开,标示词类标记,并且配备了检索系统,在网上开放供大家使用。根据自己制定的一套汉语文本属性特征为语料分类,在不同的类别上尽量均衡地采集语料,是这个语料库的特点之一。文本属性用来说明文档的呈现方式、文章的写作方式、文章写作的内容和文档的来源出处,包括7类,每类下设若干小类:

文类(文档的呈现方式)

报导、评论、广告图文、信函、公告启事、小说故事寓言、散文、传记日记、诗歌、语录、说明手册、剧本、会话、演讲、会议记录 文体(文章的写作方式)记叙、论说、说明、描写 语式(文档的呈现方式)

书面语、演讲稿、剧本/台辞、口语谈话、会议记录 主题(文章写作的内容)

哲学、科学、社会、艺术、生活、文学

媒体 报纸、一般杂志、学术期刊、教科书、工具书、学术论著、一般图书、书信、视听媒体、其它

作者 姓名、性别、国籍、母语

出版 出版单位、出版地、出版日期、版次

不同研究目的的语言学者可以自己按语式、文体、媒体和主题的小类选取不同类别的语料,组成“自订语料库”,在“自订语料库”的范围内进行语料的检索和统计。除了通常的按词语、词类的检索和统计以外,这个语料库的管理系统还提供了一种“进阶处理”功能,对检索出来的数据作进一步处理,对处理的结果还可以再次处理,形成多层的检索结果。

(四)面向语言信息处理的现代汉语语料库

90年代中后期,面向语言信息处理的现代汉语语料库开始建立并投入应用。其中最早开发的是清华大学用于研究和开发汉语自动分词技术的现代汉语语料库,经过几年的积累已达到8亿多字生语料。在这个语料库的支持下,用统计语言模型的方法研究了汉语自动分词中的理论、算法和技术,编制了总数为9万多个词语的《信息处理用现代汉语分词词表》。这些研究工作体现了我国汉语自动分词技术的发展水平,词表被许多汉语自动分词系统作为底表使用,是不可缺少的基础资源。

TH通用语料库系统是清华大学建立的另一个现代汉语语料库。这个语料库有两个特点,一是语料库管理系统根据不同的加工深度,分四个等级管理语料。第一级是生语料分库,有4千余万字;第二级以上都是加工程度不同的熟语料库,其中第二级存放经过自动分词并由人工校对过的初加工语料500余万字;第三级存放经过词性标注和人工校对的语料约300万字;第四级是经过句子成分标注和人工校对的语料。每个分库又按语料的来源分成一般书籍、报纸、杂志、论文和工具书五类子库。不同等级的语料可以为不同的应用目标服务。第二个特点是在这个语料库的支持下,进行了汉语信息处理技术的研究。譬如,采用以谓语为中心的句型成分分析与语料统计相结合的方法,自动分析汉语的句型,提出了一个“汉语句型频度表”;在汉语文本中自动标注句子成分和句型成分的边界;根据指定的句型在语料库里搜寻句子实例,等等。

HuaYu人工标注语料库是清华大学和北京语言大学合作建立的一个现代汉语平衡语料库。这个语料库按文学、新闻、学术、应用文四个大类收录了200余万字语料。它的特点是讲究加工的深度,除了词语切分和词性标注以外,还根据语句中动词的类型和句子的长度进行“语块”标注和“句法树”标注,目的是为建立汉语短语分析或句法分析的语言模型获取统计数据提供资源。下面分别是语块标注和句法树标注的示例。

对句子“自古以来,人类就重视档案的保存和利用,设置馆库、选派专人进行管理。”进行语块标注以后得到的是一个无嵌套的线性序列,其中S是主语语块,P是述语语块,O是宾语语块: [D 自/p 古/t 以来/f,/, [S 人类/n [D 就/d [P 重视/v [O 档案/n 的/u 保存/vN 和/c 利用/vN,/, [P 设置/v [O 馆库/n、/、[P 选派/v [O 专人/n [P 进行/v [O 管理v。

对句子“我哥哥送给我一本很漂亮的书。”进行句法树标注以后,得到的是一个与树形结构等价的线性序列:

[ zj-XX [ dj-ZW [ np-DZ我/ rN 哥哥/n ] [ vp-PO [ vp-PO [ vp-SB送/v 给/v ] 我/rN ] [ np-DZ [ mp-DZ 一/m 本/qN ] [ np-DZ [ ap-ZZ很/d 漂亮/a ] 的/u 书/n ] ] ] ]。/w ]

(五)用于开发特定语言分析技术的专用语料库

这类语料库是针对汉语信息处理技术的需要专门建立的。例如山西大学的专有名词标注语料库和分词与词性标注语料库。

分词与词性标注语料库,规模为500万字,带有分词标记、词性标记和句法标记。标注时依据《信息处理用现代汉语分词规范》和《信息处理用现代汉语词类及标记集规范》。在这个语料库的支持下,开发汉语自动分词和词性标注软件,研究自动分词和词性标注的评测技术。为了解决汉语自动分词中的切分歧义问题,还建立了交集型歧义字段库和组合型歧义字段库,专门收集这两种类型的歧义切分实例。前者有7.8万字,后者收录了140多条。并且在分词和词性标注语料库里作了这两类切分歧义的标注。利用这些语料调查交集型歧义当中的“伪歧义”现象(既切分结果只可能有唯一选择的那些交集型歧义切分字段),发现这种现象在歧义切分字段中很普遍,可以达到90%以上。

专有名词标注语料库用于研究汉语自动分词中专有名词的识别算法。其中包括标注了中国地名的语料280万字,标注了中国人姓名的语料300万字,标注了西文姓名的语料250万字,标注了汉语机构名称的语料50万字,还有标注了网络新词语的语料150万字。利用这些语料,建立了中国地名用字、用词库,姓氏人名库,姓氏用字频率表,名字用字频率表等,用统计语言模型的方法识别专有名词。

(六)双语语料库

基于实例的机器翻译(Example-based)需要大规模的双语平行语料库来支持。语料库里的源语和目标语实例要按照相同级别的翻译单位一一对齐。目前已有的双语平行语料库主要是汉语和英语的,语料对齐的单位有句子级的、子句级的、短语级的,也有词汇级的。机器翻译系统把要翻译的句子与语料库里的源语实例进行对比,分析相似程度,找到最适合的源语实例,再参照与它对齐的目标语实例生成译文。用于这类机器翻译系统的双语语料库必须有一定的规模,用人工做语料对齐的工作显然很难满足要求。这就使文本自动对齐成为建立双语语料库的关键技术。

在目前已有的双语语料库中,哈尔滨工业大学的汉英平行语料库已经直接用来开发英汉双向机器翻译系统。这个语料库有6万个汉语和英语的句子,使用多级对齐加工技术,分别按照句子、短语结构和词一一对齐。中国科学院计算技术研究所的汉英双语语料库有20万个句对,也完成了句子一级的对齐,并在网上提供查询服务。北京大学、中国科学院软件研究所等单位也建立了按句对齐的汉英双语语料库。除此之外,还有以语段或短语为单位收集的汉英双语语料库,譬如中国科学院自动化研究所的汉英双语短语库,有3~5万对已对齐的汉语和英语短语。东北大学的英汉双语语段库,用来帮助建立电子版的英汉搭配词典。

(七)面向汉语史研究的语料库

面向汉语史研究的语料库建设是从搜集汉语史文献资料开始的。台湾中央研究院历史语言研究所从90年代初期就开始了这项工作,他们先收集上古汉语的语料,然后扩展到中古汉语和近代汉语。90年代中后期逐步开始上古汉语语料和近代汉语的标注,在该院信息研究所和计算中心的协助下进行标注技术和检索技术的开发。根据是否经过分词处理和词性标注,台湾中央研究院的古汉语语料库和近代汉语语料库可以分成两类:生语料库和标记语料库。目前生语料库收集的语料已涵盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)的大部分重要文献资料,并己陆续开放使用。在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注工作,也逐步提供网上检索。2001年底,开放了近代汉语标记语料库WWW版供各界使用,首先提供查询的文献是《红楼梦》及《三遂平妖传》。在查询方面,除了常用的功能以外,还可以在显示词项及词类的同时给出例句的出处,便于历史语法的研究者使用。

多年来中国社会科学院语言研究所也一直在致力于文献资料的建设,搜集整理了近代汉语书面语语料150万字,中古近代汉语语料约1千万字,部分语料已作了标注。目前已经完成了一个小型语料库,包括:敦煌变文集、祖堂集、三朝北盟汇编、碧岩录、朱子语类、刘知远诸宫调、西厢记诸宫调、元刊全相平话五种、元典章 刑部、老乞大谚解、朴通事谚解、孝经直解、鲁斋遗书、经筵讲义等十余种文献,成为汉语史和语言学理论研究的重要资源。此外,语言研究所的先秦专书电子文档有4部文献,共约120万字,并且已由古汉语学者逐篇逐句标注了语法信息。

上海师范大学、浙江师范大学、四川大学等学校也依据各自汉语史研究的方向,建立了历史文献语料库。四川大学的中古汉语语料库有1亿字的中古汉语语料和有关中古汉语研究的资料。浙江师范大学的楚辞语库、前四史语库、六朝语库、太平广记语库、唐诗语库、宋词语库,已用于“前四史”语言研究和唐宋诗词语词研究。

目前历史文献语料库建设的特点是依托学科建设和研究方向,广泛收集资料,注重校勘精审。随着汉语史研究和语料库应用的发展,资源共享和语料加工将得到越来越多的重视。历史文献资源共享,首先要避免语料的重复收集,还要采用国际通用的标准处理语料文本,使语料能够准确、方便地交换和使用。语料加工则是充分发掘语料应用价值的基础工作,从收集历史文献的电子文档,到建成一个具有必要的语言学标记信息、合理的逻辑结构和方便的检索功能的语料库,语料的加工是不可或缺的一步。

(八)比较语料库

为了研究汉语在不同地区的使用情况,香港城市大学建立了LIVAC共时语料库(Linguistic Variation in Chinese Speech Communities)。语料来自香港、台湾、北京、上海、澳门及新加坡六地有代表性的中文报纸,以及电子媒介上的新闻报道。自1995年7月开始,每四天一次,收集这六个地区的对等书面语文本,每次约两万字。内容包括新闻、特写、评论等文章。到2003年上半年,已收集了1亿1千多万字、超过56万个词条。计划收集到2005年6月,囊括新旧世纪交接点前后各五年各地华语社区有代表性的重要语言数据,供汉语的各种共时比较研究使用。

在语料的组织和加工方面,这个语料库用计算机自动分词,再经人工校对分类,可以依字、词、句为基础进行检索,提供字、词配搭、分布等数据,有统计功能。语言学家能通过这个语料库考察上述六地出现的新词、词义有所发展或转移的旧词、以及有地方特色的词语,还可以对具体字或词的频率作统计比较,对字词的差别作计量分析。对研究华人社区的文化、社会、语言差异也有作用。这个语料库的一部分已经在网上提供服务。

(九)少数民族语言语料库

新疆大学从2002年起开始建设现代维吾尔语语料库系统,计划包括5个部分:语料库、电子语法信息词典、规则库、统计信息库和检索统计软件包。其中语料库部分又分成生语料库(经初步整理的原始语料)和加工语料库(经过标注和校对的语料)。目前已有生语料800万词。另外,新疆大学也正在以新闻领域的维汉-汉维机器翻译为目标,建设双语平行语料库。内蒙古大学的中世纪蒙古文语料库收集了《元朝秘史》、《黄金史》、《回鹘蒙古文文献集》等历史文献。他们还建立了500万词的现代蒙古语语料库,研究了蒙古文附加成分的自动切分、复合词的自动识别和语料的词性标注,获得了词频统计、音节统计、词类统计、附加成分统计等数据。西北民族大学建立了1亿3千万字节的大型藏文语料库,用于藏文词汇频度和通用度的统计。中国社会科学院民族学与人类学研究所建立了500万藏语字符的藏语语料库,进行词语切分和标注的研究。新疆师范大学也建立了200万词的维吾尔语语料库。

与汉语语料库相比,少数民族语料库的建设还需要解决一些特殊的问题,譬如拼音文字转写的标准和规范,词语分类体系及其标记集等。

到2003年,已建和在建的各种文本语料库还有很多(包括书面语语料库和以文本形式表示的口语语料库),以上提到的只是有代表性的一部分。与文本语料库相对的,是语音语料库。语音语料库不仅记录语图、声学参数等语音学数据,还有句法、韵律等各种语言学信息标记和副语言学信息标记,可以在语音识别与合成系统中用来建立语音模型,用于语音研究、语音工程开发和汉语普通话教学等领域。语音技术是当前信息技术和通讯领域里最具潜力的发展方向之一,语音语料库在科研和工程上有很高的使用价值。关于语音语料库的详细情况,请见“语音学和言语工程研究综述”。

三 语料库的加工、管理和规范

(一)语料的加工

一个计算机语料库的功能主要与三个因素有关,一是语料库的规模,二是语料的分布,三是语料的加工程度。规模的大小关系到统计数据是否可靠,语料的分布涉及统计结果的适用范围,语料加工的深度则决定这个语料库能为使用者提供什么样的语言学信息。

加工语料主要指文本格式处理和文本描述两项工作,前者是对采集的语料文本进行整理,转成统一的电子文本格式,例如数据库格式、XML文本格式等。后者是描述每一篇语料样本的属性或特征,包括篇头描述和篇体描述。篇头描述说明整篇语料样本的属性,例如语体、内容所属的领域、作者、写作时间、来源出处等等,篇体描述是在文本里添加各种语言学属性标记,对于汉语书面语语料库来说,常见的是词语切分标记、词性标记、专有名词标记,还有某些语法特征如短语标记、子句标记,或语义信息标记,等等。对汉语书面语语料的加工一般是从词语切分、词性标注,到语法、语义属性标注,按顺序进行。标注的信息逐步增多,语料加工的深度也就逐渐增加。人们通常把没有篇体描述信息的语料叫做生语料。对汉语的生语料只能以字为单位进行检索和统计。经过词语切分处理的语料,就能以词为单位进行检索、统计和定量分析。如果还作了词性标记,那么可以获得的语言学信息就更多了。语料的标注如果由人来做,当然能够保证准确性,但是人工标注对处理大规模的语料显然不够现实。所以几乎每一个大规模语料库的加工都需要借助自动化的手段,词语自动切分、词性自动标注等就成为备受关注的语料加工技术。

自动分词是我国最早开始研究的汉语信息处理技术之一。语料库的建设开始以后,自动分词技术在语料加工中又得到了应用和发展。自动分词和词性自动标注一般都需要一个词典,作为分词和词性标注的基础。这个词典与常用的语文词典相比,收录的词目不大一样,包括了语言学家认可的词,以及一些比词小的单位(如语素字、词缀等)和一些比词大的单位(如成语、习语、简称略语等)。词典中也包括词类信息和其他语法信息。目前的自动分词技术是基于字符串匹配原理的,有正向最大匹配、逆向最大匹配等基本算法。在切分过程中会出现歧义现象,如何处理歧义是自动分词研究的重点之一,在这方面投入的研究也最多,先后提出了“短语结构法”、“专家系统法”、“隐马尔科夫模型”、“串频统计和词匹配”等辩识歧义的方法。识别未登录词是自动分词研究的第二个重点。未登录词指没有被分词底表收录的词语,包括人名、地名、机构名等专有名词和新出现的词语。对未登录词的识别一般以基于语料库的统计语言模型方法为主。

词性自动标注通常与自动分词同时进行,根据带有词类信息的分词词典,给切分出来的词语标上初始的词类标记。对于兼类词,必须在句子里判断类别。因此需要分析兼类词语在上下文中的分布特点和语法功能,并用形式化的方式表达出来,作为词性标注系统排除兼类的规则。近年来,已经有几个自动分词和词性自动标注系统投入了应用,其中北京大学用自己研制的系统为《人民日报标注语料库》做分词和词性标注的初加工,北京语言大学的自动分词系统也成为其《面向语言教学研究的汉语语料检索系统》中的关键技术。此外,经过十几年的研究和实践,2001年发布了收录9万多词语的《信息处理用现代汉语分词词表》和《现代汉语词类及标记集规范》。对于1993年制定的国家标准《信息处理用现代汉语分词规范》的可操作性问题,也进行了积极的讨论和实验,提出了有效的解决方法。关于自动分词和词性自动标注的详细情况,请见“计算语言学和自然语言信息处理研究综述”。

经过分词的语料,除了标注词性以外,还可以进一步标注其他语言学属性,譬如韵律、语调、短语结构、句法结构、语义关系等等。句子的语法结构需要有形式化的方式来表达,大多数语料库或者采用短语结构树,或者采用依存语法树的方式,这样标注过的语料库就成为短语树库或句法树库。一般情况下,在词性标注的基础上再作进一步的语法标注加工,多以人工为主,也有关于自动短语定界和句法信息自动标注的研究和实验。目前已有的汉语短语库、句法树库规模都不大,至多百万词级。

在双语语料库的建设中,除了上述语料加工项目以外,还有一项不可缺少的语料加工任务:双语语料对齐。语料对齐分为段落、句子、子句、短语和词语几个不同的层次。如果考虑用计算机程序做自动对齐,不同的层次要解决的问题各不相同。每种语言的段落都有可识别的标志,因此段落的对齐最容易实现,句子的对齐在印欧语言之间比它们和汉语之间要容易,词语的对齐需要借助词典,句子内的各种结构要自动对齐则是最难的。目前双语自动对齐技术的研究主要是针对句子和句子内的结构,采用的方法有基于长度的、基于词典的,或者是这两种方法的混合策略。

(二)语料库管理系统

经过科学选材和标注、具有适当规模的语料库,还应该有一个功能齐备的管理系统,包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、语料对齐、标记处理等)、用户服务功能(查询、检索、统计、打印等)。其中数据维护部分主要涉及汉字字符处理、文本处理、文件管理等计算机程序设计技术。语料自动加工部分的主要内容是自动分词、各种语言学属性的标注技术,已经在前面专门介绍过了。这里主要谈谈面向用户的语料检索、统计和分析技术。

语料检索是一种全文检索技术,但是也有自己的特点,仅用普通的全文检索技术还不能满足语料检索的需要。这是因为,全文信息检索关心的是检索目标的意义,不是检索目标的语言表述形式。而面向语言研究的语料检索则特别注重语言的表述形式,它既需要按照字、字串和词检索,也需要把词语的语言学属性作为检索的目标和约束条件,还要求把检索的结果或目标的出处按照研究的需要排序、输出。除此之外,还要有字频、词频和特定语言形式出现频率的统计功能。

对汉语生语料的检索和统计是以字或字串为单位进行的。这一类检索系统主要以单字索引和字符串匹配为关键技术,由于把词语当作字串来检索,所以检索结果中经常出现“非词”的问题。例如要查找“出警”,检索结果中除了“迅速出警”、“拒绝出警”、“出警次数”等实例以外,“发出警告”、“放出警犬”等也混在其中。为了解决这些问题,常常需要为字符串匹配的检索表达式另外设置限制条件。这些限制条件大多是个性的,只能排除一部分“非词”的实例。要想从根本上解决这个问题,就必须对语料作词语切分。经过词语切分处理的熟语料,能以词为单位进行检索、统计和定量分析。但是熟语料库的加工代价很高,而且对于语料的词语切分和词性标注,目前还没有既成熟又便于操作的规范,所以近年来,面向生语料库的检索技术一直在广泛应用,并且在用户功能方面不断发展。譬如,可以对用户给出的任何生语料快速生成索引;可以使用具有复合逻辑关系的检索表达式;可以按照汉字、拼音、笔画对检索结果的上下文自动排序;可以提供检出实例的来源、出处;可以按字频统计的数据排序;检索结果和统计结果既可以按文本形式输出,也可以按数据库形式输出;还可以通过网络支持多用户远程检索。

对于经过词语切分处理和词性标注的熟语料库,除了所有生语料的检索功能以外,语料检索系统还可以把词语或词性作为检索的关键字或限制条件,得到关于这些语言学属性的检索和统计结果,并按各种排序和输出形式的提供给用户。语言学属性来自语言学家对汉语的研究,研究过程中有各种观点和认识,从词的定义到词类的确定,一直还没有统一的意见。另一方面,人们检索语料时的目的也各不相同,有的关心词汇问题,有的关心语法现象,还有的目标是汉语信息处理的应用问题。因此对于熟语料库检索来说,一个好的检索系统应该能够包容各种不同的语言学观点,可以用于不同的检索目的。

为了做到这一点,通常采用的办法是,把用于语料库自动分词的底表和附着于底表的词性、构词等属性都看作语言学属性表,使这个属性表与检索系统的程序相互独立,检索系统只把属性标记作为抽象的字符串处理,而把建立属性表的工作交给用户。以北京语言大学的《面向语言教学研究的汉语语料检索系统》为例,它的自动分词词表、词属性集和每个词的属性标记都由用户提供,提供的方式是把词目和它的属性标记登记在数据库里。检索系统使用用户提供的这个属性表对生语料自动分词,并生成索引,供给用户检索。检索系统对属性表没有任何限制,规模可大可小,表中的词目也可以跟通常认为的词没有关系,属性可以是语法的,也可以是构词的、语义的、语音的,等等。这样用户就能根据自己的需要检索和研究各种字串在语料中的表现。

把语料加工技术集成在检索系统里面,是语料库检索系统的另一个特点。语料加工技术一般指词语自动切分和词性自动标注。在北京语言大学的语料检索系统中,未登录词的自动识别技术比较有特点。它可以识别各种数字串、中西人名、中西地名、机构名、后缀短语等,并为它们建立索引,供用户检索和统计。

(三)语料库的规范问题

语料库的规范问题主要是对语料加工而言的。汉语语料库首先遇到的规范问题是词语切分。我国90年代初发布了国家标准《信息处理用现代汉语分词规范》(标准号为GB/T13715-92)。这个规范基本上采用《暂拟汉语教学语法系统》中的观点,把词定义为“最小的独立运用的语言单位”。针对汉语语素、词和词组界限不够清晰的问题,还特别提出了“分词单位”的概念。把“分词单位”定义成“汉语信息处理使用的具有确定的语义或语法功能的基本单位”,并且用“结合紧密、使用稳定”的原则作为判断分词单位的标准。这样做的目的是避免关于如何界定词的争论。但是“结合紧密、使用稳定”的原则缺少可操作性,对于自动分词研究中的具体问题常常难有定论。于是就有了根据规范制定一个词表,用“规范+词表”的办法指导分词的建议。这样在90年代中期和末期,分别提出了收词43570条的《信息处理用现代汉语常用词表》和收词9万多条的《信息处理用现代汉语分词词表》。其中后者是在8亿字的大规模语料库支持下,采用“串频”、“互信息”、“相关度”等计算统计方法,依据定量的数据分析结果辨识“分词单位”的。与此同时,语言学家也参与了制定这个词表的工作,他们提出的各种语言学规则,从定性分析的角度与统计数据相互作用,最后经过人工审定,确定了92843个词目,其中一级常用词56606个,二级常用词36237个,成为目前许多自动分词系统使用的词表。

90年代中期,台湾的计算语言学会也提出了一个《资讯处理用中文分词规范》。这个规范有三条基本原则,一是分词单位必须符合语言学理论的要求;二是在信息处理上切实可行;三是能够确保真实文本处理的一致性。它把分词规范分成信、达、雅三个不同的等级,“信”级是基本资料交换的标准,“达”级是机器翻译、情报检索等自然语言处理的标准,“雅”级则是分词的最好结果。这样可以根据不同的应用目的做难易程度不同的分词处理。

词语切分以后,下一个规范问题就是词性标注。经过十多年的词性标注研究和实践,教育部语言文字应用研究所于2001年提出了《信息处理用现代汉语词类标记集规范》。这个规范吸收了语言学家的研究成果,也兼顾了已有的各个用于语言信息处理的词类系统,制定了标记现代汉语书面语词类的符号集,使各种汉语信息处理应用系统能够尽量使用统一的词类标记,有助于信息交换和资源共享。

标注短语和句子结构是语料库进一步深加工的内容,虽然目前尚处于起步阶段,但已经在标注的同时考虑了规范的问题。清华大学提出的《汉语句子的句法树标注规范》,主要包括句法标记集的内容描述、句法树的划分规定、歧义结构的处理、结构分析的方向性等问题。上海师范大学根据自己制定的《汉语文本短语结构人工标注规范》,对100万字的1997年《读者文摘》进行了分词、词性标注和人工标注短语的试验。哈尔滨工业大学采用包含23个短语符号的标记集合,开发了一个8000个句子的汉语树库。清华大学还建立了一个基于语义依存关系的语料库,也涉及到标注体系的选择和标注关系集的确定。这些工作规模都不大,在规范方面还处于各自为政的状态。随着语料的进一步深入加工,统一规范将成为不可避免的问题。

北京大学的《人民日报》标注语料库是目前规模最大的汉语基本标注语料库。在它的开发过程中,各种加工规范起了关键的作用。在这些加工规范中,有词语的切分规范,主要规定把句子的汉字串形式切分为词语序列的原则;有现代汉语词类及标记集规范,规定切分出来的词语、短语、标点符号的类别和标识符号;有切分和标注相结合的规范,规定语素构成合成词的方式(重叠、附加和复合);有标注规范,规定词性标注与词库的关系,主要解决如何在上下文环境里确定兼类词的词性;还有收词7万余条的词库《现代汉语语法信息词典》。加工大规模的语料是一项浩大的语言工程。语料标注的准确性和一致性需要靠完善、合理的词库和严谨、实用的加工规范来保证。《人民日报》标注语料库的加工规范和《现代汉语语法信息词典》是语言学家和信息处理专家合作,在汉语语法研究的理论和方法指导下,根据汉语信息处理的实际需要制定和开发的。在标注大规模语料的实践中,又得到了验证和完善。

除了语料加工以外,语料库还应该在语料的采集和存储格式上有所规范。对于平衡语料库来说,采集规范主要是为了保证语料的平衡性,而类别分布和时间分布是语料平衡的两大要素。每个语料库都要对语料进行分类,分类的原则各不相同。有的根据内容涉及的主题分类,有的根据语体分类。在众多平衡语料库当中,台湾中央研究院的现代汉语平衡语料库的分类标准很值得注意。这个语料库的研制者认为,用传统的文体单一特征来界定平衡语料库不足以反映影响整个语言全貌的内在因素。因此他们采用的是多重分类原则:把所有语料都标上五个不同特征的值:(1)文类(2)文体(3)语式(4)主题(5)媒体。利用以主题为主的五个特征的多重分类来进行语料库的平衡。这样做还使研究者能够任选其中几个特征的组合,定义自己的次语料库(sub-corpora),也可以在次语料库间作比较研究。另外,多重分类原则也有利于以后平衡语料库的更新。语料存储格式的规范一般指采用统一的编码规范为电子文本作标记,目前可扩充置标语言XML被广泛地用作语料库标注的元语言,存储格式的标准化有助于语料的交换和共享。

四 语料库在语言研究中的的应用

在语言研究中,语料库方法是一种经验的方法,它能提供大量的自然语言材料,有助于研究者根据语言实际得出客观的结论,这种结论同时也是可观测和可验证的。在计算机技术的支持下,语料库方法对语言研究的许多领域产生了越来越多的影响。各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究,社会语言学研究,口语研究,词典编纂,语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。我国在语料库的应用上还处于起步阶段,在计算语言学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息和概率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果。

语料库与自然语言信息处理有着相辅相成的关系,大规模的语料库是用统计语言模型方法处理自然语言的基础资源。然而统计语言模型本身并不关心其建模对象的语言学信息,它关心的只是一串符号的同现概率。譬如N元语法模型,它只关心句子中各种单元(比如字、词、短语等)近距离连接关系的概率分布,而对于许多复杂的语言现象,它就无能为力了。在统计语言建模技术最先得到成功应用的自动语音识别领域,语料库的开发和建设受到格外的重视,标注语料库成为不可缺少的系统资源,就是因为,要想改进N元语法的建模技术,必须利用语料库引入更多的语言特征信息和统计语言数据。同样,在书面语语言信息处理领域里,语料库提供的语言知识也越来越多地用在统计语言模型方法中。除了词语自动切分、词性自动标注、双语语料对齐等语料加工技术以外,人们还在语料库的支持下,建立有关语法、语义的语言知识库,开发信息抽取系统、信息检索系统、文本分类和过滤系统,并且把基于统计或实例的分析技术集成到机器翻译系统里面。

近年来在语料库的支持下,从信息处理的角度研究汉语词汇、语法和语义问题的报告也日渐增多。这些研究包括:根据逐词索引作汉语词义的调查;对词语搭配进行计量分析;利用量词--名词的搭配数据研究汉语名词分类问题;进行现代汉语句型的统计和研究;做短语自动识别(例如基本名词短语、动宾结构)和自动句法分析的试验;研究在句子里为词语排除歧义的算法;分析和统计汉语词语重叠结构的深层结构类型及产生方式;等等。

对于词汇学、语法学、语言理论、历史语言学等研究来说,语料库的作用目前大多还是通过语料检索和频率统计,帮助人们观察和把握语言事实,分析和研究语言的规律。语料库方法的发展会使这种仅起辅助作用的手段逐步变成必备的应用资源和工具。利用语料库,人们可以把指定的语法现象加以量化,并且检测和验证语言理论、规则或假设。

在少数民族语言和方言调查研究方面,比较有代表性的工作是“藏缅语语料库及比较研究的计量描写”。它建立了我国境内藏缅语族五大语支82个语言点16万词条的词汇语音数据库,对藏语方言的音节、音位、声母、韵母、声词、词素、构词能力和语音结构等10余项特征作了分布和对比分析。对藏语15个方言点作了语音对应关系和音系对比关系的量化描述,并且在这个基础上做出具有历时和共时比较研究意义的相关分析,得出了语言分类的相关矩阵和聚类分析图表。

在应用语言学领域,词典编纂和语言教学同是语料库的最大受益者。目前已有多部词典在编纂或修订过程中,不同程度地使用语料库或电子文档收集词语数据,用于收词、释义、例句、属性标注等。南京大学近年来开发了NULEXID语料库暨双语词典编纂系统,涉及英汉两种语言,在《新时代英汉大词典》的编纂过程中起了重要作用。从词典编纂的整体情况看,我们还缺少充分的语料资源和有效的分析工具,很多有意义的事情还做不了。譬如,分析语料中显现的词语搭配现象,利用语料库进行词语意义辨析,在动态的语料库中辅助提取新词语,等等。把语料库用于语言教学的一个例子是上海交通大学的JDEST英语语料库,利用这个语料库,通过语料比较、统计、筛选等方法为中国大学英语教学提供通用词汇和技术词汇的应用信息,为确定大学英语教学大纲的词表提供了可靠的量化依据。这个语料库也在英语语言研究中发挥了作用,支持基于语料库的英语语法的频率特征、语料库驱动的词语搭配等项研究。2003年,中国学习者英语语料库由上海外语教育出版社正式发行。这个语料库是一个100多万词的书面英语语料库,涵盖我国中学生、大学英语4级和6级、英语专业低年级和高年级的学习内容,并对所有的语料作了语法标注和言语失误标注。根据这个语料库得到了词频排列表、拼写失误表、词目表、词频分布表、语法标注频数表、言语失误表等,还把这些数据与一些英语本族语语料库(如BROWN,LOB,FROWN,FLOB)进行了某些比较。这个语料库为词典编纂、教材编写和语言测试提供了必要的资源。目前上海交通大学正在建设大学英语学习者口语英语语料库。

在几年来语料库建设和应用的基础上,2003年国家“973”计划开始支持中文语言资源联盟(Chinese Linguistic Data Consortium,简称ChineseLDC)的建立。ChineseLDC是吸收国内高等院校、科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的、通用的中文语言信息知识库。ChineseLDC将建设和收集中文信息处理所需要的各种语言资源,包括词典、语料库、数据、工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。

几年来在计算语言学和语言信息处理领域的学术会议上,语料库的建设和应用一直是重要论题之一。讨论的重点集中在基于语料库的语言分析方法,以及语料的标注、管理和规范等问题上。语言学家更多关心的是语料库的规划和建设,语料库方法在语言研究和教学中的应用。近年来语言学界也召开有关语料库的专门学术会议,譬如2001年由中国社会科学院语言研究所主办、在清华大学召开的语料库语言学与计算语言学研究与实践研讨会(主要讨论了语料库的建设和应用、语言信息处理等问题);2003年由上海交通大学等单位主办、在上海交通大学召开的语料库语言学国际研讨会(会议主题是语料库研究与外语教学)。

第四篇:基于语料库的中国文化负载词汇英译研究

基于语料库的中国文化负载词汇英译研究

[本文为2015年江苏省大学生创新创业训练计划省级项目“基于语料库的中国文化负载词汇研究---以2015年政府工作报告为例”(项目编号:201510332069X)部分研究成果。

江苏省高校哲学社会科学项目“基于语料库的中国英语文化负载词汇研究”(2014SJB554)。]

摘要:本研究以德国功能目的论为依据,探讨2015年《政府工作报告》(以下简称《报告》)中国文化负载词的英译方法。研究采用语料库检索工具Antconc3.2,通过国务院官网2015年《报告》(英文版)报道和中央编译局2015年《报告》重要术语发布建立两个小型语料库。结果发现,2015年政府工作报告英译本词汇具有:实词使用量大、动词名词化显著和解释性名词具有中国特色的特征。通过对政府工作报告的英译文本分析,得出以下结论:《报告》英译是有明确目的的跨文化交际活动,中国文化负载词的英译应遵循“目的法则”,灵活多样地采取直译、直译+增译、意译相结合的翻译方法,以提升中国文化软实力。

关键词:语料库;文化负载词;2015年《政府工作报告》;功能目的论;英译

一、引言

随着自身的全球化和本土化,英语作为世界通用语,日渐与源文化分离,不断产生区域变体,中国英语就是英语在中国本土化之后的使用变体。葛传?耍?1980:91-93)提出,中国英语是以规范英语为核心,表达中国社会文化诸领域特有事物,不受母语干扰,通过英译、借译及语义再生诸多手段进入英语交际,具有中国特点的词汇、句式或语篇。汪榕培(1991:1-8)肯定中国英语是客观存在的,国际著名语言类期刊“World Englishes ”2002年第2期也曾集中刊发了15篇中国英语研究方面的论文,可见,中国英语研究也成为世界英语变体研究的热点之一。金惠康(2003:72-79)认为,中国英语是介绍华夏文明的桥梁,能填补词汇空白、文化空白和中国意念的空白。这些空白标志着中国文化中特有事物的词组和短语,即中国文化负载词,从中可以了解中华民族的价值观、思维方式和风土人情。

中国英语文化负载词汇是中国英语的重要组成部分,其承载的信息量绝不亚于句法和语篇。虽然国内有学者也注意到了中国英语文化负载词汇所折射出的文化身份和意识形态,但这方面鲜有系统性的实证研究,故本文将对2015《政府工作报告》的中国文化负载词汇英译策略和英译方法展开较为系统的研究。

二、研究意义和视角

《政府工作报告》(以下简称《报告》)属政论文体,用词严谨,书面语特征明显,是对上一年工作的总结和新一年工作的部署。《报告》的英译不仅具有传达贯彻党和国家大政方针的重要职能,也是他国了解我国国情、方针政策、政治制度、政治立场等最权威的来源(王小萍,2006:109)。《报告》作为典型的外宣文件,每个词的英译都要仔细斟酌其政治影响。中国外交部官员王弄笙(2004:56-59)曾指出,译文必须准确无误地反映原文,不能偏离原意,更不能曲解原意。

随着中国社会的不断发展,大量反映时代思想和风貌的新词不断涌现。词汇作为语言中最活跃的因素不断更新变化,日益频繁的国际交往也使得词汇的翻译成为了语言中变化最快的部分。(杨原,2006:103-105)早在1991年,Newmark就在其专著《关于翻译》(About Translation)中独辟一章讨论了政治文化负载词汇的特点和英译策略,可见外宣文化交际中词汇翻译的重要性。

德国功能派翻译理论始于1971年,“目的论”是其核心理论。功能目的论的理论基础是行为主义,认为人的行为是在特定的情况下发生的有目的的行为,翻译是在目的语情景中为某种目的及目的的受众而生产的语篇(Nord,1997)。

功能目的论有三大法则:目的法则、连贯法则和忠实法则,后两者必须服从于目的法则。作为一种有目的的跨文化交际活动,翻译的目的决定了翻译的策略。《报告》英译的目的是沟通(王惠,2011),即与世界各国进行平等的文化交流,过度使用异化或归化的翻译策略都是不得体的。

三、语料统计

本文将以Antconc3.2作为语料库检索工具,通过国务院英文官网对2015年《报告》的报道及中共中央编译局对2015年《报告》重要术语的译文发布建立两个小型的语料库。

《报告》英译本的词汇主要有以下三个特征:

一、大量实词的使用;

二、文体正式,动词名词化现象显著;

三、解释性名词颇具中国特色(李楠芳,2012:110)。本文通过统计2015年《报告》英译本前100个高频词,以揭示2015年中国社会发展变化的轨迹和本届中国政府的工作重心,语料数据及分析如下。

1.“We”“we”词频排名第5、第19,总计出现419次;“China”“Chinese”词频排名第16、第19,总计出现101次;“government”“governments”词频排名第20、第92,总计出现91次,表明2015《报告》中“我们(的)”、“中国(的)”、“政府”是主体。“development”“develop”词频排名第10、第15,总计出现169次,表明“发展”是《报告》主旋律。

2.“reform”词频排名第5、第19,总计出现419次,表明2015《报告》“改革”是主基调。“more”“improve”“increase”“promote”“growth”等表示增长含义的词语在《报告》前100高频词中占11个,总计出现445次,表明“改革”的目的是为了促进国家各方面的提升发展。

3.“policies”“policy”词频排名第82、第88,总计出现44次;“economic”“economy”词频排名第36、第68,总计出现76次;“market”“investment”词频排名第58、第62,总计出现52次;“education”“innovation”词频排名第77、第79,总计出现48次,表明2015《报告》对政治、经济、教育、创新等各方面提出了“改革”。

4.网络领域

直译

原文:制定“互联网+”行动计划,推动移动互联网、云计算、大数据、物联网等与现代制造业结合。

译文:We will develop the “Internet Plus” action plan to integrate the mobile Internet,cloud computing,big data,and the Internet of Things with modern manufacturing,“互联网+”是指创新互联网发展的新形态和新业态,促进者经济形态的转变,为中国经济的发展提供了广阔的网络平台。The “Internet Plus” action plan 采用直译的翻译方法准确忠实地表达了“互联网+”这一新词的内在涵义。

5.教育领域

意译

原文:提供跟多优秀文艺作品,倡导全民阅读,建设书香社会。

译文:We will ensure that more outstanding works of literature and art are created for the people to enjoy,and encourage a love of reading in all our people to build a nation of avid readers.“书香社会”的文化内涵在于倡导“全民阅读”,建设学习型社会。“avid”意为“热衷的,热切的”,用“avid readers” 体现全民阅读的氛围,以名词化结构“a nation of avid readers”对“书香社会”进行意译,传达了丰富的内在含义,简洁明了的表述也有助于语篇得到的衔接,体现了功能目的论的连贯法则。

五、结语

本文运用语料库的研究方法,在德国功能目的论的研究视角下,对2015《报告》的中国文化负载词进行了较为全面的英译方法分析。中国文化的输出,在很大程度上取决于翻译工作的力量。(黄友义,2008:6-9)报告》的中国文化负载词汇英译需在“目的法则”的指导下,贴近中国发展的实际、贴近国外受众对中国信息的需求、贴近国外受众的思维习惯,(黄友义,2004:27-28)采用灵活多变的翻译策略和翻译方法,才能实现《报告》外宣目的,让世界了解中国,向世界传播中国的声音。在当今的全球化语境下,本研究对提高中华文化软实力和国际影响力、推动中华文化走向世界、增强中华文化在世界文化交流中的话语权、切实维护国家文化安全方面具有重要的现实意义。

【参考文献】

[1] Nord,C.Translating as a Purposeful Activity Functionalist Approaches Explained[M].Manchester:St.Jerome Publishing,1997,7

[2]黄友义.坚持“外宣三贴近原则”处理好外宣翻译中的难点问题[J].中国翻译,2004(6):27-28

[3]黄友义.发展翻译事业,促进世界多元化文化的交流与繁荣[J].中国翻译,2008(4):6-9

[4]金惠康.汉英跨文化交际中的CHINA ENGLISH[J].广东职业技术师范学院学报,2002(2):72-79

[5]李楠芳.《政府工作报告》英译本的词汇特征[J].湖北经济学院学报,2012(11):110-112

[6]王惠.从目的论角度看《政府工作报告》的中译英[D].北京:外交学院,2011.[7]王弄笙.十六大报告汉英翻译的几点思考[J].中国翻译,2004(1):56-59

[8]汪榕培.中国英语是客观存在[J].解放军外语学院学报,1991(1):1-8

[9]王小萍.中国党政热点词语英译[M].广州:广东人民出版社,2006:109

[10]王银泉.“福娃”的英译之争与文化负载词的汉英翻译策略[J].中国翻译,2006(3):74-76

[11]杨原.有关中国特色的政治经济词汇的英译[J].邵阳学院学报,2006,5(2):103-105

[12]张顺生.谈俗语“打铁还须自身硬”的英译[J].上海翻译,2013(2):54-56.

第五篇:如何利用语料库辅助语言教学与研究(BNC)

如何利用语料库辅助语言教学与研究(BNC)

一、绪言

语料库是专门用于语言材料检索和统计的工具,包括为某一目的而收集的大量电子文本(加标注或未加标注)和专门的语料检索和管理程序。其最大的特点是能快速提供大量真实的语言材料并进行相关统计(如词频和搭配词等),已广泛运用于词典、教材、语法书和词汇表等的编纂及语言研究中。然而,语料库在日常外语课堂教学和学生自主学习中并没有得到广泛运用,至少在中国是如此。这一方面是由于对语料库在教学中的运用缺乏有力推广,加价格、市场等因素使得购买商用语料库有难度,自己建设语料库又需花费较大精力,另一方面人们对如何获取网上免费语料库资源缺乏了解。

语料库在日常英语课堂教学和学生自主学习中能够起到多种作用。作为一种高效的语言检索工具,它所提供的大量真实语言实例能提示从构词、词短语到句法结构乃至语篇几乎所有语言单位的语言生态(language ecology),包括语境、搭配规律、使用频率、语义和语用等。语料库的获得和个人建设虽然面临诸多困难,但幸运的是,开放的互联网为广大英语教师和英语学习者提供了接触和使用语料库的机会。

二、网络语料库的运用 1.英语单语语料库

目前,语料库运用于日常英语课堂教学的主要还是英语单语语料库,互联网上的情况也是如此。网上有许多大型通用语料库(单语)提供在线检索,其免费服务虽功能有所限制,但已能满足中学英语教学和学生自主学习的需求。如1亿词次的英语国家语料库(BNC)(http://view.byu.edu/)和5600万词次的柯林斯在线词库(Collins Wordbanks Online)(www.xiexiebang.combination),并能指定检索词词性,功能强大,检索方便,可在日常中学英语教学中加以运用。

1)提供语用实例

语料库在线检索在日常英语课堂教学中最常见的用途是提供大量典型语例。当传统方法(如词典)无法提供足够的典型例句时就可检索网上语料库。如“wet”一词语义很丰富,而其动词用法在教学中关注不多,词典也没有提供足够的语用信息。利用以上语料库在线检索(此处指柯林斯,检索表达式为“wet/VERB”,详细用法参见检索页使用说明),便可呈现它作动词时的大量语用实例,下面是部分检索行实例(concordance line)(经过整理):

Wet your face thoroughly before using the product.Yeah, They wet their pants and cry a lot.“[p]No.”She eased me, Sumner wet the bed every night.It would be impossible…

对于词汇的某一具体用法,如该词的“wet the / one’s bed”,词典就更缺少语用信息。为了解其实际使用状况,如语境、使用频率等可用该结构做检索词进一步检索,通过大量真实的语例使学习者感性地认识到本族语者确实广泛地使用该用法,这能提高学习者语言输出的信心和质量。下面是从柯林斯检索获取的部分例子:

(1)Even dry children may wet the bed under stress, like a change of school, a divorce or moving house.(2)1982 found that one-third of normal 3-year-olds still wet three or more times a week.2)揭示搭配规律

展示语言搭配规律是语料库最主要的特色。搭配也是目前中学英语教学中常常被忽视的地方,这和教师对语言的认识、对搭配的敏感程度及自身拥有的搭配能力密切相关。语料库的运用正好能提供大量的搭配信息,弥补英语非母语教师搭配能力的不足。其呈现形式也有助于提高教师和学生的搭配意识(collocational awareness)。从语料库运用于语言教学的角度,最直接的方法是根据检索词的特点将检索行排序以突显检索词左边或右边的搭配规律(谢家成,2004)。不过,由于网上语料库检索行缺乏排序功能,可将检索行拷贝下来进行手工整理归纳,限于篇幅,本文不便例示。

除了通过检索行直接观察语言实例以发现和归纳语言搭配外,利用语料库提供的基于统计方法自动获取的搭配词也有助于搭配学习。最为有效的是一个称为“词语素描”(Word Sketches)的网站(www.xiexiebang.come was high, say 90%, but the market went otherwise from your expectation? What did you do then? 2)Have you ever had a case where you did not know occurred and had to seek other’s advice? 搜索引擎不仅可用于揭示语言运用规律,也可用于查询没有把握的英语表达,观察该表达是否被母语者广泛使用。如汉语“小雨”,当不能肯定其对应英语表达是“small rain”或“light rain”,或者两者皆可时,我们便可以在网上搜索。不过我们应充分认识到开放的互联网语料库自身的不足,为保证语料的可靠性,需要查看网址来源、文章作者等以判断某一语料是否来自英语本族语者。当然,前文提到的网络语料库也可以用来验证有疑问的英语表达,如“light rain”在BNC中检索到47个语例,而“small rain”则只有一个语例,哪个更地道就显而易见了。由此可见,专门的语料库和直接利用网络资源的开放语料库各有优势和局限,适合不同类型问题的查询。一般在专门的语料库无法满足需要时,我们可求助规模更大的开放语料库;二者也可相互补充。

四、结语

充分且真实地道的语言输入是外语学习的重要条件,网上各种语料库工具正是提供这种资源的有效途径之一。这些丰富而典型的实例无论是教师归纳讲解,或是课堂实时演示,或是改编成练习,或是学生自主检索和探索学习,都能极大促进语言教学与学习效率,促进所学语言内化。由于语料库的语料对中学生难免会有一些难度,教师对语例的选择和归纳应是不可或缺的工作。教师和学习者均应具备强烈的语用实证意识,对任何语言疑难问题、语用和搭配规律等都应尽可能利用多种工具查询,尽力寻求客观而充分的解释。

参考文献:

1.Eastment, D.(2003)Googling.ELT Journal,(1): 91-94)2.谢家成“个人英语教学语料库的运用”,《电化教学》2004年第2期

下载语料库研究综述word格式文档
下载语料库研究综述.doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐

    国内语料库建设一览表

    类型 英语学习者语料库(书面语及 口语) 平行语料库 国内语料库建设一览表 语料库名称及大小 中国学习者语料库 CLEC(100万) 大学英语学习者口语语料库 COLSEC (5万) 香港科技大......

    语料库的应用(最终)

    语料库的应用 语料库方法广泛应用于语言学理论研究、军事等领域。当代语料库语言学(以语料库方法为取向的研究语言的分支就被称为语料库语言学)已是高歌猛进,日新月异,新的语料......

    基于语料库的英汉双及物构式扩展对比研究

    基于语料库的英汉双及物构式扩展对比研究 摘要:语言是人与人之间沟通的重要基础,也是社会发展乃至世界发展的重要沟通方式。本人主要从双及物动词为出发点,以BNC语料库以及CCL......

    基于语料库的韩国留学生汉语“是”字结构习得研究

    基于语料库的韩国留学生汉语“是”字结构习得研究 摘 要:“是”字结构是汉语中出现频率很高的结构类型。高级阶段的韩国留学生已经基本完成了所有“是”字结构的学习,大致上掌......

    雅思写作语料库--网络游戏的利弊

    Some people think playing computer games is bad for children on everything.Others think it has some positive on the way children develop. Discuss both sides and......

    基于语料库的美国总统就职演说的词汇学分析(DOC)

    摘 要: 通过语料库检索软件 Ranger 和 Antconc,研究 1789 年至 2013 年共 56 篇美国总统就职演讲语言的词汇特征。结果表明,词汇难度,演说辞均主要运用英语中最常用词汇,而次常......

    语料库在对外汉语教学中的应用专题

    语料库在对外汉语教学中的应用卢 伟摘要以语料为基础的语言研究方法及其成果语料库,在对外汉语教学与研究方面可以得到广泛的应用。现代汉语语料库可以为编制教学大纲提供定......

    雅思写作语料库--健康管理是有益个人的良好习惯

    【健康类】: Staying healthy by playing sports and eating well should be an individual’s duty to society rather than a habit for personal benefits. Do you agree......