第一篇:浅谈机器翻译与机器翻译教学
浅谈机器翻译与机器翻译教学
刘 宏 伟
(长沙师范学校
外语系,湖南 长沙 410100)
摘 要:机器翻译是利用翻译软件把文本内容从一种自然语言转换成另一种自然语言的过程。鉴于翻译市场、翻译学科的发展、翻译人才培养模式改革等需要,有必要进行机器翻译教学。机器翻译教学的主要内容包括:词典类翻译软件、教学全文和汉化翻译软件、教学在线翻译软件、教学翻译记忆软件教学等。
关键词:机器翻译;机器翻译教学;翻译软件 中图分类号:H059
文献标志码:A
近年来,社会对高质量的口笔译人才和研究人才的需求与日俱增。人们对翻译学科有了新的认识,译学界开始进行反思,建立独立翻译学科的意识日渐觉醒,对翻译学的讨论已经从“翻译学是否存在”深入到“翻译学作为一门独立的学科应该怎样发展。”[1]同时,在翻译学者的不懈努力下,经教育部批准,上海外国语大学于2004年自主设立了“翻译学”二级学科。2006年,复旦大学、广东外语外贸大学和河北师范大学经教育部批准设置翻译专业。2007年,经国务院学位委员会批准,中南大学等15所高校招生翻译硕士。到目前为止,全国共有13所本科院校设置了翻译专业,15所高校招生翻译硕士,2所高校招生翻译学博士。随着翻译学学科地位的不断提升,越来越多的研究人员把关注的目光投向了翻译研究和翻译实践,将现代技术融入翻译教学当中。开展机器翻译教学,培养技术类翻译人才以满足市场的需求,成为一个值得思考的问题。
一、机器翻译简介
(一)机器翻译的定义
不同学者给机器翻译下了不同的定义。有学者认为“机器翻译”就是“利用计算机进行翻译”[2]。机器翻译(MT),就是利用机器(计算机)翻译系统,把人类语言翻译的法则转变成电脑的运算法则,使得电脑根据运算法则,将输入的源语言(Source language)翻译成所需要的目标语言(Target language)。[3]另有学者认为“机器翻译”就是“利用计算机把一种自然语言转变成另一种自然语言的过程。用以完成这一过程的软件叫做机器翻译软件。”[4]还有学者认为机器翻译包括三种概念:(a)机器翻译(machine translation):全部翻译由机器完成,但是其结果必须经人工修订;(b)辅助手段(computer aids for translators):翻译活动由人工进行,机器翻译只是作为人们翻译时使用的辅助工具;(3)非翻译人员为获取梗概大意偶尔使用的机器翻译系统(translation systems for the“occasional”non-translator user)。[5]我们认为,“机器翻译”就是利用翻译软件把文本内容从一种自然语言转换成另一种自然语言的过程。
(二)机器翻译的发展历史
1.国外机器翻译的发展历史。20世纪30年代初,法国科学家G·B·阿尔楚尼最早提出机器翻译的设想。1933年,苏联科学家P·P·特罗扬斯基提出借助机器进行翻译的详细步骤,并设计出由一条履带和一块台板组成的依靠机械原理进行翻译工作的样机。1946年,英国和美国的两位工程师A·D·布思和W·韦弗首次提出利用计算机来进行翻译,并于
[6]1949年出版了《翻译备忘录》一书。1954年,美国乔治敦大学和国际商用机器公司(IBM)首次联合试验使用电脑机译系统,并将由250个词组成的简单的俄文材料译成了基本上可以接受的英文。这次试验的成功标志着机器翻译系统的真正诞生。此后,美国、苏联、日本、意大利、比利时、英国、德国等国便掀起了机器翻译热。
2.国内机器翻译的发展历史。1956年我国开始研究机器翻译。1959年,中国的机器翻译研究者成功地进行了中国首次机器翻译试验表演。文革中该项研究被长期搁置。20世纪80年代初机器翻译研究得以继续,受到高度重视。1987年中国军事科学院成功研制出“科译1号”,这标志着我国机译系统从无到有。1992年,中科院计算机研究所推出了在工作站上运行的“863智能型英汉翻译系统”。[7]此后,天津大通通译计算机软件研究所研制出“通译”翻译软件、中国软件总公司研制了“译星”翻译系统和中国科学院语言研究所研制出了“高立”翻译系统等。1997年底,东方快车以“智能汉化”为口号,在国内掀起翻译软件的高潮。1998年是中国翻译软件最红火的一年,国内出现了通译、译星、朗道、即时通、汉神、RoboWord、Internet宝典等几十种翻译软件。1999年8月,国内首个集记忆、交互、分析于一体的计算机辅助翻译软件——雅信CAT 1.0英汉版正式推出。20世纪末计算机辅助翻译(CAT: Computer-Aided Translation)随之诞生并高速发展。[8]
二、开展机器翻译教学的必要性
(一)翻译市场的需要。随着我国改革开放的不断深入,国际交往、涉外商贸和涉外旅游越来越频繁,翻译的需求正在以惊人的速度发展。特别是我国加入WTO后,国际化趋势愈加明显,这种需求将更加受人瞩目。根据国际本地化行业标准协会(LISA)和美国一家权威机构对世界翻译市场的调查显示,目前全球年翻译产值超过130亿美元(其中亚太地区占60%),2006年达到了227亿美元。2007年中国翻译市场产值超过300亿元,中国翻译市场需求正面临着急剧膨胀的趋势。据统计,中国在岗聘任的翻译专业人员约6万人,而此行业的保守需求值约50万,随着社会经济的发展,很快就会达到100万,目前翻译人才的缺口高达90%。[9]在这种情况下,充分利用计算机辅助翻译技术,提高翻译的速度,显得十分必要。据介绍,一般计算机每小时可翻译三万字左右,每屏译速只需15-20秒。因此,开展机器翻译教学,使翻译人员了解并运用相关的机器翻译软件,提高翻译的效率,成为当务之急。
(二)翻译学科发展的需要。目前,国际上不少大学根据翻译学科发展的需要,除了从事包括机器翻译在内的自然语言处理技术的研究、建立翻译教学与研究机构之外,还在翻译课程中对翻译技术和翻译工具使用的教学予以高度重视。然而,中国内地有关的高等教育机构对翻译新技术的教学却至今未能予以足够的重视,所开设的翻译课程几乎很少涉及翻译技术和一些新技术、新工具的使用。国外以及香港、台湾等地区的一些高校在机器翻译教学方面进行了许多研究和实践;香港、台湾一些翻译教学系所也开设了不少相关的课程,并与翻译公司结合进行翻译技术的教学实践,开办以计算机辅助翻译技术训练为主的研究生班等。反观中国内地,机器翻译和翻译技术的教学依然是一个比较陌生的概念。河北师范大学和中山大学等高校开设了机器翻译或计算机辅助翻译课程,在机器翻译教学上做过尝试,培养过一些学生,但是从其课程设置、培养模式和毕业生情况来看,培训成效尚不十分显著。因此,有必要开展机器翻译教学,使其通晓机器辅助翻译基础知识,熟练掌握相关翻译软件的运用,强化翻译职业技能。
(三)翻译人才培养模式改革的需要。有学者指出:“目前国内大多数高校培养翻译专业或英语专业(翻译方向)人才的目标定位主要是培养高校教师、文学翻译和口译人员,其培养模式基本上是沿袭传统的文学和语言学的翻译理论和实践方法。尽管当今的社会和市场对技术翻译人才的需求量相当大,国内的高校对技术翻译人才却没有予以足够的重视„„这种现状无疑不利于我国的翻译人才尤其是技术翻译人才的培养。”[10]而国外翻译公司以及国内一些大型翻译公司招聘译员时,不仅要求译员经过专门的翻译培训,而且必须具备翻译软件使用和其他高新技术使用的技能,这就要求高校开展机器翻译教学,把现代信息技术融入翻译教学当中,培养技术类翻译人才以满足市场的需求。
三、机器翻译教学的主要内容
机器翻译怎么教、应该教哪些内容,也是专家学者讨论研究的问题。根据市场对应用型翻译人才的需要,目前机器翻译教学不宜过深,应当注重实用性。机器翻译教学除简单介绍一下机器翻译的基本理论,如机器翻译的定义、发展历史及特点外,其教学重点介绍机器翻译软件的使用方法,并加强实践操练。根据软件的翻译特点,大致可以分为四大类:词典翻译类软件、在线翻译、全文和汉化翻译软件以及翻译记忆软件。机器翻译教学主要介绍翻译软件的运用。
(一)词典类翻译软件教学。词典翻译类是翻译软件的鼻祖,以词为翻译单位,最初的形式是电子词典。它利用计算机储量大的特点,储存了几万乃至几十万的词汇,能自动显示一个或多个目标词以供选择。与手工翻阅字典相比,它的最大优点是迅速方便。此类翻译软件按其承载介质或功能的不同可分为芯片词典、单机词典、网络词典。[11]目前,我国市场上的芯片词典主要有快译通、好易通、商务通、名人、锦囊、佳能等;网络词典主要有爱词(http://.[2] MARIEKE N.The Soldiers are in the Coffee-An Introduction to Machine Translation[EB/OL].(2000-10-)[2002-07-05].http://www.ukoln.ac.uk.[3]冯志伟.机器翻译研究[M].中国对外翻译出版公司,2004:1.[4]黎斌,唐跃勤.谈我国机器翻译软件[J].四川教育学院学报,2004(3):52.[6]卢文林.机器翻译发展概况[J].农业图书情报学刊,2002(4):24.[7]张政.机器翻译刍议[J].中国科技翻译,2004(2):24.[8]吕学强.机器翻译概述[J].辽宁师专学报,2002(3):8.[9]李江涛.目前中国翻译人才缺口高达90%[J].世界教育信息,2006(4):5.[10]袁亦宁.翻译技术与我国技术翻译人才的培养[J].中国科技翻译,2005(2):51-54.[11]章宜华.计算机辅助翻译漫谈[J].上海科技翻译,2002(1).[12]吕立松,穆雷.计算机辅助翻译技术与翻译教学[J].外语界,2007(3):37.On the Machine Translation and Machine Translation Teaching
LIU Hong-wei(Department of Foreign Language,Changsha Normal College,Changsha 410100,China)
Abstract: Machine translating is a process during which translation soft wares are used to change one natural language into another.In view of the translation market,the development of translation discipline and the reforms of translating talents models,it is necessary to start machine translation teaching.The machine translation teaching includes translation soft wares of ictionaries,online translation soft wares,teaching translation memory soft wares and so on.Key words: Machine translation;machine translation teaching;translation soft wares
第二篇:机器翻译实习报告
机器翻译实习报告
06级 机器翻译 寇恩波
两个月的实习马上就要结束了,回学校的日子也已经定了,回首这两个月的日子真是感慨万千,此次实习真是获益匪浅,不敢说实习成果丰硕,但自己是真的成长成熟了。五月四日下午我们赶到了实习单位—河北沧州新中联特种钢管有限公司。我们可谓是舟车劳顿,人困马乏啊!公司领导很热情接待了我们。我们被安排在国际贸易部,也就是销售二部,作为销售和翻译人员进行实习,实习期八周。领导也很快为我们解决了住宿等生活问题。
五月五日我们就算正式上岗了,认识新同事,一阵寒暄之后,进入自自己的小格子间开始熟悉公司,首先我们从公司的简介开始看起,公司的简介是中英文结合的,就是每段中午介绍后面都有相应的英文翻译。不得不说公司简介上的某些地方的翻译有十分明显也十分低级的错误,考虑了一下我们并没有指出,因为这极有可能是公司在某种程度上的宣传。必须肯定的是这个翻译从整体上说还是很不错的,假若让我来做,肯定做得还没有他好呢,我也明白这正是我们要学习和提高的地方。
接下来的几天几乎整天对着这本薄薄的简介,情绪有些懈怠,感觉在浪费时间,这么看也不能再看出什么来了。此时我们部长建议我们去车间实践,去看看,因为不管是做翻译工作还是做销售工作,对所要经营的产品必须相当熟悉才行。一进车间,很惊讶,大大小小的管子很多,堆放在材料区,那边还有正在加工的管子,总算知道管子是如何由圆的变成方的了。公司主要是把圆管碾轧成方矩形钢管,是对成品钢管进行二次加工来满足客户市场的需求,其主要用途很多,比如在机械设备,结构制造,桥梁幕墙等都有广泛的使用。
车间主任和生产部长很欢迎我们。我们在车间也很新鲜,我们有时也和他们一起做质量检查,也慢慢对产品有了一定的认识和了解,对产品的材质、型号和用途也慢慢熟悉了。不过毕竟是学生,我们举手投足间都是学生气,连车间的工人都说你们一看就知道是学生了。我们自己也感觉到和他们不一样,和办公室的同事也完全不同,看问题的角度也和我们一同。我们显得很幼稚,最初我们很不适应,连部长也批评过我们。
由于经济危机的爆发,使世界经济受到巨大冲击,再加上甲型H1N1流感病毒的蔓延,也在一定程度上影响了不景气的经济,公司的国外业务也深受影响。这两个月没有一个外商来公司洽谈业务,我们很郁闷,觉得作为翻译专业的学生实习内容与翻译毫不相干,那我们不是在浪费时间吗!这样的实习有什么用啊?我们几乎有点破罐子破摔的感觉了。自己是真的想不明白,于是就和同事、同学和老师交流,也对自己对实习有了正确的认识。实习不是非要和专业对口,当然了相关是最好的了。实习是给大学生从学校走向社会的一个跳板,是给大学生从学校到社会的一个缓冲空间,毕竟学校和社会是完全不同的。尤其现在大学生太多了,一个砖头扔出去砸死十个人,其中九个找工作的大学生,一个是刚找到工作硕士生。而且现在就业形势特别严峻,很多毕业生就是毕业就失业,心理压力很大,容易出现心理问题,万一处理不好,严重后果可想而知。一个人生活不可能只接触和专业相关的问题,谁能保证自己毕业后的工作就一定与专业对口呢?还有实习换一个环境,特别是和学校完全不一样的环境,还可以锻炼自己的很多能力,生活能力,交流能力甚至是工作上发展潜力等。其中不能忽略的还有上下级和同级同事间的相处问题。而且公司的总经理也给我们开了会,会上他语重心长的批评和谆谆告诫也让自己有了醍醐灌顶的顿悟。必须要现实,要正确对待实习,你知道的越多,你就要更加努力的学习,因为你会发现你不知道的也越多!
后来实习,自己发现销售远不是自己想像的那样简单,尤其是现在互联网的大力发展,是公司业务趋于透明化,加上经济危机的爆发,使公司业务受到很大打击不管是国内还是国
外业务,要想做好销售很难啊!
由于公司是对成品钢管进行二次加工成型,有一定得特殊性,相对整个钢管生产还是有一定的竞争力,在沧州只有我们一家公司才能做这样的业务。我很佩服公司领导的独特眼光和远见卓识,能够发现市场上这个需求的空白,且能抓住时机,如今公司成立才两年多,但国内外的业务做的很多也很广,其加工的产品遍布世界各地,和欧洲、非洲等国家都有业务往来。
我们部的同事大部分都是从网上联系业务,在网上发布供求信息,寻找网络上的求购信息,联系发布人,确认产品型号、材质等,再和生产厂家联系询价,给客户报价,商榷是否能成交,若双方达成一致,在拟定合同等。这些环节看起来很简单,但真的实践起来很是能考验一个人的能力呢!
公司业务忙的时候,看他们忙得和陀螺似的,很想帮他们,可是发现我们对产品的认识只是皮毛,甚至连皮毛都不够,真的觉得不知所措!公司有一个同事是今年二月份来的,是个大学毕业生,但是这几个月来一单业务都没有谈成。想想只有两个月实习期的我们想要做出成绩来,岂不是成了蜀道行了,蜀道难,难于上青天啊!这不是不自信,我们不比别人聪明多少,别人也不比你傻多少。每每想到这就很失落,很想放弃。但是转念一想,努力去做不一定能有成果,但不努力一定没有成果!实习是为了学习学校里学不到东西,而这里所有都是学校所没有的,我们还有什么理由不努力呢!
两个月的实习也让我们发现了很多我们存在的问题:眼高手低,想当然,好高骛远,不切实际等。也充分认识到了脚踏实地的重要性,好高骛远只会一事无成,不要把不切实际看成是远大理想。我们必须要从实际出发,从基本出发,一点点积累经验,一口吃个胖子是不可能的,一蹴而就简直是痴心妄想了。要想把工作做好,做到熟练自如,游刃有余必须得付出巨大的努力,必须要有一如既往的恒心,三天打渔两天晒网的纯属浪费时间和生命!
工作不比上学,在发现工作的乐趣的同时也意识到了工作的枯燥乏味。工作就失去了一大部分自由了。像我们以前上网纯属娱乐,看看电影、玩玩游戏、下载歌曲、聊聊QQ,再觉得没意思电脑一关操场上运动去了。而工作的同事们天天对着电脑发布信息、联系业务,搁办公室一待就是就是八个小时,基本不干别的,当然公司规定也不让干别的。忽然想到少年不知愁滋味还强说愁的意境了,不正是我们以前的真实写照吗!
社会很现实,甚至太现实,而我们不够现实。我们所关心的是理想,而他们面对的是生活。不现实就没有工作,没有工作就没有饭吃,都没有饭吃谁还会空谈什么理想!也明白为什么那么多棱角分明的人工作后都被现实的社会变得圆滑世故了。这个世界不是你的,也不由着你,他不会去适应你,你若想生存,你就得努力自己改变自己去适应他。人,首先是生存,然后是生活,再然后才是理想。而我们大部分人为了生存苦苦挣扎拼命奋斗到了生活就只会享受了,早把理想抛到九霄云外了。所以正在实现自己理想的人太少了!而我们现在关心理想貌似是不太现实了一点。
这两个月实习很平静但很充实。虽然没有一次参与接待外宾,但是我们仍然学到了很多东西,虽然和专业不相关,但是所学的必有用,不管是什么,都有可能在日后给你提供帮助。这为我以后参加工作奠定了一个良好的基础,自己的心态也发生了翻天覆地的变化,戒娇戒躁,戒痴心妄想,戒好高骛远,要脚踏实地,要努力从实际出发,正确认识自己,不能妄自菲薄更不能自卖自夸。
两个月的实习虽然没有让自己脱胎换骨,但是让自己从思想和心态上都发生了很大的变化,对社会有了一定认识,对工作尤其是销售有了一定的认识,对自己也有了更深的认识,感觉自己是真的成长了,也成熟了。
特别感谢学校和公司给我们提供的这次极其难得的机会,也要感谢实习期间给与过我们帮助的所有人,谢谢你们!
第三篇:机器翻译技术的现状及发展
机器翻译技术的现状及发展
摘要:本文在分析机器翻译内涵的基础上,阐述了机器翻译的历史和现状,探讨了机器翻译所面临的问题及机器翻译的发展趋势。
关键词:机器翻译;自然语言;发展趋势
1.引言
《圣经.创世纪》中第十一章巴别塔:“耶和华说:看哪,他们成为一样的人民,都是一样的言语,如今既作起这事来,以后他们所要作的事就没有不成就的了。我们下去,在那里变乱他们的口音,使他们的言语彼此不通。于是耶和华使他们从那里分散在全地上;他们就停工,不造那城了。因为耶和华在那里变乱天下人的言语,使众人分散在全地上,所以那城名叫巴别(就是变乱的意思)[1]。”这只是圣经故事,但告诉我们语言的不同确实是人们交流的极大障碍,因此人们一直在寻找打破语言障碍的途径和办法。翻译则能克服语言障碍,使得不同语言人们之间能相互交流。谭载喜在他的《西方翻译简史》一书中提到我国的翻译史时说:孔子周游列国,在各地言语发音不尽相同,彼此交流甚少的当时,也不得不通过象寄之才(即翻译人员)以“达其意,通其欲”。随着互联网的日益发展,网络信息的激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。
2.机器翻译的定义
计算机翻译通常叫机器翻译(Machine Translation或MT),即全自动高质量机器翻译(Fully Automatic High Quality Machine Translation,简称FAHQMT或MT),就是人类利用计算机进行自然语言间的相互翻译,利用软件实现从一种自然语言文本到另一种自然语言文本的翻译[2]。
3.机器翻译的历史与现状
在古希腊时代就有人提出利用机械装置来进行语言翻译的想法,其中之一是如何用机械手段来分析自然语言。17世纪,人们首次提出使用机械字典克服语言障碍的设想。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W.Rieger)首次使用了“机器翻译”(Machine Translation)这个术语。1952年在美国麻省理工学院(MIT)召开了第一届国际机器翻译会议,标志着机器翻译正式迈出了第一步。1978年在中科院计算机所的一台64K容量的计算机上成功地进行了20个标题的机器翻译测试。1987年在日本箱根举行了第一届机器翻译峰会(MT Summit),并决定以后每两年轮流在亚、欧、美定期举行。20世纪90年代后,随着微机的普及,相继出现了多种翻译软件,例如金山公司的词霸系列,实达铭泰的东方快车系列,Trados 翻译软件等。到目前为止,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译已经取得了相当大的进步,不过,机器翻译的水平距理想的“全自动高质量(FAHQ)”的目标还有很远的距离[3]。4.机器翻译面临的问题
4.1影响机器翻译质量的核心是歧义的处理。在词汇的层面上,词汇的歧义主要是一词多义,如英语单词“note”可以指“笔记”、“短信”、“注释”、“纸币”等。以下是词汇歧义的例子:
原文:Thank-you notes are heart-warming.机器译文:感谢笔记温暖人心。人工译文:感谢信温暖人心。
在结构层面上,常见的结构歧义有 and(和)结构,如 nice girls and boys, 它既可表示“好女孩和男孩”,也可表示“好女孩和好男孩”,这种歧义只有人工翻译才能消除,计算机无法识别此歧义,可见歧义的处理是影响机器翻译质量的关键。
4.2人类翻译目标集中于目标语言,如果有必要的话,译者会采用灵活的方式以使翻译传情达意,有的时候会使用意译的方法,这是机器翻译所无法达到的。以文学翻译为例,文学翻译是“传达作者的全部意图,即作者对在读者思想感情上产生艺术作用的全部意图……”。即使对于专业翻译工作者来说,文学翻译也不是件容易的事,更何况是对于没有任何认知能力的机器。笔者曾让机器翻译了下面几句:以下是美国19世纪著名作家爱默森长篇散文Beauty中的原句。
原文:“But this beauty of Nature which is seen and felt as beauty, is the least part.”—Beauty Ralph Waldo Emerson
机器译文:但是这哪个看见并且作为美丽感到的自然的美丽,是最小部分。夏济安译文:可是凡是耳目所能辨认出来的美,只是自然之美的最低部分。以下是美国著名作家马克.吐温早期创作的一则优秀短篇小说《竞选州长》中的原句。原文:“I hauled down my colors and surrendered.”
—Running For Governor Mark Twain 机器译文:我沿着我的颜色拖并且投降。张有松译文:我偃旗息鼓,甘拜下风。
以上机器译文荒唐可笑。由于机器没有思维、推理、判断能力,缺乏人工译者的综合知识和长期积淀下来的文化知识等,无法对原文产生全面的了解,做的只是机械转码,无法突破思维障碍。要获得地道完整的译文,必须对机器译文进行人工
修改、加工。
5.机器翻译的发展趋势
机器翻译的质量虽然不能和人工翻译相提并论,但有许多优势是人工翻译所不具备的。我国著名计算语言学与机器翻译专家董振东说:“美国要开发一种口语翻译机,专门用来审讯与美国人语言不通的塔利班俘虏。如果用人来做翻译,由于语言不通,即使翻译被塔利班收买,对美国人信口胡说,美国人也不会知道,而机器就不可能出现这种情况。这机器现在有没有发明出来,能到什么翻译水平还不得而知,但这至少是一个相当好的发展领域。” 因此,发挥机器翻译的自身优势是决定机器翻译发展趋势的重要因素之一。机器翻译的发展趋势是解决人工智能的技术问题。“假设要从人工智能上有所突破,那只能在神经网络和模糊计算上寻找出路。”为了探索人工智能,使电脑模仿人脑,进行更多的智力劳动,模糊计算便应运而生。神经网络和模糊计算都是通过对人脑的结构和推理方式的模拟来实现计算机的智能化。“只有人脑才能和人脑相比”——这看似废话,对于机器翻译来说,却是技术上真正意义上的突破口。
6.结语
目前,机器翻译的水平较50年前有了很大的提升,但要彻底克服语言障碍,使MT投入实际应用,还需数学家、计算机专家、人工智能专家、语言学家、心理学家、认知学家、逻辑学家等通力合作,共同努力,从理论研究和应用开发上有所突破,相信机器翻译会到达光明的彼岸。
参考文献
[1] 李娟,《圣经旧约名篇精选(英汉对照)》[M].天津人民出版社,2002
[2] Hutehins, W.J.et al.An Introduction to Machine Translation[M].Academic Press, 1992
[3] 张有松译,《百万英镑/马克.吐温中短篇小说选》 [M].译林出版社,2008
第四篇:“一带一路”需过语言关 网络机器翻译蓄势待发
具有深远意义的“一带一路”战略构想涉及俄罗斯、印度、泰国等超过六十个国家,近四十亿人口,四十多种语言,将极大的促进沿线各国的深度合作和交流。
提到合作与交流,首先摆在我们面前的便是语言问题。如何跨越语言障碍,实现各国互联互通呢?全球一体化时代,单靠人力显然是不能完成这样的艰巨任务。好在科技的进步给我们提供了解决方案,以机器取代人,让机器扮演翻译这一重要角色,不仅具有很强的战略意义,在实际经济和文化生活中也举足轻重。
显然,这并不是一项轻松的工作,机器翻译需要凝聚计算机、认知科学、语言学、信息论等学科的知识,是人工智能的终极目标之一。国内外的一些行业巨擘都在这一领域发力,努力研发出具备高度可用性的机器翻译技术。百度也是这一领域的佼佼者,联合了国内顶级学术机构展开研究,中国科学院自动化研究所、浙江大学、哈尔滨工业大学、中国科学院计算技术研究所和清华大学等悉数在列。
爆发式增长的数据规模给机器翻译带来新的想象空间,百度依托得天独厚的大数据优势,取得了机器翻译核心技术的多项突破。
先进的机器翻译背后蕴含着怎样的高科技呢?下面我们一探究竟。
互联网学霸:
高质量翻译知识获取技术
蹒跚学步是新生儿必须经历的过程,当一个人接触到翻译这个工作的时候,熟悉和掌握大量的双语词句就是这个学步的过程。只有了解了大量语句的常用翻译方法,才可以举一反三,融会贯通。我们可以将这个过程理解为“背诵例句”的过程。作为个人,要背诵成百上千的例句就颇为不易,挑灯夜战,痛苦不堪,往往还需要反复背诵以加深记忆。
百度机器翻译同样有着这样“背诵例句”的过程,所不同的是,它的背诵能力超出了大多数人的想象。
百度研发了基于互联网大数据的高质量翻译知识获取技术,突破了传统翻译知识获取规模小、成本高的瓶颈。互联网就是百度机器翻译的语料库的来源,而基于网页自主拓扑结构和内容互译计算的语料获取方法,也解决了互联网翻译知识质量控制的难题。
百度机器翻译“背诵例句”的规模有多大,通过一个数据可以窥豹一斑:“例句”的数量如果按照字数换算成《大英百科全书》,翻译系统在一周内学习的内容相当于千万部《大英百科全书》。
即便是最强悍的人类学霸,在这种规模的语料学习前也将一败涂地。
翻译方法的突破:
基于互联网大数据的翻译方法
如果将互联网大数据比喻为浩瀚的大海,传统方法犹如一叶扁舟,难以应对互联网大数据带来的冲击。要想显著的提高翻译质量,必须打破传统方法的束缚,打造能够乘风破浪的翻译航空母舰。
百度翻译提出了基于互联网大数据的机器翻译模型,融合了多种翻译策略,并实现了机器翻译云平台与算法的充分优化与融合。一天之内即可完成全网超过2000亿网页双语资源的模型训练,稳定响应每天近亿次的翻译请求。
举一反三 融会贯通:
枢轴语言机器翻译技术
尽管互联网带来了数据量的激增,但是数据量是不均衡的。对于很多小语种而言,互联网上的数据仍然非常匮乏,比如哈萨克语、斯洛文尼亚语、泰语等。俗话说“巧妇难为无米之炊“,如何开发高质量的小语种翻译系统,是一个世界级难题。
百度提出了枢轴语言机器翻译技术,攻克了机器翻译语种覆盖度受限的难题,使得资源稀缺的小语种翻译成为可能。以枢轴语言为桥梁,充分挖掘“源语言-枢轴语言”以及“枢轴语言-目标语言”之间潜在的对应关系,构建大规模高质量翻译模型。例如,开发高质量的“中-泰”翻译系统,可以以英语作为枢轴语言,通过“中-英”“英-泰“的丰富资源建立”中-泰“翻译模型。
通过以上技术,在小语种资源匮乏的情况下,降低了新语种资源获取和新翻译方向开发的成本,平均11天部署1个新语种。而如果是让人类从零开始掌握一门语言,11天无疑是天方夜谭,即便是对于传统的机器翻译技术来说,新语言部署周期动辄需要数月或数年的时间。
百度翻译助力一带一路腾飞
机器翻译一直被公认为是人工智能领域最难的课题之一。让机器理解语言,进而实现不同语言之间的翻译,是人类一直以来的梦想。
互联网大数据给机器翻译研究带来新的机遇和挑战,使得海量翻译知识的自动获取和实时更新成为可能,百度翻译在机器翻译系统框架、翻译模型与算法、多语种翻译技术等方面取得重大突破,自主研发了基于互联网大数据的机器翻译系统,使我国掌握了使我国掌握了互联网机器翻译的核心技术,占据了该领域的技术制高点。
目前,百度翻译覆盖了全球超过5亿用户,每日响应近亿次的翻译请求,百度翻译开放平台为上万个第三方应用提供免费服务,即帮助普通用户跨语言获取信息和服务,自由沟通和交流,也促进了国际贸易、跨境经济文化合作。
习近平主席对一带一路有一个形象的比喻:如果将“一带一路”比喻为亚洲腾飞的两只翅膀,那么互联互通就是两只翅膀的血脉经络。而我们相信,百度翻译将给这对翅膀提供飞翔的动力。
□ 本报记者 向 阳
北京人才网 http://www.xiexiebang.com 北京最专业的人才网站
第五篇:基于双语对齐句型库的藏汉机器翻译方法研究
基于双语对齐句型库的藏汉机器翻译方法研究
摘 要: 通过藏汉双语句子中词语序列异同点的比较,研究藏汉双语句型对齐方法,建立了一个小规模藏汉对齐句型库和对照词典库,在此基础上提出了基于藏汉双语对齐句型库的机器翻译算法。
关键词:机器翻译 藏语句型 对照词典 双语对齐句型库
中图分类号:H214 文献标识码:A 文章编号:1003-9082(2015)03-0225-02
一、藏、汉句子中词语序列的对比分析
藏汉两种语言在语法(包括词序、虚词的运用、动词的形态变化)上的区别,给藏汉双语对齐句型库的构建带来了一定的难度。除了在句子的词序和词数上变化上有明显的区别外,在虚词的运用和动词的形态变化上也不同。例如:
5.汉语动词没有形态变化,而藏语动词具有形态变化
在藏文文法中,对动词的形态变化、及物性及分类等方面的研究很丰富,是藏语动词的复杂性增强。据统计,现代藏语动词1453个,其中,756个动词本身有形态变化,而汉语动词没有形态变化,这给藏汉对齐句型库的建设和规范化带来了汉语与藏语动词的比较。例如:
实例例6中的藏语动词以“/”分开的四个形态分别是动词的未来式、现在式、过去式、命令式。
在建立藏汉对齐字形库时,第1种对齐句型因词性、词序都相同,容易建立,但对第2、3、4、5、6种对齐句型的处理就变得相对复杂,将在后续内容中详细描述。
二、对照词典的设计与句型库的建设
1.对照词典的设计与实现
基于双语对齐句型库的藏汉机器翻译方法研究需要设计实现一个添加了详细词性标记的藏汉对照词典的设计与实现。
本文涉及的机器翻译方法,需要一个对照词典的支持,而这个对照词典不是一般意义上的简单对照词典,而是一个添加了词性标记的对照词典。表3-1为其基本结构和功能:
因页面大小,此处只列举了整个对照词典的一小部分内容,第一行中除“word”以外的其他英文标记表示词性,它们分别表示连词(cd)、及物动词现在式(vt)、动名词(nv)、及物动词过去式(vi)、随立名(nn)、指示代词(rz)、属格助词(gz)、使格助词(gx)、位格助词(gl),对照词典里的词性种类及数目远不止这些,总共有80余个词性。表3-1列出的这些藏语词都只有一个对应的汉语词,这个表与一般意义上的对照词典不同的是每个对照词的词性就是该词所在字段名。下面的表3-2中列出的是一些多义词,在进行机器翻译时,多义词表的搜索和选择与表3-1相比,难度更大,更繁琐,具体扫描过程将在后续内容中详细介绍。此处的表3-2实际是从整个对照词典中为方便解释而分离出的虚拟表,因此它不是一个独立的表。
这个表中的每个藏语词都有两个以上的汉语对照词。字段名所示词性标记分别是,否定副词(df)、及物动词命令式(vt)、拉格助词(gl)、随欲名(nn)、使格助词(gx)、数量词(mq)、形容词(ad)、存在助词(uc)、从格助词(gj)、动词现代式(vt)、人称代词(rr)、不及物动词现在式(vi)。
2.句型库的建设
表3-3是论文题目所提到的藏汉双语对齐句型库,它的设计和建设对本文要讲的机器翻译方法而言至关重要。这个表只是其中的一部分。
该句型库是严格根据藏语句型分类建设的,所以其规模虽小,覆盖范围却较广。该库中真正用在机器翻译中的字段只有“藏语句型”和“汉语句型”,库中的藏汉两种句型,有些完全相同,有些仅词性序列不同,有些在词性数目上有差别。这些句型都对应较短的单句,当句子变长、结构变得复杂时,会使机器翻译算法的复杂度增高,因此,本文没有对长句、复句做更多的处理。因为这个库是预先建立好的,所以后续将要说到的机器翻译算法不需要在两种语言的句法结构转换上下太大工夫,翻译算法只要从头至尾地扫描句型库就能很快找到对应的句型,这从一定程度上提高了机器翻译的准确率和效率,但也让该机器翻译方法显得比较死板。
下面通过几个典型例子叙述基于双语对齐句型库的机器翻译方法的执行过程:
第三步:生成译文“老师讲课”。
当需要把汉语翻译为藏语时,也可依据上述把藏语翻译为汉语的过程进行机器翻译。藏语句子中存在多种虚词,因此在把汉语翻译为藏语时,有些汉语句子中没有虚词,而把它翻译为藏语句子后,必须在适当位置添加虚词,这是一项不容忽视的内容。因为某些藏语虚词本身的特点,使得一个藏语句子可以有多个正确的序列,这点在汉译藏翻译系统中也需要关注。
结束语
本文只从理论上提出了一个基于双语对齐句型库的藏汉机器翻译算法,没有开发相应的机器翻译系统,因此所谓的翻译准确率便无从谈起。文中的句型库只有近500个对齐句型,对于一个机器翻译系统而言,其规模微不足道,因此,需要不断扩充句型库。文中提出的基于双语对齐句型库的算法只处理由藏到汉的机器翻译,而由汉到藏的机器翻译不能照搬文中的方法,需单独处理,这些是本文的不足点,也是将来需要补充和完善的地方。
参考文献
[1] 李英军.机器翻译与翻译技术研究的现状与展望-伯纳德?马克?沙特尔沃思访谈录[J].中国科技翻译,第27卷1期,2014年2月
[2] 才让加.面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究[J].中文信息学报,第25卷第6期,2011年11月.[3] 张珑馨.消失的语言学家:机器翻译发展的现状与歧路[J].西南农业大学学报,第11卷第10期,2013年10月.[4] 才让加.藏语语料库中词性分类代码的确定[J].中国中文信息学会二十五周年学术会议论文集,2006,141-145.