第一篇:自然语言处理的应用及发展趋势
自然语言处理的应用及发展趋势
摘要
本文主要阐述了自然语言处理的研究内容,以及对目前相关领域的应用加以讨论。自然语言处理的研究内容主要有四大块[1-2]:语言学方向、数据处理方向、人工智能和认知科学方向、语言工程方向。最后对自然语言处理的未来发展趋势做简单的介绍。
关键词 自然语言处理 应用 发展趋势
一.自然语言处理的研究内容
自然语言处理的范围涉及众多方面,如语音的自动识别与合成,机器翻译,自然语言理解,人机对话,信息检索,文本分类,自动文摘,等等。我们认为,这些部门可以归纳为如下四个大的方向:(1)语言学方向
本方向是把自然语言处理作为语言学的分时来研究,它之研究语言及语言处理与计算相关的方面,而不管其在计算机上的具体实现。这个方向最重要的研究领域是语法形式化理论和数学理论。(2)数据处理方向
是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发,近些年来则有大规模的语料库的涌现。(3)人工智能和认知科学方向
在这个方向 中,自然语言处理被作为在计算机上实现自然语言能力的学科来研究,探索自然语言理解的只能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切。(4)语言工程方向
主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究,这一方向的研究一般称为“人类语言技术”或者“语言工程”。二.自然语言处理的应用
以上所提及的自然语言处理的四大研究方向基本上涵盖了当今自然语言处理研究的内容,更加细致的说,自然语言处理可以进一步细化为以下13项研究内容,也即为自然语言处理的应用方向,这13个应用方向分别是[3]:口语输入、书面语输入、语言分析和理解、语言生成、口语输出技术、话语分析与对话、文献自动处理、多语问题的计算机处理、多模态的计算机处理、信息传输与信息存储、自然语言处理中的数学方法、语言资源、自然语言处理系统的评测。
这13项内容都涉及语言学。这些研究都要对语言进行形式化的描述, 建立合适的算法, 并在计算机上实现这些算法, 因此, 要涉及数学、计算机科学和逻辑学[4]。口语输入、书面语输入、口语输出、信息传输与信息存储都需要电子工程的技术。由自然语言的应用领域更加进一步说明,自然语言处理都是一个多边缘的交叉学科。由于它的对象是语言, 因此, 它基本上是一个语言学科, 但它还涉及众多的学科, 特别是计算机科学和数学。三.自然语言处理研究的发展趋势
21世纪以来, 由于国际互联网的普及, 自然语言的计算机处理成为了从互联网上获取知识的重要手段, 生活在信息网络时代的现代人, 几乎都要与互联网打交道, 都要或多或少地使用自然语言处理的研究成果来获取或挖掘在广阔无边的互联网上的各种知识和信息, 因此, 世界各国都非常重视有关的研究, 投入了大量的人力、物力和财力[5]。
自然语言处理研究的历史虽不很长,但就目前已有的成果足以显示它的重要性和应用前景。在美、英、日、法等发达国家,自然语言处理如今不仅作为人工智能的核心课题来研究.而且也作为新一代计算机的核心课题来研究。从知识产业的角度来看.自然语言处理的软件也占重要地位,专家系统,数据库、知识库.计算机辅助设计系统(CAD)、计算机辅助教学系统(CAl)、计算机辅助决策系统,办公室自动化管理系统、智能机器人等,无一不需要用自然语言做人一机界面。从长远看.具有篇章理解能力的自然语言理解系统可用于机器自动翻译、情报检索、自动标引,自动文摘.自动写故事小说等领域,具有广阔的应用领域和令人鼓舞的应用前景。
当前国外自然语言处理研究有三个显著的特点[6]:第一, 随着语料库建设和语料库语言学的崛起, 大规模真实文本的处理成为自然语言处理的主要战略目标。第二, 自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。第三, 自然语言处理中越来越多地使用统计数学方法来分析语言数据。目前,我国的自然语言处理研究虽然已经取得不少成绩, 但是与国际水平相比, 差距还很大。我国的自然语言处理研究, 无论在理论上还是在应用系统的开发上, 基本上还没有重大的创新与值得称道的突破。我们的研究基本上还是跟踪性的研究, 很少有创造性的研究, 当然更谈不上具有原创思想的研究了。因此, 我们不能夜郎自大, 不能坐井观天,我们只有努力学习国外的先进成果, 赶上并超过国际先进水平, 使我国的自然语言处理在国际先进行列中占有一席之地,掌握国际先进的成果与技术用于国家和社会的进一步发展。
参考文献: [1] 李堂秋,《自然语言处理》讲义,厦门大学计算机科学系.[2] 辛日华.计算机自然语言处理.呼伦贝尔学院学报,2003,11(1)[3] 白硕,《计算语言学》讲义,中国科学院计算技术研究所.[4] 詹卫东,《计算语言学概论》讲义,北京大学中文系.[5] 冯志伟.自然语言处理的学科地位.解放军外国语学院学报,2005,28(3)[6] 冯志伟.自然语言处理的历史与现状,2008.
第二篇:自然语言处理
自然语言处理(Natural Language Processing简称NLP)是人工智能和语言学领域的分支学科。在这此领域中探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。
自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。
理论上,NLP是一种很吸引人的人机交互方式。早期的语言处理系统如SHRDLU,当它们处于一个有限的“积木世界”,运用有限的词汇表会话时,工作得相当好。这使得研究员们对此系统相当乐观,然而,当把这个系统拓展到充满了现实世界的含糊与不确定性的环境中时,他们很快丧失了信心。
由于理解(understanding)自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,自然语言认知,同时也被视为一个人工智能完备(AI-complete)的问题。同时,在自然语言处理中,“理解”的定义也变成一个主要的问题。
自然语言处理研究的难点 单词的边界界定
在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。词义的消歧
许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。句法的模糊性 自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(Parse Tree),而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。有瑕疵的或不规范的输入
例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。语言行为与计划
句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。
第三篇:自然语言处理常用模型方法总结
自然语言处理常用模型使用方法总结
一、N元模型
思想:
如果用变量W代表一个文本中顺序排列的n个词,即W = W1W2…Wn,则统计语言模型的任务是给出任意词序列W 在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:P(W)= P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1),不难看出,为了预测词Wn的出现概率,必须已知它前面所有词的出现概率。从计算上来看,这太复杂了。如果任意一个词Wi的出现概率只同它前面的N-1个词有关,问题就可以得到很大的简化。这时的语言模型叫做N元模型(N-gram),即P(W)= P(w1)P(w2|w1)P(w3| w1 w2)…P(wi|wi-N+1…wi-1)…实际使用的通常是N=2 或N=3的二元模型(bi-gram)或三元模型(tri-gram)。以三元模型为例,近似认为任意词Wi的出现概率只同它紧接的前面的两个词有关。重要的是这些概率参数都是可以通过大规模语料库来估值的。比如三元概率有P(wi|wi-2wi-1)≈ count(wi-2 wi-1… wi)/ count(wi-2 wi-1)式中count(…)表示一个特定词序列在整个语料库中出现的累计次数。统计语言模型有点像天气预报的方法。用来估计概率参数的大规模语料库好比是一个地区历年积累起来的气象纪录,而用三元模型来做天气预报,就像是根据前两天的天气情况来预测今天的天气。天气预报当然不可能百分之百正确。这也算是概率统计方法的一个特点吧。(摘自黄昌宁论文《中文信息处理的主流技术是什么?》)
条件: 该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
问题:
虽然我们知道元模型中, n越大约束力越强,但由于计算机容量和速度的限制及数据的稀疏,很难进行大n的统计。
二、马尔可夫模型以及隐马尔可夫模型
思想:
马尔可夫模型实际上是个有限状态机,两两状态间有转移概率;隐马尔可夫模型中状态不可见,我们只能看到输出序列,也就是每次状态转移会抛出个观测值;当我们观察到观测序列后,要找到最佳的状态序列。隐马尔科夫模型是一种用参数表示的用于描述随机过程统计特性的概率模型,是一个双重随机过程,由两个部分组成:马尔科夫链和一般随机过程。其中马尔科夫链用来描述状态的转移,用转移概率描述。一般随机过程用来描述状态与观察序列之间的关系,用观察值概率描述。因此,隐马尔可夫模型可以看成是能够随机进行状态转移并输出符号的有限状态自动机,它通过定义观察序列和状态序列的联合概率对随机生成过程进行建模。每一个观察序列可以看成是由一个状态转移序列生成,状态转移过程是依据初始状态概率分布随机选择一个初始状态开始,输出一个观察值后再根据状态转移概率矩阵随机转移到下一状态,直到到达某一预先指定的结束状态为止,在每一个状态将根据输出概率矩阵随机输出一个观察序列的元素。
一个 HMM有 5个组成部分,通常记为一个五元组{S,K, π,A,B},有时简写为一个三元组{π ,A,B},其中:①S是模型的状态集,模型共有 N个状态,记为 S={s1,s2, ⋯,sN};②K是模型中状态输出符号的集合,符号数为 M,符号集记为K={k1,k2,⋯,kM};③是初始状态概率分布,记为 ={ 1, 2,⋯, N},其中 i是状态 Si作为初始状态的概率;④A是状态转移概率矩阵,记为A={aij},1≤i≤N,1≤j≤N。其中 aij是从状态 Si转移到状态 Sj的概率;⑤B是符号输出概率矩阵,记为B={bik},1≤i≤N,1≤k≤M。其中 bik是状态 Si输出 Vk的概率。要用HMM解决实际问题,首先需要解决如下 3个基本问题:①给定一个观察序列 O=O1O2⋯OT和模型{ π,A,B},如何高效率地计算概率P(O|λ),也就是在给定模型的情况下观察序列O的概率;②给定一个观察序列 O=O1O2⋯OT和模型{ π,A,B},如何快速地选择在一定意义下“最优”的状态序列Q=q1q2⋯qT,使得该状态序列“最好地解释”观察序列;③给定一个观察序列 O=O1O2⋯OT,以及可能的模型空间,如何来估计模型参数,也就是说,如何调节模型{π,A,B}的参数,使得 P(O|λ)最大。
问题:
隐马模型中存在两个假设:输出独立性假设和马尔可夫性假设。其中,输出独立性假设要求序列数据严格相互独立才能保证推导的正确性,而事实上大多数序列数据不能被表示 2 成一系列独立事件。
三、最大熵模型
最大熵原理原本是热力学中一个非常重要的原理,后来被广泛应用于自然语言处理方面。其基本原理很简单:对所有的已知事实建模,对未知不做任何假设。也就是建模时选择这样一个统计概率模型,在满足约束的模型中选择熵最大的概率模型。若将词性标注或者其他自然语言处理任务看作一个随机过程,最大熵模型就是从所有符合条件的分布中,选择最均匀的分布,此时熵值最大。
求解最大熵模型,可以采用拉格朗日乘数法,其计算公式为:
pyx1expifi(x,y)Z(x)i
Z(x)expifi(x,y)yi为归一化因子 ,i是对应特征的权重,fi表示其中,一个特征。每个特征对词性选择的影响大小由特征权重学习算法自动得到。
i决定,而这些权值可由GIS或IIS
四、支持向量机
原理:
支持向量机的主要思想可以概括为两点:(1)它是针对线性可分情况进行分析,对于线性不可分的情况, 通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;(2)它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。
支持向量机的目标就是要根据结构风险最小化原理,构造一个目标函数将两类模式尽可能地区分开来, 通常分为两类情况来讨论,:(1)线性可分;(2)线性不可分。
线性可分情况
在线性可分的情况下,就会存在一个超平面使得训练样本完全分开,该超平面可描述为: w ·x + b = 0(1)其中,“·”是点积, w 是n 维向量, b 为偏移量。
最优超平面是使得每一类数据与超平面距离最近的向量与超平面之间的距离最大的这样的平面.3 最优超平面可以通过解下面的二次优化问题来获得: 满足约束条件: , i = 1 ,2 ,3 ,......, n.(3)
在特征数目特别大的情况,可以将此二次规划问题转化为其对偶问题:
(4)
(5)(6 满足约束条件:
这里
(7)
是Lagrange 乘子,是最优超平面的法向量,是最优超平面的偏移量,在这类优化问题的求解与分析中, KKT条件将起到很重要的作用,在(7)式中,其解必须满足:
从式(5)可知,那些
(8)
= 0 的样本对分类没有任何作用,只有那些
> 0 的样本才对分类起作用,这些样本称为支持向量,故最终的分类函数为:
根据f(x)的符号来确定X 的归属。线性不可分的情况
(9)对于线性不可分的情况,可以把样本X 映射到一个高维特征空间H,并在此空间中运用原空间的函 数来实现内积运算,这样将非线性问题转换成另一空间的线性问题来获得一个样本的归属.根据泛函的有关理论,只要一种核函数满足Mercer 条件,它就对应某一空间中的内积,因此只要在最优分类面上采用适当的内积函数就可以实现这种线性不可分的分类问题.此时的目标函数为:
0)
(1 4 其分类函数为:(11)
内积核函数 :
目前有三类用的较多的内积核函数:第一类是
(12)
我们所能得到的是p阶多项式分类器,第二类是径向基函数(RBF),也称作高斯核函数:
第三类是Sigmoid函数
特点:
概括地说,支持向量机就是首先通过内积函数定义的非线性变换将输入空间变换到另一个高维空间,在这个空间中求最优分类面。SVM分类函数形式上类似于一个神经网络,输出是中间节点的线性组合,每个中间节点对应一个输入样本与一个支持向量的内积,因此也叫做支持向量网络。
SVM方法的特点:
① 非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射;② 对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心;③ 支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。
SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”,大大简化了通常的分类和回归等问题。
SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。这种 “鲁棒”性主要体现在: ①增、删非支持向量样本对模型没有影响;②支持向量样本集具有一定的鲁棒性;③有些成功的应用中,SVM 方法对核的选取不敏感
五、条件随机场
原理:
条件随机场(CRFs)是一种基于统计的序列标记识别模型,由John Lafferty等人在2001年首次提出。它是一种无向图模型,对于指定的节点输入值,它能够计算指定的节点输出值上的条件概率,其训练目标是使得条件概率最大化。线性链是CRFs中常见的特定图结构之一,它由指定的输出节点顺序链接而成。一个线性链与一个有限状态机相对应,可用于解决序列数据的标注问题。在多数情况下,CRFs均指线性的CRFs。用x=(x1,x2,…,xn)表示要进行标注的数据序列,y=(y1,y2,…,yn)表示对应的结果序列。例如对于中文词性标注任务,x可以表示一个中文句子x=(上海,浦东,开发,与,法制,建设,同步),y则表示该句子中每个词的词性序列y=(NR,NR,NN,CC,NN,NN,VV)。
对于(X,Y),C由局部特征向量f和对应的权重向量λ确定。对于输入数据序列x和标注结果序列y,条件随机场C的全局特征表示为
Fy,xfy,x,ii ⑴
其中i遍历输入数据序列的所有位置,f(y,x,i)表示在i位置时各个特征组成的特征向量。于是,CRFs定义的条件概率分布为
p(Y,X)其中 expFY,XZX
⑵
ZXexpFy,xy ⑶
给定一个输入数据序列X,标注的目标就是找出其对应的最可能的标注结果序列了,即
yargmaxpy|xy ⑷
由于Zλ(X)不依赖于y,因此有
yargmaxpy|xargmaxFy,xyy ⑸
CRFs模型的参数估计通常采用L—BFGS算法实现,CRFs解码过程,也就是求解未知串标注的过程,需要搜索计算该串上的一个最大联合概率,解码过程采用Viterbi算法来完成。
CRFs具有很强的推理能力,能够充分地利用上下文信息作为特征,还可以任意地添加其他外部特征,使得模型能够获取的信息非常丰富。CRFs通过仅使用一个指数模型作为在给定观测序列条件下整个标记序列的联合概率,使得该模型中不同状态下的不同特征权值可以彼此交替,从而有效地解决了其他非生成有向图模型所产生的标注偏置的问题。这些特点,使得CRFs从理论上讲,非常适合中文词性标注。‘
总结
首先,CRF,HMM(隐马模型)都常用来做序列标注的建模,像词性标注,True casing。但隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择,而另外一种称为最大熵隐马模型则解决了这一问题,可以任意的选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题(label bias),即凡是训练语料中未出现的情况全都忽略掉,而条件随机场则很好的解决了这一问题,他并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值。目前,条件随机场的训练和解码的开源工具还只支持链式的序列,复杂的尚不支持,而且训练时间很长,但效果还可以。最大熵隐马模型的局限性在于其利用训练的局部模型去做全局预测。其最优预测序列只是通过viterbi算法将局部的最大熵模型结合而成的。条件随机场,隐马模型,最大熵隐马模型这三个模型都可以用来做序列标注模型。但是其各自有自身的特点,HMM模型是对转移概率和表现概率直接建模,统计共现概率。而最大熵隐马模型是对转移概率和表现概率建立联合概率,统计时统计的是条件概率。最大熵隐马模型容易陷入局部最优,是因为最大熵隐马模型只在局部做归一化,而CRF模型中,统计了全局概率,在 做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置的问题。
第四篇:《自然语言理解》课程设计
自然语言理解课程设计报告 姓名
组员
所在学院
专业年级
报告提交时间
联系电话
电子信箱
赵子豪黄承功赵子豪2011级电子信息工程*** zzh0526ac@163.com
课题分析
机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics)、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。
机器翻译的研究是建立在语言学、数学和计算机科学这3门学科的基础之上的。语言学家提供适合于计算机进行加工的词典和语法规则,数学家把语言学家提供的材料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设备,并进行程序设计。缺少上述任何一方面,机器翻译就不能实现,机器翻译效果的好坏,也完全取决于这3个方面的共同努力。
机器翻译系统可以分为多种类型:基于规则的机器翻译系统,基于语料库的机器翻译系统,基于实例的机器翻译系统,多引擎机器翻译系统,语音机器翻译系统。随着因特网的发展,网络上的语言障碍越来越严重,为了克服网络交流中的语言障碍,还出现了一些专门面向网络的机器翻译系统。国内外研究进展 已经取得的进步:
•近十几年来,机器翻译取得了巨大的进步
•统计机器翻译取得巨大成功,从基于词的模型发展
到了基于短语的模型和基于句法的模型
•机器翻译的统计方法和规则方法走向融合•机器翻译系统开发效率大为提高:数年-->数周•应用范围大大拓展:Google翻译支持几十种语言
•翻译质量也有了明显上升,已经成为日常工具
依然面临的困难:
•翻译质量仍然不够理想(婴儿期)
•需要大规模训练语料库:数据稀疏问题
•需要与应用场合相近的语料:领域适应性
•语言形态的复杂性还没有好的处理办法
•语言之间差异性很大时翻译质量不理想
各系统主要技术要点
Systran:基于规则的机器翻译系统
美国的SYSTRAN系统:美国在乔治敦大学机器翻译系统的基础上,进一步开发了大型的机器翻译系统SYSTRAN,已达到实用水平。例如,提供给美国空军的SYSTRAN系统,词典有16.8万个词干形式和I3.6万个词组,可进行俄英机器翻译,每小时可翻译15万词;提供给美国拉特塞克(Latsec)公司的SYSTRAN系统,可进行俄英、英俄、德英、汉法、汉英机器翻译,每小时可
译30万—35万个词。SYSTRAN是目前应用最为广泛、所开发的语种最为丰富的一个实用化机器翻译系统。
AT&T公司的语音机器翻译系统
AT&T公司的阿尔萨瓦基(AlshawaKi,1998)等开发的语音翻译系统由语音识别、机器翻译、语音合成三部分组成。他们在机器翻译部分采用的算法非常独特,这实际上是一个基于平行概率语法的机器翻译系统。
Verbmobil系统
Verbmobil系统与我们所熟悉的文本翻译系统的不同之处主要体现在: —语音处理:要进行语音识别和语音合成。该系统的目标很高,实现了GSM语音条件下的自动翻译,除了一开始拨打Verbmobil语音服务电话以外,整个系统的服务可完全用GSM电话通过语音方式实现,无需任何按键操作;系统具有语音自适应能力,一开始使用与说话者无关的语音识别模块,通过一段时间对话后,自动适应说话者的口音,提高识别正确率;
—处理自然的语音:要考虑现实口语中的各种复杂现象,如停顿、重复、修正、漏词等等;要建立对话模型,理解句子的语义,并考虑上下文进行翻译,甚至要猜测说话者的意图
TRASLATION ADAPTORⅡ
NEC公司的”TRASLATION ADAPTORⅡ”:能进行英日和日英的双向翻译,除翻译之外,还可进行查词典、例句检索、英文主页写作、英文电子邮件写作等工作,翻译时对于英日文化差异而形成的语文中的细微色彩的不同比较注意,基本词典9万词,价格9800日元。
雅信CAT-2.5和东方快车3000
雅信CAT-2.5以词为单位进行切分,东方快车3000以词组为单位,两种软件都带有专业词库,并综合了近年来计算机语言学的一些成果,如引入了复杂特征集等,对于宾语从句,定语从句翻译也注意了译文的词序的重新排列。然而,国内的翻译软件似乎基本上都采用上下文无关语法,其优点是编泽程序过程用时短,缩短了开发周期,见效较快。这种语法20世纪60年代曾在国外机译研究中被广泛采用,但它的不足之处在上述两种软件中也有所体现。
各系统性能比较分析
Google和Systran翻译比较
Google翻译均较Systran的得分高,在连贯性上Google翻译也均较Systran的得分高,说明Google翻译的译文质量较高。在新闻、商业文本和小说类型上,两个翻译系统所存在的差异较小。在小说文本中,两个翻译系统均取得了最高的分数,而体育新闻的翻译则得分最低。在体育文章上,Google翻译比Systran得分又相对高一些。在完整性和连贯性上,完整性的得分也比连贯性要高。两种系统在小说上得分差异最小,在体育上得分差异最大。
对Google和Systran翻译的四种类型文本译文的评估结果,Google翻译在所有的四种文本类型上都比Systran的表现更好。总体来看,Google译文的得分要比Systran的高,平均分相差0.1265,其中商业文本差距最大,小说差距最小。从不同类型文本的得分来看,小说得分最高,体育报道类得分最低;两种系统得分相比,在小说上得分差异最小,在体育上得分差异最大。
将人工评估结果与BLEU的进行对比分析,发现它们对两个翻译系统译文质量评价具有一致性。表现在:均认为Google翻译译文要比Sys-tran译文质量高;均认为小说的译文质量最高,体育报道的译文质量最差;均认为系统之间小说类上得分差异最小,在体育上得分差异最大。这种现象的产生原因是BLEU的评估基于N-gram(大词汇连续语音识别中常用的一种语言模型,国际上处于主流地位的一种分词方法,它按照固定单词数进行分词,单词数目(N)越大,准确性就越高)对标准译文和原文比对,句子的意思完全不同仍可获得较高的分数。
AT&T公司的语音机器翻译系统
这种方法的主要特点是:
1.训练可以全自动进行,效率很高,由一个双语句子对齐的语料库可以很快训练出一个机器翻译系统;
2.不使用任何人为定义的语言学标一记(如词性、短语类、语义类
等等),无需任何语言学知识;
3.训练得到的参数包含了句子的深层结构信息,这一点比IBM的统计语言模型更好。
这种方法比较适合于语音翻译这种领域较受限、词汇集较小的场合,对一于大规模的文本翻译并不合适。,但这种做法对我们开拓思路还是非常有借鉴意义的。
Verbmobil系统
多种基准的测试以及大规模端对端评价实验令人信服地表明,Verbmobil的最终版本系统中达到了所有的预定目标,有些目标甚至被超越了。在大规模翻译实验中,正确翻译率达到大约80%在真实用户的端对端测试中,90%的对话任务获得成功。
TRASLATION ADAPTORⅡ
—词典容量大而不失其准:由于网络上英语涉及面广,词汇十分丰富,网络翻译系统的词典容量都很大,至少可以帮助人们查询不认识的生词,弄清生词的准确含义;
—翻译速度快而不失其要:便于在网上快速浏览并查找所需要的信息,了解网上信息的梗概要略,译文具有可读性。
—译文质量粗而不失其信:译文能传达英文原文的意思,以“信”为首先的追求目标,而不要求做到译文的“达”和“雅”。
—翻译方式多而不失其巧:既可以使用Web浏览器将英语原文下载到PC机上进行翻译,也可以在网络上直接控制进行翻译,一也可以使用poxy代理服务器代表客户机传送服务请求,通过翻译软件在Web浏览器上把英语直接翻译为日语,还可以仅只查词典,翻译方式多样而巧妙,以适应不同用户的要求。
—文本格式严而不失其便:译文尽量保持英语原文的“超文本”特点,满足HTML超文本置标语言的要求,便于用户在网络中畅游。
未来的研究展望
半个世纪以来,机器翻译研究虽几经曲折但终究已经得到了普遍的承认,其应用也已愈益广泛。特别令人鼓舞的是无论是国外还是国内现在已有那么
多的商品化系统进入市场,尤其是PC机译产品。同时随着PC的普及以及为满足浏览因特网的需求,机译产品进入千家万户的趋势已开始显露。
机器翻译的展望世界机器翻译研究已走过了50多年的曲折历程,目前一些翻译软件产品如“龙方雅信CAT”等基本上已达到了实用水平。随着全球网络化和经济全球化的发展,机器翻译在农业及其他领域的应用前景会越来越广阔。对于机器翻译研究者来说,如何进一步提高机器翻译系统的翻译质量是机器翻译研究的核心,也是他们始终追求的目标和责任,需要计算机、语言学、心理学、逻辑学、数学、人工智能等多学科的综合研究成果。技术方面,预计在双语/多语语料库多级加工、统计方法和机器学习方法、转换方法、语义和知识表示等几方面将得到研究进展。应用方面,在Internet环境下的应用、个人计算方面的应用、领域受限的子语言应用、翻译工作站和翻译辅助工具等几方面将得到进一步的开发应用。对于农业数字图书馆,以上机器翻译技术的发展将整体提高它的多语种农业信息的提供能力,从而更好地为农业数字图书馆的用户提供服务。可以相信,随着机器翻译研究和计算机技术的不断深入发展,终将有一天,世界上不同语种国家的人们可以借助机器翻译产品达到在各种场合自然无障碍的交流。
参考文献
1.《机器翻译研究》-冯志伟著2004
2.《机器翻译技术的进展与展望》刘群、王海峰、王惠临、宗成庆、赵铁军、史晓东、朱靖波、陈家俊、张民2011-12
3.《机器翻译研究的展望》董振东
4.《中国机器翻译研究的机遇与挑战:第八届全国机器翻译研讨会总结与展望》杜金华;张萌;宗成庆;孙乐
5.《Systran和Google翻译系统英译汉质量评价—以四类文本翻译为例》廖梦麟(海南医学院外语部,海南海口571199)
6.百度百科“机器翻译”
7.《外语翻译文化第3辑》-屠国元主编2003
8.《外语翻译文化第3辑》-屠国元主编2003 P211
第五篇:光电子的发展趋势及应用
用光
电 子
技 术 发 展
态 势 及 应
光电子技术发展态势及应用
1.光电子学的出现和发展
光学的发展历程古老而又漫长,电子学的发展则相对较短。光子学和光子技术可以认为是从1960年激光器诞生才开始出现的一门新型科学与技术。电子学和电子技术是20世纪发展起来的科学技术,现已处于高度发展的水平,广泛的应用于社会各个领域,并且已渗透到日常生活之中,目前正由微电子学与技术向纳米电子学与技术、分子电子学与技术发展。光电子学作为这两个学科的交叉点是一门新兴的学科。关于光的电磁性质及其在介质中的行为,早在19世纪就已经用麦克斯韦(Maxwell)的经典电磁理论进行了研究,关于光的吸收和辐射,在1017年爱因斯坦(Einstein)就建立了系统的理论。但是直到20世纪60年代之前,光学和电子学仍然是两门独立的学科。
1960年世界上第一台激光器研制成功,这标志着光学的发展进入了一个新阶段。随后在对激光器和激光应用的广泛研究中,电子学发挥了重要的作用,光学和电子学的研究有了广泛的交叉,形成了激光物理、非线性光学、波导光学等新学科。70年代以来,由于半导体激光器和光纤技术的重要突破,导致了以光纤传感、光纤传输、光盘信息存储与显示、光计算以及光信息处理等技术的蓬勃发展,从深度和广度上促进了光学和电子学及其他相应学科(数学、物理、材料等学科)之间的相互渗透,形成了一个边沿的研究领域。为此需要引进一个名词来覆盖这一非常广泛的应用研究领域,学术界曾经使用的名词有电光学(Electo-optics)、光电子学(Optoelectronics)、量子电子学(Quanumelectronics)、光波技术(LightWaveTechnology)、光子学(Photonics)等【1】。随着时间的推移,现在用的较多的名词是“光电子学(Optoelectronics)”和“光子学(Photonics)”。光电子学沿用电子学的有关理论,主要研究有光参与的电子器件和系统。光子学是把光子作为信息的载体和能量的载体来研究,包括光的产生、传输、调制、放大、频率转换和检测等。事实上,光电子学和光子学其本质是一致的,只不过其强调的重点不一样,光电子学强调电子的作用,光子学强调光子的作用。
2.光电子技术的应用
光电子学一经出现就引起了人们的广泛关注,反过来又进一步促进了光电子学及光电子技术的发展。光电子技术包括光的产生、传输、调制、放大、频率转换和检测以及光信息处理等。光电子技术应用涉及范围极其广泛,包括天文、地理、物理、化学、计量、生物、医学、工业、农业、军事等各个领域。目前其应用已进入到家庭。
2.1办公现代化设备的应用
办公现代化设备主要是随计算机迅速普及而发展起来的高技术产业, 各国厂商正在竞争中不断开发新一代产品。美日的苹果、兄弟、惠普、佳能、富士通、数据产品、国际商用机器等30余家厂商的主攻产品是激光打印机,推出了几十种高中低档产品。激光打印机兼负现代文书和管理文件打印、轻印刷系统和台式出版系统的排版任务, 配合计算机的一部分功能, 是各国众多公司竞相发展的热门产品之一。随着微机日益普及, 我国对作为重要外围设备之一的激光打印机需求量正迅速增长。目前国内市场的激光打印机均为进口或国内组装产品, 尚无国产。2.2 材料加工的发展
在工业先进国家, 激光加工的地位很高,衡量一个国家工业生产效率及其在发达国家中的位置, 很大程度上取决于其工业用激光器的制造及其引入生产的进度。激光焊接、打孔、切割、微加工等多方面工业应用, 效益同样非常可观。这些方面在国外加工中占据主要地位, 由于国内材料加工业的技术改造资金来源受体制影响有极大困难, 因而没有形成有影响的产业, 只有通过体制改革发展我国的激光材料加工业。
2.3 激光医学应用
激光在医学中的应用是众所共知的具有最好社会效益和经济效益的热门应用。国外激光医疗器械朝着眼科治疗、显微手术、微血管吻合、血管阻塞疏通等高精细手术装置发展, 而国内生产单位仍固守体表治疗、激光针灸和穴位治疗、气功信息治疗等具有中医特色的简易激光器械生产, 高精细手术用的激光器械, 或因销售情况不佳, 或因技术条件不足, 或因资金较为困难, 没有产品上市, 市场只好拱手让给美日厂商,国内的激光医疗器械市场极大的。
2.4 通信、存储领域中的应用
光电子技术在这类热点应用中潜力很大, 如通信、存储、条码扫描、质量检验、全息照相、激光刻蚀和绘画、娱乐设备等, 都充当了重要角色。激光和光电子在其它消费类应用中的份额, 在世界市场上也呈逐年增长的趋势。
2.5 矿井安全中的应用
随着光电技术, 尤其是光电子器件的发展, 红外型传感器用于各种危险场合气体成分的检测已逐渐成为现实。红外线瓦斯传感器工作稳定, 可满足不同地点、不同精度的要求, 并且易维护, 使用寿命长, 适应性强。光纤传感器具有一些常规传感器无可比拟的优点, 如灵敏度高, 响应速度快, 动态范围大,防电磁干扰, 超高绝缘, 无源性, 防燃防爆, 适于远距离遥测, 体积小, 可灵活柔性挠曲等, 很适于在恶劣和危险环境中应用, 因而得到广泛重视。分布式光纤传感利用光导纤维具有的传输双重特性,实现对待测场光纤分布的多点甚至连续点测量,以达到取代多台独立点传感器的目的。
3.光电子技术研究的几个方向和热点
光电子技术不断地向前发展,特别是近年来,出现了很多新的发展趋势和研究热点。
3.1各种新型激光器的研究 激光器是光电子技术的核心,正是激光器的问世与发展促使了光电子学的兴起与发展。在光电子技术的发展中,激光器也得到了迅速的发展。近年来各种新型激光器的不断涌现,又为光电子学和光电子技术的进一步发展注入了新的活力。半导体激光器又称为二极管激光器,广泛地应用于各个领域,尤其是与计算机、通信技术和军事技术应用紧密结合,因此其技术和市场一直呈高速增长的趋势【2】,半导体激光器已经成为激光器的主流。量子阱超晶格人工改性新结构、新材料的出现及能带工程的成功应用推动了光电子器件和半导体激光器的发展,半导体激光器的研究向宽带宽、大功率、短波长以及中远红外波长发展。随着半导体激光器的发展,全固化固体激光器将以更优异的性能取代传统泵浦方式的固体激光器,成为固体激光器发展的主流。其他激光器如原子激光器的研究等也取得了进展。
3.2 硅基光电子技术的研究 我们知道,硅和锗是微电子学中最重要的基质材料,在硅材料上发展起来的集成电路已对电子计算机、通信和自动控制等信息技术起了关键的作用。随着信息技术的日益发展,对信息的传递速度、存储能力、处理能力提出了更高的要求。但是硅集成电路受到尺寸和硅质材料中电子运动速度的限制,很难满足发展的要求。如果能在硅芯片中引入光电子技术,用光波代替电子作为信息载体,则可大大地提高信息传输速度和处理能力。由于硅和锗都是间接带隙材料,电子不能直接由导带底跃迁到价带顶发出光子,为了满足动量守恒定律,它只能通过发射或吸收一个声子,间接跃迁到价带顶。这是一种多体效应,跃迁几率很小【3】,因此硅和锗都是发光效率低的材料。为了克服硅材料发光效率低的问题,实现在一块硅片上集成电子器件和发光器件,也为了发展硅基光电子技术,国外研究人员进行了不懈的努力,为了提高硅(或锗)的发光效率,提出和研究了多种硅基发光材料,如掺铒硅、多孔硅、纳米硅、硅基异质外延、超晶格和量子阱材料等,并取得了一定的成果。Kimerling等人【4】采用标准的集成电路工艺,在SOI(Si-on-insulator)上将侧面光发射的掺铒硅发光管与硅波导集成在一起。Ksybeskov等人【5】和Hirschman等人【6】采用硅微电子制备工艺将双极晶体管和多孔硅发光管集成在一个硅片上。另据报道,英国的一个科研小组最近研究出了一种在室温下能发光的全硅的发光二极管(LED)。我们相信,将来有可能出现一种全硅的激光器。硅基光电子技术正向集成化发展。一旦实现了全硅光电集成,将对光电子技术其他方面的发展具有重要的意义。
3.3 有机聚合物光电子材料的研究 随着材料科学的发展,有机聚合物材料的日趋成熟,聚合物光电子学日益为人们所重视。据1993年I BM公司的Almaden研究中心报道,他们使用聚合物电光调制器和832nm半导体激光器实现了6个模拟电视信号的同时传输和接收,第一次在模拟信号传输中使用聚合物调制器并获得较高的信噪比。由于有机聚合物的合成、加工、器件制备方面相对容易、价格低廉,而且它们有相对低的介电常数,因而有更高的调制频率和较低的驱动功率,并且容易与半导体器件和光纤传输集成,具有响应性能快、非线性光学系数大等优点,引起了人们的广泛兴趣。聚合物热光开关的工作原理是这样的:当DC或A C电流通过薄金属层时,加热引起的聚合物的线性膨胀,使得聚合物的折射率降低。与电光开关的情况相比,热光调制引起的折射率要大得多,最高可以达到0.01。现在AKZONOBEL公司已经批量生产聚合物热光开关【7】。人们开展了聚合物超快全光开关的研究,并取得了一定进展。聚合物电光调制器在CATV、高比特网络、相阵列系统和计算机平行互联等方面的研究也取得了很大的进展。聚合物光电子材料的应用前景十分诱人。
3.4光互连、光计算技术的研究 在因特网迅速发展的今天,信息快速入网和出网的分派能力决定系统所传输的巨大信息量能实时利用的有效性。相对于光信息传输器件来说,光信息交换互连技术器件的发展不如光信息传输的发展快【8】,因此有必要加强对光交换技术的研究。光互连技术的内容主要包括光交换网络和电子计算机的光互连,这是在信息光学中最有广泛应用前景的研究领域。在光交换网络的光互连中,还应多研究在集成光学中的光波导交换开关、自由空间光学中的多级交换网络。在电子计算机的光互连中,还应多研究芯片间的自由空间和波导光互连,插件板之间的自由空间和波导光互连,多处理器之间的自由空间或光纤互连及并行计算机的光学总成等。以数值计算为目的的光计算研究分为专用性的光计算系统和通用性的光计算系统两大领域,数值的光学处理又分为模拟量编码和数字量编码两种。专用性计算系统主要包括以光学矩阵运算为主导的光学代数运算器通用的光计算系统的算法和体系,主要借助于已有的并行计算机的算法和体系。在光互连和光计算领域的研究方面,国外的研究人员已经开始研究在路由器中用全光学矩阵开关来取代原有的电开关,并在光计算方面也取得了进展。
3.5大容量光存储的研究
现代化信息社会对大容量、快速存取时间的存储系统有着日益增长的要求。传统使用的存储采用磁盘技术,这一技术发展相当成熟,磁盘的存储容量大(可以达到几十G)、存取时间短(0.1ms)、存储时间长并且可擦写。但是它遇到两方面的困难:一是尺寸限制,二是信噪比难以提高。传统的磁盘存储方法由于其存储素元难以进一步缩小,很难提高其存储容量了。而光盘作为存储介质和光子技术的使用,是大幅度提高存储容量的出路。光盘的存储量决定于记录介质写入位尺寸和写读斑的大小。采用短波长的半导体激光器,可以大幅度降低介质光斑的大小,提高存储容量。目前选用波长为780nm和640nm的激光器,采用复膜技术及双光头读写技术,已使存储容量达到数G b范围。为进一步提高存储容量,一方面使用更短波长的激光器并进行光斑压缩;另一方面,也可通过改变存储介质和存储方法来提高存储量。与此同时,发展新型的集成激光器面阵和高密度半导体低维结构高速空间光调制器也将促进高密度存储技术的发展。今年4月23日至25日在美国召开的“光学数据存储2001年会”上,日本的东芝、三菱电子、NEC等三家大公司同时报道了光盘单面存储密度为25~32GB的实验结果。近场光学存储,以超衍射分辨为特征,从根本上克服了点存储的密度极限限制,无疑是光盘存储的重要发展方向。其技术难点集中在近场距离的控制上,通过适当的技术手段,保持头盘间距能够限制在近场范围之内,近场存储就有望成为下一代盘式存储的主要技术手段【9】。
3.6生物医学中的光电子技术
生命科学是当今世界科技发展的最大热点之一,也是光电子技术的一个重要应用领。近年来,生物医学中的光电子技术研究十分活跃,发展十分迅速,它将开拓生命科学的一个新领域。目前,生物医学中的光电子技术研究的主要内容包括两个方面:一是生物系统中产生的光子及其反映的生命过程,以及这种光子在生物学研究、医学诊断、农业、环境、甚至食品品质检查方面的重要应用,利用光电子技术对生物系统进行检测、治疗、加工与改造等。二是医学光电子学基础和技术,包括组织光学、医学光谱技术、医学成像技术、新颖的激光诊断和激光医疗技术及其作用机理的研究。
参考文献
【1】殷一贤。关于光电子学与光子学【J】。激光杂志19 98,1 9(1):12 0。【3】陈维德。21世纪的光学和光电子学讲座(第二讲):硅基发光材料和器件研究 【J】。物理,2000,2 8(12):74 1-745。
【4】Kimerling LC,Kolenbrander KD,MichelJetal。SolidStatePhys,19 97,5 0:3 33341。【7 】Keil N,Yao H,ZawadzkiC。Integrated Photonics Research【Z】。1998 Technical DigestSeries,Canada :Vactoria。353-355。
【8】吴荣汉。21世纪的光学和光电子学讲座(第三讲):信息网络与半导体光电子学【J】。物理,2000,29(1):45-49。【9】孙利群,章恩耀,王佳等。基于近场光学超衍射分辨力的高密度光存储【J】。光电子·激光,2001,12(6):646-652。