第一篇:自然语言处理
自然语言处理(Natural Language Processing简称NLP)是人工智能和语言学领域的分支学科。在这此领域中探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。
自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。
理论上,NLP是一种很吸引人的人机交互方式。早期的语言处理系统如SHRDLU,当它们处于一个有限的“积木世界”,运用有限的词汇表会话时,工作得相当好。这使得研究员们对此系统相当乐观,然而,当把这个系统拓展到充满了现实世界的含糊与不确定性的环境中时,他们很快丧失了信心。
由于理解(understanding)自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,自然语言认知,同时也被视为一个人工智能完备(AI-complete)的问题。同时,在自然语言处理中,“理解”的定义也变成一个主要的问题。
自然语言处理研究的难点 单词的边界界定
在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。词义的消歧
许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。句法的模糊性 自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(Parse Tree),而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。有瑕疵的或不规范的输入
例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。语言行为与计划
句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。
第二篇:自然语言处理常用模型方法总结
自然语言处理常用模型使用方法总结
一、N元模型
思想:
如果用变量W代表一个文本中顺序排列的n个词,即W = W1W2…Wn,则统计语言模型的任务是给出任意词序列W 在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:P(W)= P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1),不难看出,为了预测词Wn的出现概率,必须已知它前面所有词的出现概率。从计算上来看,这太复杂了。如果任意一个词Wi的出现概率只同它前面的N-1个词有关,问题就可以得到很大的简化。这时的语言模型叫做N元模型(N-gram),即P(W)= P(w1)P(w2|w1)P(w3| w1 w2)…P(wi|wi-N+1…wi-1)…实际使用的通常是N=2 或N=3的二元模型(bi-gram)或三元模型(tri-gram)。以三元模型为例,近似认为任意词Wi的出现概率只同它紧接的前面的两个词有关。重要的是这些概率参数都是可以通过大规模语料库来估值的。比如三元概率有P(wi|wi-2wi-1)≈ count(wi-2 wi-1… wi)/ count(wi-2 wi-1)式中count(…)表示一个特定词序列在整个语料库中出现的累计次数。统计语言模型有点像天气预报的方法。用来估计概率参数的大规模语料库好比是一个地区历年积累起来的气象纪录,而用三元模型来做天气预报,就像是根据前两天的天气情况来预测今天的天气。天气预报当然不可能百分之百正确。这也算是概率统计方法的一个特点吧。(摘自黄昌宁论文《中文信息处理的主流技术是什么?》)
条件: 该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
问题:
虽然我们知道元模型中, n越大约束力越强,但由于计算机容量和速度的限制及数据的稀疏,很难进行大n的统计。
二、马尔可夫模型以及隐马尔可夫模型
思想:
马尔可夫模型实际上是个有限状态机,两两状态间有转移概率;隐马尔可夫模型中状态不可见,我们只能看到输出序列,也就是每次状态转移会抛出个观测值;当我们观察到观测序列后,要找到最佳的状态序列。隐马尔科夫模型是一种用参数表示的用于描述随机过程统计特性的概率模型,是一个双重随机过程,由两个部分组成:马尔科夫链和一般随机过程。其中马尔科夫链用来描述状态的转移,用转移概率描述。一般随机过程用来描述状态与观察序列之间的关系,用观察值概率描述。因此,隐马尔可夫模型可以看成是能够随机进行状态转移并输出符号的有限状态自动机,它通过定义观察序列和状态序列的联合概率对随机生成过程进行建模。每一个观察序列可以看成是由一个状态转移序列生成,状态转移过程是依据初始状态概率分布随机选择一个初始状态开始,输出一个观察值后再根据状态转移概率矩阵随机转移到下一状态,直到到达某一预先指定的结束状态为止,在每一个状态将根据输出概率矩阵随机输出一个观察序列的元素。
一个 HMM有 5个组成部分,通常记为一个五元组{S,K, π,A,B},有时简写为一个三元组{π ,A,B},其中:①S是模型的状态集,模型共有 N个状态,记为 S={s1,s2, ⋯,sN};②K是模型中状态输出符号的集合,符号数为 M,符号集记为K={k1,k2,⋯,kM};③是初始状态概率分布,记为 ={ 1, 2,⋯, N},其中 i是状态 Si作为初始状态的概率;④A是状态转移概率矩阵,记为A={aij},1≤i≤N,1≤j≤N。其中 aij是从状态 Si转移到状态 Sj的概率;⑤B是符号输出概率矩阵,记为B={bik},1≤i≤N,1≤k≤M。其中 bik是状态 Si输出 Vk的概率。要用HMM解决实际问题,首先需要解决如下 3个基本问题:①给定一个观察序列 O=O1O2⋯OT和模型{ π,A,B},如何高效率地计算概率P(O|λ),也就是在给定模型的情况下观察序列O的概率;②给定一个观察序列 O=O1O2⋯OT和模型{ π,A,B},如何快速地选择在一定意义下“最优”的状态序列Q=q1q2⋯qT,使得该状态序列“最好地解释”观察序列;③给定一个观察序列 O=O1O2⋯OT,以及可能的模型空间,如何来估计模型参数,也就是说,如何调节模型{π,A,B}的参数,使得 P(O|λ)最大。
问题:
隐马模型中存在两个假设:输出独立性假设和马尔可夫性假设。其中,输出独立性假设要求序列数据严格相互独立才能保证推导的正确性,而事实上大多数序列数据不能被表示 2 成一系列独立事件。
三、最大熵模型
最大熵原理原本是热力学中一个非常重要的原理,后来被广泛应用于自然语言处理方面。其基本原理很简单:对所有的已知事实建模,对未知不做任何假设。也就是建模时选择这样一个统计概率模型,在满足约束的模型中选择熵最大的概率模型。若将词性标注或者其他自然语言处理任务看作一个随机过程,最大熵模型就是从所有符合条件的分布中,选择最均匀的分布,此时熵值最大。
求解最大熵模型,可以采用拉格朗日乘数法,其计算公式为:
pyx1expifi(x,y)Z(x)i
Z(x)expifi(x,y)yi为归一化因子 ,i是对应特征的权重,fi表示其中,一个特征。每个特征对词性选择的影响大小由特征权重学习算法自动得到。
i决定,而这些权值可由GIS或IIS
四、支持向量机
原理:
支持向量机的主要思想可以概括为两点:(1)它是针对线性可分情况进行分析,对于线性不可分的情况, 通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;(2)它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。
支持向量机的目标就是要根据结构风险最小化原理,构造一个目标函数将两类模式尽可能地区分开来, 通常分为两类情况来讨论,:(1)线性可分;(2)线性不可分。
线性可分情况
在线性可分的情况下,就会存在一个超平面使得训练样本完全分开,该超平面可描述为: w ·x + b = 0(1)其中,“·”是点积, w 是n 维向量, b 为偏移量。
最优超平面是使得每一类数据与超平面距离最近的向量与超平面之间的距离最大的这样的平面.3 最优超平面可以通过解下面的二次优化问题来获得: 满足约束条件: , i = 1 ,2 ,3 ,......, n.(3)
在特征数目特别大的情况,可以将此二次规划问题转化为其对偶问题:
(4)
(5)(6 满足约束条件:
这里
(7)
是Lagrange 乘子,是最优超平面的法向量,是最优超平面的偏移量,在这类优化问题的求解与分析中, KKT条件将起到很重要的作用,在(7)式中,其解必须满足:
从式(5)可知,那些
(8)
= 0 的样本对分类没有任何作用,只有那些
> 0 的样本才对分类起作用,这些样本称为支持向量,故最终的分类函数为:
根据f(x)的符号来确定X 的归属。线性不可分的情况
(9)对于线性不可分的情况,可以把样本X 映射到一个高维特征空间H,并在此空间中运用原空间的函 数来实现内积运算,这样将非线性问题转换成另一空间的线性问题来获得一个样本的归属.根据泛函的有关理论,只要一种核函数满足Mercer 条件,它就对应某一空间中的内积,因此只要在最优分类面上采用适当的内积函数就可以实现这种线性不可分的分类问题.此时的目标函数为:
0)
(1 4 其分类函数为:(11)
内积核函数 :
目前有三类用的较多的内积核函数:第一类是
(12)
我们所能得到的是p阶多项式分类器,第二类是径向基函数(RBF),也称作高斯核函数:
第三类是Sigmoid函数
特点:
概括地说,支持向量机就是首先通过内积函数定义的非线性变换将输入空间变换到另一个高维空间,在这个空间中求最优分类面。SVM分类函数形式上类似于一个神经网络,输出是中间节点的线性组合,每个中间节点对应一个输入样本与一个支持向量的内积,因此也叫做支持向量网络。
SVM方法的特点:
① 非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射;② 对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心;③ 支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。
SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”,大大简化了通常的分类和回归等问题。
SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。这种 “鲁棒”性主要体现在: ①增、删非支持向量样本对模型没有影响;②支持向量样本集具有一定的鲁棒性;③有些成功的应用中,SVM 方法对核的选取不敏感
五、条件随机场
原理:
条件随机场(CRFs)是一种基于统计的序列标记识别模型,由John Lafferty等人在2001年首次提出。它是一种无向图模型,对于指定的节点输入值,它能够计算指定的节点输出值上的条件概率,其训练目标是使得条件概率最大化。线性链是CRFs中常见的特定图结构之一,它由指定的输出节点顺序链接而成。一个线性链与一个有限状态机相对应,可用于解决序列数据的标注问题。在多数情况下,CRFs均指线性的CRFs。用x=(x1,x2,…,xn)表示要进行标注的数据序列,y=(y1,y2,…,yn)表示对应的结果序列。例如对于中文词性标注任务,x可以表示一个中文句子x=(上海,浦东,开发,与,法制,建设,同步),y则表示该句子中每个词的词性序列y=(NR,NR,NN,CC,NN,NN,VV)。
对于(X,Y),C由局部特征向量f和对应的权重向量λ确定。对于输入数据序列x和标注结果序列y,条件随机场C的全局特征表示为
Fy,xfy,x,ii ⑴
其中i遍历输入数据序列的所有位置,f(y,x,i)表示在i位置时各个特征组成的特征向量。于是,CRFs定义的条件概率分布为
p(Y,X)其中 expFY,XZX
⑵
ZXexpFy,xy ⑶
给定一个输入数据序列X,标注的目标就是找出其对应的最可能的标注结果序列了,即
yargmaxpy|xy ⑷
由于Zλ(X)不依赖于y,因此有
yargmaxpy|xargmaxFy,xyy ⑸
CRFs模型的参数估计通常采用L—BFGS算法实现,CRFs解码过程,也就是求解未知串标注的过程,需要搜索计算该串上的一个最大联合概率,解码过程采用Viterbi算法来完成。
CRFs具有很强的推理能力,能够充分地利用上下文信息作为特征,还可以任意地添加其他外部特征,使得模型能够获取的信息非常丰富。CRFs通过仅使用一个指数模型作为在给定观测序列条件下整个标记序列的联合概率,使得该模型中不同状态下的不同特征权值可以彼此交替,从而有效地解决了其他非生成有向图模型所产生的标注偏置的问题。这些特点,使得CRFs从理论上讲,非常适合中文词性标注。‘
总结
首先,CRF,HMM(隐马模型)都常用来做序列标注的建模,像词性标注,True casing。但隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择,而另外一种称为最大熵隐马模型则解决了这一问题,可以任意的选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题(label bias),即凡是训练语料中未出现的情况全都忽略掉,而条件随机场则很好的解决了这一问题,他并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值。目前,条件随机场的训练和解码的开源工具还只支持链式的序列,复杂的尚不支持,而且训练时间很长,但效果还可以。最大熵隐马模型的局限性在于其利用训练的局部模型去做全局预测。其最优预测序列只是通过viterbi算法将局部的最大熵模型结合而成的。条件随机场,隐马模型,最大熵隐马模型这三个模型都可以用来做序列标注模型。但是其各自有自身的特点,HMM模型是对转移概率和表现概率直接建模,统计共现概率。而最大熵隐马模型是对转移概率和表现概率建立联合概率,统计时统计的是条件概率。最大熵隐马模型容易陷入局部最优,是因为最大熵隐马模型只在局部做归一化,而CRF模型中,统计了全局概率,在 做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置的问题。
第三篇:自然语言处理的应用及发展趋势
自然语言处理的应用及发展趋势
摘要
本文主要阐述了自然语言处理的研究内容,以及对目前相关领域的应用加以讨论。自然语言处理的研究内容主要有四大块[1-2]:语言学方向、数据处理方向、人工智能和认知科学方向、语言工程方向。最后对自然语言处理的未来发展趋势做简单的介绍。
关键词 自然语言处理 应用 发展趋势
一.自然语言处理的研究内容
自然语言处理的范围涉及众多方面,如语音的自动识别与合成,机器翻译,自然语言理解,人机对话,信息检索,文本分类,自动文摘,等等。我们认为,这些部门可以归纳为如下四个大的方向:(1)语言学方向
本方向是把自然语言处理作为语言学的分时来研究,它之研究语言及语言处理与计算相关的方面,而不管其在计算机上的具体实现。这个方向最重要的研究领域是语法形式化理论和数学理论。(2)数据处理方向
是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发,近些年来则有大规模的语料库的涌现。(3)人工智能和认知科学方向
在这个方向 中,自然语言处理被作为在计算机上实现自然语言能力的学科来研究,探索自然语言理解的只能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切。(4)语言工程方向
主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究,这一方向的研究一般称为“人类语言技术”或者“语言工程”。二.自然语言处理的应用
以上所提及的自然语言处理的四大研究方向基本上涵盖了当今自然语言处理研究的内容,更加细致的说,自然语言处理可以进一步细化为以下13项研究内容,也即为自然语言处理的应用方向,这13个应用方向分别是[3]:口语输入、书面语输入、语言分析和理解、语言生成、口语输出技术、话语分析与对话、文献自动处理、多语问题的计算机处理、多模态的计算机处理、信息传输与信息存储、自然语言处理中的数学方法、语言资源、自然语言处理系统的评测。
这13项内容都涉及语言学。这些研究都要对语言进行形式化的描述, 建立合适的算法, 并在计算机上实现这些算法, 因此, 要涉及数学、计算机科学和逻辑学[4]。口语输入、书面语输入、口语输出、信息传输与信息存储都需要电子工程的技术。由自然语言的应用领域更加进一步说明,自然语言处理都是一个多边缘的交叉学科。由于它的对象是语言, 因此, 它基本上是一个语言学科, 但它还涉及众多的学科, 特别是计算机科学和数学。三.自然语言处理研究的发展趋势
21世纪以来, 由于国际互联网的普及, 自然语言的计算机处理成为了从互联网上获取知识的重要手段, 生活在信息网络时代的现代人, 几乎都要与互联网打交道, 都要或多或少地使用自然语言处理的研究成果来获取或挖掘在广阔无边的互联网上的各种知识和信息, 因此, 世界各国都非常重视有关的研究, 投入了大量的人力、物力和财力[5]。
自然语言处理研究的历史虽不很长,但就目前已有的成果足以显示它的重要性和应用前景。在美、英、日、法等发达国家,自然语言处理如今不仅作为人工智能的核心课题来研究.而且也作为新一代计算机的核心课题来研究。从知识产业的角度来看.自然语言处理的软件也占重要地位,专家系统,数据库、知识库.计算机辅助设计系统(CAD)、计算机辅助教学系统(CAl)、计算机辅助决策系统,办公室自动化管理系统、智能机器人等,无一不需要用自然语言做人一机界面。从长远看.具有篇章理解能力的自然语言理解系统可用于机器自动翻译、情报检索、自动标引,自动文摘.自动写故事小说等领域,具有广阔的应用领域和令人鼓舞的应用前景。
当前国外自然语言处理研究有三个显著的特点[6]:第一, 随着语料库建设和语料库语言学的崛起, 大规模真实文本的处理成为自然语言处理的主要战略目标。第二, 自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。第三, 自然语言处理中越来越多地使用统计数学方法来分析语言数据。目前,我国的自然语言处理研究虽然已经取得不少成绩, 但是与国际水平相比, 差距还很大。我国的自然语言处理研究, 无论在理论上还是在应用系统的开发上, 基本上还没有重大的创新与值得称道的突破。我们的研究基本上还是跟踪性的研究, 很少有创造性的研究, 当然更谈不上具有原创思想的研究了。因此, 我们不能夜郎自大, 不能坐井观天,我们只有努力学习国外的先进成果, 赶上并超过国际先进水平, 使我国的自然语言处理在国际先进行列中占有一席之地,掌握国际先进的成果与技术用于国家和社会的进一步发展。
参考文献: [1] 李堂秋,《自然语言处理》讲义,厦门大学计算机科学系.[2] 辛日华.计算机自然语言处理.呼伦贝尔学院学报,2003,11(1)[3] 白硕,《计算语言学》讲义,中国科学院计算技术研究所.[4] 詹卫东,《计算语言学概论》讲义,北京大学中文系.[5] 冯志伟.自然语言处理的学科地位.解放军外国语学院学报,2005,28(3)[6] 冯志伟.自然语言处理的历史与现状,2008.
第四篇:《自然语言理解》课程设计
自然语言理解课程设计报告 姓名
组员
所在学院
专业年级
报告提交时间
联系电话
电子信箱
赵子豪黄承功赵子豪2011级电子信息工程*** zzh0526ac@163.com
课题分析
机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics)、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。
机器翻译的研究是建立在语言学、数学和计算机科学这3门学科的基础之上的。语言学家提供适合于计算机进行加工的词典和语法规则,数学家把语言学家提供的材料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设备,并进行程序设计。缺少上述任何一方面,机器翻译就不能实现,机器翻译效果的好坏,也完全取决于这3个方面的共同努力。
机器翻译系统可以分为多种类型:基于规则的机器翻译系统,基于语料库的机器翻译系统,基于实例的机器翻译系统,多引擎机器翻译系统,语音机器翻译系统。随着因特网的发展,网络上的语言障碍越来越严重,为了克服网络交流中的语言障碍,还出现了一些专门面向网络的机器翻译系统。国内外研究进展 已经取得的进步:
•近十几年来,机器翻译取得了巨大的进步
•统计机器翻译取得巨大成功,从基于词的模型发展
到了基于短语的模型和基于句法的模型
•机器翻译的统计方法和规则方法走向融合•机器翻译系统开发效率大为提高:数年-->数周•应用范围大大拓展:Google翻译支持几十种语言
•翻译质量也有了明显上升,已经成为日常工具
依然面临的困难:
•翻译质量仍然不够理想(婴儿期)
•需要大规模训练语料库:数据稀疏问题
•需要与应用场合相近的语料:领域适应性
•语言形态的复杂性还没有好的处理办法
•语言之间差异性很大时翻译质量不理想
各系统主要技术要点
Systran:基于规则的机器翻译系统
美国的SYSTRAN系统:美国在乔治敦大学机器翻译系统的基础上,进一步开发了大型的机器翻译系统SYSTRAN,已达到实用水平。例如,提供给美国空军的SYSTRAN系统,词典有16.8万个词干形式和I3.6万个词组,可进行俄英机器翻译,每小时可翻译15万词;提供给美国拉特塞克(Latsec)公司的SYSTRAN系统,可进行俄英、英俄、德英、汉法、汉英机器翻译,每小时可
译30万—35万个词。SYSTRAN是目前应用最为广泛、所开发的语种最为丰富的一个实用化机器翻译系统。
AT&T公司的语音机器翻译系统
AT&T公司的阿尔萨瓦基(AlshawaKi,1998)等开发的语音翻译系统由语音识别、机器翻译、语音合成三部分组成。他们在机器翻译部分采用的算法非常独特,这实际上是一个基于平行概率语法的机器翻译系统。
Verbmobil系统
Verbmobil系统与我们所熟悉的文本翻译系统的不同之处主要体现在: —语音处理:要进行语音识别和语音合成。该系统的目标很高,实现了GSM语音条件下的自动翻译,除了一开始拨打Verbmobil语音服务电话以外,整个系统的服务可完全用GSM电话通过语音方式实现,无需任何按键操作;系统具有语音自适应能力,一开始使用与说话者无关的语音识别模块,通过一段时间对话后,自动适应说话者的口音,提高识别正确率;
—处理自然的语音:要考虑现实口语中的各种复杂现象,如停顿、重复、修正、漏词等等;要建立对话模型,理解句子的语义,并考虑上下文进行翻译,甚至要猜测说话者的意图
TRASLATION ADAPTORⅡ
NEC公司的”TRASLATION ADAPTORⅡ”:能进行英日和日英的双向翻译,除翻译之外,还可进行查词典、例句检索、英文主页写作、英文电子邮件写作等工作,翻译时对于英日文化差异而形成的语文中的细微色彩的不同比较注意,基本词典9万词,价格9800日元。
雅信CAT-2.5和东方快车3000
雅信CAT-2.5以词为单位进行切分,东方快车3000以词组为单位,两种软件都带有专业词库,并综合了近年来计算机语言学的一些成果,如引入了复杂特征集等,对于宾语从句,定语从句翻译也注意了译文的词序的重新排列。然而,国内的翻译软件似乎基本上都采用上下文无关语法,其优点是编泽程序过程用时短,缩短了开发周期,见效较快。这种语法20世纪60年代曾在国外机译研究中被广泛采用,但它的不足之处在上述两种软件中也有所体现。
各系统性能比较分析
Google和Systran翻译比较
Google翻译均较Systran的得分高,在连贯性上Google翻译也均较Systran的得分高,说明Google翻译的译文质量较高。在新闻、商业文本和小说类型上,两个翻译系统所存在的差异较小。在小说文本中,两个翻译系统均取得了最高的分数,而体育新闻的翻译则得分最低。在体育文章上,Google翻译比Systran得分又相对高一些。在完整性和连贯性上,完整性的得分也比连贯性要高。两种系统在小说上得分差异最小,在体育上得分差异最大。
对Google和Systran翻译的四种类型文本译文的评估结果,Google翻译在所有的四种文本类型上都比Systran的表现更好。总体来看,Google译文的得分要比Systran的高,平均分相差0.1265,其中商业文本差距最大,小说差距最小。从不同类型文本的得分来看,小说得分最高,体育报道类得分最低;两种系统得分相比,在小说上得分差异最小,在体育上得分差异最大。
将人工评估结果与BLEU的进行对比分析,发现它们对两个翻译系统译文质量评价具有一致性。表现在:均认为Google翻译译文要比Sys-tran译文质量高;均认为小说的译文质量最高,体育报道的译文质量最差;均认为系统之间小说类上得分差异最小,在体育上得分差异最大。这种现象的产生原因是BLEU的评估基于N-gram(大词汇连续语音识别中常用的一种语言模型,国际上处于主流地位的一种分词方法,它按照固定单词数进行分词,单词数目(N)越大,准确性就越高)对标准译文和原文比对,句子的意思完全不同仍可获得较高的分数。
AT&T公司的语音机器翻译系统
这种方法的主要特点是:
1.训练可以全自动进行,效率很高,由一个双语句子对齐的语料库可以很快训练出一个机器翻译系统;
2.不使用任何人为定义的语言学标一记(如词性、短语类、语义类
等等),无需任何语言学知识;
3.训练得到的参数包含了句子的深层结构信息,这一点比IBM的统计语言模型更好。
这种方法比较适合于语音翻译这种领域较受限、词汇集较小的场合,对一于大规模的文本翻译并不合适。,但这种做法对我们开拓思路还是非常有借鉴意义的。
Verbmobil系统
多种基准的测试以及大规模端对端评价实验令人信服地表明,Verbmobil的最终版本系统中达到了所有的预定目标,有些目标甚至被超越了。在大规模翻译实验中,正确翻译率达到大约80%在真实用户的端对端测试中,90%的对话任务获得成功。
TRASLATION ADAPTORⅡ
—词典容量大而不失其准:由于网络上英语涉及面广,词汇十分丰富,网络翻译系统的词典容量都很大,至少可以帮助人们查询不认识的生词,弄清生词的准确含义;
—翻译速度快而不失其要:便于在网上快速浏览并查找所需要的信息,了解网上信息的梗概要略,译文具有可读性。
—译文质量粗而不失其信:译文能传达英文原文的意思,以“信”为首先的追求目标,而不要求做到译文的“达”和“雅”。
—翻译方式多而不失其巧:既可以使用Web浏览器将英语原文下载到PC机上进行翻译,也可以在网络上直接控制进行翻译,一也可以使用poxy代理服务器代表客户机传送服务请求,通过翻译软件在Web浏览器上把英语直接翻译为日语,还可以仅只查词典,翻译方式多样而巧妙,以适应不同用户的要求。
—文本格式严而不失其便:译文尽量保持英语原文的“超文本”特点,满足HTML超文本置标语言的要求,便于用户在网络中畅游。
未来的研究展望
半个世纪以来,机器翻译研究虽几经曲折但终究已经得到了普遍的承认,其应用也已愈益广泛。特别令人鼓舞的是无论是国外还是国内现在已有那么
多的商品化系统进入市场,尤其是PC机译产品。同时随着PC的普及以及为满足浏览因特网的需求,机译产品进入千家万户的趋势已开始显露。
机器翻译的展望世界机器翻译研究已走过了50多年的曲折历程,目前一些翻译软件产品如“龙方雅信CAT”等基本上已达到了实用水平。随着全球网络化和经济全球化的发展,机器翻译在农业及其他领域的应用前景会越来越广阔。对于机器翻译研究者来说,如何进一步提高机器翻译系统的翻译质量是机器翻译研究的核心,也是他们始终追求的目标和责任,需要计算机、语言学、心理学、逻辑学、数学、人工智能等多学科的综合研究成果。技术方面,预计在双语/多语语料库多级加工、统计方法和机器学习方法、转换方法、语义和知识表示等几方面将得到研究进展。应用方面,在Internet环境下的应用、个人计算方面的应用、领域受限的子语言应用、翻译工作站和翻译辅助工具等几方面将得到进一步的开发应用。对于农业数字图书馆,以上机器翻译技术的发展将整体提高它的多语种农业信息的提供能力,从而更好地为农业数字图书馆的用户提供服务。可以相信,随着机器翻译研究和计算机技术的不断深入发展,终将有一天,世界上不同语种国家的人们可以借助机器翻译产品达到在各种场合自然无障碍的交流。
参考文献
1.《机器翻译研究》-冯志伟著2004
2.《机器翻译技术的进展与展望》刘群、王海峰、王惠临、宗成庆、赵铁军、史晓东、朱靖波、陈家俊、张民2011-12
3.《机器翻译研究的展望》董振东
4.《中国机器翻译研究的机遇与挑战:第八届全国机器翻译研讨会总结与展望》杜金华;张萌;宗成庆;孙乐
5.《Systran和Google翻译系统英译汉质量评价—以四类文本翻译为例》廖梦麟(海南医学院外语部,海南海口571199)
6.百度百科“机器翻译”
7.《外语翻译文化第3辑》-屠国元主编2003
8.《外语翻译文化第3辑》-屠国元主编2003 P211
第五篇:自然语言信息处理,第二届全国多语言知识库建设联合学术研讨会
第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建
设联合学术研讨会
(2nd.CN NMYS-NLP’2010)2010年6月27-29 新疆 乌鲁木齐
会议名誉主席:倪光南(中国科学院计算技术研究所)
主席: 李宇明(教育部语信司)
副主席:吾守尔.斯拉木(新疆大学信息科学与工程学院)
指导委员会主席:俞士文(北京大学计算语言学教育部重点实验室)
副主席:曹右琦(中国中文信息学会)
指导委员会委员:斯迪克.买斯依提(新疆维吾尔自治区民族语言工作委员会)白音门德(内蒙古大学蒙古学学院)
欧 珠(西藏大学)
沙马拉毅(西南民族大学)
刘开瑛(山西大学)
徐
琳(国家自然科学基金委)
王 奇(教育部语信司)
孙茂松(清华大学计算机科学与技术系)力提甫.托乎提(中央民族大学)宗成庆(中国科学院软件技术研究所)
组织委员会主席:吐尔根.依布拉音(新疆大学信息科学与工程学院)
副主席:那顺乌日图(内蒙古大学蒙古学学院)组织委员会委员:贾振红(新疆大学信息科学与工程学院)
欧木几(国家民委信息中心)
地力木拉提.吐尔逊(新疆大学信息科学与工程学院)
维尼拉.木沙江(新疆大学信息科学与工程学院)
李淼(中科院合肥物质研究院)
程序委员会主席: 吾守尔.斯拉木(新疆大学信息科学与工程学院)
副主席: 孙乐(中国中文信息学会)
程序委员会委员:哈力木拉提.买买提(新疆大学信息科学与工程学院)古丽拉.阿东别克(新疆大学信息科学与工程学院)
艾斯卡尔.艾木都拉(新疆大学信息科学与工程学院)阿里甫.库尔班(新疆大学信息科学与工程学院)袁保社(新疆大学信息科学与工程学院)刘 群(中国科学院计算技术研究所)华沙宝(内蒙古大学蒙古学学院)呼和(中国社会科学院民族学人类学研究所)彭良瑞(清华大学电子工程技术系)毕玉德(解放军外国语学院)才让加(青海师范大学)玉素甫.艾白都拉(新疆师范大学计算机学院)于洪志(西北民族大学)艾尔肯.阿热孜(中央民族大学)亚森.伊明(新疆维吾尔自治区民族语言工作委员会)索南才让(西藏民族大学)张 全(中国科学院声学研究所)李济洪(山西大学)
第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联
合学术研讨会征文通知
2010年6月27日—29日 乌鲁木齐:新疆大学
为促进少数民族自然语言信息处理研究和应用,给少数民族自然语言信息处理界的青年学者提供一个学术交流的平台,推动各民族间语言信息处理方面的交流与合作,新疆大学与中国中文信息学会决定于2010年6月27日—29日在西部名城乌鲁木齐联合举办“第二届全国少数民族青年自然语言处理学术研讨会”。
本次会议由中国中文信息学会、新疆大学,内蒙古大学联合主办,新疆大学承办。届时,来自全国的各族 NLP 青年学者以及多语言知识库专家将欢聚一堂,共同探讨少数民族自然语言信领域的最新进展,并展示自己近年来的研究成果。本届会议的主题是: “民族语言文字信息技术应用与多语言资源库建设研究,服务边疆地区信息化建设”。
会议论文的正式语言为中文。会议向全国征集有关计算语言学、自然语言理解和机器翻译方面的论文(内容详见下表)。来稿要求在理论或应用技术上确有新意、叙述清楚、行文流畅。全文不超过8000字,每篇论文均应有中英文两种文字标题、作者、姓名、单位和不超过200字的摘要。来稿全文一式三份邮寄:乌鲁木齐830046 新疆大学信息科学与工程学院 吐尔根,哈力木拉提,古丽拉,收。作者请自留底稿。会议概不退稿。大会录用的论文将收入会议论文集。鉴于新疆目前网络没有全面开通,会议论文电子版发往内蒙古大学蒙古学学院那顺乌日图教授:qingjirvm
(1)截稿日期:2010年5月5日(以邮戳为准)注:来稿请在首页上标明“MNLP-2010”。
(2)录用通知发出日期:2010年5月20日
(3)作者提交的论文激光印刷版日期:2010年6月1日(以到达日期为准)
来稿邮寄地址:830046 乌鲁木齐市 新疆大学信息科学与工程学院 哈力木拉提收
联系电话:乌鲁木齐市 *** 论文包括但不限于以下内容:
1.计算语言学的理论基础:知识表示、语义学、语用学、语料库语言学、记忆模型、机器学习、知识获取和推理技术;
2.少数民族语言信息处理相关标准与技术规范
3.少数民族语言资源开发与语料库建设理论与方法; 4.少数民族语言人机接口技术及系统;
5.少数民族语言词法分析、句法分析和语义分析方面的理论方法,少数民族语言机器翻译方法;
6.少数民族语言文字的识别;
7.自然语言处理的应用系统:自动分词系统、智能检索系统、自动文摘系统、自动校对系统、文本自动分类系统、信息抽取、信息过滤、智能搜索引擎、文本挖掘、智能拼音汉字转换等;
8.计算语言学的资源研究及建设:树库、语法词典、词汇语义分类体系和语义词典、汉语分词词表、概念词典、知识库等;
9.服务于计算语言学的支撑环境和软件技术; 10.多文种软件环境开发及网络信息处理系统。
2010第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建
设联合学术研讨会论文格式
LAN Hua1,Zhao Shu-rong2 1 School of Management, Harbin Institute of Technology, P.R.China, 150001 2 School of Humanities and Science of UESTC, P.R.China, 610054
摘要:这份说明给出了2006第二届全国少数民族青年自然语言处理学术研讨会论文投稿的基本要求。向会议提交的论文不得超过6页,不得少于4页,且必须应用此格式。摘要不得少于120个英文单词,关键词请按字母顺序排列,用逗号隔开。每个关键词第一个单词的首字母大写,其余小写。
关键词:字体,格式,页边距 引言
请将您的论文用纸设置为210mm297mm的A4纸,全篇论文请在“段落”选项中将“行距”设置为“单倍行距”,每段首行缩进4字符。一级标题要上下各空一行,二级标题只需上空一行。所有的图形、表格和公式都必须包括在您的论文中,请不要链接到外部的文件。方法论
2.1 格式
在“页面设置”的“页边距”选项中:“上”页边距设置为25mm,“下”页边距为31mm,“左右”页边距都为20mm,“距边界”中“页眉”设置13mm,“页脚”设置为20mm。“文档网格”选“无网格”。正文采用双栏式,在“格式”的“分栏”选项中,“栏数”设置为2,“宽度和间距”中“间距”设置为2字符,“宽度”设置为21.95字符,然后选择“栏宽相等”。
2.2 字号大小和字体样式
请按照Tab.1中所注明的字体和字号大小进行排版,全篇论文选用Times New Roman字体,正文部分
Tab.1 论文排版字体与字号大小一览表
字号
字体样式
大小 Times New Roman Times New Roman加粗 图、表格 图题、表题 正文、公式、参考文献 二级标题 12 作者姓名 一级标题
论文题目
选用10号字。论文题目字体选Times New Roman加粗,字号为14号,其中每个实词的首字母大写;作者姓名选12号字,姓大写,名字的第一个单词首字母大写,名字之间用短线连接,作者之间用逗号隔开,需作者序号时请用数字以上角标形式标注在右上角;作者单位选10号字,单位前面加序号,后面请写“P.R.China, 邮政编码”;一级标题和二级标题中第一个单词的首字母大写,其余小写,字体选Times New Roman加粗,一级标题选12号字,二级标题选10号字。结果
3.1表格和图
将图和表格放在每栏的顶部和底部,避免放在每栏的中间,大的图和表格可以横跨两栏。
图和表格的文字请用9号字,图题和表题请加粗,且第一个单词的首字母大写,其余小写。
表题与上面文字之间空一行,表题置于表格上方,用缩写“Tab”表示,如“Tab.1”,文中需要提到该表时也请用缩写“Tab.1”,具体形式如Tab.1。
请尽量采用Word中的绘图工具绘图,如果有些图无法用Word中的绘图工具绘制,请不要将图题放在您绘制的图中,必须用Word单独排版。为了保证您论文中图的清晰度,请不要用颜色和灰度图来区分图中的不同含义,因为是单色印刷,且灰度图印制出的效果非常不好,故建议不要采用。
图题应放在图的下方,用缩写“Fig”表示图,如“Fig.1”,文中提到该图时也请用缩写“Fig.1”,图题与下面文字之间空一行。
Fig.1 Magnetization as a function of applied field
3.2 参考文献
参考文献不得少于10个。引用的参考文献应用连续的数字在方括号中标出,参考文献在文中用上角标标注,该句的标点符号跟在方括号之后,参考文献的顺序应按在文中出现的顺序排列。
请注意本说明最后的参考文献格式是标准格式,也是我们希望您能在论文中应用的格式。
除非作者人数在6人或6人以上,否则您应该列出所有作者的名字,而不能用“et al”代替。作者姓名起首的大写字母之间要用一个空格隔开,除专有名词和元素符号外,被引用文献的题目只需第一个单词的首字母大写,其余小写。对于非英文参考文献,请用英文表示,然后在该文献题目之后用圆括号注明原语种。
3.3 缩写
即使在摘要里已经进行了定义,当缩写词第一次在论文中出现时,应对其进行定义,但像IEEE、SI、MKS、CGS、ac、dc和rms之类的缩写就无需定义。由几个首字母合并起来并含有句点的缩写无需在句点和字母中间加空格,如:“C.N.R.S.”就不应写成“C.N.R.S.”。尽量避免在题目中出现缩写。
3.4 公式
公式排版请用公式编辑器编排,公式需要用圆括号加数字进行连续编号,并使编号与每栏的右边线对齐,参见(1),如
A+B=C
(1)注意公式中的符号要事先定义或紧接在公式下给出定义。公式中的变量须用斜体。
3.5 其他
一级标题前请用数字进行标号,引言和参考文献的字体和字号等同于一级标题,引言需要标上标号,参考文献不需标号并居中,一、二级标题应顶格。
当小数点前的数字为零时,不要写“.25”而要写
成“0.25”,“cm3”不要写成“cc”,表示样本面积时应使用“0.1 cm 0.2 cm”,不要写成“0.1 0.2 cm2”。结论
最后,您应该对您的语言负责,因为审稿专家和编辑们不会再对文章中的语言作核对和改动。当您完成论文时,请检查其中的拼写和语法,请尽量找一位专业的审稿人员帮您检查。
像“non”、“sub”、“micro”、“multi”和“ultra”之类的前缀不是独立的单词,它们应该与所修饰的单词一起使用,且不用连字符。
对于基金资助请放在第一页的脚注处,无需使用脚注编号。
参考文献
[1] D.J.Beebe, Signal conversion(book style with paper
title and editor), in biomedical digital signal processing, W.J.Tompkins, Ed.Englewood Cliffs, NJ: Prentice-Hall, 1993, ch.3, pp.61–74.[2] M.Akay, Time frequency and wavelets in biomedical
signal processing(book style).piscataway, NJ: IEEE Press, 1998, pp.123–135.[3] G.B.Gentili, V.Tesi, M.Linari, and M.Marsili, A
versatile microwave plethysmograph for the monitoring of physiological parameters(periodical style), IEEE trans.biomed.Eng., vol.49, no.10, pp.1204–1210, Oct.2002.[4] V.Medina, R.Valdes, J.Azpiroz, and E.Sacristan,title of paper if known, unpublished.[5] E.H.Miller, A note on reflector arrays(Periodical
style—accepted for publication), IEEE trans.antennas propagat., in press.[6] T.Menendez, S.Achenbach, W.Moshage, M.Flug, E.Beinder, A.Kollert, A.Bittel, and K.Bachmann, Prenatal recording of fetal heart action with magnetocardiography(in German), Zeitschrift für Kardiologie, vol.87, no.2, pp.111–8, 1998.[7] J.E.Monzon, The cultural approach to telemedicine
in Latin American homes(published conference proceedings style), in Proc.3rd Conf.information technology applications in biomedicine, ITAB´00, Arlington, VA, pp.50–53.[8] F.A.Saunders, Electrotactile sensory aids for the
handicapped(presented conference paper style), presented at the 4th Annu.meeting biomedical engineering society, Los Angeles, CA, 1973.[9] J.R.Boheki, Adaptive AR model spectral parameters for monitoring neonatal EEG(thesis or dissertation style), Ph.D.dissertation, Biomed.Eng.program, Univ.Fed.Rio de Janeiro, Rio de Janeiro, Brazil, 2000.[10] J.P.Wilkinson, Nonlinear resonant circuit devices(patent style), U.S.Patent 3 624 12, July 16, 1990.[11] R.E.Haskell and C.T.Case, Transient signal propagation in lossless isotropic plasmas(report style), USAF Cambridge Res.Lab., Cambridge, MA Rep.ARCRL-66-234(II), 1994, vol.2.