第一篇:自然的语言高三作文
自然的语言高三作文
在平平淡淡的日常中,大家都不可避免地会接触到作文吧,作文是通过文字来表达一个主题意义的记叙方法。相信很多朋友都对写作文感到非常苦恼吧,以下是小编收集整理的自然的语言高三作文,欢迎大家分享。
大自然丰富多彩,奥妙神奇,如一个新新世界,无处不在诉说它的语言,只要你细细聆听,就会听见大自然亲切的语言。
夜晚,月亮婆婆挂上了树梢。突然,一下繁星满天,一定是这些调度的小星星耐不住寂寞,给银河“牢房”划了道口子,逃了出来。准备在天上逛街呢!小星星快活地眨着眼睛,提着灯笼大街小巷地穿梭。这下可好了,牢里的小星星看了羡慕不已,把“玉皇大帝”的'警告抛向了九霄云外,也逃了出来。这会儿真是众星云集,星光灿烂了!瞧!有几个小星星正围着月亮婆婆的故事呢!真好比众星拱月呀!这时,一个上女孩在阳台观看这美丽的夜景,发出惊叹:“呀!好美的夜空啊!我有生以来,还没见过这么美的星空!”一个大人听见这惊叹声后走了过来,是女的,一定是小女孩的妈妈,她看着这满天的繁星,自言自语道:“明天一定是个大晴天。”旁边的小女孩听了,疑惑不解地问:“妈妈,你怎么会知道明天一定是个大晴天呢?”妈妈笑了笑,说:“宝贝,你瞧,天空上这么多星星预示着明天是个晴天呀!”女孩似懂非懂地点了点头。天上的星星听见了她们俩的对话,高兴得跳起了舞蹈……果然,第二天早上,阳光明媚,小鸟在枝头喳喳地叫……
时光飞逝,日月如梭,一转眼当年的那个小女孩已经读四年级了。有一天,科学老师让他们去校园里观察蚂蚁。小女孩在一棵大树下蹲了下来,只见她的眼睛直钩钩地盯着一群蚂蚁。哦,原来它们在搬家呀,这可是千载难逢的好机会呀!看,一只大蚂蚁要头阵,扛着沙发带领抱着食物的的搬运工向新家奔去,几只强壮的大蚂蚁合力抬起一只螳螂,走几步,歇一歇,再走几步,放下休息休息,快到新家时,它们竭尽全力,喊着:“嗨哟,嗨哟”的口号,向前奔去。忽然,女孩的脑子里有一个
第二篇:自然语言处理
自然语言处理(Natural Language Processing简称NLP)是人工智能和语言学领域的分支学科。在这此领域中探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。
自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。
理论上,NLP是一种很吸引人的人机交互方式。早期的语言处理系统如SHRDLU,当它们处于一个有限的“积木世界”,运用有限的词汇表会话时,工作得相当好。这使得研究员们对此系统相当乐观,然而,当把这个系统拓展到充满了现实世界的含糊与不确定性的环境中时,他们很快丧失了信心。
由于理解(understanding)自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,自然语言认知,同时也被视为一个人工智能完备(AI-complete)的问题。同时,在自然语言处理中,“理解”的定义也变成一个主要的问题。
自然语言处理研究的难点 单词的边界界定
在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。词义的消歧
许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。句法的模糊性 自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(Parse Tree),而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。有瑕疵的或不规范的输入
例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。语言行为与计划
句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。
第三篇:《自然语言理解》课程设计
自然语言理解课程设计报告 姓名
组员
所在学院
专业年级
报告提交时间
联系电话
电子信箱
赵子豪黄承功赵子豪2011级电子信息工程*** zzh0526ac@163.com
课题分析
机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics)、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。
机器翻译的研究是建立在语言学、数学和计算机科学这3门学科的基础之上的。语言学家提供适合于计算机进行加工的词典和语法规则,数学家把语言学家提供的材料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设备,并进行程序设计。缺少上述任何一方面,机器翻译就不能实现,机器翻译效果的好坏,也完全取决于这3个方面的共同努力。
机器翻译系统可以分为多种类型:基于规则的机器翻译系统,基于语料库的机器翻译系统,基于实例的机器翻译系统,多引擎机器翻译系统,语音机器翻译系统。随着因特网的发展,网络上的语言障碍越来越严重,为了克服网络交流中的语言障碍,还出现了一些专门面向网络的机器翻译系统。国内外研究进展 已经取得的进步:
•近十几年来,机器翻译取得了巨大的进步
•统计机器翻译取得巨大成功,从基于词的模型发展
到了基于短语的模型和基于句法的模型
•机器翻译的统计方法和规则方法走向融合•机器翻译系统开发效率大为提高:数年-->数周•应用范围大大拓展:Google翻译支持几十种语言
•翻译质量也有了明显上升,已经成为日常工具
依然面临的困难:
•翻译质量仍然不够理想(婴儿期)
•需要大规模训练语料库:数据稀疏问题
•需要与应用场合相近的语料:领域适应性
•语言形态的复杂性还没有好的处理办法
•语言之间差异性很大时翻译质量不理想
各系统主要技术要点
Systran:基于规则的机器翻译系统
美国的SYSTRAN系统:美国在乔治敦大学机器翻译系统的基础上,进一步开发了大型的机器翻译系统SYSTRAN,已达到实用水平。例如,提供给美国空军的SYSTRAN系统,词典有16.8万个词干形式和I3.6万个词组,可进行俄英机器翻译,每小时可翻译15万词;提供给美国拉特塞克(Latsec)公司的SYSTRAN系统,可进行俄英、英俄、德英、汉法、汉英机器翻译,每小时可
译30万—35万个词。SYSTRAN是目前应用最为广泛、所开发的语种最为丰富的一个实用化机器翻译系统。
AT&T公司的语音机器翻译系统
AT&T公司的阿尔萨瓦基(AlshawaKi,1998)等开发的语音翻译系统由语音识别、机器翻译、语音合成三部分组成。他们在机器翻译部分采用的算法非常独特,这实际上是一个基于平行概率语法的机器翻译系统。
Verbmobil系统
Verbmobil系统与我们所熟悉的文本翻译系统的不同之处主要体现在: —语音处理:要进行语音识别和语音合成。该系统的目标很高,实现了GSM语音条件下的自动翻译,除了一开始拨打Verbmobil语音服务电话以外,整个系统的服务可完全用GSM电话通过语音方式实现,无需任何按键操作;系统具有语音自适应能力,一开始使用与说话者无关的语音识别模块,通过一段时间对话后,自动适应说话者的口音,提高识别正确率;
—处理自然的语音:要考虑现实口语中的各种复杂现象,如停顿、重复、修正、漏词等等;要建立对话模型,理解句子的语义,并考虑上下文进行翻译,甚至要猜测说话者的意图
TRASLATION ADAPTORⅡ
NEC公司的”TRASLATION ADAPTORⅡ”:能进行英日和日英的双向翻译,除翻译之外,还可进行查词典、例句检索、英文主页写作、英文电子邮件写作等工作,翻译时对于英日文化差异而形成的语文中的细微色彩的不同比较注意,基本词典9万词,价格9800日元。
雅信CAT-2.5和东方快车3000
雅信CAT-2.5以词为单位进行切分,东方快车3000以词组为单位,两种软件都带有专业词库,并综合了近年来计算机语言学的一些成果,如引入了复杂特征集等,对于宾语从句,定语从句翻译也注意了译文的词序的重新排列。然而,国内的翻译软件似乎基本上都采用上下文无关语法,其优点是编泽程序过程用时短,缩短了开发周期,见效较快。这种语法20世纪60年代曾在国外机译研究中被广泛采用,但它的不足之处在上述两种软件中也有所体现。
各系统性能比较分析
Google和Systran翻译比较
Google翻译均较Systran的得分高,在连贯性上Google翻译也均较Systran的得分高,说明Google翻译的译文质量较高。在新闻、商业文本和小说类型上,两个翻译系统所存在的差异较小。在小说文本中,两个翻译系统均取得了最高的分数,而体育新闻的翻译则得分最低。在体育文章上,Google翻译比Systran得分又相对高一些。在完整性和连贯性上,完整性的得分也比连贯性要高。两种系统在小说上得分差异最小,在体育上得分差异最大。
对Google和Systran翻译的四种类型文本译文的评估结果,Google翻译在所有的四种文本类型上都比Systran的表现更好。总体来看,Google译文的得分要比Systran的高,平均分相差0.1265,其中商业文本差距最大,小说差距最小。从不同类型文本的得分来看,小说得分最高,体育报道类得分最低;两种系统得分相比,在小说上得分差异最小,在体育上得分差异最大。
将人工评估结果与BLEU的进行对比分析,发现它们对两个翻译系统译文质量评价具有一致性。表现在:均认为Google翻译译文要比Sys-tran译文质量高;均认为小说的译文质量最高,体育报道的译文质量最差;均认为系统之间小说类上得分差异最小,在体育上得分差异最大。这种现象的产生原因是BLEU的评估基于N-gram(大词汇连续语音识别中常用的一种语言模型,国际上处于主流地位的一种分词方法,它按照固定单词数进行分词,单词数目(N)越大,准确性就越高)对标准译文和原文比对,句子的意思完全不同仍可获得较高的分数。
AT&T公司的语音机器翻译系统
这种方法的主要特点是:
1.训练可以全自动进行,效率很高,由一个双语句子对齐的语料库可以很快训练出一个机器翻译系统;
2.不使用任何人为定义的语言学标一记(如词性、短语类、语义类
等等),无需任何语言学知识;
3.训练得到的参数包含了句子的深层结构信息,这一点比IBM的统计语言模型更好。
这种方法比较适合于语音翻译这种领域较受限、词汇集较小的场合,对一于大规模的文本翻译并不合适。,但这种做法对我们开拓思路还是非常有借鉴意义的。
Verbmobil系统
多种基准的测试以及大规模端对端评价实验令人信服地表明,Verbmobil的最终版本系统中达到了所有的预定目标,有些目标甚至被超越了。在大规模翻译实验中,正确翻译率达到大约80%在真实用户的端对端测试中,90%的对话任务获得成功。
TRASLATION ADAPTORⅡ
—词典容量大而不失其准:由于网络上英语涉及面广,词汇十分丰富,网络翻译系统的词典容量都很大,至少可以帮助人们查询不认识的生词,弄清生词的准确含义;
—翻译速度快而不失其要:便于在网上快速浏览并查找所需要的信息,了解网上信息的梗概要略,译文具有可读性。
—译文质量粗而不失其信:译文能传达英文原文的意思,以“信”为首先的追求目标,而不要求做到译文的“达”和“雅”。
—翻译方式多而不失其巧:既可以使用Web浏览器将英语原文下载到PC机上进行翻译,也可以在网络上直接控制进行翻译,一也可以使用poxy代理服务器代表客户机传送服务请求,通过翻译软件在Web浏览器上把英语直接翻译为日语,还可以仅只查词典,翻译方式多样而巧妙,以适应不同用户的要求。
—文本格式严而不失其便:译文尽量保持英语原文的“超文本”特点,满足HTML超文本置标语言的要求,便于用户在网络中畅游。
未来的研究展望
半个世纪以来,机器翻译研究虽几经曲折但终究已经得到了普遍的承认,其应用也已愈益广泛。特别令人鼓舞的是无论是国外还是国内现在已有那么
多的商品化系统进入市场,尤其是PC机译产品。同时随着PC的普及以及为满足浏览因特网的需求,机译产品进入千家万户的趋势已开始显露。
机器翻译的展望世界机器翻译研究已走过了50多年的曲折历程,目前一些翻译软件产品如“龙方雅信CAT”等基本上已达到了实用水平。随着全球网络化和经济全球化的发展,机器翻译在农业及其他领域的应用前景会越来越广阔。对于机器翻译研究者来说,如何进一步提高机器翻译系统的翻译质量是机器翻译研究的核心,也是他们始终追求的目标和责任,需要计算机、语言学、心理学、逻辑学、数学、人工智能等多学科的综合研究成果。技术方面,预计在双语/多语语料库多级加工、统计方法和机器学习方法、转换方法、语义和知识表示等几方面将得到研究进展。应用方面,在Internet环境下的应用、个人计算方面的应用、领域受限的子语言应用、翻译工作站和翻译辅助工具等几方面将得到进一步的开发应用。对于农业数字图书馆,以上机器翻译技术的发展将整体提高它的多语种农业信息的提供能力,从而更好地为农业数字图书馆的用户提供服务。可以相信,随着机器翻译研究和计算机技术的不断深入发展,终将有一天,世界上不同语种国家的人们可以借助机器翻译产品达到在各种场合自然无障碍的交流。
参考文献
1.《机器翻译研究》-冯志伟著2004
2.《机器翻译技术的进展与展望》刘群、王海峰、王惠临、宗成庆、赵铁军、史晓东、朱靖波、陈家俊、张民2011-12
3.《机器翻译研究的展望》董振东
4.《中国机器翻译研究的机遇与挑战:第八届全国机器翻译研讨会总结与展望》杜金华;张萌;宗成庆;孙乐
5.《Systran和Google翻译系统英译汉质量评价—以四类文本翻译为例》廖梦麟(海南医学院外语部,海南海口571199)
6.百度百科“机器翻译”
7.《外语翻译文化第3辑》-屠国元主编2003
8.《外语翻译文化第3辑》-屠国元主编2003 P211
第四篇:自然语言处理常用模型方法总结
自然语言处理常用模型使用方法总结
一、N元模型
思想:
如果用变量W代表一个文本中顺序排列的n个词,即W = W1W2…Wn,则统计语言模型的任务是给出任意词序列W 在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:P(W)= P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1),不难看出,为了预测词Wn的出现概率,必须已知它前面所有词的出现概率。从计算上来看,这太复杂了。如果任意一个词Wi的出现概率只同它前面的N-1个词有关,问题就可以得到很大的简化。这时的语言模型叫做N元模型(N-gram),即P(W)= P(w1)P(w2|w1)P(w3| w1 w2)…P(wi|wi-N+1…wi-1)…实际使用的通常是N=2 或N=3的二元模型(bi-gram)或三元模型(tri-gram)。以三元模型为例,近似认为任意词Wi的出现概率只同它紧接的前面的两个词有关。重要的是这些概率参数都是可以通过大规模语料库来估值的。比如三元概率有P(wi|wi-2wi-1)≈ count(wi-2 wi-1… wi)/ count(wi-2 wi-1)式中count(…)表示一个特定词序列在整个语料库中出现的累计次数。统计语言模型有点像天气预报的方法。用来估计概率参数的大规模语料库好比是一个地区历年积累起来的气象纪录,而用三元模型来做天气预报,就像是根据前两天的天气情况来预测今天的天气。天气预报当然不可能百分之百正确。这也算是概率统计方法的一个特点吧。(摘自黄昌宁论文《中文信息处理的主流技术是什么?》)
条件: 该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
问题:
虽然我们知道元模型中, n越大约束力越强,但由于计算机容量和速度的限制及数据的稀疏,很难进行大n的统计。
二、马尔可夫模型以及隐马尔可夫模型
思想:
马尔可夫模型实际上是个有限状态机,两两状态间有转移概率;隐马尔可夫模型中状态不可见,我们只能看到输出序列,也就是每次状态转移会抛出个观测值;当我们观察到观测序列后,要找到最佳的状态序列。隐马尔科夫模型是一种用参数表示的用于描述随机过程统计特性的概率模型,是一个双重随机过程,由两个部分组成:马尔科夫链和一般随机过程。其中马尔科夫链用来描述状态的转移,用转移概率描述。一般随机过程用来描述状态与观察序列之间的关系,用观察值概率描述。因此,隐马尔可夫模型可以看成是能够随机进行状态转移并输出符号的有限状态自动机,它通过定义观察序列和状态序列的联合概率对随机生成过程进行建模。每一个观察序列可以看成是由一个状态转移序列生成,状态转移过程是依据初始状态概率分布随机选择一个初始状态开始,输出一个观察值后再根据状态转移概率矩阵随机转移到下一状态,直到到达某一预先指定的结束状态为止,在每一个状态将根据输出概率矩阵随机输出一个观察序列的元素。
一个 HMM有 5个组成部分,通常记为一个五元组{S,K, π,A,B},有时简写为一个三元组{π ,A,B},其中:①S是模型的状态集,模型共有 N个状态,记为 S={s1,s2, ⋯,sN};②K是模型中状态输出符号的集合,符号数为 M,符号集记为K={k1,k2,⋯,kM};③是初始状态概率分布,记为 ={ 1, 2,⋯, N},其中 i是状态 Si作为初始状态的概率;④A是状态转移概率矩阵,记为A={aij},1≤i≤N,1≤j≤N。其中 aij是从状态 Si转移到状态 Sj的概率;⑤B是符号输出概率矩阵,记为B={bik},1≤i≤N,1≤k≤M。其中 bik是状态 Si输出 Vk的概率。要用HMM解决实际问题,首先需要解决如下 3个基本问题:①给定一个观察序列 O=O1O2⋯OT和模型{ π,A,B},如何高效率地计算概率P(O|λ),也就是在给定模型的情况下观察序列O的概率;②给定一个观察序列 O=O1O2⋯OT和模型{ π,A,B},如何快速地选择在一定意义下“最优”的状态序列Q=q1q2⋯qT,使得该状态序列“最好地解释”观察序列;③给定一个观察序列 O=O1O2⋯OT,以及可能的模型空间,如何来估计模型参数,也就是说,如何调节模型{π,A,B}的参数,使得 P(O|λ)最大。
问题:
隐马模型中存在两个假设:输出独立性假设和马尔可夫性假设。其中,输出独立性假设要求序列数据严格相互独立才能保证推导的正确性,而事实上大多数序列数据不能被表示 2 成一系列独立事件。
三、最大熵模型
最大熵原理原本是热力学中一个非常重要的原理,后来被广泛应用于自然语言处理方面。其基本原理很简单:对所有的已知事实建模,对未知不做任何假设。也就是建模时选择这样一个统计概率模型,在满足约束的模型中选择熵最大的概率模型。若将词性标注或者其他自然语言处理任务看作一个随机过程,最大熵模型就是从所有符合条件的分布中,选择最均匀的分布,此时熵值最大。
求解最大熵模型,可以采用拉格朗日乘数法,其计算公式为:
pyx1expifi(x,y)Z(x)i
Z(x)expifi(x,y)yi为归一化因子 ,i是对应特征的权重,fi表示其中,一个特征。每个特征对词性选择的影响大小由特征权重学习算法自动得到。
i决定,而这些权值可由GIS或IIS
四、支持向量机
原理:
支持向量机的主要思想可以概括为两点:(1)它是针对线性可分情况进行分析,对于线性不可分的情况, 通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;(2)它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。
支持向量机的目标就是要根据结构风险最小化原理,构造一个目标函数将两类模式尽可能地区分开来, 通常分为两类情况来讨论,:(1)线性可分;(2)线性不可分。
线性可分情况
在线性可分的情况下,就会存在一个超平面使得训练样本完全分开,该超平面可描述为: w ·x + b = 0(1)其中,“·”是点积, w 是n 维向量, b 为偏移量。
最优超平面是使得每一类数据与超平面距离最近的向量与超平面之间的距离最大的这样的平面.3 最优超平面可以通过解下面的二次优化问题来获得: 满足约束条件: , i = 1 ,2 ,3 ,......, n.(3)
在特征数目特别大的情况,可以将此二次规划问题转化为其对偶问题:
(4)
(5)(6 满足约束条件:
这里
(7)
是Lagrange 乘子,是最优超平面的法向量,是最优超平面的偏移量,在这类优化问题的求解与分析中, KKT条件将起到很重要的作用,在(7)式中,其解必须满足:
从式(5)可知,那些
(8)
= 0 的样本对分类没有任何作用,只有那些
> 0 的样本才对分类起作用,这些样本称为支持向量,故最终的分类函数为:
根据f(x)的符号来确定X 的归属。线性不可分的情况
(9)对于线性不可分的情况,可以把样本X 映射到一个高维特征空间H,并在此空间中运用原空间的函 数来实现内积运算,这样将非线性问题转换成另一空间的线性问题来获得一个样本的归属.根据泛函的有关理论,只要一种核函数满足Mercer 条件,它就对应某一空间中的内积,因此只要在最优分类面上采用适当的内积函数就可以实现这种线性不可分的分类问题.此时的目标函数为:
0)
(1 4 其分类函数为:(11)
内积核函数 :
目前有三类用的较多的内积核函数:第一类是
(12)
我们所能得到的是p阶多项式分类器,第二类是径向基函数(RBF),也称作高斯核函数:
第三类是Sigmoid函数
特点:
概括地说,支持向量机就是首先通过内积函数定义的非线性变换将输入空间变换到另一个高维空间,在这个空间中求最优分类面。SVM分类函数形式上类似于一个神经网络,输出是中间节点的线性组合,每个中间节点对应一个输入样本与一个支持向量的内积,因此也叫做支持向量网络。
SVM方法的特点:
① 非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射;② 对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心;③ 支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。
SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”,大大简化了通常的分类和回归等问题。
SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。这种 “鲁棒”性主要体现在: ①增、删非支持向量样本对模型没有影响;②支持向量样本集具有一定的鲁棒性;③有些成功的应用中,SVM 方法对核的选取不敏感
五、条件随机场
原理:
条件随机场(CRFs)是一种基于统计的序列标记识别模型,由John Lafferty等人在2001年首次提出。它是一种无向图模型,对于指定的节点输入值,它能够计算指定的节点输出值上的条件概率,其训练目标是使得条件概率最大化。线性链是CRFs中常见的特定图结构之一,它由指定的输出节点顺序链接而成。一个线性链与一个有限状态机相对应,可用于解决序列数据的标注问题。在多数情况下,CRFs均指线性的CRFs。用x=(x1,x2,…,xn)表示要进行标注的数据序列,y=(y1,y2,…,yn)表示对应的结果序列。例如对于中文词性标注任务,x可以表示一个中文句子x=(上海,浦东,开发,与,法制,建设,同步),y则表示该句子中每个词的词性序列y=(NR,NR,NN,CC,NN,NN,VV)。
对于(X,Y),C由局部特征向量f和对应的权重向量λ确定。对于输入数据序列x和标注结果序列y,条件随机场C的全局特征表示为
Fy,xfy,x,ii ⑴
其中i遍历输入数据序列的所有位置,f(y,x,i)表示在i位置时各个特征组成的特征向量。于是,CRFs定义的条件概率分布为
p(Y,X)其中 expFY,XZX
⑵
ZXexpFy,xy ⑶
给定一个输入数据序列X,标注的目标就是找出其对应的最可能的标注结果序列了,即
yargmaxpy|xy ⑷
由于Zλ(X)不依赖于y,因此有
yargmaxpy|xargmaxFy,xyy ⑸
CRFs模型的参数估计通常采用L—BFGS算法实现,CRFs解码过程,也就是求解未知串标注的过程,需要搜索计算该串上的一个最大联合概率,解码过程采用Viterbi算法来完成。
CRFs具有很强的推理能力,能够充分地利用上下文信息作为特征,还可以任意地添加其他外部特征,使得模型能够获取的信息非常丰富。CRFs通过仅使用一个指数模型作为在给定观测序列条件下整个标记序列的联合概率,使得该模型中不同状态下的不同特征权值可以彼此交替,从而有效地解决了其他非生成有向图模型所产生的标注偏置的问题。这些特点,使得CRFs从理论上讲,非常适合中文词性标注。‘
总结
首先,CRF,HMM(隐马模型)都常用来做序列标注的建模,像词性标注,True casing。但隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择,而另外一种称为最大熵隐马模型则解决了这一问题,可以任意的选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题(label bias),即凡是训练语料中未出现的情况全都忽略掉,而条件随机场则很好的解决了这一问题,他并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值。目前,条件随机场的训练和解码的开源工具还只支持链式的序列,复杂的尚不支持,而且训练时间很长,但效果还可以。最大熵隐马模型的局限性在于其利用训练的局部模型去做全局预测。其最优预测序列只是通过viterbi算法将局部的最大熵模型结合而成的。条件随机场,隐马模型,最大熵隐马模型这三个模型都可以用来做序列标注模型。但是其各自有自身的特点,HMM模型是对转移概率和表现概率直接建模,统计共现概率。而最大熵隐马模型是对转移概率和表现概率建立联合概率,统计时统计的是条件概率。最大熵隐马模型容易陷入局部最优,是因为最大熵隐马模型只在局部做归一化,而CRF模型中,统计了全局概率,在 做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置的问题。
第五篇:自然语言处理的应用及发展趋势
自然语言处理的应用及发展趋势
摘要
本文主要阐述了自然语言处理的研究内容,以及对目前相关领域的应用加以讨论。自然语言处理的研究内容主要有四大块[1-2]:语言学方向、数据处理方向、人工智能和认知科学方向、语言工程方向。最后对自然语言处理的未来发展趋势做简单的介绍。
关键词 自然语言处理 应用 发展趋势
一.自然语言处理的研究内容
自然语言处理的范围涉及众多方面,如语音的自动识别与合成,机器翻译,自然语言理解,人机对话,信息检索,文本分类,自动文摘,等等。我们认为,这些部门可以归纳为如下四个大的方向:(1)语言学方向
本方向是把自然语言处理作为语言学的分时来研究,它之研究语言及语言处理与计算相关的方面,而不管其在计算机上的具体实现。这个方向最重要的研究领域是语法形式化理论和数学理论。(2)数据处理方向
是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发,近些年来则有大规模的语料库的涌现。(3)人工智能和认知科学方向
在这个方向 中,自然语言处理被作为在计算机上实现自然语言能力的学科来研究,探索自然语言理解的只能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切。(4)语言工程方向
主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究,这一方向的研究一般称为“人类语言技术”或者“语言工程”。二.自然语言处理的应用
以上所提及的自然语言处理的四大研究方向基本上涵盖了当今自然语言处理研究的内容,更加细致的说,自然语言处理可以进一步细化为以下13项研究内容,也即为自然语言处理的应用方向,这13个应用方向分别是[3]:口语输入、书面语输入、语言分析和理解、语言生成、口语输出技术、话语分析与对话、文献自动处理、多语问题的计算机处理、多模态的计算机处理、信息传输与信息存储、自然语言处理中的数学方法、语言资源、自然语言处理系统的评测。
这13项内容都涉及语言学。这些研究都要对语言进行形式化的描述, 建立合适的算法, 并在计算机上实现这些算法, 因此, 要涉及数学、计算机科学和逻辑学[4]。口语输入、书面语输入、口语输出、信息传输与信息存储都需要电子工程的技术。由自然语言的应用领域更加进一步说明,自然语言处理都是一个多边缘的交叉学科。由于它的对象是语言, 因此, 它基本上是一个语言学科, 但它还涉及众多的学科, 特别是计算机科学和数学。三.自然语言处理研究的发展趋势
21世纪以来, 由于国际互联网的普及, 自然语言的计算机处理成为了从互联网上获取知识的重要手段, 生活在信息网络时代的现代人, 几乎都要与互联网打交道, 都要或多或少地使用自然语言处理的研究成果来获取或挖掘在广阔无边的互联网上的各种知识和信息, 因此, 世界各国都非常重视有关的研究, 投入了大量的人力、物力和财力[5]。
自然语言处理研究的历史虽不很长,但就目前已有的成果足以显示它的重要性和应用前景。在美、英、日、法等发达国家,自然语言处理如今不仅作为人工智能的核心课题来研究.而且也作为新一代计算机的核心课题来研究。从知识产业的角度来看.自然语言处理的软件也占重要地位,专家系统,数据库、知识库.计算机辅助设计系统(CAD)、计算机辅助教学系统(CAl)、计算机辅助决策系统,办公室自动化管理系统、智能机器人等,无一不需要用自然语言做人一机界面。从长远看.具有篇章理解能力的自然语言理解系统可用于机器自动翻译、情报检索、自动标引,自动文摘.自动写故事小说等领域,具有广阔的应用领域和令人鼓舞的应用前景。
当前国外自然语言处理研究有三个显著的特点[6]:第一, 随着语料库建设和语料库语言学的崛起, 大规模真实文本的处理成为自然语言处理的主要战略目标。第二, 自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。第三, 自然语言处理中越来越多地使用统计数学方法来分析语言数据。目前,我国的自然语言处理研究虽然已经取得不少成绩, 但是与国际水平相比, 差距还很大。我国的自然语言处理研究, 无论在理论上还是在应用系统的开发上, 基本上还没有重大的创新与值得称道的突破。我们的研究基本上还是跟踪性的研究, 很少有创造性的研究, 当然更谈不上具有原创思想的研究了。因此, 我们不能夜郎自大, 不能坐井观天,我们只有努力学习国外的先进成果, 赶上并超过国际先进水平, 使我国的自然语言处理在国际先进行列中占有一席之地,掌握国际先进的成果与技术用于国家和社会的进一步发展。
参考文献: [1] 李堂秋,《自然语言处理》讲义,厦门大学计算机科学系.[2] 辛日华.计算机自然语言处理.呼伦贝尔学院学报,2003,11(1)[3] 白硕,《计算语言学》讲义,中国科学院计算技术研究所.[4] 詹卫东,《计算语言学概论》讲义,北京大学中文系.[5] 冯志伟.自然语言处理的学科地位.解放军外国语学院学报,2005,28(3)[6] 冯志伟.自然语言处理的历史与现状,2008.