第一篇:语音识别技术调研报告
语音识别技术的原理和应用
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
在语音识别的特征提取过程中,主要有语音信息量大,语音的模糊性,重音、音调、音量和音速的变化,环境噪声和干扰等难点。导致语音识别在互联网和传媒行业一直没有得到广泛的应用。但是近几年来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,硬件的性能的提升和算法的改进,语音识别技术得到突飞猛进的发展。例如音频指纹技术和音频二维码技术等。下面本文具体讨论这两种技术。
音频二维码 音频二维码技术
二维码技术经过多年的发展,已成为大家耳熟能详的名词了。二维码取代传统的键盘树盘输入技术的部分功能,成为互联网行业的第二大入口方式。但是普通的二维码技术只是将文本信息进行加码和解码。这导致二维码只能传输普通的文本信息。如果将音频技术和二维码的概念相结合,利用声音实现终端之间的近距离信息传输,那么毫无疑问音频信息将成为互联网行业的第三大入口方式。
音频二维码技术采用仿生学技术,利用声音实现文件的快速传输。采用跨平台的技术,实现手机、电脑、智能机顶盒等智能设备间的图片、文字、链接的传输。音频二维码技术能在一定程度上取代图像二维码、近磁场传输和蓝牙等技术。
2012年底蛐蛐儿创始人朱连兴开发了一套音频二维码的引擎,名字叫蛐蛐儿SDK。在朱连兴推出了蛐蛐儿SDK之后,音频二维码的开发也变的比以前更加快速和简单。蛐蛐儿通过声音传输的不是文件,而是在发送端生成一个四位的二进制数。这四位二进制数是待发送文件的ID。发送端向接收端发送的其实只是上述生成的ID。发送端在向客户端发送ID的同时向云端发送ID和数据。在接收端接收到ID后,通过该ID向云端获取对应的数据。
音频二维码应用
音频二维码的应用非常广泛。音频二维码通过声音传递信息。广播和电视也通过声音传递信息。如果结合音频二维码技术和广播电视技术,将使二者相得益彰。音频二维码可以使广播电视用户不再是单一的受众,也是参与者。通过音频二维码可以让用户的手机等终端设备接入电视屏幕或者广播。用户在欣赏电视节目或者收听广播节目的同时,也可以通过手持终端参与节目互动环节。这会在给用户带来更好体验的同时,拉动广播电视行业的收视率和收听率。
例如在非诚勿扰的节目播放结束时,孟非不需要说那么长的一串话让观众知道如何来报名参加非诚勿扰,只需要说“欢迎在听到嘀声后报名参加非诚勿扰”就可以了。观众的终端在听到嘀声后解析相应的内容,获取到报名所需要的电话号码和电子邮箱。观众可以任选一种进行报名。这样观众再也不需要拿笔和纸去记录这些信息了。
观众在观看好享购频道的时候,在一个节目结束的时候插入一个声音。观众的手机在听到这个声音后自动解析购买此商品的号码,用户按拨号键就可以直接购买自己想要的商品。使用了音频二维码技术,用户便从对着电视屏幕记录购买号码中解脱出来了。
不像电视技术同时通过声音和画面来传递信息,广播技术只能通过声音来传递信息。所以在广播行业中,尤其需要其它的手段让听众接收信息。在这个需求下,音频二维码技术变得尤为重要。
通过音频二维码技术,广播和电视可以向用户推送广告,例如团购消息、好享购商品信息以及商场打折券等等;可以向用户推送增值服务,例如天气预报、银行还款等等;可以向用户发起投票活动;还可以允许用户分享这些内容到各大社交论坛,吸引物联网用户的眼球。
缺点
蛐蛐儿SDK采用的是人耳可以听到的四千到一万伏的频段。这导致非常容易被周围环境中的噪声干扰。经过测试,该SDK在咖啡店和火锅店等公共场所中,在两米以内的传输率能达到百分之百,距离越远,传输率越低。蛐蛐儿SDK采用的是人耳听觉范围内的音频,这对于广播电视行业来说是个缺点。因为在原本纯内容的声音信息中加入了其它的对人耳来说无用的声音,可能会让观众无法接受。这个问题可以通过采用超声波或者次声波来代替可听波来解决。但是如果采用超声波,会显著增加功耗,并且不能绕过障碍物。在电视前站一个人将把所有信息拒之门外。并且某些频率的次声波对人体产生的危害非常大。所以确定音频的频率是一个非常重要的研究。
音频指纹 音频指纹技术
音频指纹技术是一种通用音频处理技术。它能根据音频对象的特征准确识别该对象的信息。音频指纹是音频对象简短的摘要。音频指纹技术在音频对象和指纹之间建立一种映射关系。通过这种机制,不需要通过比较较大的音频对象本身,而是通过比较相关的指纹,就可以确定音频之间知觉平等的关系。
音频技术的研究起步较早,现在已发展的非常成熟。音频指纹的研究主要有两个方向。一是基于水印嵌入的指纹方法。周鸿飞提出了一种基于混沌和系数均指统计特性的音频指纹方案。首先使用用户信息生成混沌映射初值,然后应用混沌方法把混沌映射初值生成用户指纹,再根据小波系数统计恒定特性将指纹嵌入到每帧中。这种方法具有一定的鲁棒性,但是需要嵌入多余的数据。另一种是基于内容的指纹方法。Haitsma J.提出了一种鲁棒的音频哈希指纹方法,对相邻2帧提取频域能量的差异作为哈希指纹。
音频指纹应用
音频指纹起步较早,应用也非常广泛。目前应用最广的领域是音乐播放软件中。根据音乐的旋律能够准确识别歌名歌手等信息。飞利浦公司研制了一款手机软件。只要把手机贴近正在播放歌曲的收音机,不出三秒钟的时间就能记下这首歌曲的音频指纹。然后手机可以通过该音频指纹去音频指纹数据库寻找匹配的歌曲。酷我音乐也采用了这种技术实现了类似的功能。
音频指纹也可以应用到电视媒体中。例如可以使用音频指纹对电视广告进行检测。商业公司可以检测电视台的广告是否按合同规定播出。媒体研究机构和广告策略公司可以统计广告的信息,对其进行整理和数据挖掘。
音频指纹还可以用于版权控制。版权所有者可以对广播和电视进行音频指纹采集,然后根据音频指纹对比音视频数据库,找到该音视频,进而挖掘传播者是否具有该音视频的版权。
音频指纹也可以用于向电视和广播用户的终端推送服务,增加与用户的互动。例如用户的手机接收到特定的音频指纹后就打开web浏览器,转到一个URL。该URL可以是与用户互动的投票系统,也可以是广告,或者是一些增值服务。
音频指纹同样也可以用于物联网行业。当用户上传或者下载音频的时候,首先传递该音频的指纹。如果发现已存在该音频,将直接完成此次下载任务。达到秒级的用户体验。
总结
随着技术的迭代更新,语音识别技术也会越来越完善和先进。其应用背景非常广泛,其商机也无限大。可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。
第二篇:语音信号处理与识别
信号系统课程设计报告
欧阳光亮
2012029020025
语音信号处理与识别
目的:理解时域和频域尺度变换基本概念,掌握信号时频域分析方法,正确理解采样定理,准确理解滤波器的概念。内容:
(1)使用Matlab中wavrecord命令录制一段3秒的语音信号,使用wavplay命令播放,录制命令和播放命令中的采样频率设置成相同和不同两种情况,对观察到的现象进行分析并结合课本中的知识对该现象进行解释;(2)使用不同的采样频率录制一段3秒的语音信号,画出信号的时域波形和频谱;找到语音信号的主要频谱成分所在的带宽;观察并分析不同采样频率对波形和频谱的影响;寻找声音信号不出现明显失真的最低采样频率;(3)录制一段男生的语音信号和一段女生的语音信号,对两段音频信号进行混合,设计滤波器将混合的语音信号分开成单独的男声和女声信号,如果分离效果不好,对原因进行解释。
Matlab命令:wavrecord, wavplay, wavwrite, wavread, save, load, fft, fftshift, filter, plot, subplot, figure.过程:(1)相同:
fs1=16000;
%取样频率 fs2=16000;
%播放频率 duration=5;
%录音时间
fprintf('Press any key to start %g seconds of recording...n',duration);
pause;
fprintf('Recording...n');
y=wavrecord(duration*fs1,fs1);
%duration*fs 是总的采样点数
fprintf('Finished recording.n');
fprintf('Press any key to play the recording...n');
pause;
wavplay(y,fs2);wavwrite(y,fs1,'E:matlabrecord3.wav
不同:
fs1=16000;
%取样频率 fs2=8000;
%播放频率 duration=5;
%录音时间
fprintf('Press any key to start %g seconds of recording...n',duration);
pause;
fprintf('Recording...n');
y=wavrecord(duration*fs1,fs1);
%duration*fs 是总的采样点数
fprintf('Finished recording.n');
fprintf('Press any key to play the recording...n');
pause;
wavplay(y,fs2);wavwrite(y,fs1,'E:matlabrecord3.wav');现象:第二次播放时,声音明显失真。
理由:采样频率和播放频率不一样时声音信号会失真。(2)
fs1=16000;
%取样频率 fs2=16000;
%播放频率 duration=5;
%录音时间
fprintf('Press any key to start %g seconds of recording...n',duration);
pause;
fprintf('Recording...n');
y=wavrecord(duration*fs1,fs1);
%duration*fs 是总的采样点数
fprintf('Finished recording.n');
fprintf('Press any key to play the recording...n');
pause;
wavplay(y,fs2);wavwrite(y,fs1,'E:matlabrecord3.wav');
wav=wavread('E:matlabrecord3.wav');Fs=16000;n=length(wav);f=(0:n-1)*16000/n;mag=abs(fft(wav));subplot(2,1,1);plot(wav);subplot(2,1,2);plot(f,mag)
采样频率为1600010.5y/幅度0-0.5-101234x/t采样频率为16000567x 1084600500400y/幅度***400060008000x/f***16000
fs1=8000;
%取样频率 fs2=8000;
%播放频率 duration=5;
%录音时间
fprintf('Press any key to start %g seconds of recording...n',duration);
pause;
fprintf('Recording...n');
y=wavrecord(duration*fs1,fs1);
%duration*fs 是总的采样点数
fprintf('Finished recording.n');
fprintf('Press any key to play the recording...n');
pause;wavplay(y,fs2);wavwrite(y,fs1,'E:matlabrecord3.wav');
wav=wavread('E:matlabrecord3.wav');Fs=8000;n=length(wav);f=(0:n-1)*16000/n;mag=abs(fft(wav));subplot(2,1,1);plot(wav);subplot(2,1,2);plot(f,mag)wavplay(wav,8000)
采样频率为8000hz1 0.5y/幅度0-0.5-1 00.511.52x/s采样频率为8000hz2.533.5x ***0500y/幅度***00x/hz***16000
由图可知:语音信号的主要频谱成分所在的带宽为(0—1200hz),带宽为1200hz。
当采样频率较小时,频谱图上显示带宽较大,波形较稀松。
最低采样频率应为,声音信号的最高频率的两倍,由图可知为2400hz。(3)女声:
wav1=wavread('E:matlabrecord1.wav');wav2=wavread('E:matlabrecord2.wav');wav=wav1+wav2;fp1=800;fp2=1500;fp=[fp1,fp2];fr1=650;fr2=1900;fr=[fr1,fr2];Fs=16000;ap=1;as=40;[n,fn]= buttord(fp/(Fs/2),fr/(Fs/2),ap,as,'z');[b,a]=butter(n,fn);Y1=filter(b,a,wav);Y=fft(Y1);mag=abs(Y);n=length(wav);f=(0:n-1)*16000/n;subplot(3,1,1);mag1=abs(fft(wav));plot(f,mag1)subplot(3,1,2);plot(f,mag);subplot(3,1,3);plot(Y1);wavplay(Y1,16000)
混合400300y/幅度***060008000x/频率女声***16000400300y/幅度 2001000 ***00f/hz***160000.20.1y/幅度0-0.1-0.201234x/t567x 1084
男声:
wav1=wavread('E:matlabrecord1.wav');wav2=wavread('E:matlabrecord2.wav');wav=wav1+wav2;fp1=200;fp2=600;fp=[fp1,fp2];fr1=100;fr2=1000;fr=[fr1,fr2];Fs=16000;ap=3;as=40;[n,fn]= buttord(fp/(Fs/2),fr/(Fs/2),ap,as,'z');[b,a]=butter(n,fn);Y1=filter(b,a,wav);Y=fft(Y1);mag=abs(Y);n=length(wav);f=(0:n-1)*16000/n;subplot(3,1,1);mag1=abs(fft(wav));plot(f,mag1)subplot(3,1,2);plot(f,mag);subplot(3,1,3);plot(Y1);wavplay(Y1,16000)
混合频谱图200150y/幅度***30004000x/hz男声频谱图***040y/幅度***8000x/hz男声时域图***160000.040.02y/幅度0-0.02-0.0401234x/s567x 1084
分离效果不佳,原因:男女声频率有很多重叠的地方。
第三篇:智能语音识别机器人文献翻译
改进型智能机器人的语音识别方法
2、语音识别概述
最近,由于其重大的理论意义和实用价值,语音识别已经受到越来越多的关注。到现在为止,多数的语音识别是基于传统的线性系统理论,例如隐马尔可夫模型和动态时间规整技术。随着语音识别的深度研究,研究者发现,语音信号是一个复杂的非线性过程,如果语音识别研究想要获得突破,那么就必须引进非线性系统理论方法。最近,随着非线性系统理论的发展,如人工神经网络,混沌与分形,可能应用这些理论到语音识别中。因此,本文的研究是在神经网络和混沌与分形理论的基础上介绍了语音识别的过程。
语音识别可以划分为独立发声式和非独立发声式两种。非独立发声式是指发音模式是由单个人来进行训练,其对训练人命令的识别速度很快,但它对与其他人的指令识别速度很慢,或者不能识别。独立发声式是指其发音模式是由不同年龄,不同性别,不同地域的人来进行训练,它能识别一个群体的指令。一般地,由于用户不需要操作训练,独立发声式系统得到了更广泛的应用。所以,在独立发声式系统中,从语音信号中提取语音特征是语音识别系统的一个基本问题。
语音识别包括训练和识别,我们可以把它看做一种模式化的识别任务。通常地,语音信号可以看作为一段通过隐马尔可夫模型来表征的时间序列。通过这些特征提取,语音信号被转化为特征向量并把它作为一种意见,在训练程序中,这些意见将反馈到HMM的模型参数估计中。这些参数包括意见和他们响应状态所对应的概率密度函数,状态间的转移概率,等等。经过参数估计以后,这个已训练模式就可以应用到识别任务当中。输入信号将会被确认为造成词,其精确度是可以评估的。整个过程如图一所示。
图1 语音识别系统的模块图
3、理论与方法
从语音信号中进行独立扬声器的特征提取是语音识别系统中的一个基本问题。解决这个问题的最流行方法是应用线性预测倒谱系数和Mel频率倒谱系数。这两种方法都是基于一种假设的线形程序,该假设认为说话者所拥有的语音特性是由于声道共振造成的。这些信号特征构成了语音信号最基本的光谱结构。然而,在语音信号中,这些非线形信息不容易被当前的特征提取逻辑方法所提取,所以我们使用分型维数来测量非线形语音扰动。
本文利用传统的LPCC和非线性多尺度分形维数特征提取研究并实现语音识别系统。
3.1线性预测倒谱系数
线性预测系数是一个我们在做语音的线形预分析时得到的参数,它是关于毗邻语音样本间特征联系的参数。线形预分析正式基于以下几个概念建立起来的,即一个语音样本可以通过一些以前的样本的线形组合来快速地估计,根据真实语音样本在确切的分析框架(短时间内的)和预测样本之间的差别的最小平方原则,最后会确认出唯一的一组预测系数。
LPC可以用来估计语音信号的倒谱。在语音信号的短时倒谱分析中,这是一种特殊的处理方法。信道模型的系统函数可以通过如下的线形预分析来得到:
其中p代表线形预测命令,(k=1,2,„ „,p)代表预测参数,脉冲响应用
。那么(1)式可以扩展为(2)式: h(n)来表示,假设h(n)的倒谱是
将(1)带入(2),两边同时,(2)变成(3)。
就获得了方程(4):
那么 可以通过
来获得。
(5)中计算的倒谱系数叫做LPCC,n代表LPCC命令。
在我们采集LPCC参数以前,我们应该对语音信号进行预加重,帧处理,加工和终端窗口检测等,所以,中文命令字“前进”的端点检测如图2所示,接下来,断点检测后的中文命令字“前进”语音波形和LPCC的参数波形如图3所示。
图2 中文命令字“前进”的端点检测
图3 断点检测后的中文命令字“前进”语音波形和LPCC的参数波形
3.2 语音分形维数计算
分形维数是一个与分形的规模与数量相关的定值,也是对自我的结构相似性的测量。分形分维测量是[6-7]。从测量的角度来看,分形维数从整数扩展到了分数,打破了一般集拓扑学方面被整数分形维数的限制,分数大多是在欧几里得几何尺寸的延伸。
有许多关于分形维数的定义,例如相似维度,豪斯多夫维度,信息维度,相关维度,容积维度,计盒维度等等,其中,豪斯多夫维度是最古老同时也是最重要的,它的定义如【3】所示:
其中,表示需要多少个单位来覆盖子集F.端点检测后,中文命令词“向前”的语音波形和分形维数波形如图4所示。
图4 端点检测后,中文命令词“向前”的语音波形和分形维数波形
3.3 改进的特征提取方法
考虑到LPCC语音信号和分形维数在表达上各自的优点,我们把它们二者混合到信号的特取中,即分形维数表表征语音时间波形图的自相似性,周期性,随机性,同时,LPCC特性在高语音质量和高识别速度上做得很好。
由于人工神经网络的非线性,自适应性,强大的自学能力这些明显的优点,它的优良分类和输入输出响应能力都使它非常适合解决语音识别问题。
由于人工神经网络的输入码的数量是固定的,因此,现在是进行正规化的特征参数输入到前神经网络[9],在我们的实验中,LPCC和每个样本的分形维数需要分别地通过时间规整化的网络,LPCC是一个4帧数据(LPCC1,LPCC2,LPCC3,LPCC4,每个参数都是14维的),分形维数被模范化为12维数据,(FD1,FD2,„FD12,每一个参数都是一维),以便于每个样本的特征向量有4*14+12*1=68-D维,该命令就是前56个维数是LPCC,剩下的12个维数是分形维数。因而,这样的一个特征向量可以表征语音信号的线形和非线性特征。
自动语音识别的结构和特征
自动语音识别是一项尖端技术,它允许一台计算机,甚至是一台手持掌上电脑(迈尔斯,2000)来识别那些需要朗读或者任何录音设备发音的词汇。自动语音识别技术的最终目的是让那些不论词汇量,背景噪音,说话者变音的人直白地说出的单词能够达到100%的准确率(CSLU,2002)。然而,大多数的自动语音识别工程师都承认这样一个现状,即对于一个大的语音词汇单位,当前的准确度水平仍然低于90%。举一个例子,Dragon's Naturally Speaking或者IBM公司,阐述了取决于口音,背景噪音,说话方式的基线识别的准确性仅仅为60%至80%(Ehsani & Knodt, 1998)。更多的能超越以上两个的昂贵的系统有Subarashii(Bernstein, et al., 1999), EduSpeak(Franco, etal., 2001), Phonepass(Hinks, 2001), ISLE Project(Menzel, et al., 2001)and RAD(CSLU, 2003)。语音识别的准确性将有望改善。
在自动语音识别产品中的几种语音识别方式中,隐马尔可夫模型(HMM)被认为是最主要的算法,并且被证明在处理大词汇语音时是最高效的(Ehsani & Knodt, 1998)。详细说明隐马尔可夫模型如何工作超出了本文的范围,但可以在任何关于语言处理的文章中找到。其中最好的是Jurafsky & Martin(2000)and Hosom, Cole, and Fanty(2003)。简而言之,隐马尔可夫模型计算输入接收信号和包含于一个拥有数以百计的本土音素录音的数据库的匹配可能性(Hinks, 2003, p.5)。也就是说,一台基于隐马尔可夫模型的语音识别器可以计算输入一个发音的音素可以和一个基于概率论相应的模型达到的达到的接近度。高性能就意味着优良的发音,低性能就意味着劣质的发音(Larocca, et al., 1991)。
虽然语音识别已被普遍用于商业听写和获取特殊需要等目的,近年来,语言学习的市场占有率急剧增加(Aist, 1999;Eskenazi, 1999;Hinks, 2003)。早期的基于自动语音识别的软件程序采用基于模板的识别系统,其使用动态规划执行模式匹配或其他时间规范化技术(Dalby & Kewley-Port,1999).这些程序包括Talk to Me(Auralog, 1995), the Tell Me More Series(Auralog, 2000), Triple-Play Plus(Mackey & Choi, 1998), New Dynamic English(DynEd, 1997), English Discoveries(Edusoft, 1998), and See it, Hear It, SAY IT!(CPI, 1997)。这些程序的大多数都不会提供任何反馈给超出简单说明的发音准确率,这个基于最接近模式匹配说明是由用户提出书面对话选择的。学习者不会被告之他们发音的准确率。特别是内里,(2002年)评论例如Talk to Me和Tell Me More等作品中的波形图,因为他们期待浮华的买家,而不会提供有意义的反馈给用户。Talk to Me 2002年的版本已经包含了更多Hinks(2003)的特性,比如,信任对于学习者来说是非常有用的: ★ 一个视觉信号可以让学习者把他们的语调同模型扬声器发出的语调进行对比。★ 学习者发音的准确度通常以数字7来度量(越高越好)★ 那些发音失真的词语会被识别出来并被明显地标注。
Improved speech recognition method
for intelligent robot
2、Overview of speech recognition Speech recognition has received more and more attention recently due to the important theoretical meaning and practical value [5 ].Up to now, most speech recognition is based on conventional linear system theory, such as Hidden Markov Model(HMM)and Dynamic Time Warping(DTW).With the deep study of speech recognition, it is found that speech signal is a complex nonlinear process.If the study of speech recognition wants to break through, nonlinear-system theory method must be introduced to it.Recently, with the developmentof nonlinea-system theories such as artificial neural networks(ANN), chaos and fractal, it is possible to apply these theories to speech recognition.Therefore, the study of this paper is based on ANN and chaos and fractal theories are introduced to process speech recognition.Speech recognition is divided into two ways that are speaker dependent and speaker independent.Speaker dependent refers to the pronunciation model trained by a single person, the identification rate of the training person?sorders is high, while others’orders is in low identification rate or can’t be recognized.Speaker independent refers to the pronunciation model trained by persons of different age, sex and region, it can identify a group of persons’orders.Generally, speaker independent system ismorewidely used, since the user is not required to conduct the training.So extraction of speaker independent features from the speech signal is the fundamental problem of speaker recognition system.Speech recognition can be viewed as a pattern recognition task, which includes training and recognition.Generally, speech signal can be viewed as a time sequence and characterized by the powerful hidden Markov model(HMM).Through the feature extraction, the speech signal is transferred into feature vectors and act asobservations.In the training procedure, these observationswill feed to estimate the model parameters of HMM.These parameters include probability density function for the observations and their corresponding states, transition probability between the states, etc.After the parameter estimation, the trained models can be used for recognition task.The input observations will be recognized as the resulted words and the accuracy can be evaluated.Thewhole process is illustrated in Fig.1.Fig.1 Block diagram of speech recognition system Theory andmethod Extraction of speaker independent features from the speech signal is the fundamental problem of speaker recognition system.The standard methodology for solving this problem uses Linear Predictive Cepstral Coefficients(LPCC)and Mel-Frequency Cepstral Co-efficient(MFCC).Both these methods are linear procedures based on the assumption that speaker features have properties caused by the vocal tract resonances.These features form the basic spectral structure of the speech signal.However, the non-linear information in speech signals is not easily extracted by the present feature extraction methodologies.So we use fractal dimension to measure non2linear speech turbulence.This paper investigates and implements speaker identification system using both traditional LPCC and non-linear multiscaled fractal dimension feature extraction.3.1 L inear Predictive Cepstral Coefficients
Linear prediction coefficient(LPC)is a parameter setwhich is obtained when we do linear prediction analysis of speech.It is about some correlation characteristics between adjacent speech samples.Linear prediction analysis is based on the following basic concepts.That is, a speech sample can be estimated approximately by the linear combination of some past speech samples.According to the minimal square sum principle of difference between real speech sample in certain analysis frame short-time and predictive sample, the only group ofprediction coefficients can be determined.LPC coefficient can be used to estimate speech signal cepstrum.This is a special processing method in analysis of speech signal short-time cepstrum.System function of channelmodel is obtained by linear prediction analysis as follow.Where p represents linear prediction order, ak,(k=1,2,…,p)represent sprediction coefficient, Impulse response is represented by h(n).Suppose cepstrum of h(n)is represented by ,then(1)can be expanded as(2).The cepstrum coefficient calculated in the way of(5)is called LPCC, n represents LPCC order.When we extract LPCC parameter before, we should carry on speech signal pre-emphasis, framing processing, windowingprocessing and endpoints detection etc., so the endpoint detection of Chinese command word“Forward”is shown in Fig.2, next, the speech waveform ofChinese command word“Forward”and LPCC parameter waveform after Endpoint detection is shown in Fig.3.3.2 Speech Fractal Dimension Computation
Fractal dimension is a quantitative value from the scale relation on the meaning of fractal, and also a measuring on self-similarity of its structure.The fractal measuring is fractal dimension[6-7].From the viewpoint of measuring, fractal dimension is extended from integer to fraction, breaking the limitof the general to pology set dimension being integer Fractal dimension,fraction mostly, is dimension extension in Euclidean geometry.There are many definitions on fractal dimension, eg.,similar dimension, Hausdoff dimension, inforation dimension, correlation dimension, capability imension, box-counting dimension etc., where,Hausdoff dimension is oldest and also most important, for any sets, it is defined as[3].Where, M£(F)denotes how many unit £ needed to cover subset F.In thispaper, the Box-Counting dimension(DB)of ,F, is obtained by partitioning the plane with squares grids of side £, and the numberof squares that intersect the plane(N(£))and is defined as[8].The speech waveform of Chinese command word“Forward”and fractal dimension waveform after Endpoint detection is shown in Fig.4.3.3 Improved feature extractions method Considering the respective advantages on expressing speech signal of LPCC and fractal dimension,we mix both to be the feature signal, that is, fractal dimension denotes the self2similarity, periodicity and randomness of speech time wave shape, meanwhile LPCC feature is good for speech quality and high on identification rate.Due to ANN′s nonlinearity, self-adaptability, robust and self-learning such obvious advantages, its good classification and input2output reflection ability are suitable to resolve speech recognition problem.Due to the number of ANN input nodes being fixed, therefore time regularization is carried out to the feature parameter before inputted to the neural network[9].In our experiments, LPCC and fractal dimension of each sample are need to get through the network of time regularization separately, LPCC is 4-frame data(LPCC1,LPCC2,LPCC3,LPCC4, each frame parameter is 14-D), fractal dimension is regularized to be12-frame data(FD1,FD2,…,FD12, each frame parameter is 1-D), so that the feature vector of each sample has 4*14+1*12=68-D, the order is, the first 56 dimensions are LPCC, the rest 12 dimensions are fractal dimensions.Thus, such mixed feature parameter can show speech linear and nonlinear characteristics as well.Architectures and Features of ASR ASR is a cutting edge technology that allows a computer or even a hand-held PDA(Myers, 2000)to identify words that are read aloud or spoken into any sound-recording device.The ultimate purpose of ASR technology is to allow 100% accuracy with all words that are intelligibly spoken by any person regardless of vocabulary size, background noise, or speaker variables(CSLU, 2002).However, most ASR engineers admit that the current accuracy level for a large vocabulary unit of speech(e.g., the sentence)remains less than 90%.Dragon's Naturally Speaking or IBM's ViaVoice, for example, show a baseline recognition accuracy of only 60% to 80%, depending upon accent, background noise, type of utterance, etc.(Ehsani & Knodt, 1998).More expensive systems that are reported to outperform these two are Subarashii(Bernstein, et al., 1999), EduSpeak(Franco, et al., 2001), Phonepass(Hinks, 2001), ISLE Project(Menzel, et al., 2001)and RAD(CSLU, 2003).ASR accuracy is expected to improve.Among several types of speech recognizers used in ASR products, both implemented and proposed, the Hidden Markov Model(HMM)is one of the most dominant algorithms and has proven to be an effective method of dealing with large units of speech(Ehsani & Knodt, 1998).Detailed descriptions of how the HHM model works go beyond the scope of this paper and can be found in any text concerned with language processing;among the best are Jurafsky & Martin(2000)and Hosom, Cole, and Fanty(2003).Put simply, HMM computes the probable match between the input it receives and phonemes contained in a database of hundreds of native speaker recordings(Hinks, 2003, p.5).That is, a speech recognizer based on HMM computes how close the phonemes of a spoken input are to a corresponding model, based on probability theory.High likelihood represents good pronunciation;low likelihood represents poor pronunciation(Larocca, et al., 1991).While ASR has been commonly used for such purposes as business dictation and special needs accessibility, its market presence for language learning has increased dramatically in recent years(Aist, 1999;Eskenazi, 1999;Hinks, 2003).Early ASR-based software programs adopted template-based recognition systems which perform pattern matching using dynamic programming or other time normalization techniques(Dalby & Kewley-Port, 1999).These programs include Talk to Me(Auralog, 1995), the Tell Me More Series(Auralog, 2000), Triple-Play Plus(Mackey & Choi, 1998), New Dynamic English(DynEd, 1997), English Discoveries(Edusoft, 1998), and See it, Hear It, SAY IT!(CPI, 1997).Most of these programs do not provide any feedback on pronunciation accuracy beyond simply indicating which written dialogue choice the user has made, based on the closest pattern match.Learners are not told the accuracy of their pronunciation.In particular, Neri, et al.(2002)criticizes the graphical wave forms presented in products such as Talk to Me and Tell Me More because they look flashy to buyers, but do not give meaningful feedback to users.The 2000 version of Talk to Me has incorporated more of the features that Hinks(2003), for example, believes are useful to learners: ★ A visual signal allows learners to compare their intonation to that of the model speaker.★ The learners' pronunciation accuracy is scored on a scale of seven(the higher the better).Words whose pronunciation fails to be recognized are highlighted
第四篇:人脸识别相关技术分析报告解读
人脸识别相关技术
分析报告
2015年10月
目 录
第一章 分析概述...........................................................................................................................................2
一、背景调研............................................................................................................................................2
二、检索及分析内容................................................................................................................................2 第二章 人脸识别专利态势及技术研发分析...............................................................................................4
一、专利态势及技术研发分析................................................................................................................4
(1)人脸识别专利申请趋势分析......................................................................................................4
(2)技术生命周期..............................................................................................................................5(3)人脸识别技术构成......................................................................................................................6(4)人脸识别竞争对手分析..............................................................................................................7
二、技术路线分析...................................................................................................................................8
(1)人脸定位技术路线....................................................................................................................8(2)图像获取技术路线....................................................................................................................9(3)人脸跟踪技术路线....................................................................................................................10 第一章 分析概述
一、背景调研
人脸检测识别技术是基于人脸特征来进行身份识别的技术。与其他识别方式相比,由于人脸始终暴露在外面,采集人脸特征有直接、友好、方便的特点。现在,国际银行组织、国际民航组织的生物特征识别护照的标准中明文规定必选的特征是人脸,可选的特征是指纹、虹膜或者在其它特征中任何一种。目前我国公民的第二代身份证有嵌入可机读的人脸图像信息,这也为下一步人脸识别广泛应用打下有利的基础。
上世纪九十年代以来,人脸检测识别技术研究达到了高潮时期,一批具有代表性的论文和算法产生,自动人脸识别技术也得到了长足的发展,相关机构组织了如人脸手势识别等专门的国际学术会议。另外,现在很多的研究型理工大学和兀公司都在着手人脸检测识别研究。领域内最著名的国际研究机构包括:美国麻省理工学院媒体实验室及人工智能实验室、南加州大学、马里兰大学、卡内基一梅隆大学机器人研究及交互系统实验室等。在我国,清华大学计算机系、电子系瞻嘲、中科院自动化所阳吲、南京理工大学、南京航空航天大学、哈尔滨工业大学等进行了许多很有意义的尝试,积累了经验。国内的研究工作主要是集中在三大类方法的研究:基于几何特征的人脸识别方法、基于代数特征的人脸识别方法和基于连接机制的人脸识别方法。人脸识别由于具有直接、友好、方便的特点,使用者无任何心理障碍,易于被用户所接受,从而得到了广泛的应用。主要在以下几个方面:(1)档案管理系统(2)安全验证系统(3)信用卡验证(4)公安系统的罪犯身份识别(5)银行和海关的监控(6)人机交互等。
人脸识别系统包括:(1)人脸图像的获取(2)人脸的检测(3)特征提取(4)基于人脸图像比对的身份识别(5)基于人脸图像比对的身份验证
二、检索及分析内容
本分析对人脸识别相关专利进行了中国专利检索,检索采用国家知识产权局专利数据库,以该专利数据为基础对其相关技术进行了分析,以期能从战略层面为汉柏的技术研发、专利布局和专利风险预防提供借鉴参考。
具体分析项如下:(1)专利申请趋势分析(2)技术构成(3)竞争对手分析(4)技术路线图分析
第二章 人脸识别专利态势及技术研发分析
第二章 人脸识别专利态势及技术研发分析
截至报告检索完成日期,共检索得到人脸识别公司专利3516件。我们以此3516件专利作为基础进行人脸识别技术专利态势技术及研发分析,包括专利申请趋势分析、技术生命周期、技术构成、发明人分析、竞争对手分析等,由此获取人脸识别技术发展情况,为汉柏的科研和决策提供参考。
一、专利态势及技术研发分析
(1)人脸识别专利申请趋势分析
图表 1 人脸识别专利申请趋势
图表1显示了人脸识别专利申请趋势。如上图所示,自1995年起首次出现人脸识别相关专利申请,1995-2004年期间专利申请量发展平稳,增长率不大,自2005年起该领域专利申请量呈快速增长,2010年后呈爆发式增长。
应注意的是,受到报告截止的统计时间的影响,2015年的数据必然不是最终数据,仅起到一定参考作用,以下情况相同,不做另述。
第二章 人脸识别专利态势及技术研发分析
(2)技术生命周期
分析人脸识别相关技术的申请人数量及专利申请数量随时间分布,可分析该技术生命周期发展情况。
图表 2 人脸识别专利申请趋势
1995-2005年为该技术发展起步阶段,申请人及申请量都较少,2005-2014年为该技术发展的成长阶段,申请人数量及申请量均迅猛增长,2015年之后,将陆续有专利超过保护期限而失效,行业壁垒逐渐减少,可能竞争会更加激烈。
第二章 人脸识别专利态势及技术研发分析
(3)人脸识别技术构成
分析人脸识别相关技术的技术构成,可以看出该的技术发展的热点。
图表 3 人脸识别重点技术随时间分布图
图表2显示了人脸识别技术构成前10位技术领域的IPC和专利量。人脸识别的技术构成主要集中于:G06K 数据识别;数据表示
第二章 人脸识别专利态势及技术研发分析
(4)人脸识别竞争对手分析
通过对该技术申请人统计分析,可以找到掌握该技术最重要的竞争对手。
图表4 人脸识别技术重要竞争对手
图表4显示出掌握该技术专利数量最大的几个申请人,主要以应用类产品研发的公司及研究型大学为主。
第二章 人脸识别专利态势及技术研发分析
二、技术路线分析
(1)人脸定位技术路线
第二章 人脸识别专利态势及技术研发分析
(2)图像获取技术路线
第二章 人脸识别专利态势及技术研发分析
(3)人脸跟踪技术路线
读书的好处
1、行万里路,读万卷书。
2、书山有路勤为径,学海无涯苦作舟。
3、读书破万卷,下笔如有神。
4、我所学到的任何有价值的知识都是由自学中得来的。——达尔文
5、少壮不努力,老大徒悲伤。
6、黑发不知勤学早,白首方悔读书迟。——颜真卿
7、宝剑锋从磨砺出,梅花香自苦寒来。
8、读书要三到:心到、眼到、口到
9、玉不琢、不成器,人不学、不知义。
10、一日无书,百事荒废。——陈寿
11、书是人类进步的阶梯。
12、一日不读口生,一日不写手生。
13、我扑在书上,就像饥饿的人扑在面包上。——高尔基
14、书到用时方恨少、事非经过不知难。——陆游
15、读一本好书,就如同和一个高尚的人在交谈——歌德
16、读一切好书,就是和许多高尚的人谈话。——笛卡儿
17、学习永远不晚。——高尔基
18、少而好学,如日出之阳;壮而好学,如日中之光;志而好学,如炳烛之光。——刘向
19、学而不思则惘,思而不学则殆。——孔子
20、读书给人以快乐、给人以光彩、给人以才干。——培根
第五篇:人脸识别技术是什么原理
人脸识别技术是什么原理
1面像识别原理2、1、1面像识别技术概述
面像识别是近年来随着计算机技术、图象处理技术、模式识别技术等技术的快速进步而出现的一种崭新的生物特征识别技术。生物识别技术是依靠人体的身体特征来进行身份验证的一种高科技识别技术,如同人的指纹、掌纹、眼虹膜、DNA以及相貌等人体特征具有人体所固有的不可复制的唯一性、稳定性、无法复制一样,不易失窃或被遗忘。由于每个人的这些特征都不相同,因此利用人体的这些独特的生理特征可以准确地识别每个人的身份。
随着计算机技术的迅速发展,人们开发了指纹识别、声音识别、掌形识别、签名识别、眼纹(视网膜)识别等多种生物识别技术,目前许多技术都己经成熟并得以应用。而面像识别技术则是生物识别技术的新秀,与其他识别技术相比较,面像识别具有简便、准确、经济及可扩展性良好等众多优势,可广泛应用于安全验证、监控、出入口控制等多个方面。
面像识别技术包含面像检测、面像跟踪与面像比对等课题。面像检测是指在动态的场景与复杂的背景中判断是否存在面像并分离出面像,面像跟踪指对被检测到的面像进行动态目标跟踪,面像比对则是对被检测到的面像进行身份确认或在面像库中进行目标搜索。
面像检测分为参考模板、人脸规则、样本学习、肤色模型与特征子脸等方法。参考模板方法首先设计一个或数个标准人脸模板,然后计算测试样本与标准模板之间的匹配程度,通过阀值来判断是否存在人脸;人脸具有一定的结构分布特征,人脸规则即提取这些特征生成相应的规则以判断测试样本是否包含人脸;样本学习则采用模式识别中人工神经网络方法,通过对面像样本集和非面像样本集的学习产生分类器;肤色模型依据面像肤色在色彩空间中分布相对集中的规律来进行检测;特征子脸将所有面像集合视为一个面像子空间,基于检测样本与其在子空间的投影之间的距离判断是否存在面像。
上述方法在实际系统中也可综合采用。
面像跟踪一般采用基于模型的方法或基于运动与模型相结合的方法,另外,肤色模型跟
踪也不失为一种简单有效的手段。
面像比对从本质上讲是采样面像与库存面像的依次比对并找出最佳匹配对象。因此,面像的描述决定了面像识别的具体方法与性能。目前主要有特征向量与面纹模板两种描述方
法,特征向量法先确定眼虹膜、鼻翼、嘴角等面像五官轮廓的大小、位置、距离、角度等等
属性,然后计算出它们的几何特征量,这些特征量形成一描述该面像的特征向量;面纹模板
法则在库中存储若干标准面像模板或面像器官模板,在比对时,采样面像所有象素与库中所
有模板采用归一化相关量度量进行匹配。另外,还有模式识别的自相关网络或特征与模板结
合的方法。
面像识别技术的最新进展是可以通过摄象机来搜索捕捉识别活动的人像,而不仅仅
识别照片。例如,最近由美国新泽西州Visionics公司开发的面像局部特征分析法识别
系统,仅用一部摄象机和一台计算机,即可在人群中识别出某个人来。
该系统利用摄象机扫描拍摄的某一区域,搜索有可能是人脸的形状。然后在存储器
中搜索已事先存入的与之类似的面部特征。为了确认扫描到的眼睛、鼻子和嘴等特征就是一
个活人而不是人体模型或图片,系统还对眨眼或其他可以提供信息的面部动作进行搜索。
然后系统对组成面部图像的像素进行分析。它将每个像素点的明暗度与相邻点进行比较,查找明暗度向周围呈放射突变的区域。在眉骨、眼睛、或者其他突起的特征,比如颧骨和鼻子等处,都会出现这种突变。系统将勾勒出每一个这种像素点的位置,这些点称为“参照点”然后在点之间连线,形成一个由三角形构成的网络。
系统将测量每个三角形的角度,生成由672个1和0组成的数来描述一张面孔。之后程
序尝试从它的数据库中找出与该数据相匹配的类似记录。这种匹配不可能绝对理想,因此软
件会将相似程度分为不同的等级。软件是根据骨络结构描绘参考点的,因此胡须、化妆和眼
睛等伪装都不可能骗过它。
用于扑捉面部图像的除了为标准视频外,近来的发展趋势是热成像技术。热成像技术通
过分析由面部的毛细血管的血液产生的热线来形成面部图像,与视频摄像头不同,热成像技
术并不需要在较好的光源条件下,因此即使在黑暗情况下也可以使用。并可更好地排除胡须、头发以及化妆引起的面部变化的干扰。2、1、2面像识别过程
1.建立面像档案:可以从摄像头采集面像文件或取照片文件,生成面纹(Faceprint)编码;
2.获取当前面像,可以从摄像头捕捉面像或取照片输入,生成其面纹;
3.将当前面像的面纹编码与档案中的面纹编码进行检索比对。
“面纹”编码方式是根据脸部的本质特征和开头来工作的,它可以抵抗光线、皮肤色调、面部毛发、发型、眼镜、表情和姿态的变化,具有强大的可靠性,使得它可以从百万人中精确地辨认出一个人。
上述整个过程都自动、连续、实时地完成,而且系统只需要普通的处理设备。几乎所有的生物测量过程对人们来说都是一种干扰。指纹和掌纹的测定需要人们将手放在玻璃表面。虹膜扫描需要用激光照射你的眼睛。面部识别最大的优越性在于它的方便性, 快速性,而且是非侵扰的。面部识别无需干扰人们行为而达到识别效果,无需为是否愿意将手放在指纹采集设备上,或对着麦克风讲话,或是将他们的眼睛对准激光扫描装置而进行争辩。你只要很快从一架摄像机前走过,你就已经被快速的检验。2、1、3面像识别技术应用范围
面像识别技术作为生物识别技术体系的后起之秀,将有着十分广泛的应用前景。可应用于诸多领域,如出入口控制、银行金融系统、公安追辑嫌疑犯、反恐怖斗争以及互联网中等等。在我国开展的“追逃”斗争,如果能利用面像识别技术,则可大大提高工作效率,并能对犯罪分子产生极大的威慑力量。使用面像识别系统只要在重要的车站、码头、机场、海关出入口附近架设摄像机,系统即可在无人职守的状态下,自动捕捉进、出上述场所的人员的头像,并通过计算机网络将面像特征数据传送到计算机中心数据库,自动与面像数据库中的逃犯面像比较,迅速准确地作出身份判断。一旦发现吻合的头像,可以自动报警并记录。
我国银行金融系统对安全控制有着极高的要求,如电子商务信息系统、金库的安全设施、保险柜、自动柜员机的使用等。由于近年来金融诈骗、抢劫发生率有所增高,对传统安全措施提出了新的挑战。面像识别技术不需要携带任何电子、机械“钥匙”,可以杜绝丢失钥匙、密码的现象,如果配合IC卡、指纹识别等技术可以使安全系数成倍增长。同时,在ATM自动取款机上应用面像识别技术,可以免除用户忘记密码的苦恼,还可以有效防止冒领、盗取的事件发生。
目前,在我国,面部识别技术的研究和应用还刚刚开始,但在欧美等发达国家这一技术已被应用在许多场所。特别是“9.11”恐怖事件之后,美国警方率先在冰岛国际机场、美国波士顿机场、美国奥克兰机场、美国亚特兰大机场、美国休斯敦机场等开始应用这一先进技术,借助闭路监视系统监控扫描人群自动搜寻警方所需要的恐怖分子目标。
蒋遂平:人脸识别技术及应用简介人脸识别的分类
1.1 鉴别、验证和监控
(1)鉴别(identification):鉴别回答“这是谁?” 将给定的人脸图象与计算机中存储的N个人的图象逐个比较,输出M幅图象,这些按与给定图象的相似度从大到小排列,再由人来确定这是谁。通常,一个人在计算机中只存储一幅正面图象。
(2)验证(verification):验证回答“这是否为某人?” 将给定的人脸图象与与计算机中存储的某人的图象比较,回答给定的图象是否为某人的图象。通常,一个人在计算机中存储多幅不同角度的图象。
(3)监控(watch list):监控同时具有鉴别和验证,回?quot;这是否为要找的人?"(Are you looking for me?)。将未知身份的人的图象输入计算机,计算机决定这个人是否在监控名单中,如果在,还必须确定这个人的身份。
1.2 人脸识别和人头识别
(1)人脸识别:输入给计算机识别的人脸图象,只包括人的脸部部分,没有背景、头发、衣服等。这时,计算机在进行真正的人脸识别。
(2)人头识别:输入给计算机识别的人脸图象,除了包括人的脸部有皮肤的部分外,还有部分背景、头发、衣服。这时,人脸的五官特征是次要的,头发、背景、人脸轮廓等是主要特征,一旦头发、背景等变化,识别率下降。
1.3 自动与半自动人脸识别
(1)自动人脸识别:输入到计算机的图象可以是包含人脸的图象,由计算机自动检测人脸部分进行分割后,进行识别。最初人们认为人脸检测是件容易的事,后来发现人脸检测可能比人脸识别更困难(特别是在灰度图象情况下,这时没有运动信息和肤色信息可利用),人脸检测已经是一个独立的研究课题。
(2)半自动人脸识别:采用人工确定人脸图象中两眼各自的中心位置,计算机根据这两个位置分割人脸图象,进行识别。常用于人脸鉴别。人脸识别的性能
2.1主要性能指标
测量人脸识别的主要性能指标有:(1)误识率(False Accept Rate, FAR):这是将其他人误作指定人员的概率;(2)拒识率(False Reject Rate, FRR):这是将指定人员误作其它人员的概率。
计算机在判别时采用的阈值不同,这两个指标也不同。一般情况下,误识率FAR 随阈值的增大(放宽条件)而增大,拒识率FRR 随阈值的增大而减小。因此,可以采用错误率(Equal Error Rate, ERR)作为性能指标,这是调节阈值,使这FAR和FRR两个指标相等时的FAR 或 FRR。
2.2 影响人脸识别性能的因素及解决方法
(1)背景和头发:消除背景和头发,只识别脸部图象部分。
(2)人脸在图象平面内的平移、缩放、旋转:采用几何规范化,人脸图象经过旋转、平移、缩放后,最后得到的脸部图象为指定大小,两眼水平,两眼距离一定。
(3)人脸在图象平面外的偏转和俯仰:可以建立人脸的三维模型,或进行三维融合(morphing),将人脸图象恢复为正面图象。
(4)光源位置和强度的变化:采用直方图规范化,可以消除部分光照的影响。采用对称的从阴影恢复形状(symmteric shape from shading)技术,可以得到一个与光源位置无关的图象。
(5)年龄的变化:建立人脸图象的老化模型。
(6)表情的变化:提取对表情变化不敏感的特征,或者将人脸图象分割为各个器官的图象,分别识别后再综合判断。
(7)附着物(眼镜、胡须)的影响。
(8)照相机的变化:同一人使用不同的照相机拍摄的图象是不同的。应用情况
在无数影视或新闻中出现过这样的场景:警方利用人脸识别技术抓住了罪犯。然而,在现实生活中,人脸识别技术的效果并不令人满意。
美国陆军实验室在13周时间内,用270人的图象测试一个人脸识别系统,发现识别率只有 51%。这套系统在机场中进行测试时,存储了250人的图象,其中的15人在1个月内通过摄影机958次,只有455次被正确辨认,识别率只有47%。在美国一个机场开展的一项为期8周的公开测试中,使用一家公司的人脸识别系统,在4个星期出错率为53%。在另一个机场开展的一项为期90天的测试中,人脸识别系统发出的错误警报也太多。
人脸识别技术效果不尽如人意的原因:真人的电视图像与存储在数据库中的照片在布光和角度方面有差别。目前的人脸识别技术在人处于静止状态或一小群人通过检测点时有效,因此不适合在交通流量大的机场和街道拐角处使用。人脸识别要得到广泛采用,还很有待时日。