数字信号处理作业之语音识别小论文(很好很全)

时间:2019-05-14 16:27:49下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《数字信号处理作业之语音识别小论文(很好很全)》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《数字信号处理作业之语音识别小论文(很好很全)》。

第一篇:数字信号处理作业之语音识别小论文(很好很全)

绪论

语言是人类交流信息的基本手段,在人们日益扩大的交流中占据着重要地位。在如今高度发达的信息社会中用数字化的方法进行语音的传送、储存识别、合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一随着信息科学技术的飞速发展,语音信号处理的研究也日益显示出它的要性,并取得了重大进展。大体上说,语音信号处理技术可以分为以下四个面:即语音编码,语音合成、说话人识别和语音识别等。语音压缩编码是压语音信号便于传输通信和保密;语音合成系统是模仿和代替人口的发音功能语音识别系统则是模仿或代替人耳的听觉功能,说话人识别系统属于生物识技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数识别说话人身份的技术。与语音识别不同的是,说话人识别利用的是语音信中的说话人信息,而不考虑语音中的字词意思,它强调一说话人的个性;而音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强共性。随着现代数字通讯、多媒体系统、信息高速公路等技术的应用和发展己经越来越深入地影响并改变着我们每个人地生活和工作方式,这同时也对音信号处理的研究工作提出了更高的要求,它在各方面的进展也令人瞩目。

1.语音识别概述

语音识别是试图使机器能“听懂”人类语音的技术。语音识别的作用是将语音转换成等价的书面信息,也就是让计算机听懂人说话。作为一门交叉学科,语音识别又是以语音为研究对象,是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到计算机、信号处理、生理学、语言学、神经心理学、人工智能等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信

1.1 国外研究历史及现状

语音识别的研究工作可以追溯到20世纪50年代。1952年AT&T贝尔实验室的Audry系统,是第一个可以识别十个英文数字的语音识别系统。20世纪60年代末、70年代初出现了语音识别方面的几种基本思想,其中的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。20世80年代语音识别研究进一步走向深入:其显著特征是HMM模型和人工神经网络(ANN)在语音识别中的成功应用。90年代,在计算机技术、电信应用等领域飞速发展的带动下,迫切要求语音识别系统从实验室走向实用。最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系统。这些系统具有说话人自适应能力,新用户不需要对全部词汇进行训练,便可在使用中不断提高识别率。

1.2 国内研究历史及现状

我国在语音识别研究上也投入了很大的精力,国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项,我国语音识别技术的研究水平已经基本上与国外同步。

2.语音识别的流程

根据对输出观测值概率的不同描述,HMM(隐式马尔可夫链)可分为离散HMM(DHMM)和连续HMM(CHMM),两者相似,不同的是CHMM使用连续概率密度函数计算状态概率。而DHMM则使用的是离散的矢量量化(vector quantization,VQ)计算状态概率。在基于DHMM的非特定人语音识别过程中语音信号先被分成若干音框(帧),每个音框用一个特征向量参数表示,然后将语音特征参数向量的时间序列矢量化,此时每一个音框的语音信号变成VQ码本,用码本训练HMM,最后测试识别率。

3.语音信号分析方法分类时域特征

直接从时域信号计算得到,反应了语音信号时域波形的特征。如短时平均能量、短时平均过零率、共振峰、基音周期等。

频域及倒谱域特征由时域信号进行频谱变换得到,反映语音信号的频域特性包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱。听觉特征指不直接对声道模型进行研究,而是从人类听觉系统对语音的感知特性来刻画语音信号的特征。

4.短时分析技术

语音信号是非平稳时变信号语音信号的特性是随时间而变化的幸运的是具有短时平稳性短时间范围内其特性基本保持不变(缓慢变换),即短时相对平稳——准平稳过程短时分析技术即在对语音信号进行分析时,将语音信号分为一段一段,利用平稳信号的分析方法对每一分段进行处理每一分段成为一“帧”:一般10~30ms为一帧短时分析的不足对语音识别,应采用HMM来分析,以处理语音信号的瞬变和非平稳特性

5.基于Mel频率的倒谱MFCC 生理支持

根据人类听觉系统的特性,人耳分辨声音频率的过程犹如一种取对数的功能,基于此,出现了Mel频率的倒谱系数(MFCC)MFCC: Mel-Frequency Cepstrum Coefficients.语音识别MFCC参数提取:

在语音识别(Speech Recognition)和语者辨识(Speaker Recognition)方面,最常用到的语音特征就是[梅尔倒频谱系数](Mel-scale Frequency Cepstral Coefficients,简称MFCC),此参数考虑到人耳对不同频率的感受程度,因此特别适合用在语音识别。下面简单的介绍一下求解MFCC的过程。

5.1 音框化(Frame blocking)

先将N个取样点集合成一个观测单位,称为音框(Frame),通常N的值256或512,涵盖的时间约为20~30ms 左右。为了避免相邻两音框的变化过大,所以我们会让两相邻因框之间有一段重迭区域,此重迭区域包含了M个取样点,通常M的值约是 N 的一半或 1/3。通常语音识别所用的音频的取样频率为8 KHz或16 KHz,8KHz 来说,若音框长度为256 个取样点,则对应的时间长度是 256/8000*1000 = 32 ms。

5.2 汉明窗(Hamming window)

将每一个音框乘上汉明窗,以增加音框左端和右端的连续性(请见下一个步骤的说明)。假设音框化的讯号为S(n),n = 0,…N-1。那么乘上汉明窗后为S'(n)= S(n)*W(n),此W(n)形式如下

5.3 快速傅利叶转换(Fast Fourier Transform,or FFT)

由于讯号在时域(Time domain)上的变化通常很难看出讯号的特性,所以通常将它转换成频域(Frequency domain)上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每个音框还必需再经过 FFT以得到在频谱上的能量分布。

乘上汉明窗的主要目的,是要加强音框左端和右端的连续性,这是因为在进行 FFT时,都是假设一个音框内的讯号是代表一个周期性讯号,如果这个周期性不存在,FFT 会为了要符合左右端不连续的变化,而产生一些不存在原讯号的能量分布,造成分析上的误差。当然,如果我们在取音框时,能够使音框中的讯号就已经包含基本周期的整数倍,这时候的音框左右端就会是连续的,那就可以不需要乘上汉明窗了。但是在实作上,由于基本周期的计算会需要额外的时间,而且也容易算错,因此我们都用汉明窗来达到类似的效果。

5.4 三角带通滤波器组(Triangular Bandpass Filters)

将能量频谱能量乘以一组 20个三角带通滤波器,求得每一个滤波器输出的对数能量(Log Energy)。必须注意的是:这20个三角带通滤波器在梅尔频率(Mel Frequency)上是平均分布的,而梅尔频率和一般频率 f 的关系式如下:

Mel(F)= 2595 * log10(1F)700梅尔频率代表一般人耳对于频率的感受度,由此也可以看出人耳对于频率 f 的感受是呈对数变化的: 在低频部分,人耳感受是比较敏锐。在高频部分,人耳的感受就会越来越粗糙。

三角带通滤波器有两个主要目的:

对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。因此一段语音的音调或音高,是不会呈现在 MFCC 参数内,所以,用 MFCC 为特征的语音识别系统,并不会受到输入语音的音调不同而有所影响。将傅立叶转换结果经三角带通滤波器组进行滤波。

Bm(k)表示第m个频带的三角带通滤波器

0,kfm1kfm1,fm1kkmffm1Bm(k)mfk

1mM

m1,fmkkm1fm1fm0,fm1k其中fm是第m个频带的中心,这M个三角形带通滤波器在美尔(Mel-frequency)上是平均分配的。

下面方程式求每一个滤波器输出的对数能量

2Y(m)logX(k)Bm(k)

fm1kfm

5.5 离散余弦转换(Discrete cosine transform,or DCT)

将滤波器输出的能量作离散余弦(Discrete Cosine Transform,DCT)计算梅尔频率倒频谱系数(Mel-frequency Cepstral Coefficients,MFCC)离散余弦计算公式:

1C[n]Y(m)cos[n(m)],n1,...,L

2Mm1M其中L大致取12左右。

5.6 对数能量(Log energy)

一个音框的音量(即能量),也是语音的重要特征,而且非常容易计算。因此我们通常再加上一个音框的对数能量(定义为一个音框内讯号的平方和,再取以 10 为底的对数值,再乘以 10),使得每一个音框基本的语音特征就有 13 维,包含了 1 个对数能量和 12 个倒频谱参数。(若要加入其他语音特征以测试辨识率,也可以在此阶段加入,这些常用的其他语音特征,包含音高、过零率、共振峰等。)

5.7 差量倒频谱参数(Delta cepstrum)

虽然已经求出 13 个特征参数,然而在实际应用于语音识别时,我们通常会再加上差量倒频谱参数,以显示倒频谱参数对时间的变化。它的意义为倒频谱参数相对于时间的斜率,也就是代表倒频谱参数在时间上的动态变化,公式如下:

Cm(t)CtCtCtmmmMMMMM12221M,m1,2,...,L

这里 M 的值一般是取 2,t代表音框的数目,cm(t)指第t框的倒谱参数。因此,如果加上差量运算,就会产生 26 维的特征向量;如果再加上差差量运算,就会产生 39 维的特征向量。一般我们在 PC 上进行的语音识别,就是使用 39 维的特征向量。

6. 矢量量化,矢量量化的关键问题是如何获取VQ码本,本文采用聚类算法-LBG算法。

7. 用MATLAB实时采集信号程序

首先将录音放到程序中的路径下,运行即可。运行结果如下: 语音库语者 1 与语者 1 匹配成功 语音库语者 2 与语者 2 匹配成功 语音库语者 3 与语者 2 匹配成功 语音库语者 4 与语者 4 匹配成功 语音库语者 5 与语者 5 匹配成功 语音库语者 6 与语者 6 匹配成功 语音库语者 7 与语者 7 匹配成功 语音库语者 8 与语者 8 匹配成功 语音库语者 9 与语者 9 匹配成功 8.结论:

运行结果表明该说话人识别系统的识别能力是比较理想的,识别率为88%,语音库3识别不成功的原因主要有两个,一方面3的录音本身噪音相对大些,导致系统很难识别,另一方面,识别系统的算法还不是很理想,导致识别准确率不是100%。

程序如下: function speaker_rec %%%% code = train('D:toolswork',9);test('D:toolswork',9, code);%************************************************************************

function code = train(traindir, n)%% 训练语音库里的声音样本,为每个人建立一个VQ码本 %% code=train(train,n)%% 训练前,应将语音库中的语音文件用1:n的数字标记

% Input: % traindir :样本语音库的路径 % n :样本语音库中语音文件的个数 % % Output: % code : trained VQ codebooks, code{i} for i-th speaker

k = 16;

%VQ算法的最大迭代次数

for i = 1:n

file = sprintf('%s%d.wav', traindir, i);

[s, fs] = wavread(file);

s=s(1:30000,1);

index = find(s == 0);

%避免除0

s(index)= 1e-17;

v = MFCC(s, fs);

% Compute MFCC's

code{i} = vqlbg(v, k);

% Train VQ codebook

end %*************************************************************************

function test(testdir, n, code)%用于对测试语音库中的文件进行测试

%建库的时候应该给语音文件按阿拉伯数字进行编码,以方便程序读取 % Input: % testdir :测试语库的路径

%

n :测试语音库中语音文件的个数 %

code : codebooks of all trained speakers

for k = 1:n

% 读取测试库中的文件

file = sprintf('%s%d.wav', testdir, k);

[s, fs] = wavread(file);

s=s(30000:60000,1);

%读取文件中的样本点,改变数值即可获取语音资料中的不同段

index = find(s == 0);

%避免除0

s(index)= 1e-17;

v =MFCC(s, fs);

% Compute MFCC's

distmin = inf;

k1 = 0;

for l = 1:length(code)

% each trained codebook, compute distortion

d = disteu(v, code{l});% 测试语音与码本进行逐一匹配(计算欧氏距离)

dist = sum(min(d,[],2))/ size(d,1);

if dist < distmin

distmin = dist;

k1 = l;

end

end

msg = sprintf('语音库语者 %d 与语者 %d 匹配成功', k, k1);

disp(msg);end

%************************************************************************* function d = disteu(x, y)%%计算两个矩阵列之间的欧氏距离

% DISTEU Pairwise Euclidean distances between columns of two matrices % % Input: %

x, y:

Two matrices whose each column is an a vector data.% % Output: %

d:

Element d(i,j)will be the Euclidean distance between two %

column vectors X(:,i)and Y(:,j)% % Note: %

The Euclidean distance D between two vectors X and Y is: %

D = sum((x-y).^2).^0.5

[M, N] = size(x);[M2, P] = size(y);

if(M ~= M2)

error('Matrix dimensions do not match.')end

d = zeros(N, P);if(N < P)

copies = zeros(1,P);

for n = 1:N

d(n,:)= sum((x(:, n+copies)y(:, p+copies)).^2, 1)';

end end

d = d.^0.5;%*************************************************************************

function r = vqlbg(d,k)%%采用LBG算法获取VQ码本 %%该算法程序来源:程序员联合开发网

% VQLBG Vector quantization using the Linde-Buzo-Gray algorithme % % Inputs: d contains training data vectors(one per column)% k:算法最大的迭代次数 % % Output: r contains the result VQ codebook(k columns, one for each centroids)e =.01;r = mean(d, 2);dpr = 10000;for i = 1:log2(k)r = [r*(1+e), r*(1-e)];while(i == 1)z = disteu(d, r);[m,ind] = min(z, [], 2);t = 0;for j = 1:2^i r(:, j)= mean(d(:, find(ind == j)), 2);

%mean为MathWorks的库函数 x = disteu(d(:, find(ind == j)), r(:, j));for q = 1:length(x)t = t + x(q);end end if(((dprn)/ m)+ 1;for i = 1:n

for j = 1:nbFrame

M(i, j)= s(((j-1)* m)+ i);

end end h = hamming(n);M2 = diag(h)* M;for i = 1:nbFrame frame(:,i)= fft(M2(:, i));

%得各个音框的频谱 end %************************************************************************** %% 用在melf频带上均布的三角带通滤波器组对频谱能量进行滤波 %将HZ转换美尔坐标

melf=2595*log10(1+FS/2/700);melf_width=melf/21;i=[0:21];

tem_melf=melf_width*i;

f_tem=(10.^(tem_melf/2595)-1)*700;% f_tem=round(f_tem);

%划分频率段 f_tem(2:21)即为20个中心频率

for i=2:21

fm(i)=f_tem(i);

%fm为第m个频带的中心 end fm(22)=FS/2;fm(1)=0;

bm=zeros(20,n/2+1);j=1:n/2;k(2:n/2+1)=FS/2/(n/2)*j;

for i=2:21

for j=1:n/2+1

if k(j)

bm1(j)=0;

else if fm(i-1)<=k(j)& k(j)<=fm(i)

bm1(j)=(k(j)-fm(i-1))/(fm(i)-fm(i-1));

else if fm(i)

bm1(j)=(fm(i+1)-k(j))/(fm(i+1)-fm(i));

else

bm1(j)=0;

end

end

end

end bm(i-1,:)=bm1;end

n2 = 1 + floor(n / 2);

z = bm * abs(frame(1:n2, :)).^2;c = dct(log(z));

%c为倒谱系数 c=c(1:12,:);

%取前12维倒谱系数

%************************************************************************** %%计算音框的对数能量 tem_frame=frame(1:n2,:);for i=1:nbFrame

tem_frame(:,i)=tem_frame(:,i).^2;

sum_frame(i)=sum(tem_frame(:,i));end c_energy=10*log10(sum_frame);

%c_energy为第十三维参数 c13=zeros(12,nbFrame);

c13(:,1:nbFrame)=c(:,1:nbFrame);c13(13,:)=c_energy;

%c13为十三维参数

%************************************************************************** %%计算差量倒谱系数 %%计算一阶差分 M=2;tao=1:M;tem=tao.^2;tem=sum(tem)*2;

c26_tem=zeros(13,nbFrame+4);c26=zeros(26,nbFrame);tem1=zeros(13,2);tem2=zeros(13,nbFrame);

c26_tem(:,3:nbFrame+2)=c13(:,1:nbFrame);for i=1:nbFrame

for j=1:2

tem1(:,j)=(c26_tem(:,i+2+j)-c26_tem(:,i+2-j))*j/tem;

end

tem2(:,i)=tem1(:,1)+tem1(:,2);end c26(14:26,:)=tem2(1:13,:);

%c26为一阶差分后的26维参数 c26(1:13,:)=c13(1:13,:);C=c26;

%************************************************************************** 毕业

(很

全)

第二篇:马哲作业之小论文(推荐)

徐大文 40840467 热能084班 马哲论文

丰阳古县可持续发展势在必行

丰阳之地,傍秦山湘地,地理位置卓绝,漫川关为古兵家重地,盛产矿藏,农副产品,风景秀美,冠绝百里,教育百废待兴,前景一片大好。

溯古至今,丰阳县史来已久,具有悠久的历史和浓厚的文化底蕴,工农政教全面发展。时至当下,逢时代巨变,遇西部大开发之举,发展前景客观,希望无限。丰阳之地,农业欠发达,工业水平落后,整治步伐缓慢,教育事业才刚刚起步,旅游业有待开发,交通通信希冀改善,城市规划趋近完善,一言以蔽之,空间很大,挑战也不小。

众所周知,丰阳矿产丰富,声明显赫。其中的中国钒矿储量占世界第二,亚洲第一,而山阳正式中国矾矿大腰带上的明珠,储量客观,质量可赞,可以开采数百年之久;铜矿、锌矿、铁矿、铅矿等也是引人心扉,庞大的数据的背后却是了浪费和乱开乱采,由于各种人的介入,造成环境污染,造成交通不便,造成天人共怒,这是诱人的数据,却又是一个很寒心的数据,东西是不少,却全是在浪费,全是把宝物变为废品。

旅游开发潜力极大,世人皆知,山阳是大天竺山所在地,具有这里一目千里傲视的高度和巍峨,月亮洞绝美的洞景不让桂林山水,漫川古镇古味犹存,不少方庄的韵味,山清水秀,美绝千里,但是被生生的禁锢着,不知道和外界接触,不知道什么是开发,还好苍龙上终于可见天日了,丰阳塔终于有人瞻仰他的魅力了。

工业上,第三产业极其落后,第一产业可以画个大大的零,第二

产业还好,但是提升空间还大的很,建筑业这几年还可以,但是不讲究规划布局,造成了有地难用,有地难行的悲剧。

农业上,生产而不加工,不具有竞争力。

商业方面,进口较多,出口的却是屈指可数,农民生活方面,很多都是柴草在前,粗放式生活,挣得多,吃的不好,浪费的也不少,技巧性命也难有所成。

如此等等,都是山阳政治落后,没有一个会领导山阳正确发展的集体和政府。山阳的种种暴露,不是这个地方的独创而是整个中国社会的当下毒瘤。如何让开发好山阳,政治改革必须先行,否则任何举措都是徒劳奔命的。山羊和全国其他的地方一样,整日喊着科学发展观,其实演绎套型以套,到底是什么落局,还是看怎么做的,而不是看怎么说的。山阳的悲就在于说得多,做得少,做的有,有的饿,有的饱。

综上所陈,科学发展山阳,要靠做。

既然要做,就要靠人来做,靠谁,当然市政府领带下的山阳人民,但是要怎么样的政府才能领导好,这是个问题,山阳这些年以来其实一个黑字了得,什么暴力事情都有,让人谈蛇色变。

个人认为,山阳政府机构的建设很重要,这是山阳发展的的根本所在。整治黑暗,人心惶惶,无力搞生产建设,这是致命的,所谓的科学发展观无从谈起,无以落笔。山阳之地各项不发达的根源是政治落后,再加之物资资源未能很好利用,人才外流。

山阳的水资源,森林资源,矿产资源,文化资源,旅游资源异常

丰富,怎样把这些合理联系起来,是的山阳可持续发展尤为重要。

首先,鉴其要因所在在于政治,首先,山阳人要努力进行政治改革,使得人才能者治之,老而下之,唯次可以政通人和,百废俱兴。山阳黑暗,强权政治,黑白道相间以至于大量乃年轻又能之人背向不归,使得山阳的政治朦朦胧胧,徘徊不进,造成了人才浪费,生产力发展缓慢甚至停滞。据此,山阳要科学发展,第一步就是政治改面革新。

其次,发展靠人才。没有人才的富强只是一时的轻吟浅唱,不可能天长地久。山阳人才外流,引进也几乎为零,这严重的阻碍了山阳的可持续发展,解决人才问题是山阳的当务之急,刻不容缓,否则一切所谓的科学发展最终只是一声吆喝罢了。要解决人才问题,其一就是培养,山阳中学校友数十万之举,这些人有一部分回乡,则无可忧。然而他们中大多数不受到政府的优善待遇,再者,就是回家就业还是受排挤,于是乎,都不回来了,要壮大山阳,这些人绝对是不可或缺的,政府应该做出一系列行动,吸引他们们回乡,为山阳的建设增砖添瓦。另外,应该和外界进行一系列合作,高一些人才计划。

山羊的矿产丰富,如何把这些重要的珍贵的宝藏最大程度的造福于山阳人民,唯一的方法就是取之后加工,然后和外界合作,扎住主动权,获取最大利益。比如矾矿,不应该是开采以后就卖出去,而应该开采以后,进行分类加工处理,在做出一部分成品伙伴成品。这样一来,减少了很多损失之外还有很多利润。同时用这些钱可以矾矿造成的污染治理好,可以达到取之用之不污染,山清水秀依旧,给来人

留下他们本应该属于他们的东西。

山羊的旅游业有待开发,藏龙山就是一个很成功例子。丰阳古塔也有几百年历史,丰阳郡更是有几千年历史,漫川关古今雄关,山阳更是红四军经过的要地,很多何其惨烈的战争就在这里开展,月亮洞千奇百怪,天竺山风光绮旎,莲花台天生仙莲,白象东毛骨悚然…多少美景多少古今,恐龙化石此隐彼现,还有好多奇山异水未能开发,还有好多名胜古迹人知之甚少,搞好旅游业,吸引外援甚是重要,改革开放才可以发展。旅游业的步伐要继续前向。

工业欠发达,这是山阳的薄弱环节,是山阳发展的软肋。要发展工业,首先要能满足当地人的需要。其实山阳得天独厚,有很多资源可以依靠,房地产的发展,水泥钢铁砖瓦成了热门,山阳有自己的砖厂和水泥厂但是规模欠佳,化工厂本来很有前景但是人才匮乏,面临倒闭,副食产品厂也有待开发。

山羊的发展是必然的,但是科学的发展是有难度的,什么时候能有科学的发展是令人值得揣测的,但是时间的长短却正是睿智和愚蠢的区别……

下载数字信号处理作业之语音识别小论文(很好很全)word格式文档
下载数字信号处理作业之语音识别小论文(很好很全).doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐