分布式视频编码技术研究

时间:2019-05-12 16:47:49下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《分布式视频编码技术研究》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《分布式视频编码技术研究》。

第一篇:分布式视频编码技术研究

分布式视频编码技术研究

摘要:对于视频压缩领域,分布式编码是一种新出现的应用机制,是基于20世纪70年代Slepian和Wolf以及Wyner和Ziv提出的信息理论而建立的。分布式视频编码技术与传统编码技术相比,从原理到实现方法上都是全新的。本文在介绍分布式编码基本原理的基础上,着重介绍了分布式视频编码技术各个环节的最新研究进展,并对发展趋势进行了展望。

关键词:

分布式视频编码

有损编码

错误恢复

Abstract:For video compression distributed video coding is a new paradigm, which is based on the information theory established in 1970’s by Slepian,Wolf and Wyner,Ziv.Compared with traditional video coding standard, distributed video coding is a radical departure.Based on the introduction of distributed coding principles, this paper reviews the advances of fundamental building blocks of distributed

video coding, and the future development is pointed out.Key words: Distributed video coding

lossy compression error resilient

1引言

传统的视频编码标准,如MPEG和H.26X等,采用的都是不对称编码方式,编码器端隐含一个解码器。编码端的主要步骤包括变换,量化,熵编码,相应的解码过程,以及运动估计和运动补偿。因此编码端的复杂度远远高于解码端,尤其是运动估计和运动补偿占用了大量的资源,使编码端的复杂度在解码端的5 至10倍以上。这种不对称的编码方式对于广播,流媒体的点播等服务是非常合适的,因为这些领域的工作方式是一次压缩多次播放。近年来随着“普适计算”(Pervasive Computing)概念的提出, ”无所不在的计算”已经成为计算机发展的大趋势。在这种背景下,越来越多的移动视频录制设备加入到了网络中,如监控系统中的无线视频探测头,便携式视频摄像机,无线PC相机等。这些设备都需要进行现场的视频编码,并把码流传送到一个中心节点,如监控室的中央处理机,进行解码播放。这些应用领域中编码设备比较简单,而解码设备拥有较多的资源可以进行复杂的计算,与传统视频编码标准适用的场景恰恰相反。

MPEG和H.26x等传统的视频编码标准在发展的过程中一直遵循一个模式,就是由编码器负责信源统计特性的充分利用,作为一个基本原则这很少被质疑过。然而通过只在解码端进行信号统计特性的利用同样可以进行有效的压缩编码。这个令人惊异的发现来自20世纪70年代建立的信息理论,即Slepian和Wolf建立的分布式无损编码理论以及Wyner 和Ziv建立的使用解码端辅助信息(Side Information)的有损编码理论。根据以上理论建立的机制被统称为分布式编码算法。

[1]2 分布式编码的信息论基础

传统的图像编码存在两种形式的压缩方法,一种是有损压缩[2],一种是无损压缩,无损压缩是有损压缩的基础,有损压缩往往是在无损压缩的基础上加上通过附加一个优化的量化器而实现的。分布式编码的信息论原理同样有两种形式,即无损分布式编

码的Slepian-Wolf理论[3]和使用解码端辅助信息(Side Information)的有损分布式编码Wyner-Ziv理论。其中,Wyner-Ziv理论是分布式视频编码技术的主要理论依据,为了纪念二人对信息论的贡献,这种视频编码机制又被称为Wyner-Ziv Video Coding。

2.1分布式无损信源编码

分布式压缩指的是编码两个独立的任意序列;每个具有分离的编码器,每一个编码器发送一个独立的码流到一个独立的解码器;该解码器联合解码所有的码流并且计算统计相关,如图1所示。

假设两个统计相关独立同分布的无限长随机序列X 和Y,在传统的熵编码和解码可以达到RYH(Y)和RXH(X)的码率, H(X)和H(Y)为X 和Y 的熵。有趣的是, 联合解码具有更好的率失真性能(独立编码)[4]。对于编码长序列,如果满足对于恢复X和Y的残差错误概率足够小,Slepian-Wolf 理论建立码率区域

RXRYH(XY,)

RXH(X|Y),RYH(X|Y)

在此可以发现, RX + RY 可以达到联合信息熵H(X,Y)。

在图2中的A 点,对X 编码的码率为RX =H(X),而对Y进行压缩时所需要的码率仅为RY = H(Y |X)。同样在B 点,对Y编码的码率为RY =H(Y),而对X 进行压缩时所需要的码率仅为RX =H(X |Y)。这就是在解码端具有边信息的无损信源编码问题的理论。

2.2 分布式有损信源编码

对于在解码端具有边信息有损信源编码问题Wyner和Ziv给出了其码率界。给定失真D下的码率记为为

RX|Y(D); 另外,将两边都能得到边信息Y时的率失真函数记

WZRY|X(D)RY|X(D),D0RY|X(D)。在文献[2]中Wyner和Ziv证明,而且给出当失真的度量为均方误差, Y服从独立高斯分布,X=Y+U, U也服从独立高斯分布且与Y独立时WZRY|X(D)RY|X(D),D0。对于一般信源, 在均方误差度量下, 其码率损失小于0.5bit/ sample,在汉明距度量下码率损失小于0.22 bit。Gastpar对多信源的Wyner-Ziv编码进行研究并给出了相应的理论界。分布式视频编码关键技术

分布式编码是在视频压缩领域的一个新框架, 基于Slepian-Wolf和Wyner-Ziv的理论。近年来, 人们也着手于实际编/解码系统的开发,熵编码、量化和变换。

3.1 Slepian-Wolf编码器

虽然Slepian-Wolf的理论产生于20世纪70年代, 但是它却是在最近几年才获得了实际的应用。三十年前人们就明白Slepian-Wolf编码非常接近于信道编码, 可以使用一个系统信道编码传输校验位。在解码端, 可以连接校验位和边信息Y, 并且执行纠错解码。如果X、Y非常相似, 只需要传输少许校验位和重要的压缩结果。需要强调的是这个方法并不执行前向纠错来保护信道传输的错误, 而是使用一个虚拟的相关信道来获取X 和边信息Y的统计关[6]

[5]。

另一种编码实现方法, 即将序列X分为陪集, 编码端发送X所属的陪集索引, 接收端通过选择陪集中与边信息Y最可能的码字。可以看出两种解释是相同的, 在校验位的解释下,发送一个二进制的行矢量

XPXP,G为系统线性块编码的生成矩阵,在陪集的解释下,发送伴随阵S = XH, H 是线性块码C的校验矩阵。如果P = H, 传输的码流是相同的。

可以使用Turbo码来实现Slepian-Wolf编码器。由于Turbo码的良好性能, 这种方法能够很好接近Slepian-Wolf给定的编码界。之后, Liveris等人采用LDPC(low-density paritycheck)码来实现Slepian-Wolf编码器。仿真结果表明它比当时所有的turbo码的压缩性能都好, 更能接近理论限。后来他们又使用IRA(irregular repeat accumulate)码进行实验, 也得到了很好的结果。另外, Lan、Liveris、Naryanan、Xiong 和Georghiades对多信源的Slepian-Wolf编码问题进行了研究。

3.2 量化技术及Wyner-Ziv编码器

因为图像的失真度基本上是由量化器决定的, 所以对于视频编码而言, 量化器是非常关键的一个环节。由于分布式编码中, 解码器的动作是整个编码系统结构的核心, 这不同于传统的编码器端决定图像质量的工作方式。分布式编码中的量化器无法直接继承传统图像视频编码技术中的量化器设计方法。在Slepian-Wolf编码的基础上, Wyner-Ziv 编码机制有了很大进展, 对于重建边信息的初步量化器设计目的来自于信息论证。在特定情况下, 线性编码和嵌入式格子, 接近Wyner-Ziv 的率失真函数。特别是当信源和边信息是联合高斯的情况, 构成了分布式编码中量化器设计的理论基础。

通常情况下, 认为Wyner-Ziv编码器由一个量化器和一个Slepian-Wolf组成。量化器将信号空间分为单元, 不相连的子单元影射到相同的量化索引Q, 它由固定码率的局部最优 Lloyd算法、Wyner-Ziv矢量量化器设计。量化器的设计用于理想Slepian-Wolf编码器编码量化的索引, 码率估算依赖于量化索引和边信息, 使Slepian-Wolf编码器的块长与量化器维数分离。这是实际系统的基本要求。对于高码率, 在特定的情况下, 最优量化是格子量化, 分离的量化单元不需要影射到同一个索引。在编码端不具有边信息的情况下, 它是渐进无性能损失的。

在Wyner-Ziv编码器的设计实现上,Zanir等人给出的嵌套线性/格形码可以达Wyner-Ziv界。嵌套格形码的实现由Servetto中给出。Xiong等人通过嵌入量化器加Slepian-Wolf构成Wyner-Ziv编码器, 后来又使用TCQ(trellis-coded quantization)构成Wyner-Ziv编码器, 两种方法都能逼近理论界。此外, 可以使用Lbyd算法设计量化器加上Slepian-Wolf编码器实现Wyner-Ziv编码。

3.3 联合解码和运动补偿

为了获得更高的压缩效率, 可以在解码端进行运动补偿。传统的运动补偿编码可以在这里采用。例如,CRC可以用于解码端的运动补偿, Viterbi解码对一系列运动补偿预测块进行操作, 每一个具有不同的运动矢量, 每个解码版本的CRC和传送的CRC 进行比较选用。另外一种方法由Stanford完成, 即发送一个鲁棒的hash码字来辅助解码端估计运动。目前, 本文的hash 简单地由量化的DCT系数的小子集组成, 在低延迟系统使用前一帧产生边信息。因为hash比原数据小, 所以允许将上帧的hash存储到内存。对于当前帧的每个块, 计算对应的鲁棒hash的相邻帧距离。如果超过一定距离,则发送hash 数据和Wyner-Ziv 位。在hash的基础上, 解码端执行一个运动搜索来产生最优的边信息块, 量化系数的hash码能修正Turbo解码的相应概率, 因此进一步减少了校验位的码率。Hash 也能在重建时用于精简。这非常近似于通用的Slepian-Wolf编码的相关信道。

3.4 码率控制

Wyner-Ziv的码率控制由当前帧和边信息的统计相关特性来决定。编码算法本身并不需要改变, 码率随信道的统计特性而变化。每个帧需要多少码率的传输是灵活的, 因为边信息是在解码端获取而不是在编码端获取。

码率控制解决的方法之一: 完全依赖于解码端的反馈信息; 解码端将决定最优编码速率并反馈给编码端。解码端使用相关信道估计算法将预测码率传输给编码端。

在解码端进行码率控制, 明显降低了编码端的负担; 反馈允许解码器在产生边信息方面具有很大的灵活性;从简单的拷贝帧的机制到非常复杂的运动补偿; 基于对象的分割或多帧预测;一个精确的边信息, 需要很少的码率。因此整个系统性能的改善只与解码器有关系。这与传统的视频编码方式是有区别的。

这种方法有两个比较明显的缺点:首先需要一个反馈信道,这会造成延迟; 统计特性估计和解码过程都是在线执行。因此这种算法不适宜于低复杂度的设备应用。

另外一个码率控制方式是使用一些在编码端的估计, 如PRISM。编码端存储前一帧, 基于帧差的能量;每个块分为不同的编码模式, 具有不同的码率, 帧差过小, 则不编码;在这两种模式中间是不同的伴随阵和不同的码率, 取决于估计的统计相关。运动估计在解码端没有, 可以降低解码复杂度;边信息的精度不影响码率, 但是会影响重建的信号质量。

[8]

[7]4 两种分布式视频编码的仿真实现及分析

本文对空间域Wyner-Ziv视频编码和频域Wyner-Ziv视频编码算法分别加以仿真实现,并且和H.263的帧间编码和顿内编码进行比较。本文采用的turbo编码器码率为4/5,生成矩阵34342M2,4,8,16[1,(1DDD)/(1DD)]为。通过对量化级数的调整,产生出不同的输出码率,从而获得不同的压缩率。关键帧K采用H.263的帧内编码, 它和Wyner-Ziv 帧S的编码顺序为“K-S-S-S”, 即每2个关键帧K之间有3个Wyner-Ziv帧S。H.263的编码器为 TMN8,选取Carphone和Salesman两个标准序列,其图像格式为QCIF(176X144),编码帧数为100帧(25fps)。仿真实验的结果如图3所示

图3 空间域和频域Wyner-Ziv视频编码仿真结果

从上述的仿真实验结果可以看出, 分布式视频编码在相同编码复杂度的情况下, 其压缩效率要明显高于传统的帧内编码, 但和传统的帧间编码相比尚有较大差距。频域Wyner-Ziv,视频编码效率比空间域Wyner-Ziv算法平均高1.5dB以上, 这是因为频域Wyner-Ziv编码算法在编码端对当前帧进行DCT变换,变换后的低频分量和高频分量独立编码, 压缩了图像信号的空间冗余度,提高了编码效率。结论和研究展望

本研究对于探索新的视频编码技术、解决传统视频编码仅在编码端进行信源统计所遇到的编码复杂度高等问题, 具有重要的理论意义和实用价值。为了降低编码端的复

杂度,分布式视频编码采用帧内编码帧间译码,将视频帧分为关键帧与Wyner-Ziv帧,关键帧是使用H.264/AVC进行编码,在译码端使用已译码的关键帧产生边信息,并将边信息作为辅助信息来实现当前Wyner-Ziv帧的编码。与传统的视频编码相比,分布式视频编码在编码效率方面存在一定的差距,并目_译码端的复杂度较高,因此如何提高分布式视频编码的编码效率与降低译码端的复杂度是本文的主要研究内容。

为了提高分布式视频编码的效率,可以使用编码模式选择机制、较好的信道编码机制与较好的边信息产生方法。在我们提出的编码端码率控制算法中,在编码端使用编码模式选择机制来通过产生边信息与当前帧之间的相关性来选择合适的编码模式,从而提高分布式视频编码的效率。

为了降低译码端的复杂度,本文提出了一种不使用反馈信道的编码端码率控制算法。大多数的分布式视频编码使用反馈信道在译码端执行码率控制,使用反馈信道会增加译码端的复杂度并会带来一些时延,为了克服这些缺陷,我们在编码端对码率进行控制,在编码端产生一个低复杂度的边信息来对译码端产生的边信息进行估计,从得到译码过程中错误概率的估计值,使用该估计值来为前帧分配合适数目的校验位。

本文对分布式视频编码的理论基础、关键技术进行了研究,并给出了新的解决方案,但是还有更深入的研究有待进行,如:本文使用了比较典型的运动补偿帧内插法来产生边信息的,该方法产生边信息的质量较好,但是它需要的计算量较大,因此如何产生一个质量好并且计算量小的边信息是我们未来工作的一个研究方向。

本文主要是基十像素域的分布式视频编码框架上对分布式视频编码进研究的,下一步我们可以研究应用十基十像素域的分布式视频编码与PRISM视频编码下相应的解决方案。

6、参考文献

[1] Baoguo Du and Hong Shen, A Novel Reconstruction Approach for Pixel-Domain Distributed Video Coding.(Accepted by ICFCC 2010).[2] Wang H S, Cheung N M and Ortega A.2006.A framework for adaptive scalable video coding using Wvner-Ziv techniques[ J ] EURASIP Journal on Applied Signal Processing, [3] Xu Q and Xiong Z.2006.Layered Wyner-Ziv video coding [J].IEEE Transactions on ImageProcessing, 15(12): 3791-3803.[4] Zamir R.1996.The rate loss in the Wvner-Ziv problem }J}.IEEE Transactions on InformationTheory, 42(6): 2073-2084.[5] 杜保国 沈鸿 对分布式视频编码若干关键技术的研究 2010.[6] 干宗良 朱秀昌分布式视频编码技术的研究现状及其展望 2007.[7] 房胜

钟玉琢.分布式视频编解码技术的研究进展2005.[8]张前进,郭雷.分布式视频编码关键技术及研究进展,2007.

第二篇:分布式视频编码演讲稿

参考《分布式视频编码-答辩.ppt》

分布式视频编码演讲稿

1.各位老师好,我毕业论文的题目是,分布式视频编码中WZ帧编码技术研究。分布式视频编码是一种新兴的编码技术,它和传统编码技术不同,传统的视频编码技术基本都是,编码端 比较复杂,解码端比较简单。而分布式编码的编码端比较简单,解码端则比较复杂。2.为了达到这个目的,学术界提出了很多实现方案,在这些方案之中,最为著名的,是斯坦福大学研究小组提出的分布式编码方案。就像图中所示,整个视频序列被划分为关键帧和WZ帧,它们使用两个独立的系统进行编码。关键帧使用传统的帧内编码方法传输,它主要负责生成高质量的边信息,边信息是分布式视频编码里的新概念,它实际上就是,需要解码的WZ帧的估计信息。

比如,像上面这幅图中所示,第一帧和第四帧为关键帧,中间的第二帧和第三帧为WZ帧。关键帧首先传输到解码端,也就是第一帧和第四帧,然后两个关键帧使用某种算法生成第二帧和第三帧的估计数据,这个估计数据就可以被称为边信息。

再来看一下WZ帧的传输,它的处理比较复杂,因为WZ帧的编解码算法决定了整个系统的压缩效率和传输质量。

WZ帧首先要进行DCT变换,然后对DCT系数做量化,最后进行信道编解码,信道码可以使用turbo码或者是LDPCA码,LDPCA码的效果较好。和传统的信道编解码不同,分布式编码的编码端只需要将编码后的校验位,传输到解码端就可以了。然后,解码端利用自己估计好的边信息,以及传输获得的校验位就可以进行纠错解码了。这个WZ帧的传输系统就是我毕业论文的研究内容了。3.在这个方案中,我们还可以看到,为了能够更好的去除图像的空间冗余,使用的是DCT变换。在传统编码领域,我们知道,除了DCT变换,还有另外一种选择,就是小波变换。下面这幅图就是小波变换的分布式编码架构,从图中可以看出,两种方案不同的地方只是,一个使用DCT,一个使用小波。从前人的研究成果来看,这两种主流架构,在码率压缩方面都比较差,而且它们都不适应传输带宽不稳定的环境。4.为了解决这些问题,我提出了两种方法。一种是高频填充方法,它在一定程度上解决了码率的问题。另外一种是分级编码的思想,它可以让系统工作在不稳定的带宽环境中。那么,我的研究内容也包括两块,一块是将这两种方法应用在,基于DCT的WZ帧编码系统中,另一块是,将它们应用在基于小波的WZ帧编码系统中。5.首先来介绍一下高频填充方法,在基于DCT变换的分布式编码系统中的应用。DCT变换之后,整幅图像会被划分为高低频信息,其中LL区为低频区,LH、HL区为高频区,HH为甚高频区。图中 左边为待解码的WZ帧的高低频信息,右边是边信息的高低频信息,刚才已经说过,边信息实际上就是解码端为WZ帧做的估计。高频填充方法就是指用边信息的高频区来填充WZ帧的高频区。具体来说,就是用边信息的HH、LH、HL区来填充WZ帧相应的高频区。

我们可以假设一下,如果这种方法可行的话,系统的码率就会降低到原来码率的1/4,因为,这个时候需要传输的只是LL低频区。6.下面来证明一下这种方法的可行性。表3-1和表3-2是foreman图像和coastguard图像的,DCT变换系数的统计特性。包括高低频系数的均值,方差和能量。foreman图像运动较为缓慢,coastguard图像运动较为剧烈。从表中可以看出,图形的低频信息包含了图像90%的能量,高频信息含有的能量非常低。从人眼的角度来说,低频信息也远比高频信息要重要。另外,还可以看出,高频信息的平均值非常接近于零。7.根据这些分析,我提出了四种不同的填充方法。HH填充边信息HH填充零值 HH/HL/LH填充边信息HH/HL/LH填充零值

8.然后我对这四种填充方法进行了对比,在对比他们的效果之前,我要说明一下,我做实验使用的边信息生成的方法是,关键帧复制法,这种方法就是将WZ帧的前一个关键帧作为边信息,就像图中,如果要解码第二帧,那么就将第一帧关键帧作为边信息。还有一点需要说明一下,人眼可以接受的解码质量必须在30dB以上,因为在这种情况下,人眼比较难分辨出两幅图像的差距。9.下面来看一下foreman图像的填充结果。我们可以得出结论,对于这种运动比较缓慢的图像,四种填充方法都是可以接受的,因为它们都超过了30dB。另外,对比一下码率就知道,最好的填充方法是,HH/HL/LH填充边信息,它的码率是1/4。10.再来看一下,coastguard图像的填充结果。只有两种方法超过了30dB,HH填充零值或者边信息。而且这两种方法的填充效果几乎一样,码率也一样。所以,这两种方法都行。11.为了能够说明这种方法的可行性,我又做了几组视频。前三个视频属于那种运动比较缓慢的,所以它们的填充方法,和foreman类似,最后那个bus图像,它的运动比较剧烈,所以 就用coastguard图像的填充方法。从它们的实验结果上来看,效果还是可以的。12.刚才已经把高频填充方法介绍完了,下面来介绍一下分级编码。分级编码一般会根据间隔的度来划分,粗间隔的分级编码和精细间隔的分级编码,我在这里使用的精细间隔的分级编码。然后我用高频填充方法和分级编码方法构造了,新的WZ帧传输架构。就像图中所示。编码端按照从低频到高频的顺序,依次向解码端传输信息,传输到一定程度之后,就不在传输了,然后解码端就利用边信息或者零值直接填充剩下的部分。需要说明一下,为了能够体现出我的实验成果,所以在边信息生成算法上,我使用了最简单的关键帧复制法。13.来看一下实验结果。横轴是码率,纵轴是图像的解码质量。左边是foreman的实验结果,右边是coastguard的实验结果。两幅图像的实验结果基本类似。从图中可以看出改进的架构在解码效果上基本相当于H.263+ 帧内解码的水平。低于H.264 帧内解码的水平。14.这是在200kbps信道带宽的情况下,图像的解码质量。foreman的解码质量要更好一些。15.下面来介绍一下,基于小波的WZ帧编码架构。我们知道,DCT变换易于产生块效应,而小波变换就没有这样的问题。从图中也可以看出来。基于小波的WZ帧编码架构和基于DCT变换的架构基本类似。16.那么我也用了同样的方法来改进这个架构。高频填充方法和分级编码思想。简化小波计算方法的计算效率很高,比较适合应用于WZ帧编码。WZ帧在经过小波运算之后,也会形成类似的高低频系数。其中,LLL和LLH可以被视为低频信息,类似于DCT变换后的LL区。H2和LH可以被视为高频区,类似于DCT变换后的LH和HL区。H区是甚高频区,类似于这里的HH区。17.和基于DCT的架构一样,填充方法有四种,H填充边信息H填充零值 H/H2/LH填充边信息 H/H2/LH填充零值

18.这是foreman图像的填充效果。从这个图中可以看出,效果最好的还是H2/LH/H填充零值,此时,码率只有1/8,图像的解码质量大于在32dB左右。20.这是coastguard的填充效果。这个实验效果,与之前所做的所有实验都不一样,之前的实验,都是填充边信息比填充零值要好,而这里,出现了,高频的H区填充零值比填充边信息更好。高频的H2区和LH区则是填充边信息比零值更好的情况。我认为出现这种情况的原因是:coastguard图像变化太快,使得边信息的H高频区与WZ帧的H高频区之间的相关性较小。于其填充边信息,不如什么都不填。21.所以,接下来我又做了一个实验,引入一种混合的填充方法。H填充零+H2/LH填充边信息,然后与之前的方法做了对比,从实验结果来看,这种方法的填充效果最好。图像的解码质量大约在31dB左右,码率只有1/8。22.讨论完高频填充方法,再来看一下,分级编码。这个比较简单,和刚才所说的基于DCT的架构一样使用就可以了。当信道传输能力有限时,就少传一些高频信息,然后在解码端使用零值或者边信息直接填充。新的架构就像图中所示。与基于DCT的编码架构基本一致。23.最后来看一下,新架构的实验效果。总的来说,改进的基于小波的WZ帧编码架构,它的解码效果大致相当于H.264帧内编码的水平。他要比之前介绍的基于DCT的改进架构要更好。24.这是在200kbps信道带宽的情况下,图像的解码质量。foreman的解码质量要更好一些。25.总结一下论文的成果,通过我的改进,基于DCT的WZ帧编码方案在解码质量上大致相当于H.263+帧内编码的水平。而基于小波的WZ帧编码方案,在解码质量上基本可以达到H.264帧内编码的水平。

第三篇:体育视频的内容标注和解析技术研究

一,开展本课题研究的意义

近年来,数字视频的应用日趋广泛.诸如视频点播,数字电视,数字图书馆,视频会议,远程教育等等,已经为越来越多的人所接受和熟悉.面对大量涌现的视频数据,如何找到所需的视频信息就成为一个急需解决的问题.简单的视频名查询和类似录像机的播放功能已不能满足人们的需要.正如一本书通常会有目录和索引帮助人们迅速浏览和查询内容,一部视频同样需要有效的目录和索引.传统的方法需要由人对视频内容进行标注,十分费时费力.尤其是当视频资源的数量达到海量级,或是处理的速度要求接近实时的时候,完全采用人工的方法都会遇到难以克服的困难.为了解决这一问题,九十年代以来,出现了基于内容的视频分析和检索[1][2][3].其核心就是通过对视频内容进行计算机分析理解,建立结构和语义索引,以方便用户检索.巨大的商业前景和重要的学术价值,吸引了来自于业界和学术界不同领域的研究人员在这一问题上开展研究.一些原型系统先后被提出,主要有ibm的qbic/cuevideo[4][5],virage公司的video engine[6],卡内基梅隆大学的informedia[7],哥伦比亚大学的videoq[8]等.这些努力最终促成了国际标准——mpeg-7(多媒体内容描述接口)的诞生.但是随着问题的深入,研究人员面临了更大的障碍:视觉/听觉内容的机器理解,即难以建立底层特征与高层语义的联系.同样的难题困扰了人工智能领域多年.一般认为,寻找通用的解决方法是异常艰难的.因此,一些研究转而专注于解决特定领域的应用问题,如新闻,电影等.在这些特定领域,结合相应的领域知识,是可能将底层特征与高层语义建立某种联系的.体育视频,即体育比赛的电视转播,作为一个重要的应用领域,一直备受关注.体育比赛一般很漫长,但对于大多数观众来说,真正关心并有可能反复观看的只是其中的一小部分.例如一场跳水比赛常常需要持续几个小时,而其中的精彩部分——运动员从起跳到入水的过程却只有短短几分钟.人们需要一种方便快捷的手段来访问体育视频的内容.与其他视频相比,体育视频具有自己的特点.首先,体育视频中存在一些领域相关的语义事件,如跳水比赛中运动员的跳水,足球比赛中的射门等.这些语义事件往往是视频中最有价值的部分,需要进行标注以便于检索.其次,体育比赛一般有较强的结构性,如跳水比赛由若干轮组成,每轮又由若干选手组成等.为了便于对视频内容的浏览,原始的视频数据应按这些结构进行解析并组织成层次目录.本课题的目标就是研究针对体育视频内容的语义标注和结构解析技术.尽管限于当前的技术水平,完全自动的,通用的视频内容理解是不太可能的,但是本课题的研究将证明部分的解决是有可能的和有价值的,此外我们的研究也将为最终的全面解决奠定基础.除了学术上的意义,本课题的研究还可以有以下一些直接的应用:

1,视频资料库:适用于各类体育专业人士或爱好者对收集的体育比赛视频资料进行查询,浏览和管理.目前,我们已申请到国家体育总局的科研项目——跳水训练图像分析软件系统研制.通过对跳水比赛视频的内容标注与解析,能够方便快捷的实现一个典型动作的视频数据库.2,web多媒体发布:适用于新闻或者体育网站在web上及时发布体育多媒体信息.今天,已经有越来越多人的习惯于从网上获取最新的资讯.基于我们的技术,可以在第一时间采编和发布综合图文和视音频在内的体育多媒体信息.3,个人移动业务:适用于无线服务提供商为个人提供定制的多媒体消息服务(multimedia message service,简称mms).我们的内容标注和解析技术,可以为冗长的体育视频生成摘要,从而可以根据用户的个人喜好和终端能力,向移动设备发送体育多媒体消息.二,国内外研究现状分析

国际上对于体育视频的研究是从90年代中期开始的,属于视频检索领域的一个子课题.与新闻视频领域取得的成功相比[9][10][11],体育视频的研究相对较少也更为困难.这主要是因为新闻视频有一个基本一致的时域结构和场景语义,即先是播音员镜头,然后是新闻报道,最后再回到播音员镜头进行下面的新闻报道,而对于体育视频则不存在这样统一的结构和语义.目前体育视频的研究尚处于初期探索阶段,对于其过程和方法还没有统一的结论,也还没有可以投入实用的系统.1,镜头检测

通常在对体育视频进行分析前,需要将其分割成镜头.所谓镜头,是指摄像机不间断拍摄的一组帧序列,它常被看成一部视频的最小结构单元.为了将镜头分割出来,需要进行镜头边界检测.镜头与镜头之间的边界有两种类型:突变和渐变.突变时,镜头直接切换到下一个;渐变时,从一个镜头到下一个镜头会有一个持续多帧的变化过程,常见的主要有淡出淡入(fade out and fade in),溶解(dissolve),擦变(wipe)等.淡出淡入是指视频帧逐渐隐去直到完全黑屏,再逐渐显现后一镜头的帧图像.溶解是指在前一镜头帧图像逐渐模糊的同时,后一镜头的帧逐渐增强,并且产生前后帧图像的重叠.擦变表现为后一镜头帧图像的区域逐渐变大把前一镜头的图像擦掉.镜头检测的关键问题是如何区分镜头之间的切换和因为摄像机或物体运动造成的镜头内变化.由于这个原因,渐变比突变更难以检测.早期的工作主要在突变检测,近来更多的研究集中到对渐变的分析.镜头检测的方法可以分为两类:非压缩域的和压缩域的.在[12][13]中,对各种非压缩域的镜头检测算法进行了实验评价.与非压缩域的方法相比,基于压缩域的方法不需要对视频编码流进行解码,而是直接使用如dct系数,运动矢量,宏块(macroblock)信息等压缩域特征进行分析,从而提高了处理速度[14][15][16][17].今天大量的视频数据是以压缩格式(如mpeg)存储的,因此基于压缩域的方法往往具有更大的实用价值.2,语义标注

所谓语义标注,是指对体育视频中的语义事件进行检测和标注,其实质就是依据事先定义好的类别对视频片段进行识别.当前,国内外对体育视频研究实际上主要集中在这个方面,下面介绍一下相关工作.y.gong等首先提出了对足球比赛视频的分析[18].他们结合足球比赛的领域知识,通过场地白线识别,摄像机运动检测,足球和运动员检测等分析,对视频内容进行推断,包括处在球场什么位置,射门,角球等.例如,如果场景接近球门区域而且足球有一个向球门的运动,则可以推断这是一个射门.实验结果表明,系统对于球场位置的识别较为准确,达到90%,但是射门和角球的识别率只有53%,这主要是因为高速运动和遮挡关系,使得足球的检测较为困难.哥伦比亚大学的peng xu等观察到足球比赛可以划分为两种状态:进行和暂停(如因为球在界外或裁判暂定比赛).他们开发了一个能够检测视频中的足球比赛是在进行还是暂停的系统[19].该系统对足球视频分析分为两步.首先,根据颜色分析得出每一帧中的草地颜色比率,使用这个特征将帧标注为三种:全景(globe view),近景(zoom-in view)和特写(close-up view).在检测的时候,算法可以对草色和分类决策进行学习和自动调整.接着,在对视频帧进行上述分类标记后,根据经验总结的规则(如全景一般是比赛进行,特写一般是比赛中断等)判断比赛是在进行还是暂停了.实验使用了四段来自不同足球比赛的五分钟片断,检测准确率最好达到86.5%,最坏只有67.3%.在另一篇文章里,他们使用了基于隐马尔科夫模型(hmm)的统计方法[20].根据足球视频的特点,选择主色比率(dominant-color ratio)和运动强度(motion intensity)为提取特征.他们为进行和暂停分别建立了各自的隐马尔科夫模型组,依据最大的可能性对足球视频进行标注.与基于规则的方法相比,这种方法不需要去直接建立复杂的分类规则和确定阈值,而是通过训练样本自动学习.实验结果表明该方法较为有效而且表现稳定,对不同的测试集准确率都在80%以上,平均准确率达到83.5%.清华大学的ming luo等也以足球为例提出了一个体育视频分析系统[21].他们的系统根据关键帧中场地颜色的比率和物体的大小,将镜头分类为远镜头和近镜头.此外,对于远镜头,他们观察到在射门或长传时,快速的摄像机运动通常会使图像模糊,从而提出根据帧图像的模糊度(blur extent)来检测足球比赛中的这些事件.实验结果表明算法对射门和长传事件检测的查准率为89.3%,查全率为97.2%.drew d.saur等人使用直接基于mpeg压缩域的特征,实现了对篮球视频内容的自动分析和标注[22].算法首先进行基于压缩域dc图的镜头分割,然后对每个p帧统计其中运动矢量的大小,考虑特写(close-up)镜头比广角(wide-angle)镜头一般变化更激烈,将视频划分为广角镜头和特写镜头.对于广角镜头,进一步分析其中的摄像机运动,来标注特定的视频内容,如抢断,快攻,可能的投篮等.微软研究院的y.rui等人提出一种依据计算量较小的音频特征来检测棒球比赛中精彩事件的方法,适用于计算能力有限的环境[23].他们的算法首先是基于机器学习的解说员激动语音识别和棒球击打声检测,然后将这两者进行概率混合来推断最终的精彩片断.与人工标注的精彩片断进行对比,实验表明他们的算法能够达到75%的准确率.同样对于棒球,dongqing zhang等通过对比赛中比分和状态的字幕显示进行检测和识别来分析语义事件的发生[24][25],如触垒得分和最后一投(投手被罚出局).他们使用视频文本检测和识别技术分析比赛中的字幕信息.识别结果再进一步利用领域知识模型来提高准确度.b.li和m.i.sezan对美式橄榄球比赛的电视转播进行了分析[26].为了滤除比赛视频中死球的时间,生成更为紧凑的摘要,他们将比赛片断定义为表现球在运动的视频片断,并提出了两种检测方法:确定的基于规则方法和概率的基于统计的方法.基于规则的方法,分析了场地颜色,场地标线,摄像机运动和运动员衣服颜色等,然后根据经验总结的规则,对视频内容进行判断.基于统计的方法,使用hmm推断视频中的比赛片断,实验表明这种方法也是很有效的.两者相比,前者易于实现和计算,但是需要制定推导规则,而后者则具有一定的学习能力避免了直接设定阈值的困难.在体育比赛转播的时候,通常会在精彩事件之后及时穿插重放慢镜头,这方面也吸引了许多研究者的注意[27][28][29][30].通过检测重放事件,以及发现之前视频中相同内容的正常镜头,就可以为冗长的体育视频生成一个令人满意的精彩索引.di.zhang针对体育视频的分析,试图提出一个一般性的框架[31].为了兼顾效率和准确性,他认为事件的检测可以分为两步进行.即基于压缩域分析的初选阶段,和基于对象层次的验证阶段.第一步,选择一些压缩域的特征,如颜色和运动等,通过统计学习的方法实现对事件的初选.第二步,在候选场景中进行对象分割,根据总结的领域规则进行判定,如对于网球比赛的发球镜头,图像中应有大块场地区域,在下方有小的运动员对象.j.assfalg等认为体育视频的镜头一般可以分为三类:场地,运动员和观众[32].场地镜头关注体育运动本身,表现为大块一致的颜色区域和场地线条等.在运动员镜头中,运动员作为前景中的物体出现,而背景则变得模糊.在观众镜头中,个体常常是不清楚的,而观众整体可以看作一种纹理.基于这些认识,他们通过边缘提取,图形分割和颜色

分析等,对三类镜头实现了有效的识别.n.babaguchi综合了文本和视觉特征来对体育视频中的事件进行检测[33].文本信息来自于电视信号中的隐藏字幕(closed caption).首先,通过搜寻文本中事件相关的关键字,估计事件发生的可能时间段.然后,再对时间段内的镜头进行视觉特征分析,计算与已有的事件例子的匹配度,检测出事件相关的镜头.3,结构解析

一部视频中常常包含了成百上千个镜头,特别是在体育视频中.这主要是因为体育比赛电视转播的时候,会有多个摄像机从不同视角对比赛进行拍摄,它们之间的频繁切换就构成了镜头.为了更好的访问视频内容,除了语义标注,还需要对镜头进行有效的组织.结构解析的任务就是通过镜头组织为视频数据流建立类似书目的分层浏览结构.以[34][35]为代表,一些研究人员提出了通用的视频结构分析方法.他们用时间约束的聚类法把视觉上相似和时间上相邻的镜头聚类在一起,再在聚类组的基础上构造场景转换图(scene transition graph)或高层场景,进而形成层次化的浏览结构.但是这种统一的结构组织方式(如[34]中将视频分成帧/镜头/组/场景四层)并不适合针对体育视频的分析,这主要是因为体育比赛都有自己特定结构(如图1所示),对体育视频的分析应当结合这种领域知识.图1 跳水比赛的树状结构

4,总结

综上对国内外研究现状的调查,我们有以下结论:

(1)应当结合领域知识进行特征选择.领域知识包括比赛相关和制作相关.比赛相关的领域特征涉及特定的体育运动,如足球比赛中的草色比率,篮球比赛中快攻时摄像机的运动等.制作相关的领域特征适用于大多数体育视频的分析,主要来自对体育视频制作的总结,如精彩场面的重放,有关运动员和比分信息的字幕显示等.综合这两类领域知识,选择合适的特征进行分析是取得研究成功的基础.(2)多模式融合分析代表了新的研究趋势.除了视觉特征外,综合体育视频中所包含的音频特征和文本信息,能够有效提高视频分析的准确度.这也是近年来的研究热点.在体育视频中,一个语义事件常常是一个多模式的表达,如运动员的跳水事件既有视觉上的运动也有听觉上的踏板声和入水声,只对其中一个模式进行分析是不完整的.因此在对体育视频进行内容分析时,融合多模式尤为重要.(3)尽量考虑压缩域的特征分析.一场体育比赛长达数个小时,其视频数据也非常庞大,因而提高处理速度是很有意义的,在某些要求实时应用的场合也是必需的.直接基于压缩域的分析,不需要完全解码,可以显著提高处理速度.[22][31]表明基于压缩域的分析不仅能够大幅度降低计算量,同时也能获得较好的结果,或者作为进一步处理的基础.(4)基于统计的事件检测方法要优于基于规则的方法.早期的研究多采用基于规则的方法.但是,体育视频中的事件检测常常需要综合多种特征分析手段,需要适应不同的场景.这些都增加了直接设定规则的难度.与之相比,统计算法易于混合多种特征同时又具备一定的学习能力,因而具有更大的实用价值.(1)自动生成体育视频的分层浏览目录;

(2)实际应用中视频流可能不完整或存在标注错误,解析器应具有良好的容错能力;

(3)对于大数据量的体育视频,要求结构解析的效率要高.四,拟采取的研究方法,技术路线及可行性分析

1,基于压缩域的镜头分割算法

体育视频中常见的渐变主要有溶解,擦变,特别是其中的一些擦变具有特技效果,如图3所示.这些特定模式的擦变,通常出现在慢镜重放的开始和结束,识别这种镜头边界是十分有价值的.现有压缩域算法主要对切变检测比较成功,而对于渐变的研究不多.我们将综合压缩域的dct系数,运动矢量以及宏块信息等,研究一种有效的渐变检测方法.图3 体育视频中特定模式的擦变

一般在进行镜头边界检测的时候,首先从相邻帧提取合适的特征,然后比较这些特征之间的差值,如果差值超过了事先设定的阈值,则认为出现了镜头转换.因此,选取合适的阈值是非常关键的.常用的方法包括单阈值法,多阈值法和局部阈值法.单阈值法使用一个全局阈值,方法简单,但是对于渐变不能很好检测.多阈值法使用多个阈值进行分级判定,如使用较大阈值检测突变,使用较小阈值检测渐变.局部阈值法根据局部范围内的变化情况自动调整合适的镜头切分阈值,代表了新的研究趋势.目前,有关阈值选取的研究仍然是视频处理中的一个难点.我们将主要基于局部阈值法进行研究.2,体育视频中语义事件的检测

我们将体育视频中的语义事件分为三类:重放事件,状态事件和目标事件.重放事件是指体育比赛转播中穿插播放的慢镜重放片断.重放事件反映了比赛中观众感兴趣的精彩部分.状态事件发生在比赛状态发生变化的时候,如跳水比赛每一轮结束的评分,网球比赛中一局的开始镜头等.状态事件的检测对于视频结构的解析有非常重要的作用.目标事件,如跳水比赛中运动员的跳水,足球比赛中的射门等,是指体育比赛中具有观赏性的特定运动,通常表现为物体及其之间的运动关系.对这三类事件,我们分别采用如下的技术路线:

(1)通过标志性边界检测来识别重放事件

[1]中将重放分为三种类型:重复播放的同一镜头;慢动作方式重放的同一镜头;同一场景但是由不同摄像机在不同视角拍摄的.直接从内容上比较重放事件和先前视频镜头的相似性来进行分析,是很难识别准确的,尤其对于最后一种重放.通过对体育比赛电视转播的观察,可以发现一般对于精彩片断的重放都会以一个标志性的镜头切换引入,再以类似的变化结束,如图3所示.因此对于重放事件的检测,事实上可以归结到对这种标志性镜头边界的检测,从而简化问题.我们将主要研究这种方法.(2)利用视频文本识别确定状态事件

状态事件是和体育比赛的状态变化直接相关的,而通常在比赛状态发生变化的时候,电视转播会在视频中加入相关字幕提示,如跳水比赛中在运动员入场的时候,会有文字说明运动员姓名和所要做的动作;在一轮比赛结束的时候,会显示该轮所有选手的得分情况.根据这个特性,我们提出通过视频中文本检测和识别的方法来检测状态事件.该方法包括两个层次.首先,通过视频文本的检测[36][37][38][39][40]就可以初步确定状态事件的出现.然后,我们对检测的文本进行识别,通过关键字的匹配,识别状态事件的类别.例如,运动员入场的字幕显示中有关键字“round”(轮次),“rank”(排名),“dd”(难度),“total”(总分)等,通过匹配这些关键字,就可以判断当前镜头为运动员入场的状态事件.(3)融合视音频双模式的目标事件检测

在目标事件中,往往存在显著的运动和音频特征,如运动员的跳水事件既有视觉上的运动也有听觉上的踏板声和入水声.融合视音频的分析避免了单纯使用视觉或听觉特征不能完整描述语义事件的不足,可以有效提高识别精度.在进行识别的时候,我们采用混合隐马尔科夫模型和支持向量机的方法[41].支持向量机能够在小样本条件下,通过结构风险最小化准则,实现有效分类.但是支持向量机只是静态分类机,不能很好模拟时序过程.与之相反,隐马尔科夫模型虽然能够较好的处理随机时序数据的识别,但是并不能保证训练好的模型能够良好的分类未知数据.这样,将两者混合起来使用,通过在隐马尔科夫模型中引入静态数据识别良好的支持向量机,能对视频流数据取得最佳的识别效果.3,语法制导

的结构解析

为了对输入的体育视频数据进行结构解析,首先我们需要对该类体育比赛的文法规则进行描述.乔姆斯基(chomsky)把文法分成4种类型,即0型文法(或称短语文法),1型文法(或称上下文有关文法),2型文法(或称上下文无关文法)和3型文法(或称正则文法).型号越高所受约束越多,对语言的描述能力也就越弱.我们使用上下文无关文法对体育比赛的结构进行描述,主要是基于以下考虑:(1)上下文无关文法完全可以胜任对体育比赛树状结构的描述;(2)上下文无关文法在自然语言理解,句法模式识别,编译技术等领域有广泛的应用,技术比较成熟;(3)基于上下文无关文法的解析器不仅可以为视频有效生成层次浏览树,而且具有较强的错误处理能力.其中终结符r,b,e,u分别表示一轮比赛的结束,选手比赛开始,选手比赛结束和一般镜头,非终结符和为结构单元,分别代表每轮比赛和每个选手的比赛.对于语义标注序列“buuuuuuuebuuuuuuuueeur”,使用文法分析器进行解析得到它的层次结构“[[buuuuuuue][buuuuuuuue]eur]”.其中序列最后“r”前面的“eu”为错误标示,可以用错误恢复策略进行处理(例如,在发现终结符不能匹配时,弹出该终结符并发出警告).由于视频序列在进行基于统计的语义标注时,存在某种程度的不确定性.所以错误处理应当结合语义标注的确定度来进行.如果出错标注本身的确定度比较低,则可以认为该标注有错;如果出错标注的确定度比较高,则可以认为错误发生在它的前面.以上,我们通过基于压缩域的镜头分割,语义事件的检测和语法制导的结构解析实现了体育视频的内容标注和解析.虽然我们主要以跳水视频为例进行分析,但是其中的技术完全可以应用到其他类似体育视频的分析中,甚至一般视频的处理中.我们的研究表明,尽管限于当前的技术水平,完全自动的,通用的视频内容理解是不太可能的,但是通过有效的人机交互和建立应用相关的模型,新的技术将可以面对视频信息大量涌现的挑战,给人们带来更加丰富和方便的体验.五,预期研究成果及创新之处

一个压缩域镜头边界检测的有效算法

体育视频中慢镜重放的检测方法

基于压缩域的视频文本检测和分割

体育视频中状态事件的识别

视音频融合的事件检测

基于文法的体育视频结构解析

一个通用的体育视频内容分析框架及其系统实现

六,已有工作基础

1,已有资源:

4.96g的跳水比赛视频数据,总长度约8小时20分钟;

5.33g的足球比赛视频数据,总长度约9个小时;

2.58g的其他体育视频数据,包括篮球,排球和网球等;

2,已进行工作

一个基于内容的智能视频检索系统:ivideo

一种通过关键帧提取和组织来浏览视频的方式:xplayer

可视化的视频分析工具:medialab

综合颜色特征和摄像机运动分析的镜头边界检测算法

基于标志模板的重放镜头检测算法

跳水比赛视频中精彩片断的自动提取:ivideoanalyzer

基于压缩域文本检测的体育视频结构分析:sportsplayer

3,专利和文章

王扉,李锦涛,张勇东,林守勋,“跳水比赛视频中精彩片断的自动提取”,计算机研究与发展,评审中.王扉,张勇东,李锦涛,林守勋,“在体育比赛视频中检测精彩片断的方法”,(发明)专利号02156973.8,已受理.七,研究计划及预期进展

XX/01 – XX/04 基于文法的体育视频结构解析

XX/05 – XX/06 压缩域的镜头边界检测算法

XX/07 – XX/10 体育视频中的语义事件检测

XX/11 – XX/12 跳水比赛的视频分析和检索系统

XX/01 – XX/04 技术改进,论文写作

八,参考文献

content-based video analysis and retrieval

[1] c.w.ngo, h.j.zhang, and t.c.pone, “recent advances in content based video analysis”, international journal of image and graphics, dec XX.[2] n.dimitrova, h.j.zhang, b.shahraray, i.sezan, t.huang, and a.zakhor, “applications of video-content analysis and retrieval”, ieee multimedia, vol.9, no.4, XX.[3] 庄越挺,潘云鹤,吴飞编著,网上多媒体信息分析与检索,清华大学出版社,XX年.[4] m.flickner et al, “query by image and video content: the qbic system”, ieee computer, 28(9), 1995.[5] d.ponceleon, s.srinivasan, a.amir, d.petkovic, and d.diklic, “key to effective video retrieval: effective cataloging and browsing”, in proc.acm multimedia, 1998.[6] a.hampapur, a.gupta, b.horowitz, c-f.shu, c.fuller, j.bach, m.gorkani, and r.jain, “virage video engine”, spie storage and retrieval for images and video databases v, 1997.[7] h.d.wactlar, t.kanade, m.a.smith, and s.m.stevens, “intelligent access to digital video: informedia project”, ieee computer, vol.29, no.3, pp.46-52, may 1996.[8] s.-f.chang, w.chen, h.meng, h.sundaram, and d.zhong, “videoq: an automated content based video search system using visual cues”, in proc.acm multimedia, november 1997.

第四篇:基于3G网络的移动P2P视频直播技术研究

基于3G网络的移动P2P视频直播技术研究

引言

随着 3G 网络应用环境的逐渐成熟和移动终端的普及,移动流媒体业务成为移动增值业务发展的必然趋势。它满足了人们追求能够更随时、随地、随意的获得多媒体信息的需求,权威机构预测流媒体业务将是3G网络上的主导业务。3G网络的铺设为移动流媒体业务的开展提供了物理基础,但是有限的移动网络带宽和快速增长的移动流媒体业务,使得传统互联网的C/S模式无法适应移动网络的需求。而随着移动通信与计算机网络的不断融合,在互联网领域飞速发展的P2P 技术进入了人们的视野,如果把P2P 应用在移动通信领域,就能解决移动流媒体在信息源上的瓶颈。本文在充分分析了P2P视频直播技术和3G网络的特点后,提出了一种面向3G 环境下移动终端(如手机、PDA 等)的混合型移动P2P 视频直播服务模型。该模型适用于3G 网络环境,它将视频资源的发现和处理分开,从根本上减少移动终端设备的计算负担和中心服务器的负载,同时利用P2P 技术进行数据分发,提高资源利用率,减小网络延迟,从而提高了移动视频直播业务的服务质量。经实际测试,证明了模型的实时性、有效性和稳定性,同时,40 也为未来移动通信网络下的其它移动P2P 应用、移动增值业务的开发提供了参考和借鉴。

1.1 3G 3G是英文 3rd Generation 的缩写,意为第三代移动通信技术,是指将无线通信与国际互联网等多媒体通信结合的新一代移动通信系统,相对第一代模拟制式手机(1G)和第二代GSM、CDMA 等数字手机(2G),第三代手机(3G)能够处理图像、音乐、视频流等多种媒体形式,提供包括网页浏览、电话会议、电子商务等多种信息服务。随着中国3G技术及市场的进一步发展,亚洲必将成为全球3G 业务的中心,由3G业务所带来的前所未有的通信革命以及由此带来的拉丁美洲、非洲等地电信市场的飞速发展,必将给各大运营商和移动设备提供商带来丰厚的利润,而用户也将享受更加便捷的各种3G增值业务,3G将更加贴近用户的生活需求。

1.2 P2P 视频直播技术

P2P 视频直播是目前互联网最流行的一种网络流媒体广播方式,它利用P2P 的原理来建立播放网络,从而达到节省服务端带宽消耗、减轻服务端处理压力的目的。目前国内外比较成功的P2P 视频直播软件主要有PPLive、PPStream、QQLive 和沸点等。PPLive是目前国内知名度最高、用户数最多、覆盖面最广的网络视频直播软件。它采用的是比较前沿的P2P 技术,有别于其他同类软件,它的内核采用了独特的ALM 多播和内聚算法技术,有效地降低了视频传输对运营商主干网的冲击,减少了出口带宽流量,并能够实现用户越多播放越流畅的特性,有效解决了当前网络视频点播服务的带宽和负载有限问题,使得整体服务质量大大提高。同时,在同类的网络电视软件中,PPLive 有效的解决了内网穿透问题,开发出了目前最领先的“穿透内网自动打开UPnP功能”技术,并解除WinXP对TCP 的连接数的限制,还有效的使得PPLive 能够方便的穿透防火墙。以上种种都为局域 及各种内网用户提供了最大程度上的便利。1.3 3G平台移动P2P 视频直播服务面临的限制和挑战

与传统 Internet 下的P2P 视频直播相比,在移动终端上实现移动P2P 视频直播服务具有一些新的限制和挑战:

(1)移动终端:移动设备CPU 的处理能力、可用的存储空间、电池使用时间的限制等等和固定网络节点设备相比是有很大的差距,这使得它不能像固定网络设备的P2P 视频直播系统那样长期提供快速稳定的数据传输服务;

(2)业务流量:P2P 视频直播应用会消耗相当大的网络流量,而无线资源又是非常有限的,因此必须在P2P 业务和无线资源消耗之间取得一种新的平衡点,这就决定了在互联网中普遍使用的全分布式P2P 系统架构无法平移到移动无线通信网络中来;

(3)相对恶劣的信道环境和移动性:在3G平台无线网络中,经常可能因为无线信号的多径衰落和信道拥塞等问题造成P2P 节点之间的连通性不能得到保障,而移动环境下节点的频繁移动性对现有的P2P 业务而言也是个很大的挑战,P2P 应用的网络拓扑结构不能同步地适应物理网络的调整,因而必须进行实时监听以便及时感知移动终端设备的状态;

(4)计费模式:在移动通信网络中部署P2P 业务,首先要解决的是计费问题。有两种策略可以考虑:一种是把P2P 网络修改成一种可管理的网络,纳入现有移动通信网络的计费架构中去计费;另一种策略是保持P2P 业务的纯洁性,采用简单而粗略的计费方式,比如“按流量计费”。总之,在移动网络环境当中,全面的计费模式是其面临的主要问题之一;

(5)安全问题:对移动P2P 网络而言,通信安全、内容安全、网络安全、数字版权等同样是其必须面临解决的问题。固定网络P2P 业务所带来的法律问题是绝对不能出现在移动通信网络中的,所以数字版权管理问题、P2P 网络垃圾信息过滤、P2P 网络病毒隔离、P2P网络本身结构的安全问题都是必须解决的,这对移动运营商而言是一个最大的挑战。

系统架构

经过以上分析和研究,本文设计了如下的模型架构。

在P2P 直播系统中,P2P 网络模型的选取对系统的建立及效率有极大影响。P2P 通常有三种不同的网络模式,即全分布式、集中式和混合式。通过对移动P2P 视频直播服务所面临的限制和挑战的分析,全分布式P2P 并不适合开发移动P2P 视频直播应用。集中式P2P虽然能够最大限度控制网络传输,但是中心服务器必须保存网络中所有移动终端的全部信息,从而大大地增加了中心服务器的负荷,同时由于容易遭到直接的攻击而存在严重的安全性问题,因而不适用于大型的移动P2P 网络。混合型P2P 集中了分布式和集中式二者的优点,能够有效地控制和利用网络资源,同时又具有抗攻击性能强的优势,是移动P2P 网络模型的最佳选择。因而本文采用了一种混合型的P2P 视频直播服务模型,将视频资源的发现和处理分开,从根本上减少移动终端的计算负担和中心服务器的负荷,最大程度上实现资源的广泛共享和系统的有效控制。3G平台移动P2P 视频直播服务网络模型如图1 所示:

1.移动 P2P 视频直播系统模型服务端由索引服务器(IS)、状态服务器(ES)、数据服务器(DS)和代理网关构成;

2.索引服务器为中心服务器,它实时监听数据服务器的视频数据上传服务,对所有视频数据建立索引同时生成xml格式的节目列表文件,以备移动终端选择下载;

3.状态服务器在接收到移动终端发出的频道请求信息后会建立并维护两张表:移动节点状态信息表和对应的视频资源片断状态表,同时将视频资源以片段的形式进行组织并指导其他移动终端用户进行下载;

4.数据服务器为直播数据源,向移动终端用户提供视频下载服务,并且定时向状态服务器发送其状态信息;

5.代理网关服务器接入无线通信网络以实现移动终端的网络通信协议Internet 协议的转换、通信数据包的转发以及计费管理等功能[13]。

6.索引服务器只向移动网络中的上线用户发送视频资源列表信息,即负责视频资源的发布工作,不指导终端用户的下载工作,因而网络负载相对较小,可位于无线通信网络中;状态服务器和数据服务器的处理工作需要大量的网络流量,而无线通信网络带宽有限,因此只能位于有线网络中,这是由混合型P2P 网络的结构所决定的。

业务流程

P2P 视频直播服务通常采用数据分块策略实现视频数据的分发。当视频的某一个数据块下载完成后,如何去选择下一个数据块(数据选择)和拥有此数据块的节点(节点选择),是对下载算法、终端性能和网络带宽的一个严峻考验。由于是直播服务,我们采用顺序下载算法下载数据块,但为了使视频直播延迟时间达到最小,我们又对单个数据块进行了分片,然后启动多个线程并行下载这些片段。因此我们采用数据分块+分片策略进行资源控制以实现视频直播服务。3G平台移动P2P 视频直播服务流程如图2 所示:

资源发布

如上图所示,数据服务器为直播数据源,负责资源发布工作。当数据服务器发布某一资源R 时,索引服务器实时监听到数据服务器的R 资源发布信息后将其写入种子文件,然后赋予该种子文件一个全局唯一标识的资源ID 号;同时报告状态服务器该资源R 的发布信息以进行种子信息的同步,并在种子文件中记录该状态服务器的IP 地址和端口号;最后,索引服务器将资源R 的ID 号和对应状态服务器的IP 地址和端口号返回给数据服务器。状态服务器在接收到索引服务器发出的资源R 的发布信息后会建立并维护两张表:移动节点信息表(表名为ID_Node_Info,表1)和对应的资源片断状态表(表名为ID_Res_Pieces,表2),表名中的ID 即为该资源的全局唯一标识的资源ID 号。其中,两表中的Client_ID 为移动节点的唯一标识,ID_Node_Info 表存储P2P 网络中实时共享视频资源R 的所有移动节点的信息;ID_Res_Pieces 表存储这些处于共享资源R 状态的节点的片段状态信息,片段列数据采用位图法表示,即数字“0”表示节点无该片段,数字“1”表示节点已有该片段。

数据服务器根据索引服务器返回的状态服务器的IP 地址和端口号与状态服务器建立连接,并发送数据服务器所在位置(IP 地址)、端口号、资源唯一标识ID、承载能力和当前资源片段状态等信息。状态服务器根据此信息在视频资源R 的两个表(ID_Node_Info 和ID_Res_Pieces)中各添加一条记录,由于数据服务器是视频资源R 的数据源,对应的ID_Res_Pieces 表中片段列数据都标示为“1”。

资源共享

如前所述,本文中的3G平台移动P2P 视频直播服务模型采用数据分块+分片策略来实现视频直播服务。移动节点A 进入该P2P 网络后,向索引服务器发送上线消息。索引服务器接收到节点A 的上线消息后,返回给它一个频道资源列表,包含资源ID、资源名称、对应状态服务器的IP 地址和端口号等信息。假设移动节点A 选择观看频道R,则它向资源R对应的状态服务器发送初始连接请求,建立连接,同时发送节点A 所在位置(IP 地址)、端口号、要下载的资源的ID、承载能力和当前资源片段状态等信息。状态服务器接收到节点A的消息后,判断节点A是否为初始连接资源R从而做出相应的处理。1.初始连接:根据资源标识ID 在对应的两张表(ID_Node_Info 和ID_Res_Pieces)中添加新的记录,其中在ID_Res_Pieces 表中,把表示节点A 当前资源片段状态的字段Bitmap的值标识为全“0”,查询出数据服务器发送的资源R 最新数据块的块号,搜索出拥有该数据块的所有移动节点,然后把资源R 的最新块号和根据影响移动终端下载的多种因素进行权值计算得到的一批最优下载节点返回给移动节点A。2.非初始连接:移动节点A 根据上一次连接后状态服务器返回的最新块号和节点地址启动多个线程进行资源的下载,完成之后将下载成功的片段信息报告给状态服务器以请求下一个数据块的下载。状态服务器收到节点A 的请求后更新ID_Res_Pieces 表中节点A 的片段状态信息,搜索出拥有该数据块的所有移动节点,然后把根据影响移动终端下载的多种因素进行权值计算得到的一批最优下载节点返回给移动节点A,如此反复,直到移动节点A 停止视频直播服务。不同于传统固定网络,无线通信网络一般需采用移动IP 技术,因此在本模型中采用移 动终端定时报告机制,即移动终端定时向状态服务器发送心跳包报告其IP 地址,状态服务器通过对移动节点的实时状态管理,对数据库中ID_Node_Info 和ID_Res_Pieces 表做出相应的处理,最终保证了视频直播服务的可靠性和实时性。

视频播放

流媒体文件在传输的时候要先分解成许多数据包,为了使媒体数据能连续输出,不会因为网络暂时拥塞导致视频播放出现停顿,需要在每个节点设置一定的流媒体数据缓冲区,即采用缓存机制来弥补延迟和抖动的影响,并保证数据包的顺序正确。本文采用了一种环式缓存区,把节点获得的流媒体数据缓存到本地,保证了视频播放的流畅性和稳定性。

实验结果与分析

针对上述 3G平台移动P2P 视频直播服务模型,本文通过开发基于Windows Mobile 6.0的客户端软件进行测试,客户端软件包括资源下载、资源上传、网络通信、系统配置等功能性模块。测试网络环境:(1)中国移动TD-SCDMA

(2)中国联通 WCDMA测试设备:

Dopod HTC P4550(2 台)、浪潮英信服务器NT110D(3 台)测试服务器所在网络:中国教育和科研计算机网测试时间段: 8:00-11:00、20:00-23:00文件分片策略:TD-SCDMA(4KB、8KB)、WCDMA(4KB、16KB)文件分片策略、初始缓冲时间及状态服务器每次返回给节点的片段数目直接影响着移动P2P 视频直播服务模型的性能,在实际的测试过程中将每次返回给节点的片段数目设定为32,则P2P 视频直播服务的性能相对稳定。由于受到网络通信能力及移动设备自身的限制,针对两种不同的网络环境,实验采取了不同的文件分片策略和初始缓冲时间。实际的测试结果见表3 和表4。

从表 3 和表4 的数据可以看出,无论在TD-SCDMA 还是在WCDMA 网络中,随着文 件分片大小的增加,下载速度都明显的提高,移动P2P 网络也逐渐趋于稳定,系统性能表现十分优异,这对于未来3G 网络环境下其它移动增值业务的开发提供了参考;另外也可以看出,在初始缓冲时间大于15秒的时候,节点的平均暂停播放次数已经接近达到理想化状态。但为了使得用户不用等待太长的时间,避免占用过多的内存,我们设定初始缓冲时间为10秒,基本可以满足播放连续性的需要。通过以上实验,证实了本文中的3G平台移动P2P 视频直播服务模型的可行性和实时性。

结论

本文通过分析现有移动网络特点和P2P直播技术的研究现状,提出了一种面向3G平台移动终端的视频直播服务模型,经使用现有网络测试验证了模型的有效性和稳定性,为未来3G 移动通信网络环境下开展其它增值业务提供了参考和借鉴。在下一步的工作中,我们将逐步完善该系统模型,同时实现与现有固定网络的P2P 系统的互联互通。

参考文献

[1]申坤.面向3G 的移动流媒体解决方案[J].中国科技信息报,2009,22:82-83.[2]姚玉坤,林华蓉.影响3G 移动流媒体增值业务质量的主要因素及其解决策略[J].通信技术,2008,8(41):189-191 [3]李倩.基于P2P 的流媒体直播系统[D].湖南:中南大学,2007.

第五篇:拼音编码

汉字信息处理与汉字输入法练习题

一、判断题

1.在DOS操作系统中,无法进行汉字处理。()2.在汉字系统中,我国国标汉字一律是按拼音顺序排列的。()3.在各种不同的计算机系统中,汉字都是采用两字节代码作为机内码。()4.在Windows中,只要选择汉字输入法中的“输入中文符号”,则在“中文半角”状态下

也可输入如顿号、引号、句号等全角的中文标点符号。()5.操作系统命令、程序代码的关键字必须采用半角字符。()6.输入汉字的编码方法有很多种,输入计算机后,都按各自的编码方法存储在计算机内部,所以在计算机内部处理汉字信息相当复杂。()7.在输入法属性对话框中,提供了添加输入法、删除输入法、设置输入法的热键和缺省启

动语言功能。()8.智能ABC使用灵活,速度快,容易学习,但是只能使用拼音输入汉字。()9.微软拼音输入法可使用笔形、声调来减少汉字重码,提高输入速度。()10.只要会写,就可用五笔字型输入汉字,因而五笔字型适合让小学生学习。()

二、填空题

1.汉字信息处理过程分为汉字()、加工处理和输入3个阶段。2.汉字“西”的区位码为“4687”,其中的位码是()。3.把汉字区位码的区码和位码分别转换成十六进制数后,加上十六进制数(),即得 到汉字国标码,把汉字区位码的区码和位码都加上十六进制数(),即得到汉字内码。

4.与GB2312-80对应的汉字机内码的字节值大于()H。5.为了满足需要,我国在GB2312-80的基础上制定了扩展的国标码,简称()。6.以汉字()编码的输入法比较适合于“看打”为主的专业录入人员,而以()编码的输入法适合于“想打”和“听打”的人员。

7.Windows提供了软键盘功能,以方便用户输入各种特殊符号。要在屏幕上弹出软键盘,应先(),然后在弹出的菜单中选择相应的软键盘。8.要安装或卸除某种中文输入法,应先启动“控制面板”,再使用其中的()功能。

9.在使用拼音输入汉字时,可用键盘上的()键翻页前后查找。10.用拼音或五笔字型输入汉字,字母键必须是()状态。

三、单选题

1.汉字国标码(GB2312-80)把汉字分成 等级。A,常用字、次常用字、罕见字三个 B.简化字和繁体字两个

C.一级汉字、二级汉字共两个

D.一级汉字、二级汉字、三级汉字共三个 2.输入汉字时,计算机的输入法软件按照„一—一—将输入编码转换成机内码。A.字形码 B.国标码 C.区位码 D.输入码 3.计算机存储和处理文档的汉字时,使用的是

A.字形码 B.国标码 C.机内码 D.输入码

4.在汉字字模库中,16×16点阵字形码用 个字节存储一个汉字。A.48 B.32 C.64 D.72 5.重码是指同一个编码对应一 个汉字。A.多 B.3 C.2 D.1 6.五笔字型码属于

A.音形混合码 B.双拼码 C.全拼码 D.形码

7.在“全角”方式下,显示一个ASCII字符要占用 个汉字的显示位置。A.半 B.1 C.2 D.3 8.汉字的国标码由两个字节组成,每个字节的取值均在十进制 范围内。A.33-126 B.0-127 C.161-254 D.32-127 9.在输入中文时,下列的 操作不能进行中英文切换。

A.用鼠标左键单击中英文切换按钮 B.用十空格键 C.用语言指示器菜单 D.用十空格键

10.在缺省情形下,选用中文输入法后,可以用 实现全角和半角的切换。A.按键 B.按+圆点键 C.按+空格键 D.按+空格键 *11.以下使用十六进制表示的两个连续的存储单元的内容,其中 一定不是汉字编

码。

A.B1A1H B.1234H C,BBBBH D.ABCDH 12.—F列汉字输入法中,输入法不存在重码。

A,区位码 B.自然码 C.智能ABC D.~笔字型 13.当从打印机或者显示器输出汉字时,必须

A.根据汉字的机内码在字模库中查找对应的字形点阵(字形码),并通过驱动程序转变

为具体的操作

B.根据汉字的机内码,通过驱动程序转变为具体的操作 C.根据汉字的国标码即可产生字形点阵,直接打印和显示 D.根据汉字的输入法编码即可产生字形点阵,直接打印和显示

14,假定一个汉字字形用16X16点阵表示,一个英文字母字形用8X8点阵表示,以下关于

存储开销的说法中,正确的是

A.存储一个汉字字形和一个英文字母字形的所占字节数的比值为8:1 B.存储一个汉字字形和一个英文字母字形的所占字节数的比值为4:1 C.存储一个汉字字形和一个英文字母字形的所占字节数的比值为2:1 D,存储一个汉字字形和一个英文字母字形的所占字节数的比值为1:4 15,从计算机键盘输入英文字母可以直接敲击对应的字母键,而输入汉字时则需要设计输入

编码,最主要的原因是

A.汉字的字形比英文复杂

B.汉字不是拼音文字

C.汉字的字数比英文的单词个数多 D.计算机的键盘设计时没有考虑汉字输入问题 答案

一、判断题

1.错 2.错 3.错 4.对 5.对 6.错 7.对 8.错 9.错 10.错

二、填空题

1.输出 2.87 3.20 80 4.AO 5.GBK 6.字形 语音 7.右击汉字输入状态框的软键盘按钮 8.键盘属性 9.<->和<=> 10.小写

三、单选题

1.C 2.D 3.C 4.B 5.A 6.D 7.B 8.A 9.D 10.C

11.B 12.A 13.A 14.B 15.D

下载分布式视频编码技术研究word格式文档
下载分布式视频编码技术研究.doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐

    编码教案

    编码教案 教学目标: 1.通过了解身份证号码的含义,体会编码编排的特性及其应用的广泛性,从而初步学会编码. 2.通过了解编码编排的含义,培养自己编码的能力.在探索编码含义的......

    《编码》教案

    《编码》 教学目标: 教学过程: 一、生活引入 1、出示数字:110 44 62854472 304 师:看到这几个数字,想到什么呢?任选一个说一说 2、不同数字,不同位置的组合所表达的意思不同(揭......

    《编码》教案

    《编码》教学设计 解放区丰泽园小学 慕晶晶 教学内容:北师大版四年级数学上册第91、92页的内容 教学目标: 1、结合具体的问题情境,了解编码的广泛应用,进一步体会“数”在日常生......

    编码教案

    《编码》教案 —北师大版小学数学四年级上册《数学好玩》 课程:编码 授课类型:新授课 教学内容:教材第91、92页 教学目标: 1、通过生活中的事例,使学生初步体会数字编码思想在解......

    编码教案

    一、教学目标 1.结合具体的问题情境,了解编码的广泛应用,进一步体会“数”在日常生活中的作用,感受数学的文化价值。 2.通过观察、比较、猜测来探索数字在编码中所表示的具体含......

    编码心得体会

    参加2017年成都《国际疾病分类及手术分类培训班》学习心得体会 我于2017年9月15日至9月25日有幸参加了成都《国际疾病分类及手术分类培训班》学习,我是第二次接触ICD-10、IC......

    财务编码大汇总

    一、资产类 1 1001 库存现金 2 1002 银行存款3 1003 存放中央银行款项(银行专用 新增) 4 1011 存放同业 银行专用 新增 5 1012 其他货币资金 4 1101 短期投资(分拆) 5 110......

    毕业证编码

    毕业证编号 从2001年起,我国开始对高等教育学历证书实行电子注册制度。毕业证编号也叫电子注册号,一般来说,只要在网上能通过姓名、毕业证编号查到毕业证信息,就能证明存在其学......