体育视频的内容标注和解析技术研究

第一篇：体育视频的内容标注和解析技术研究

一,开展本课题研究的意义

近年来,数字视频的应用日趋广泛.诸如视频点播,数字电视,数字图书馆,视频会议,远程教育等等,已经为越来越多的人所接受和熟悉.面对大量涌现的视频数据,如何找到所需的视频信息就成为一个急需解决的问题.简单的视频名查询和类似录像机的播放功能已不能满足人们的需要.正如一本书通常会有目录和索引帮助人们迅速浏览和查询内容,一部视频同样需要有效的目录和索引.传统的方法需要由人对视频内容进行标注,十分费时费力.尤其是当视频资源的数量达到海量级,或是处理的速度要求接近实时的时候,完全采用人工的方法都会遇到难以克服的困难.为了解决这一问题,九十年代以来,出现了基于内容的视频分析和检索[1][2][3].其核心就是通过对视频内容进行计算机分析理解,建立结构和语义索引,以方便用户检索.巨大的商业前景和重要的学术价值,吸引了来自于业界和学术界不同领域的研究人员在这一问题上开展研究.一些原型系统先后被提出,主要有ibm的qbic/cuevideo[4][5],virage公司的video engine[6],卡内基梅隆大学的informedia[7],哥伦比亚大学的videoq[8]等.这些努力最终促成了国际标准——mpeg-7(多媒体内容描述接口)的诞生.但是随着问题的深入,研究人员面临了更大的障碍:视觉/听觉内容的机器理解,即难以建立底层特征与高层语义的联系.同样的难题困扰了人工智能领域多年.一般认为,寻找通用的解决方法是异常艰难的.因此,一些研究转而专注于解决特定领域的应用问题,如新闻,电影等.在这些特定领域,结合相应的领域知识,是可能将底层特征与高层语义建立某种联系的.体育视频,即体育比赛的电视转播,作为一个重要的应用领域,一直备受关注.体育比赛一般很漫长,但对于大多数观众来说,真正关心并有可能反复观看的只是其中的一小部分.例如一场跳水比赛常常需要持续几个小时,而其中的精彩部分——运动员从起跳到入水的过程却只有短短几分钟.人们需要一种方便快捷的手段来访问体育视频的内容.与其他视频相比,体育视频具有自己的特点.首先,体育视频中存在一些领域相关的语义事件,如跳水比赛中运动员的跳水,足球比赛中的射门等.这些语义事件往往是视频中最有价值的部分,需要进行标注以便于检索.其次,体育比赛一般有较强的结构性,如跳水比赛由若干轮组成,每轮又由若干选手组成等.为了便于对视频内容的浏览,原始的视频数据应按这些结构进行解析并组织成层次目录.本课题的目标就是研究针对体育视频内容的语义标注和结构解析技术.尽管限于当前的技术水平,完全自动的,通用的视频内容理解是不太可能的,但是本课题的研究将证明部分的解决是有可能的和有价值的,此外我们的研究也将为最终的全面解决奠定基础.除了学术上的意义,本课题的研究还可以有以下一些直接的应用:

1,视频资料库:适用于各类体育专业人士或爱好者对收集的体育比赛视频资料进行查询,浏览和管理.目前,我们已申请到国家体育总局的科研项目——跳水训练图像分析软件系统研制.通过对跳水比赛视频的内容标注与解析,能够方便快捷的实现一个典型动作的视频数据库.2,web多媒体发布:适用于新闻或者体育网站在web上及时发布体育多媒体信息.今天,已经有越来越多人的习惯于从网上获取最新的资讯.基于我们的技术,可以在第一时间采编和发布综合图文和视音频在内的体育多媒体信息.3,个人移动业务:适用于无线服务提供商为个人提供定制的多媒体消息服务(multimedia message service,简称mms).我们的内容标注和解析技术,可以为冗长的体育视频生成摘要,从而可以根据用户的个人喜好和终端能力,向移动设备发送体育多媒体消息.二,国内外研究现状分析

国际上对于体育视频的研究是从90年代中期开始的,属于视频检索领域的一个子课题.与新闻视频领域取得的成功相比[9][10][11],体育视频的研究相对较少也更为困难.这主要是因为新闻视频有一个基本一致的时域结构和场景语义,即先是播音员镜头,然后是新闻报道,最后再回到播音员镜头进行下面的新闻报道,而对于体育视频则不存在这样统一的结构和语义.目前体育视频的研究尚处于初期探索阶段,对于其过程和方法还没有统一的结论,也还没有可以投入实用的系统.1,镜头检测

通常在对体育视频进行分析前,需要将其分割成镜头.所谓镜头,是指摄像机不间断拍摄的一组帧序列,它常被看成一部视频的最小结构单元.为了将镜头分割出来,需要进行镜头边界检测.镜头与镜头之间的边界有两种类型:突变和渐变.突变时,镜头直接切换到下一个;渐变时,从一个镜头到下一个镜头会有一个持续多帧的变化过程,常见的主要有淡出淡入(fade out and fade in),溶解(dissolve),擦变(wipe)等.淡出淡入是指视频帧逐渐隐去直到完全黑屏,再逐渐显现后一镜头的帧图像.溶解是指在前一镜头帧图像逐渐模糊的同时,后一镜头的帧逐渐增强,并且产生前后帧图像的重叠.擦变表现为后一镜头帧图像的区域逐渐变大把前一镜头的图像擦掉.镜头检测的关键问题是如何区分镜头之间的切换和因为摄像机或物体运动造成的镜头内变化.由于这个原因,渐变比突变更难以检测.早期的工作主要在突变检测,近来更多的研究集中到对渐变的分析.镜头检测的方法可以分为两类:非压缩域的和压缩域的.在[12][13]中,对各种非压缩域的镜头检测算法进行了实验评价.与非压缩域的方法相比,基于压缩域的方法不需要对视频编码流进行解码,而是直接使用如dct系数,运动矢量,宏块(macroblock)信息等压缩域特征进行分析,从而提高了处理速度[14][15][16][17].今天大量的视频数据是以压缩格式(如mpeg)存储的,因此基于压缩域的方法往往具有更大的实用价值.2,语义标注

所谓语义标注,是指对体育视频中的语义事件进行检测和标注,其实质就是依据事先定义好的类别对视频片段进行识别.当前,国内外对体育视频研究实际上主要集中在这个方面,下面介绍一下相关工作.y.gong等首先提出了对足球比赛视频的分析[18].他们结合足球比赛的领域知识,通过场地白线识别,摄像机运动检测,足球和运动员检测等分析,对视频内容进行推断,包括处在球场什么位置,射门,角球等.例如,如果场景接近球门区域而且足球有一个向球门的运动,则可以推断这是一个射门.实验结果表明,系统对于球场位置的识别较为准确,达到90%,但是射门和角球的识别率只有53%,这主要是因为高速运动和遮挡关系,使得足球的检测较为困难.哥伦比亚大学的peng xu等观察到足球比赛可以划分为两种状态:进行和暂停(如因为球在界外或裁判暂定比赛).他们开发了一个能够检测视频中的足球比赛是在进行还是暂停的系统[19].该系统对足球视频分析分为两步.首先,根据颜色分析得出每一帧中的草地颜色比率,使用这个特征将帧标注为三种:全景(globe view),近景(zoom-in view)和特写(close-up view).在检测的时候,算法可以对草色和分类决策进行学习和自动调整.接着,在对视频帧进行上述分类标记后,根据经验总结的规则(如全景一般是比赛进行,特写一般是比赛中断等)判断比赛是在进行还是暂停了.实验使用了四段来自不同足球比赛的五分钟片断,检测准确率最好达到86.5%,最坏只有67.3%.在另一篇文章里,他们使用了基于隐马尔科夫模型(hmm)的统计方法[20].根据足球视频的特点,选择主色比率(dominant-color ratio)和运动强度(motion intensity)为提取特征.他们为进行和暂停分别建立了各自的隐马尔科夫模型组,依据最大的可能性对足球视频进行标注.与基于规则的方法相比,这种方法不需要去直接建立复杂的分类规则和确定阈值,而是通过训练样本自动学习.实验结果表明该方法较为有效而且表现稳定,对不同的测试集准确率都在80%以上,平均准确率达到83.5%.清华大学的ming luo等也以足球为例提出了一个体育视频分析系统[21].他们的系统根据关键帧中场地颜色的比率和物体的大小,将镜头分类为远镜头和近镜头.此外,对于远镜头,他们观察到在射门或长传时,快速的摄像机运动通常会使图像模糊,从而提出根据帧图像的模糊度(blur extent)来检测足球比赛中的这些事件.实验结果表明算法对射门和长传事件检测的查准率为89.3%,查全率为97.2%.drew d.saur等人使用直接基于mpeg压缩域的特征,实现了对篮球视频内容的自动分析和标注[22].算法首先进行基于压缩域dc图的镜头分割,然后对每个p帧统计其中运动矢量的大小,考虑特写(close-up)镜头比广角(wide-angle)镜头一般变化更激烈,将视频划分为广角镜头和特写镜头.对于广角镜头,进一步分析其中的摄像机运动,来标注特定的视频内容,如抢断,快攻,可能的投篮等.微软研究院的y.rui等人提出一种依据计算量较小的音频特征来检测棒球比赛中精彩事件的方法,适用于计算能力有限的环境[23].他们的算法首先是基于机器学习的解说员激动语音识别和棒球击打声检测,然后将这两者进行概率混合来推断最终的精彩片断.与人工标注的精彩片断进行对比,实验表明他们的算法能够达到75%的准确率.同样对于棒球,dongqing zhang等通过对比赛中比分和状态的字幕显示进行检测和识别来分析语义事件的发生[24][25],如触垒得分和最后一投(投手被罚出局).他们使用视频文本检测和识别技术分析比赛中的字幕信息.识别结果再进一步利用领域知识模型来提高准确度.b.li和m.i.sezan对美式橄榄球比赛的电视转播进行了分析[26].为了滤除比赛视频中死球的时间,生成更为紧凑的摘要,他们将比赛片断定义为表现球在运动的视频片断,并提出了两种检测方法:确定的基于规则方法和概率的基于统计的方法.基于规则的方法,分析了场地颜色,场地标线,摄像机运动和运动员衣服颜色等,然后根据经验总结的规则,对视频内容进行判断.基于统计的方法,使用hmm推断视频中的比赛片断,实验表明这种方法也是很有效的.两者相比,前者易于实现和计算,但是需要制定推导规则,而后者则具有一定的学习能力避免了直接设定阈值的困难.在体育比赛转播的时候,通常会在精彩事件之后及时穿插重放慢镜头,这方面也吸引了许多研究者的注意[27][28][29][30].通过检测重放事件,以及发现之前视频中相同内容的正常镜头,就可以为冗长的体育视频生成一个令人满意的精彩索引.di.zhang针对体育视频的分析,试图提出一个一般性的框架[31].为了兼顾效率和准确性,他认为事件的检测可以分为两步进行.即基于压缩域分析的初选阶段,和基于对象层次的验证阶段.第一步,选择一些压缩域的特征,如颜色和运动等,通过统计学习的方法实现对事件的初选.第二步,在候选场景中进行对象分割,根据总结的领域规则进行判定,如对于网球比赛的发球镜头,图像中应有大块场地区域,在下方有小的运动员对象.j.assfalg等认为体育视频的镜头一般可以分为三类:场地,运动员和观众[32].场地镜头关注体育运动本身,表现为大块一致的颜色区域和场地线条等.在运动员镜头中,运动员作为前景中的物体出现,而背景则变得模糊.在观众镜头中,个体常常是不清楚的,而观众整体可以看作一种纹理.基于这些认识,他们通过边缘提取,图形分割和颜色

分析等,对三类镜头实现了有效的识别.n.babaguchi综合了文本和视觉特征来对体育视频中的事件进行检测[33].文本信息来自于电视信号中的隐藏字幕(closed caption).首先,通过搜寻文本中事件相关的关键字,估计事件发生的可能时间段.然后,再对时间段内的镜头进行视觉特征分析,计算与已有的事件例子的匹配度,检测出事件相关的镜头.3,结构解析

一部视频中常常包含了成百上千个镜头,特别是在体育视频中.这主要是因为体育比赛电视转播的时候,会有多个摄像机从不同视角对比赛进行拍摄,它们之间的频繁切换就构成了镜头.为了更好的访问视频内容,除了语义标注,还需要对镜头进行有效的组织.结构解析的任务就是通过镜头组织为视频数据流建立类似书目的分层浏览结构.以[34][35]为代表,一些研究人员提出了通用的视频结构分析方法.他们用时间约束的聚类法把视觉上相似和时间上相邻的镜头聚类在一起,再在聚类组的基础上构造场景转换图(scene transition graph)或高层场景,进而形成层次化的浏览结构.但是这种统一的结构组织方式(如[34]中将视频分成帧/镜头/组/场景四层)并不适合针对体育视频的分析,这主要是因为体育比赛都有自己特定结构(如图1所示),对体育视频的分析应当结合这种领域知识.图1 跳水比赛的树状结构

4,总结

综上对国内外研究现状的调查,我们有以下结论:

(1)应当结合领域知识进行特征选择.领域知识包括比赛相关和制作相关.比赛相关的领域特征涉及特定的体育运动,如足球比赛中的草色比率,篮球比赛中快攻时摄像机的运动等.制作相关的领域特征适用于大多数体育视频的分析,主要来自对体育视频制作的总结,如精彩场面的重放,有关运动员和比分信息的字幕显示等.综合这两类领域知识,选择合适的特征进行分析是取得研究成功的基础.(2)多模式融合分析代表了新的研究趋势.除了视觉特征外,综合体育视频中所包含的音频特征和文本信息,能够有效提高视频分析的准确度.这也是近年来的研究热点.在体育视频中,一个语义事件常常是一个多模式的表达,如运动员的跳水事件既有视觉上的运动也有听觉上的踏板声和入水声,只对其中一个模式进行分析是不完整的.因此在对体育视频进行内容分析时,融合多模式尤为重要.(3)尽量考虑压缩域的特征分析.一场体育比赛长达数个小时,其视频数据也非常庞大,因而提高处理速度是很有意义的,在某些要求实时应用的场合也是必需的.直接基于压缩域的分析,不需要完全解码,可以显著提高处理速度.[22][31]表明基于压缩域的分析不仅能够大幅度降低计算量,同时也能获得较好的结果,或者作为进一步处理的基础.(4)基于统计的事件检测方法要优于基于规则的方法.早期的研究多采用基于规则的方法.但是,体育视频中的事件检测常常需要综合多种特征分析手段,需要适应不同的场景.这些都增加了直接设定规则的难度.与之相比,统计算法易于混合多种特征同时又具备一定的学习能力,因而具有更大的实用价值.(1)自动生成体育视频的分层浏览目录;

(2)实际应用中视频流可能不完整或存在标注错误,解析器应具有良好的容错能力;

(3)对于大数据量的体育视频,要求结构解析的效率要高.四,拟采取的研究方法,技术路线及可行性分析

1,基于压缩域的镜头分割算法

体育视频中常见的渐变主要有溶解,擦变,特别是其中的一些擦变具有特技效果,如图3所示.这些特定模式的擦变,通常出现在慢镜重放的开始和结束,识别这种镜头边界是十分有价值的.现有压缩域算法主要对切变检测比较成功,而对于渐变的研究不多.我们将综合压缩域的dct系数,运动矢量以及宏块信息等,研究一种有效的渐变检测方法.图3 体育视频中特定模式的擦变

一般在进行镜头边界检测的时候,首先从相邻帧提取合适的特征,然后比较这些特征之间的差值,如果差值超过了事先设定的阈值,则认为出现了镜头转换.因此,选取合适的阈值是非常关键的.常用的方法包括单阈值法,多阈值法和局部阈值法.单阈值法使用一个全局阈值,方法简单,但是对于渐变不能很好检测.多阈值法使用多个阈值进行分级判定,如使用较大阈值检测突变,使用较小阈值检测渐变.局部阈值法根据局部范围内的变化情况自动调整合适的镜头切分阈值,代表了新的研究趋势.目前,有关阈值选取的研究仍然是视频处理中的一个难点.我们将主要基于局部阈值法进行研究.2,体育视频中语义事件的检测

我们将体育视频中的语义事件分为三类:重放事件,状态事件和目标事件.重放事件是指体育比赛转播中穿插播放的慢镜重放片断.重放事件反映了比赛中观众感兴趣的精彩部分.状态事件发生在比赛状态发生变化的时候,如跳水比赛每一轮结束的评分,网球比赛中一局的开始镜头等.状态事件的检测对于视频结构的解析有非常重要的作用.目标事件,如跳水比赛中运动员的跳水,足球比赛中的射门等,是指体育比赛中具有观赏性的特定运动,通常表现为物体及其之间的运动关系.对这三类事件,我们分别采用如下的技术路线:

(1)通过标志性边界检测来识别重放事件

[1]中将重放分为三种类型:重复播放的同一镜头;慢动作方式重放的同一镜头;同一场景但是由不同摄像机在不同视角拍摄的.直接从内容上比较重放事件和先前视频镜头的相似性来进行分析,是很难识别准确的,尤其对于最后一种重放.通过对体育比赛电视转播的观察,可以发现一般对于精彩片断的重放都会以一个标志性的镜头切换引入,再以类似的变化结束,如图3所示.因此对于重放事件的检测,事实上可以归结到对这种标志性镜头边界的检测,从而简化问题.我们将主要研究这种方法.(2)利用视频文本识别确定状态事件

状态事件是和体育比赛的状态变化直接相关的,而通常在比赛状态发生变化的时候,电视转播会在视频中加入相关字幕提示,如跳水比赛中在运动员入场的时候,会有文字说明运动员姓名和所要做的动作;在一轮比赛结束的时候,会显示该轮所有选手的得分情况.根据这个特性,我们提出通过视频中文本检测和识别的方法来检测状态事件.该方法包括两个层次.首先,通过视频文本的检测[36][37][38][39][40]就可以初步确定状态事件的出现.然后,我们对检测的文本进行识别,通过关键字的匹配,识别状态事件的类别.例如,运动员入场的字幕显示中有关键字“round”(轮次),“rank”(排名),“dd”(难度),“total”(总分)等,通过匹配这些关键字,就可以判断当前镜头为运动员入场的状态事件.(3)融合视音频双模式的目标事件检测

在目标事件中,往往存在显著的运动和音频特征,如运动员的跳水事件既有视觉上的运动也有听觉上的踏板声和入水声.融合视音频的分析避免了单纯使用视觉或听觉特征不能完整描述语义事件的不足,可以有效提高识别精度.在进行识别的时候,我们采用混合隐马尔科夫模型和支持向量机的方法[41].支持向量机能够在小样本条件下,通过结构风险最小化准则,实现有效分类.但是支持向量机只是静态分类机,不能很好模拟时序过程.与之相反,隐马尔科夫模型虽然能够较好的处理随机时序数据的识别,但是并不能保证训练好的模型能够良好的分类未知数据.这样,将两者混合起来使用,通过在隐马尔科夫模型中引入静态数据识别良好的支持向量机,能对视频流数据取得最佳的识别效果.3,语法制导

的结构解析

为了对输入的体育视频数据进行结构解析,首先我们需要对该类体育比赛的文法规则进行描述.乔姆斯基(chomsky)把文法分成4种类型,即0型文法(或称短语文法),1型文法(或称上下文有关文法),2型文法(或称上下文无关文法)和3型文法(或称正则文法).型号越高所受约束越多,对语言的描述能力也就越弱.我们使用上下文无关文法对体育比赛的结构进行描述,主要是基于以下考虑:(1)上下文无关文法完全可以胜任对体育比赛树状结构的描述;(2)上下文无关文法在自然语言理解,句法模式识别,编译技术等领域有广泛的应用,技术比较成熟;(3)基于上下文无关文法的解析器不仅可以为视频有效生成层次浏览树,而且具有较强的错误处理能力.其中终结符r,b,e,u分别表示一轮比赛的结束,选手比赛开始,选手比赛结束和一般镜头,非终结符和为结构单元,分别代表每轮比赛和每个选手的比赛.对于语义标注序列“buuuuuuuebuuuuuuuueeur”,使用文法分析器进行解析得到它的层次结构“[[buuuuuuue][buuuuuuuue]eur]”.其中序列最后“r”前面的“eu”为错误标示,可以用错误恢复策略进行处理(例如,在发现终结符不能匹配时,弹出该终结符并发出警告).由于视频序列在进行基于统计的语义标注时,存在某种程度的不确定性.所以错误处理应当结合语义标注的确定度来进行.如果出错标注本身的确定度比较低,则可以认为该标注有错;如果出错标注的确定度比较高,则可以认为错误发生在它的前面.以上,我们通过基于压缩域的镜头分割,语义事件的检测和语法制导的结构解析实现了体育视频的内容标注和解析.虽然我们主要以跳水视频为例进行分析,但是其中的技术完全可以应用到其他类似体育视频的分析中,甚至一般视频的处理中.我们的研究表明,尽管限于当前的技术水平,完全自动的,通用的视频内容理解是不太可能的,但是通过有效的人机交互和建立应用相关的模型,新的技术将可以面对视频信息大量涌现的挑战,给人们带来更加丰富和方便的体验.五,预期研究成果及创新之处

一个压缩域镜头边界检测的有效算法

体育视频中慢镜重放的检测方法

基于压缩域的视频文本检测和分割

体育视频中状态事件的识别

视音频融合的事件检测

基于文法的体育视频结构解析

一个通用的体育视频内容分析框架及其系统实现

六,已有工作基础

1,已有资源:

4.96g的跳水比赛视频数据,总长度约8小时20分钟;

5.33g的足球比赛视频数据,总长度约9个小时;

2.58g的其他体育视频数据,包括篮球,排球和网球等;

2,已进行工作

一个基于内容的智能视频检索系统:ivideo

一种通过关键帧提取和组织来浏览视频的方式:xplayer

可视化的视频分析工具:medialab

综合颜色特征和摄像机运动分析的镜头边界检测算法

基于标志模板的重放镜头检测算法

跳水比赛视频中精彩片断的自动提取:ivideoanalyzer

基于压缩域文本检测的体育视频结构分析:sportsplayer

3,专利和文章

王扉,李锦涛,张勇东,林守勋,“跳水比赛视频中精彩片断的自动提取”,计算机研究与发展,评审中.王扉,张勇东,李锦涛,林守勋,“在体育比赛视频中检测精彩片断的方法”,(发明)专利号02156973.8,已受理.七,研究计划及预期进展

XX/01 – XX/04 基于文法的体育视频结构解析

XX/05 – XX/06 压缩域的镜头边界检测算法

XX/07 – XX/10 体育视频中的语义事件检测

XX/11 – XX/12 跳水比赛的视频分析和检索系统

XX/01 – XX/04 技术改进,论文写作

八,参考文献

content-based video analysis and retrieval

[1] c.w.ngo, h.j.zhang, and t.c.pone, “recent advances in content based video analysis”, international journal of image and graphics, dec XX.[2] n.dimitrova, h.j.zhang, b.shahraray, i.sezan, t.huang, and a.zakhor, “applications of video-content analysis and retrieval”, ieee multimedia, vol.9, no.4, XX.[3] 庄越挺,潘云鹤,吴飞编著,网上多媒体信息分析与检索,清华大学出版社,XX年.[4] m.flickner et al, “query by image and video content: the qbic system”, ieee computer, 28(9), 1995.[5] d.ponceleon, s.srinivasan, a.amir, d.petkovic, and d.diklic, “key to effective video retrieval: effective cataloging and browsing”, in proc.acm multimedia, 1998.[6] a.hampapur, a.gupta, b.horowitz, c-f.shu, c.fuller, j.bach, m.gorkani, and r.jain, “virage video engine”, spie storage and retrieval for images and video databases v, 1997.[7] h.d.wactlar, t.kanade, m.a.smith, and s.m.stevens, “intelligent access to digital video: informedia project”, ieee computer, vol.29, no.3, pp.46-52, may 1996.[8] s.-f.chang, w.chen, h.meng, h.sundaram, and d.zhong, “videoq: an automated content based video search system using visual cues”, in proc.acm multimedia, november 1997.

第二篇：分布式视频编码技术研究

分布式视频编码技术研究

摘要：对于视频压缩领域，分布式编码是一种新出现的应用机制，是基于20世纪70年代Slepian和Wolf以及Wyner和Ziv提出的信息理论而建立的。分布式视频编码技术与传统编码技术相比，从原理到实现方法上都是全新的。本文在介绍分布式编码基本原理的基础上，着重介绍了分布式视频编码技术各个环节的最新研究进展，并对发展趋势进行了展望。

关键词：

分布式视频编码

有损编码

错误恢复

Abstract：For video compression distributed video coding is a new paradigm, which is based on the information theory established in 1970’s by Slepian,Wolf and Wyner,Ziv.Compared with traditional video coding standard, distributed video coding is a radical departure.Based on the introduction of distributed coding principles, this paper reviews the advances of fundamental building blocks of distributed

video coding, and the future development is pointed out.Key words: Distributed video coding

lossy compression error resilient

1引言

传统的视频编码标准,如MPEG和H.26X等,采用的都是不对称编码方式,编码器端隐含一个解码器。编码端的主要步骤包括变换，量化，熵编码，相应的解码过程，以及运动估计和运动补偿。因此编码端的复杂度远远高于解码端，尤其是运动估计和运动补偿占用了大量的资源，使编码端的复杂度在解码端的5 至10倍以上。这种不对称的编码方式对于广播，流媒体的点播等服务是非常合适的，因为这些领域的工作方式是一次压缩多次播放。近年来随着“普适计算”（Pervasive Computing）概念的提出, ”无所不在的计算”已经成为计算机发展的大趋势。在这种背景下，越来越多的移动视频录制设备加入到了网络中，如监控系统中的无线视频探测头，便携式视频摄像机，无线PC相机等。这些设备都需要进行现场的视频编码，并把码流传送到一个中心节点，如监控室的中央处理机，进行解码播放。这些应用领域中编码设备比较简单，而解码设备拥有较多的资源可以进行复杂的计算，与传统视频编码标准适用的场景恰恰相反。

MPEG和H.26x等传统的视频编码标准在发展的过程中一直遵循一个模式,就是由编码器负责信源统计特性的充分利用,作为一个基本原则这很少被质疑过。然而通过只在解码端进行信号统计特性的利用同样可以进行有效的压缩编码。这个令人惊异的发现来自20世纪70年代建立的信息理论，即Slepian和Wolf建立的分布式无损编码理论以及Wyner 和Ziv建立的使用解码端辅助信息(Side Information)的有损编码理论。根据以上理论建立的机制被统称为分布式编码算法。

[1]2 分布式编码的信息论基础

传统的图像编码存在两种形式的压缩方法，一种是有损压缩[2]，一种是无损压缩，无损压缩是有损压缩的基础，有损压缩往往是在无损压缩的基础上加上通过附加一个优化的量化器而实现的。分布式编码的信息论原理同样有两种形式，即无损分布式编

码的Slepian-Wolf理论[3]和使用解码端辅助信息(Side Information)的有损分布式编码Wyner-Ziv理论。其中，Wyner-Ziv理论是分布式视频编码技术的主要理论依据,为了纪念二人对信息论的贡献,这种视频编码机制又被称为Wyner-Ziv Video Coding。

2.1分布式无损信源编码

分布式压缩指的是编码两个独立的任意序列；每个具有分离的编码器，每一个编码器发送一个独立的码流到一个独立的解码器；该解码器联合解码所有的码流并且计算统计相关，如图1所示。

假设两个统计相关独立同分布的无限长随机序列X 和Y，在传统的熵编码和解码可以达到RYH(Y)和RXH(X)的码率, H(X)和H(Y)为X 和Y 的熵。有趣的是, 联合解码具有更好的率失真性能（独立编码）[4]。对于编码长序列，如果满足对于恢复X和Y的残差错误概率足够小，Slepian-Wolf 理论建立码率区域

RXRYH(XY,)

RXH(X|Y),RYH(X|Y)

在此可以发现, RX + RY 可以达到联合信息熵H(X,Y)。

在图2中的A 点，对X 编码的码率为RX =H(X)，而对Y进行压缩时所需要的码率仅为RY = H(Y |X)。同样在B 点，对Y编码的码率为RY =H(Y)，而对X 进行压缩时所需要的码率仅为RX =H(X |Y)。这就是在解码端具有边信息的无损信源编码问题的理论。

2.2 分布式有损信源编码

对于在解码端具有边信息有损信源编码问题Wyner和Ziv给出了其码率界。给定失真D下的码率记为为

RX|Y(D)；另外，将两边都能得到边信息Y时的率失真函数记

分布式编码是在视频压缩领域的一个新框架, 基于Slepian-Wolf和Wyner-Ziv的理论。近年来, 人们也着手于实际编/解码系统的开发，熵编码、量化和变换。

3.1 Slepian-Wolf编码器

虽然Slepian-Wolf的理论产生于20世纪70年代, 但是它却是在最近几年才获得了实际的应用。三十年前人们就明白Slepian-Wolf编码非常接近于信道编码, 可以使用一个系统信道编码传输校验位。在解码端, 可以连接校验位和边信息Y, 并且执行纠错解码。如果X、Y非常相似, 只需要传输少许校验位和重要的压缩结果。需要强调的是这个方法并不执行前向纠错来保护信道传输的错误, 而是使用一个虚拟的相关信道来获取X 和边信息Y的统计关[6]

[5]。

另一种编码实现方法, 即将序列X分为陪集, 编码端发送X所属的陪集索引, 接收端通过选择陪集中与边信息Y最可能的码字。可以看出两种解释是相同的, 在校验位的解释下，发送一个二进制的行矢量

XPXP,G为系统线性块编码的生成矩阵,在陪集的解释下,发送伴随阵S = XH, H 是线性块码C的校验矩阵。如果P = H, 传输的码流是相同的。

可以使用Turbo码来实现Slepian-Wolf编码器。由于Turbo码的良好性能, 这种方法能够很好接近Slepian-Wolf给定的编码界。之后, Liveris等人采用LDPC(low-density paritycheck)码来实现Slepian-Wolf编码器。仿真结果表明它比当时所有的turbo码的压缩性能都好, 更能接近理论限。后来他们又使用IRA(irregular repeat accumulate)码进行实验, 也得到了很好的结果。另外, Lan、Liveris、Naryanan、Xiong 和Georghiades对多信源的Slepian-Wolf编码问题进行了研究。

3.2 量化技术及Wyner-Ziv编码器

因为图像的失真度基本上是由量化器决定的, 所以对于视频编码而言, 量化器是非常关键的一个环节。由于分布式编码中, 解码器的动作是整个编码系统结构的核心, 这不同于传统的编码器端决定图像质量的工作方式。分布式编码中的量化器无法直接继承传统图像视频编码技术中的量化器设计方法。在Slepian-Wolf编码的基础上, Wyner-Ziv 编码机制有了很大进展, 对于重建边信息的初步量化器设计目的来自于信息论证。在特定情况下, 线性编码和嵌入式格子, 接近Wyner-Ziv 的率失真函数。特别是当信源和边信息是联合高斯的情况, 构成了分布式编码中量化器设计的理论基础。

通常情况下, 认为Wyner-Ziv编码器由一个量化器和一个Slepian-Wolf组成。量化器将信号空间分为单元, 不相连的子单元影射到相同的量化索引Q, 它由固定码率的局部最优 Lloyd算法、Wyner-Ziv矢量量化器设计。量化器的设计用于理想Slepian-Wolf编码器编码量化的索引, 码率估算依赖于量化索引和边信息, 使Slepian-Wolf编码器的块长与量化器维数分离。这是实际系统的基本要求。对于高码率, 在特定的情况下, 最优量化是格子量化, 分离的量化单元不需要影射到同一个索引。在编码端不具有边信息的情况下, 它是渐进无性能损失的。

在Wyner-Ziv编码器的设计实现上,Zanir等人给出的嵌套线性/格形码可以达Wyner-Ziv界。嵌套格形码的实现由Servetto中给出。Xiong等人通过嵌入量化器加Slepian-Wolf构成Wyner-Ziv编码器, 后来又使用TCQ(trellis-coded quantization)构成Wyner-Ziv编码器, 两种方法都能逼近理论界。此外, 可以使用Lbyd算法设计量化器加上Slepian-Wolf编码器实现Wyner-Ziv编码。

3.3 联合解码和运动补偿

为了获得更高的压缩效率, 可以在解码端进行运动补偿。传统的运动补偿编码可以在这里采用。例如,CRC可以用于解码端的运动补偿, Viterbi解码对一系列运动补偿预测块进行操作, 每一个具有不同的运动矢量, 每个解码版本的CRC和传送的CRC 进行比较选用。另外一种方法由Stanford完成, 即发送一个鲁棒的hash码字来辅助解码端估计运动。目前, 本文的hash 简单地由量化的DCT系数的小子集组成, 在低延迟系统使用前一帧产生边信息。因为hash比原数据小, 所以允许将上帧的hash存储到内存。对于当前帧的每个块, 计算对应的鲁棒hash的相邻帧距离。如果超过一定距离,则发送hash 数据和Wyner-Ziv 位。在hash的基础上, 解码端执行一个运动搜索来产生最优的边信息块, 量化系数的hash码能修正Turbo解码的相应概率, 因此进一步减少了校验位的码率。Hash 也能在重建时用于精简。这非常近似于通用的Slepian-Wolf编码的相关信道。

3.4 码率控制

Wyner-Ziv的码率控制由当前帧和边信息的统计相关特性来决定。编码算法本身并不需要改变, 码率随信道的统计特性而变化。每个帧需要多少码率的传输是灵活的, 因为边信息是在解码端获取而不是在编码端获取。

码率控制解决的方法之一：完全依赖于解码端的反馈信息；解码端将决定最优编码速率并反馈给编码端。解码端使用相关信道估计算法将预测码率传输给编码端。

在解码端进行码率控制, 明显降低了编码端的负担；反馈允许解码器在产生边信息方面具有很大的灵活性；从简单的拷贝帧的机制到非常复杂的运动补偿；基于对象的分割或多帧预测；一个精确的边信息, 需要很少的码率。因此整个系统性能的改善只与解码器有关系。这与传统的视频编码方式是有区别的。

这种方法有两个比较明显的缺点：首先需要一个反馈信道，这会造成延迟；统计特性估计和解码过程都是在线执行。因此这种算法不适宜于低复杂度的设备应用。

另外一个码率控制方式是使用一些在编码端的估计, 如PRISM。编码端存储前一帧, 基于帧差的能量;每个块分为不同的编码模式, 具有不同的码率, 帧差过小, 则不编码；在这两种模式中间是不同的伴随阵和不同的码率, 取决于估计的统计相关。运动估计在解码端没有, 可以降低解码复杂度；边信息的精度不影响码率, 但是会影响重建的信号质量。

[8]

[7]4 两种分布式视频编码的仿真实现及分析

本文对空间域Wyner-Ziv视频编码和频域Wyner-Ziv视频编码算法分别加以仿真实现,并且和H.263的帧间编码和顿内编码进行比较。本文采用的turbo编码器码率为4/5,生成矩阵34342M2,4,8,16[1,(1DDD)/(1DD)]为。通过对量化级数的调整,产生出不同的输出码率,从而获得不同的压缩率。关键帧K采用H.263的帧内编码, 它和Wyner-Ziv 帧S的编码顺序为“K-S-S-S”, 即每2个关键帧K之间有3个Wyner-Ziv帧S。H.263的编码器为 TMN8,选取Carphone和Salesman两个标准序列,其图像格式为QCIF(176X144),编码帧数为100帧(25fps)。仿真实验的结果如图3所示

图3 空间域和频域Wyner-Ziv视频编码仿真结果

从上述的仿真实验结果可以看出, 分布式视频编码在相同编码复杂度的情况下, 其压缩效率要明显高于传统的帧内编码, 但和传统的帧间编码相比尚有较大差距。频域Wyner-Ziv,视频编码效率比空间域Wyner-Ziv算法平均高1.5dB以上, 这是因为频域Wyner-Ziv编码算法在编码端对当前帧进行DCT变换,变换后的低频分量和高频分量独立编码, 压缩了图像信号的空间冗余度,提高了编码效率。结论和研究展望

本研究对于探索新的视频编码技术、解决传统视频编码仅在编码端进行信源统计所遇到的编码复杂度高等问题, 具有重要的理论意义和实用价值。为了降低编码端的复

杂度，分布式视频编码采用帧内编码帧间译码，将视频帧分为关键帧与Wyner-Ziv帧，关键帧是使用H.264/AVC进行编码，在译码端使用已译码的关键帧产生边信息，并将边信息作为辅助信息来实现当前Wyner-Ziv帧的编码。与传统的视频编码相比，分布式视频编码在编码效率方面存在一定的差距，并目_译码端的复杂度较高，因此如何提高分布式视频编码的编码效率与降低译码端的复杂度是本文的主要研究内容。

为了提高分布式视频编码的效率，可以使用编码模式选择机制、较好的信道编码机制与较好的边信息产生方法。在我们提出的编码端码率控制算法中，在编码端使用编码模式选择机制来通过产生边信息与当前帧之间的相关性来选择合适的编码模式，从而提高分布式视频编码的效率。

为了降低译码端的复杂度，本文提出了一种不使用反馈信道的编码端码率控制算法。大多数的分布式视频编码使用反馈信道在译码端执行码率控制，使用反馈信道会增加译码端的复杂度并会带来一些时延，为了克服这些缺陷，我们在编码端对码率进行控制，在编码端产生一个低复杂度的边信息来对译码端产生的边信息进行估计，从得到译码过程中错误概率的估计值，使用该估计值来为前帧分配合适数目的校验位。

本文对分布式视频编码的理论基础、关键技术进行了研究，并给出了新的解决方案，但是还有更深入的研究有待进行，如：本文使用了比较典型的运动补偿帧内插法来产生边信息的，该方法产生边信息的质量较好，但是它需要的计算量较大，因此如何产生一个质量好并且计算量小的边信息是我们未来工作的一个研究方向。

本文主要是基十像素域的分布式视频编码框架上对分布式视频编码进研究的，下一步我们可以研究应用十基十像素域的分布式视频编码与PRISM视频编码下相应的解决方案。

6、参考文献

[1] Baoguo Du and Hong Shen, A Novel Reconstruction Approach for Pixel-Domain Distributed Video Coding.(Accepted by ICFCC 2010).[2] Wang H S, Cheung N M and Ortega A.2006.A framework for adaptive scalable video coding using Wvner-Ziv techniques[ J ] EURASIP Journal on Applied Signal Processing, [3] Xu Q and Xiong Z.2006.Layered Wyner-Ziv video coding [J].IEEE Transactions on ImageProcessing, 15(12): 3791-3803.[4] Zamir R.1996.The rate loss in the Wvner-Ziv problem }J}.IEEE Transactions on InformationTheory, 42(6): 2073-2084.[5] 杜保国沈鸿对分布式视频编码若干关键技术的研究 2010.[6] 干宗良朱秀昌分布式视频编码技术的研究现状及其展望 2007.[7] 房胜

钟玉琢.分布式视频编解码技术的研究进展2005.[8]张前进，郭雷.分布式视频编码关键技术及研究进展，2007.

第三篇：社会实践视频内容

红色追忆，绿色创想

2011年暑假，我院为了贯彻

《中共中央国务院关于进一步

加强和改进大学生思想政治教育的意见》

和团委《关于组织我院学生开展2011年

暑假社会实践活动的通知》文件精神，积极组织学生参加了各种形式的社会实践活动。

此次暑假社会实践活动我院参加人数近1000名，效果显著，影响深远，被学校团委评为“暑假社会实践活动先进单位”荣誉称号，我院赵小萍等134名同学被学校团委评为“社会实践积极分子”，受到学校团委表彰。

在此次社会实践中，我院有优秀学生代表组成的赴湖南积极开展主题为“红色追忆，绿色创想”的实践团，实践团成员通过瞻仰毛泽东故居，感悟爱国情怀，走进新型农庄，深化“三下乡”等系列活动，向党的90华诞献礼，坚定“永远跟党走”的决心。

七月十日下午，我们举行了出征仪式，蒋丽萍院长给我们发表了讲话并叮嘱安全注意事项，接着给我们实践团授旗。这次是我们外国语学院第一次组团去外省进行社会实践活动，团员们深感荣幸，心情激动，听了蒋院长的讲话也感到肩上责任的重大，决心不辜负领导的厚望。

七月十二日早晨，天蒙蒙亮，我们开始了我们此次社会实践活动的第一个具体行程：韶山之行，感悟爱国情怀。虽然早晨下着大雨，却不能影响我们实践的激情。实践团的成员们参观了毛泽东铜像广场，在那里我们向毛主席铜像敬献了花篮，并且在毛主席铜像前重温了入党誓词，这更加坚定我们青年大学生“永远跟党走”的决心。随后，我们参观了毛主席故居，看着故居内简单的摆设，实践团成员们深深地感受到了伟人朴素的生活作风；在参观毛泽东纪念馆内建党九十周年专题展览时，我们也深刻体会到建党90年来我们党走过的艰辛历程和取得的丰功伟绩。

在参观故居途中，我们了解到武汉大学、长安大学和景德镇陶瓷学院等多个大学也派了实践团来到韶山进行社会实践。我们主动联系上了长安大学实践团，与他们进行深入地沟通交流，照相留念，分享实践收获，而且直到现在我们还经常与他们联系。

七月十三日上午，我院实践团的成员们一起参观了橘子洲景区，在那里我们感悟到当年毛主席“问苍茫大地，谁主沉浮”的气魄，随意识到作为当代大学生，我们应该树立正确的人生观、世界观和价值观，肩负起祖国赋予青年大学生的历史使命。

通过韶山之行和参观橘子洲景区，我们实践团成员感悟到了伟人朴素的生活作风，体会到建党90周年来的艰辛历程和丰功伟绩，意识到作为当代大学生，我们应该以“志存高远，脚踏实地”自勉，树立正确地人生观、世界观和价值观，坚定“永远跟党走”的决心。七月十四日下午我们实践团的成员们走访了湖南长沙湘绣文化城，品位了当地的特色民间艺术。我们对其主要管理人员进行了采访，了解湘绣的历史起源、艺术价值、经营模式等，并使的观摩了绣娘绣制湘绣的过程。

在了解湘绣的过程中，团员们联想到了我们广西的民歌、竹编、芒编等这些令人骄傲的民间艺术在不断的受到“素食经济文化”的冲击，它们有的甚至面临失传的困境。我们实践团的朱同学深思并感慨：“作为青年学生，我们应该多了解民间艺术，多宣传民间文化；同时也希望我们广西能够借鉴湖南湘绣的传承模式争取培养更多的民间艺术文化人才，在秉承传统艺术的基础上，推陈出新，将广西的民间艺术发扬广大”。

7月14日上午，实践团成员一起来到长沙市北山镇，采访了荣合桥社区的谢村官，了解他们是如何探索生态农村发展之路，从中我们认识到了新生态农村建设的必要性。此外，我们也与谢村官对于当代大学生的就业观进行了交流讨论。从交流中我们知道，谢村官是这里土生土长的大学生，而且刚毕业一年就毅然地回到了家乡。当问及为何当时毅然地选择回到自己家乡的时候，谢村官意味深长地跟我们讲到：“我会尽自己的全部，将我所学到的科学知识运用到家乡的新农村建设中，希望家乡以后能有更大的发展。”听了谢村官的话，实践团的成员也认识到，身为大学生的我们，应珍惜在校学习专业知识的宝贵时间。只有打下坚实的专业知识，我们才能在未来的岗位中更好的贡献社会。

下午我们又走访了圣毅园现代化农庄的经营发展概况进行了全面的调查。圣毅园现代化农庄是集生态农业，农产品深加工，生态旅游三位一体的现代化农业企业。他们一直坚持“创新、树牌、强企、富民”的经济宗旨，以土地承包经营权流转为手段，来发展适度规模经营。目前，圣毅园涉及到6个村，1.5万人，规划流转土地3.7万亩，采取每亩地流转325公斤稻谷或等值现金及分红来回报农民。原区内建成中国植物SOD产业基地，有才生产基地等多个现代化农业生产基地。但在当前发展过程中，略显昌进，有些项目为全面考评当地实际情况将就匆忙上马，未达到明显效果。

七月十五日，我们的实践活动圆满结束，并踏上归程。在这一整个实践活动中，我们深刻理解我们党90年来的光荣历史、丰功伟绩、宝贵经验，激励我们珍惜现有美好生活，努力学好科学文化知识，在实践中奋发成才，服务人民，锻炼独立思考、开拓创新的能力，为今后走出校门，服务社会贡献力量；同时我们实践团的每个成员相互学习、相互鼓励，从而建立了姐妹般的情谊。而这一段回忆，我们每个实践团的成员都会捧在手心，好好珍藏，好好回味。

实践活动之后我们实践团的成员们就体验生态农村这方面引起了思考：长沙市沙坪镇主要是发展当地的手工业——湘绣，打造湖南湘绣文化城并享誉国内外；长沙市的北山镇主要是发展期特色农业，建立了圣毅园现代化农庄。如今，沙坪镇的湘绣在不断发展，而生意远在高速发展中也遇到其瓶颈，略显昌进。但是它们都是在不断探索符合各自的生态农村之路，为老百姓奔小康作贡献。我们广西在建设社会主义新农村过程中应该借鉴两镇良好经验，寻找当地特色发展点，服务社会主义新农村建设。

第四篇：视频内容总结

1.微课程：

视频内容总结

是指时间在10分钟以内，有明确的教学目标，内容短小，集中说明一个问题的小课程。（理论上讲）

间于“文本阅读”与“影视阅读”间的一种阅读方式，在优美的音乐声中静静地阅读文字、欣赏画面、进而引发思考。（形式上看）2.微课程六大要素：

（1）精美：音乐+画面+文字（极精、极简、极美）（2）简洁：5分钟学习300秒思考一事一议、开门见山

（3）具体：以小见大、直指原因或对策将理论暗含于问题、故事、策略中

（4）意外：巧妙设疑、有悬念、层层递进（总有想不到的地方，总有恍然大悟的感觉）

（5）深刻：看到问题背后的问题，对问题本质的深度思考（6）情感：让你产生情感共鸣，进而产生亲近感与认同感 3.微课程设计

（1）选题设计：选题要精练，教学内容要明晰，可取代、聚集于课前导入、课后拓展、关键概念、难点、某一技能、某一方法、某一问题。

（2）时间设计：时长一般为5——8分钟左右，最长不宜越过10分钟。

（3）教学过程设计：基本原则是简短、完整，快速引入课题，并能吸引学生，内容讲授线索要清晰，尽可能围绕一个线索展开，在这条线索上突出重点，显露主干，剪掉侧枝旁叶，总结收尾要快捷，好的总结能使一节课上升到一个新的档次，让人清晰地感觉到通过这节课学到了什么。

（4）资源设计：要设计跟本课程相关的教学支持资源。

（5）教学语言：最后要设计教学语言，最好撰写出文字脚本，并在制作之前预演一遍

4.微课程教学设计与传统教学设计有何区别？（1）包含内容：导入、讲授、活动、评价、小结

传统：几个知识点45分钟微课程：一个知识点，10分钟以内（2）教学原则：针对性、集中性、整体性、指导性、启发性、参与性„„ 适应于微课程，更精练、精彩、精确 5.微课程设计两步曲：

微视频（导入、讲授、小结）、学习任务单（活动、评价）（1）微视频设计策略：环节一：导入方式

目标导入、情景导入、故事导入、范例导入、问题导入、游戏导入„„ 策略一：简短，1分钟以内，一句话点明学习目标策略二：激趣

策略三：导入和内容流畅衔接

环节二：授导——创新方法、精细设计策略一：他山之石，可以攻玉策略二：讲清楚基本概念和关键技能策略三：用问题串联你的课程内容

策略四：口语化讲解，营造一对一的学习气氛策略五：不要轻易跳过学习步骤策略六：要给学生提示性信息

策略七：用字幕方式补充微课程不容易说清楚的部分策略八：加强人与资源互动和学生的思维参与环节三：回顾和总结（2）学习任务单：

是和微课程配套的学案，主要包括以下内容：学习目标、学习资源、学习方法、学习任务学习反思、后续学习预告 6.微课程的评价标准【教学设计】10% 选题小而精，在课程中具有典型性、代表性 学习目标明确 教学组织思路清晰 教学媒体运用得当【教学内容】20% 教学内容正确，无科学性错误，表达准确无误； 教学内容组织富有逻辑性，符合学生认知特点。【教学过程】40% 切入课题迅速，方法新颖，对学生有吸引力 讲授线索清晰

总结收尾快捷，起到提纲契领的作用，能加深学生对所学内容的印象

板书精炼、合理，要点突出

教态自然大方，语言准确、简明、生动，富有感染力。【作品规范】10% 视频结构完整，具备片头、片尾，主要教学环节有字幕提示 技术规范，时长一般不超过10分钟、图像清晰稳定、构图合理、声音清楚、声画同步。【教学效果】20% 形式新颖：微课程设计有创新或创意新颖，教学方法富有创意，整体印象较好；

趣味性强：教学过程深入浅出，形象生动，精彩有趣，能运用多种策略激发学习动机，注意启发，促进思维，培养能力 目标达成：完成设定的教学目标；

推广应用：作品发布后受到欢迎，点击率、人气旺、分享数量多，用户评价好，有较大推广价值。7.制作技术标准：

1.视频结构完整，具备片头、片尾（各不超过10秒钟）2.时长控制在10分钟以内； 3.视频画质清晰，镜头稳定。

4.讲解语言通俗易懂，深入浅出、详略得当、声音洪亮、抑扬顿挫

第五篇：视频会议系统全面解析

视频会议系统全面解析

一、什么是远程视频会议系统？

设想一个问题：一个跨国集团其总部在美国，其分部分别在欧洲、亚洲、非洲。某一天总部通知要开一个集团高层会议，各大洲的老总们就要匆匆收拾行囊，花一大笔钱，在飞机上坐14-24小时去开只有一到两天的会。换来的是满身的疲劳及工作效率的低下。再如在国内，国务院要召开一个全国会议表彰先进；或者北京大学教授要给全国各分校学生授课；或者现代化战争要求军队需要即时了解战场情况；或者天坛医院专家要给远在海南的垂危病人指导手术；再或者政府、军队布置抗洪抢险紧急事宜等等„„

图一视频会议效果图

如何快速、高效、经济地解决这些问题？

答案是使用视频会议。需要开会的每个会场安装一套视频会议终端，接上电视机、摄像头、麦克风等附件，再接入相应的宽带网络如IP，ISDN，E1/T1等，即可实现视频、音频、数据的实时传送，从而让我们真正实现天涯共一室的梦想。随着现代视频压缩技术，尤其是宽带网络的日益完善和发展，实时视频通讯已成为宽带网络中除电视、数据之外的第三大服务内容。

如果有这么一套视频会议系统，那么欧洲的老板只需坐在其办公室即可同各大洲的他的下属们面对面地商讨公司业务；党中央国务院的会议精神可以通过网络直接传到各县、乡、镇，任一乡镇的会场图像亦可实时传给中央；北大各分校学生可即时向北大授课的教授提问；如《DA师》中的军队渡海画面可以在指挥中心实时展现；各行业远程诊断、远程指挥、远程抉择等都能成为现实。这种不受地域限制、建立在宽带网络基础上的双向、多点、实时的视音频交互系统就称为远程视频会议系统。

二、采用远程视频会议系统的优势

（一）节约会议的经费、时间

在我国，召开一次全国32个省市自治区的电视会议，费用仅为5万元。相同规模的会议若在宾馆召开，会议费用将高达100万元。

据统计，日本、美国之间开通1小时的国际电视会议，双方总资费不超过50万日元，并能允许10多人直接参会，通过数据流、投影等可以让所有员工旁听。但50万日元远远不能支付1个人的出差费用。

据相关资料，各级管理机构的工作人员每年参加会议的时间约占全部工作时间的30%以上；每年用于公务出差的费用高达300亿元，而每次开会或会面中约有80%的时间需花费在路途中。

（二）提高开会的效率

由于召开电视会议的费用大致与开会的时间成正比，可促使与会代表节省时间，提高效率。

由于参加会议的人员就在本地，和会议有关的材料、文件、实物都在身边，可以充分方便地交流。

（三）适应某些特殊情况

对于某些交通状况不好，特别是地处山区、边疆的城市，视频会议将带来极大的方便。在一些紧急场合，如救灾、防汛，战地会议等，可以用视频会议系统及时了解或发布紧急情况和决策，收效则难以用金钱来衡量。

（四）增加参会人员

视频会议可当作高质量的可视电话，连线两方诉说心情，也可多人多点参加形成会议。同时，视频会议系统具有投影、VGA端口以及数据流功能可以随时增加会议代表甚至召开全体会议。总部决策可即时传达到所有员工。

三、视频会议的实现方式

当前，视频会议的实现方式有三种：（1）广电系统（电视台）常用的电视直播式视频会议；（2）MPEG1、MPEG2压缩格式VOD视频传输式视频会议系统；

（3）ITU(国际电信联盟)提出的基于H.261/H.263视频压缩格式的H.320/H.323规范的视频会议系统。

我们需要什么样的视频会议系统呢？首先是价格适度，能为大多数行业用户承受及使用的视频会议系统才是真正意义上的视频会议系统。其次是技术上的指标：实现高质量图像/声音传输但带宽越低越好；双向交互、需要支持长时间开机工作（低功耗）；操作简单，无需专业知识，操作失误也无损坏；应无操作系统，不怕病毒攻击、不怕突发性断电、应具备多种网络接口（ISDN，IP，V.35，E1/T1）、具有自适应功能，完全智能化、稳定可靠，返修率低等等。

那么以上三种实现方式哪一种才是真正意义上的视频会议系统呢？让我们来分析一下：（1）电视台电视直播式视频会议。此方式需要租用专用的卫星通道，传输方式为单向转输，若要双向则必须租用两个信道。租用卫星的费用非常昂贵，时间越长，费用越高。另外会议方式需要专业技术人员，还必须通过复杂的审批手续。因此这种会议方式只能供一些特种行业单位如中央电视台使用。

（2）MPEG1、MPEG2压缩格式的视频会议系统。由于MPEG1的传输需要1.5M的带宽，MPEG2需要3M的带宽，且图像质量将随网络传输距离急剧下降，通常只能用于本地的高速网段上。试想要实现文章开头的视频会议，则需欧美、欧亚、欧非之间建立几条高达几M带宽单纯用于视频会议的网络，这是不可想象的。即使是国内亦只有电信局这些具有自己网络资源的职能部门才能建立这种基于高带宽的专用的视频会议系统。而且随着IP网络的普及，这种高度浪费带宽资源的工作模式势必走向淘汰。

（3）基于ITU（国际电信联盟）H.320、H.323系列标准以及MPEG4压缩格式的视频会议系统的出现才使高贵的视频会议进入商用领域。但是由于MPEG4标准定立很晚，各家先行开发的MPEG4标准并不十分统一，这就造成了MPEG4标准的视频会议系统先天兼容性不足。现阶段市场上技术成熟并占真正主导地位的是基于H.320/H.323标准的视频会议系统。这种实施价格平易近人，网络要求不高（通常仅需要共享数据广域网或使用ISDN甚至使用Internet），技术已经成熟的视频会议系统才我们真正意义上的视频会议系统。H.323是指基于IP方式进行传输的视频会议；H.320是以IP以外的其它网络方式进行传输的视频会议，通常有ISDN，DDN，帧中继，ATM等等。以业界高端视频会议终端生产厂商挪威泰德视讯公司（TANDBERG）H.323/H.320视频会议终端T6000型为例，其工作带宽为64kbps-3Mbps，实际应用中建议使用384kbps-768kbps就可达到VCD级的传输效果（iCIF模式，352x576分辨率，50场/秒，PAL制）。在H.323协议（IP）环境中视频会议系统可与其他业务如IP语音，IP数据共享带宽，从而可以让用户将已有的宽带广域数据网改造为视频、音频、数据三网合一的综合性平台，从而更充分地利用已有网络的网络资源。

四、视频会议系统的组成

图二：视频会议系统的组成

会议系统的组成非常简单，每个会场安放一台视频会议终端，终端接上电视机作为回显设备、接上网络作为传输媒介就可以了。一台终端通常有一台核心编解码器、一个摄像头，一个全向麦克风以及一个遥控器。核心编解码将摄像头和麦克风输入的图像及声音编码通过网络传走，同时将网络传来的数据解码后将图像和声音还原到电视机和音响上，即实现了与远端的实时交互。终端通过呼叫IP地址或ISDN号码进行连接（专线无需拨号）。但在有三点会场就必须采用MCU（视频会议多点控制单元）进行管理。同电话交换机相似，MCU（多点控制单元）的作用就是在视频会议三点以上时，决定将哪一路（或哪四路合并成一个）图像作为主图像广播出去，以供其他会场点收看。所有会场的声音是实时同步混合传输的。在具有MCU的会议系统里，所有终端的音视频数据均实时传到MCU供选择广播。MCU的数据流量较大，通常接于网络的中心交换机上，控制人员通过笔记本电脑调用MCU管理界面在会场进行远程管理。呼叫方式可以由控制人员由MCU呼叫各个终端，亦可由各终端呼叫控设置好的会议号。

图三：视频会议系统终端构成

如果客户规划的视频会议系统网络比较大，在MCU下面还可建立另外视频会议网，两个网的MCU实现视音频交换，此种方法叫MCU的级连。比如，中央到各省的视频会议网络带宽为2M，省上自己亦有自己的视频会议系统。中央开会用自己的MCU，省上开会用省上的MCU，需要上传下达时，将MCU级连起来就可以了。级连的好处一是管理上不会混乱；二是到中央的带宽亦不允许省下面几十点的数据全挤到这上面来

五、视频会议系统终端的工作原理

图四：视频会议终端的工作原理

如图所示：视频会议终端将输入进来的视频使用H.261、H.263或H.264协议、音频使用G.711、G.722或G.728、数据、控制信令进行单独编码，然后将编码后的数据进行“复用”打包后形成遵循网络协议的数据包，通过网络接口传到MCU供选择广播。从MCU传来的其他会场的数据包通过“解复用”，分别还原成视频、音频以及数据及控制信令分别相应的输出设备上回显或执行。

在这原理图中有两处要强调的地方：一是音频数据量（小于等于64K）远远小于视频的数据量，编码的时延也比视频时间短。因此在早期的视频会议系统中经常会出现听到声音后很久才看到人嘴动的情况。业界术语叫唇音同步。现在的视频会议知名品牌都在音频编码后加入一定的时延，唇音同步问题已完全解决。

二、在传输的信息里面，优先级的排列顺序为：音频－＞视频－＞控制信令－＞数据。因为会议以说话为主，在网络拥塞时，画面可能会有马塞克，但会议的声音必然首先保证是连贯和清晰的。

另外，ITU已经在2003年中期公布了H.264视频编码协议。采用该协议，384kbps下传输的视音频质量相当于H.263视频编码协议768kbps带宽下的质量与效果。H.264协议是视频会议发展的一个分水岭，视频会议终端及MCU是否支持H.264这种最新的视频编码协议，成为该视频会议品牌是否具有生命力和研发能力的一个标志。

六、视频会议产品常见的品牌 TANDBERG腾博

产地挪威，该品牌为视频会议业界的高端产品。该品牌全系列均属第三代产品，具有多项视频会议的首创技术，最高功耗只有65W，最高带宽3M，是美国国防部、加拿大国防部、联合国教科文组织、欧洲多个国家王室及大型跨国集团选用的品牌。目前是世界市场量前三位之一

POLYCOM宝利通

产地美国，视频会议界的元老品牌，主要致力于中低端市场，大部分产品为第三代产品，但没有完成全系列转化。目前是世界市场量前三位之一

SONY索尼

产地日本。SONY是全球电子产品数一数二的知名品牌，进入视频会议终端市场后。凭借其雄厚的技术实力以及完善的销售渠道，很快就成为全球视频会议市场占有量前三位

体育视频的内容标注和解析技术研究

第一篇：体育视频的内容标注和解析技术研究

第二篇：分布式视频编码技术研究

第三篇：社会实践视频内容

第四篇：视频内容总结

第五篇：视频会议系统全面解析

相关范文推荐

《福建省村民委员会选举办法》修订内容标注

体育视频教学资源库

公文附件和附件说明标注位置

体育手抄报内容

基于3G网络的移动P2P视频直播技术研究

秘书岗位职责解析内容

思品内容解析

观看体育优质课视频有感