第一篇:视频中运动目标的检测标记
视频中运动目标的检测标记
摘要:传统电视监控技术只能把远程的目标图像(原始数据)传送到监控中心,由监控人员对现场情况做出判断。智能化视频监控的目的是将视频原始数据转化为可供监控人员决策的“有用信息”;本文对视频运动目标检测领域的研究现状和视频运动目标检测的图像分割方法进行了比较,对交通视频中的汽车目标实例进行了研究实现。关键词:交通信息;视频检测;目标识别;目标跟踪
Abstract: Traditional TV monitoring technology can only put remote target image(original data)transmission to the monitoring center, give their judgment by monitoring person according to the site condition.The aim of intelligent video surveillance is to put a video raw data into available for monitoring personnel decisions of “useful information”;Video motion detection field research status and video exercise targets detection image segmentation method are compared by this paper, and the video of the vehicles for traffic target examples are studied and realized.Keywords: traffic information, Video detection.Target recognition, Target tracking 1前言
传统电视监控技术只能达到“千里眼”的作用,把远程的目标图像(原始数据)传送到监控中心,由监控人员根据目视到的视频图像对现场情况做出判断。智能化视 频监控的目的是将视频原始数据转化为足够量的可供监控人员决策的“有用信息”,让监控人员及时全面地了解所发生的事件。将“原始数据”转化为“有用信息”的技术中,目标检测与跟踪技术的目的是要解决“什么地方”和“什么时间”的问题。目标识别主要解决“什么人”或“什么东西”的问题。行为模式分析主要解决“在做什么”的问题。
运动目标检测是计算机视觉研究中进行信息提取键步骤之一是视频分析技术的基础在 视频监控目标跟踪运动分析等实际应用系统中往往要求能够实时检测和分割出目标运动目标检测是视频序列运动分析与理解的基础是底层的处理过程是目标分类目标跟踪等处理步骤的基础运动目标检测的主要任务是将运动目标从视频序列中提取出来。
2数字图像运动目标检测常用方法
数字图像运动目标检测常用以下3 种方法: 1....背景图像差分法:当前图像与固定背景图像之间的差分; 2...帧间差分法:当前连续幅图像之间的差分; 3....光学流法。
2.1背景图像差分
背景减除(Background Subtraction)方法是目前运动检测中最常用的 一种方法,它是利用当前图像与背景图像的差分来检测出运动目标的一种技术。它一般能够提供相对来说比较全面的运动目标的特征数据,但对于动态场景的变化,如光线照射情况和外来无关事件的干扰等也特别敏感。
实际上,背景的建模是背景减除方法的技术关键。最简单的背景模型是时间平均图像,即 利用同一场景在一个时段的平均图像作为该场景的背景模型。由于该模型是固定的,一旦建立之后,对于该场景图像所发生的任何变化都比较敏感,比如阳光照射方 向,影子,树叶随风摇动等。大部分的研究人员目前都致力于开发更加实用的背景模型,以期减少动态场景变化对于运动目标检测效果的影响[2]。
2.2帧时间差分
时间差分(Temporal Difference 又称相邻帧差)方法充分利用了视频图像的特征,从连续得到的视频流中提取所需要的动态目标信息。在一般 情况下采集的视频图像,若仔细对比相邻两帧,可以发现其中大部分的背景像素均保持不变。只有在有前景移动目标的部分相邻帧的像素差异比较大。时间差分方法 就是利用相邻帧图像的相减来提取出前景移动目标的信息的。
让我们来考虑安装固定摄像头所获取的视频。我们介绍利用连续的图像序列中两个 或三个相邻帧之间的时间差分,并且用阈值来提取出视频图像中的运动目标的方法。我们采用三帧差分的方法,即当某一个像素在连续三帧视频图像上均有相当程度 的变化(及大于设定的阈值时),我们便确定该像素属于运动目标。时间差分运动检测方法对于动态环境具有较强的自适应性,但一般不能完全提取出所有相关的特 征像素点,在运动实体内部容易产生空洞现象,只能够检测到目标的边缘。而且,当运动目标停止运动时,一般时间差分方法便失效[3] 2.3光学流法
基于光流方法(Optical Flow)的运动检测采用了运动目标随时间变化的光流特性,如Meyer 等作者通过计算位移向量光流场来初始化基于轮廓的 跟踪算法,从而有效地提取和跟踪运动目标。该方法的优点是在所摄场所运动存在的前提下也能检测出独立的运动目标。然而,大多数的光流计算方法相当复杂,且 抗噪性能差,如果没有特别的硬件装置则不能被应用于全帧视频流的实时处理。
当然,在运动检测中还有一些其它的方法,如运动向量检测法,它适合于多维变化的环境,能消除背景中的振动像素,使某一方向的运动对象更加突出的显示出来。但是,运动向量检测法也不能精确地分割出对象。
点检测法用于检测图像中感兴趣的点如角点等图像分割法能检测出图像中目标的轮廓但需要一些人为的因素以及人工判断无法实现完全的自动背景建模法在视频监控的研究中取得了较好的效果但只适用于摄像机静止状态的目标检测聚类分析法需要通过学习适用于特定目标的检测如行人等较难适应一般情况下的运动目标检测[4]。
以上介绍的主要是单路视频图像的目标跟踪问题。在实际监控系统中,往往同一个人或目标出现在多个摄像机的视场里。如何将与此目标相关的各个摄像头采集的视频图像关联起来,根据物体的运动情况,形成其运动轨迹,并自动发送PTZ 控制指令,使摄像机能够自动跟踪物体,尤其在物体超出该摄像机监控范围之后,自动通知物体所在区域的摄像机继续进行追踪。这才能使目标真正获得了跟踪。首先自己的电脑有个摄像头,如果没有插上USB摄像头,然后再启动Matlab(顺序不可返的)。具体方法: 查询USB2.0Camera 的具体参数:
输入:imaqInfo = imaqhwinfo 返回: imaqInfo = InstalledAdaptors: {'coreco' 'winvideo'} %可选用的适配器名称,这里是两种'coreco'& 'winvideo' MATLABVersion: '7.6(R2008a)' ToolboxName: 'Image Acquisition Toolbox' ToolboxVersion: '3.1(R2008a)' 输入:winvideoinfo = imaqhwinfo('winvideo')%查询winvideo的具体参数 返回:
winvideoinfo = AdaptorDllName: 'C:Program FilesMATLABR2008atoolboximaqimaqadaptorswin32mwwinvideoimaq.dll' AdaptorDllVersion: '3.1(R2008a)' AdaptorName: 'winvideo' DeviceIDs: {[1]} %设备ID号,重要 DeviceInfo: [1x1 struct]
输入:winvideoinfo.DeviceInfo %视频采集可选择的格式 返回: ans = DefaultFormat: 'YUY2_160x120' DeviceFileSupported: 0 DeviceName: 'USB2.0 Camera' DeviceID: 1 ObjectConstructor: 'videoinput('winvideo', 1)' SupportedFormats: {'YUY2_160x120' 'YUY2_176x144' 'YUY2_320x240' 'YUY2_352x288' 'YUY2_640x480'} 到此为止!最后一行可以看出你的相机支持的分辨率,我的usb摄像头最高支持640*480的 在语句中设置:
vid=videoinput('winvideo',1,'YUY2_640x480');%语法:vid=videoinput(adaptorname,deviceID,format)
set(vid,'TriggerRepeat',Inf);%TriggerRepeat重复触发
set(vid,'FramesPerTrigger',1);%FramesPerTrigger每特定的帧数去触发捕获选 定使用的视频源
set(vid,'FrameGrabInterval',1);%FrameGrabInterval帧的抓取时间间隔 %设置返回色彩 rgb正常颜色(YUY2格式颜色发红),grayscale是灰度 set(vid,'ReturnedColorSpace','rgb');set(vid,'ReturnedColorSpace','grayscale');%获取分辨率,色彩数目等参数
vidRes=get(vid,'VideoResolution');%视频分辨率 nBands=get(vid,'NumberOfBands');%色彩数目
hImage=image(zeros(vidRes(2),vidRes(1),nBands));% himage:视频预览窗口对应的句柄,也就是说在指定的句柄对象中预览视频,该参数可以空缺。至于预览窗口的关闭和停止可以使用colsepreview和stoppreview函数 preview(vid,hImage);
第二篇:运动目标检测方法总结报告
摘要
由于计算机技术的迅猛发展,使得基于内容的视频信息的存取、操作和检索不仅成为一种可能,更成为一种需要。同时,基于内容的视频编码标准MPEG-4和基于内容的视频描述标准MPEG-7正在发展和完善。因此提取和视频中具有语义的运动目标是一个急需解决的问题。运动目标提取和检测作为视频和图像处理领域的重要研究领域,有很强的研究和应用价值。运动检测就是将运动目标从含有背景的图像中分离出来,如果仅仅依靠一种检测算法,难以从复杂的自然图像序列中完整地检测出运动的目标。较高的检测精度和效率十分重要,因此融合多种检测方法的研究越来越受到重视。本文介绍了几种国内外文献中的经典的视频运动目标的检测和提取算法,并对各种方法进行了评价和总结。首先介绍了基本的运动目标检测的基本知识和理论,然后介绍了基本的几种目标检测方法及其各种改进方法。对今后的运动目标检测提取的相关研究提供一定的参考。
关键词:运动目标检测 光流法 帧差法 背景建模方法
摘要 i
ABSTRACT Because of the rapid development of computer technology, it is possible to access, operate and retrieve the video information based on the content of the video.At the same time, based on the content of the video coding standard MPEG-4 and content-based video description standard MPEG-7 is developing and improving.Therefore, it is an urgent problem to be solved in the extraction and video.Moving object extraction and detection is a very important field of video and image processing, and has a strong research and application value.Motion detection is to separate moving objects from the image containing background, if only rely on a detection algorithm, it is difficult to from a complex natural image sequences to detect moving target.Higher detection accuracy and efficiency are very important, so the study of the fusion of multiple detection methods is becoming more and more important.In this paper, the detection and extraction algorithms of the classical video moving objects in the domestic and foreign literatures are introduced, and the methods are evaluated and summarized.Firstly, the basic knowledge and theory of basic moving target detection is introduced, and then the basic method of target detection is introduced.To provide a reference for the research on the extraction of moving target detection in the future.Keywords: Visual tracking
Optical flow method
Frame Difference
Background modeling method
ii ABSTRACT
目录
摘要...................................................................................................................................0 ABSTRACT.....................................................................................................................1 第一章 绪论....................................................................................................................3
1.1 研究背景及意义................................................................................................................4 1.2 研究现状............................................................................................................................4
第二章 经典的运动目标检测算法................................................................................5
2.1 光流法................................................................................................................................5 2.2 帧差法................................................................................................................................5 2.3 背景差分法........................................................................................................................7
第三章 改进的运动目标检测算法................................................................................9
3.1 改进的三帧差分法............................................................................................................9 3.2 帧间差分法与光流法结合..............................................................................................10 3.3 改进的背景建模算法......................................................................................................11
第四章 总结..................................................................................................................13 参考文献:....................................................................................................................16
目录 i 2 运动目标检测方法研究总结
第一章 绪论
1.1 研究背景及意义
近几十年来,在科学技术飞速发展的条件下,视频与图像处理技术不断提高,各种各样的视频监控产品已经走入了人们的视野,并且在给我们的生活带了很多方便。视频监控系统的研究技术涉及到视频图像处理、计算机视觉、模式识别以及人工智能等科学领域。视频监控系统多数要求监控人员长期盯着监控屏幕,进行人为的分析判断,这样容易因为监控人员的疏忽造成重要信息的遗漏。为此,人们开始将计算机领域的相关技术引入到视频监控系统中,形成智能监控系统[1,2,3,4]。智能监控系统可以在没有人为干预的条件下,利用计算机视觉的相关技术来对视频序列图像进行智能的分析,实现对运动目标的检测、跟踪、分类和识别等。现在,运动目标检测技术不仅应用在发电站、商场、银行、民宅、广场和火车站等公共场所的智能监控系统中,而且在其他的领域也有十分广泛的应用。
1.2 研究现状
目前,基于视频的运动目标检测算法主要有三种:光流法、帧差法和背景差分法,这三种算法都有各自的优缺点。1981 年,Horn 和 Schunck 通过将二维速度场与图像灰度相联系,从而引入了光流约束方程,得到一个计算光流的基本方法[5]。Meyer 等人[6]在对光流法进行了深入研究的基础上,提出在光流场中采用基于轮廓的跟踪方法,该方法在摄像机运动的情况下能够有效的对运动目标进行检测和跟踪。Barron 等人[7]通过使用简单而有效的门限,先分割图像,再计算光流,通过消除杂乱的背景光流来得到较好的目标光流。Roland 等人[8]利用相邻帧差,通过局部阈值的迭代松弛技术实现图像边缘的光滑滤波。甘明刚等人[9]提出一种三帧差分和边缘信息相结合的运动目标检测算法,该算法有效地改善了一些情况下帧间差分法会出现“双影现象”的问题。郝豪刚和陈佳琪等人[10]提出五帧差分法和景差分法相结合的运动目标检测算法,该算法利用背景差分法和帧间差分法性能上的互补来得较好的检测结果。背景差分法有均值法、中值法、核密度估计法、Surendra 背景更新、单高斯模型和混合高斯模型等,从 20 世纪以来,相继出现 第一章 绪论 1 了一批批成熟的背景差分法,Wren 等人[11]提出了单高斯模型,该方法在单一背景下能够获得较好的检测结果,但是不适合复杂背景。Stauffer 等人[12]在单高斯模型的基础上提出了混合高斯模型,混合高斯模型在外界环境比较复杂的条件下仍然可以得到很好的检测效果。左军毅等人[13]提出时间平均模型和混合高斯模型双模式切换式的运动目标检测算法。除了以上三种的算法外,还有一些学者尝试采用其他的算法进行运动目标检测,例如,郝志成和吴川等人[14]提出的基于稳定矩阵的动态图像运动目标检测算法,该算法通过在短时间内自动的感知背景变来快速的建立背景模型。近年来,越来越多的研究机构和学者都参与到基于视频的运动目标检测的研究之中,并提出很多有效的、新颖的方法。但是仍存在一些问题善待提高,所以找到一种检测精度高、鲁棒性好的运动目标检测算法依然是我们为之努力的方向。
运动目标检测方法研究总结
第二章 经典的运动目标检测算法
2.1 光流法
空间中物体的运动可以用运动场来描述,同样可以通过序列图像中不同图像的灰度分布差异体现图像平面变化,对比空间中的运动场,体现在图像上表现为光流场。在运动的某一个时刻,为图像中的各个像素点赋一个速度的矢量,这样就成为了一个图像的运动场。由于空间物体上的点与图像上的点通过投影关系可以一一对应,则根据各个像素点的速度矢量的变化特征可以对图像进行动态分析[16]。当图像中没有目标运动时,在整个图像区域中光流矢量的变化是连续的;而当图像中有运动目标时,图像的背景和目标就会有相对的运动,那么目标运动所形成的速度矢量必然和邻域背景速度矢量不同,由此能够检测出运动目标的位置。光流法利用图像的灰度信息的变化从序列图像中计算出速度场,然后加上一些约束条件,从而推出运动目标的运动参数和物体结构[17]。
光流法事先不需要知道场景的任何信息,就可以准确的计算出运动物体的速度。它不仅能应用于静态背景下的运动目标检测,而且可以用于摄像机运动的情况,实现动态背景下的运动目标检测。它的缺点是:光流法的特点是要进行迭代运算,精度越高需要的计算量就越大,因此,光流法的计算量大,运算时间长,是一种比较耗时的算法,很难满足工程上对实时性的要求;光流法的抗噪性能差,例如,当光照发生变化时,即使没有运动发生,光流仍然存在,会被误检测为有目标运动,同时,如果缺少足够的灰度级变化,目标运动物体很难被检测到;当三维物体的运动投影到二维的图像时,亮度会有变化,从而导致通过光流约束是计算不出平面某点的图像速度流;使用光流法对运动目标进行检测,需要特定的硬件设备的支持。已经有一些学者针对光流法所存在的缺点进行了改进,相信未来光流法能够得到更好的实际应用。
2.2 帧差法
帧差法[18]又叫时间差分法,它通过将视频序列图像中的当前帧与相邻帧所对 第二章 经典的运动目标检测算法 3 应的像素点的灰度值进行比较,然后找到差异,进而检测出运动目标[19]。在视频序列图像中,相邻的图像之间具有连续性,当视频图像中有运动目标时,由于运动目标的运动,相邻图像间的像素点灰度值差别就会较大,相反,当视频图像中没有运动目标时,相邻图像间的像素点素灰度值差别就会较小,帧差法就是利用视频图像的这一特性进行检测的,它是运动目标检测的最简单方法。帧差法是先用相邻两帧做差分运算,然后做二值化处理,从而检测出运动目标。帧差法的基本运算原理框图如下:
图2.1 帧差法基本原理
在二值化的差分图像中,取值为 0 的像素点代表变化较小或是无变化的区域,表示为背景区域;取值为 255 的像素点代表变化的区域,表示为运动目标。至此,大多数的运动目标的基本形状已经凸显出来了。为了能够精确的提取出运动目标,通常还需要经过形态学处理,例如,膨胀、腐蚀、开运算、闭运算等,将断点进行连接或者将多余的部分去掉等,从而获得更加准确的检测结果。
帧差法优点是算法简单、容易实现、检测速度较快、能满足系统对实时性的要求,而且一般相邻两帧的时间间隔比较短,因此对场景的光线变化不是特比敏感,对环境的自适应性较强。帧差法存在着两个主要的缺点:帧差法的检测结果与目标运动速度和相邻两帧间隔大小有关。如果运动目标速度过快且两帧时间间隔长,可能会出现运动目标在运动方向上前后分裂并拉长,出现“双影现象”,最坏的情况下可能发生同一个运动目标被检测为两个不同的目标。如果运动目标运动过慢且两帧时间间隔小,交叠的部分在两帧图像进行差分时会因差值过小而被误判为背景区域,但是事实上这部分并不是背景区域,由此会造成目标信息的丢失,我们称之为“空洞现象”,最坏的情况下可能发生目标完全重叠而不能被检测出来。
运动目标检测方法研究总结
2.3 背景差分法
背景差分法又叫做背景减除法,是固定场景中目标检测算法最长用的一种检测算法。在背景差分法中,视频图像分为背景图像和前景图像,该方法将视频图像中的当前图像与背景图片进行比较,也就是当前帧与背景帧进行差分运算,在运算结果中像素点的灰度值变化大的区域即为运动目标,因此我们也常常认为背景差分法是帧间差分法的一种特例。
背景差分法的运算原理框图如下:
图2.2 背景差分法基本原理框图
提取出运动目标区域之后,可能会存在噪声,可以对其进行后期处理,例如膨胀、腐蚀、连通域检测等操作,从而提取出较为准确的运动目标。背景差分法的优点是算法复杂度低,算法实现比较简单,可以满足系统的实时性要求,并且在运动目标检测时一般能够得到比较完整的特征数据。是目前最常用的一种运动目标检测方法,尤其适用于背景固定或背景缓变的场景。该方法对外界的环境变化非常敏感,例如场景中天气的变化,光线的改变,摄像机的颤动,树叶的摇动等等这些外界的干扰很容易使背景点被误判为目标点,因而影响了检测的精度。所以该方法的难点在于建立一个符合场景需求的背景模型,而且需要有一套算法对背景模型进行更新,使背景成为实时而准确的背景。检测效果好的背景模型往往都会比较复杂,运算量比较大,从而使得背景更新的速度减慢,无法实时地检测出运动目标。如果背景模型更新的速度非常慢,实际上背景在不断变化着,会 导致从背景模型得到的背景图像不是实时的背景图像。但是如果背景模型更新的速度过快,背景有时就会和当前图像非常相似,背景差分法就无法检测出运动物体。因此,建立一个合适的背景模型是背景差分法的关键部分,也是该算法的一个难点。第二章 经典的运动目标检测算法 3
运动目标检测方法研究总结
第三章 改进的运动目标检测算法
3.1 改进的三帧差分法
三帧差分法是对两帧差分法的改进,它可以有效的克服两帧差分法的一些缺点,例如,克服了两帧差分法中的“双影现象”,但是却不能改善“空洞现象”,而且当运动目标和背景区域这两部分的灰度值比较接近时,三帧差分法不能准确的检测出运动目标的轮廓.为了改善三帧差分法检测结果的边缘缺失的这个缺点,王霏等人尝试将改进的Sobel算子与三帧差分法相结合,因为图像的边缘信息不容易受噪声和亮度突变的影响。改进算法的关键是获得一个完整的运动目标的边缘轮廓,针对“空洞现象”,通过后期的形态学处理和连通性分析相结合的方法来改善这个问题[20]。
改进的三帧差分法的基本思想是:把三帧分成两组,分别求两帧差分图,进行膨胀处理之后分别和边缘检测结果图相“与”,将两个结果进行“或”运算,得到一个初步的检测结果。然后与三帧差分法的结果进行“或”运算,得到一个更加完整的检测结果。最后对检测结果进行后期处理,来达到改善“空洞现象”和去除噪声的目的。
(a)经典的两帧差分法
第三章 改进的运动目标检测算法 7
(b)经典的三帧差分法
(c)改进的三帧差分法
3.2 帧间差分法与光流法结合
光流法对噪声敏感,运动目标边缘以外附近的像素点没有运动,但光流值不是零,出现了“速度漂移”。使得光流法和超像素分割的分割结果虽然不错,但是需要调节的参数空间非常大,需要花费大量的时间来进行参数的调整,导致它的实用性较差。帧间差分法简单易行,利用当前帧与前一帧差分,当运动目标运动过快时提取出的物体往往会出现双影而且比实际要大,当运动过慢时又往往因无法检测出重叠部分而出现空洞。为此,我们在光流法和超像素分割方法的基础上,融合了帧间差分法来进一步快速的缩小需要调节的参数的范围,极大的减少了人工调节的工作量。在改进的方法中,贺丽丽等人结合光流法产生的结果和帧间差分法的结果来提取出大致的运动区域,然后利用超像素分割进行精确的提取[21]。
利用超像素分割后的结果label,对帧间差分法得到的结果s 进行进一步的提取,由于超像素分割将图像分割成许多含有相似特征的标记图label,首先我们需要知道s,即已经求出的前景区域中含有对应标记图中的哪些标记。当我们确定了前景区域所包含的标记后,就需要进一步的确定这些标记在s和label 中所包含的像素个数。对于s,我们统计出其前景区域中对应于标记图label 中每个标记i所包含的像素的个数为isn,标记图label中每个标记i所包含的像素的个数为n,我们认为isn与n 之间的关系,将成为提取前景目标最重要的衡量标准。如果它们的比值小于某一个值T 时,则将Label中对应于标记i的像素值设为0,否则,Label中对应于i的像素值设为 1。原始图像t 中对应于 Label中等于 0 的位置也标记为 0;因此我们得到了提取出的运动目标图。
运动目标检测方法研究总结
3.3 改进的背景建模算法
针对传统混合高斯背景建模算法,由于受到算法的限制,每个像素点的模型个数是固定不变的。后来,等人提出了基于最大似然估计的像素点背景模型个数自适应选择方法。但由于该方法人为地引入了负的先验系数,使得在更新过程中高斯成分的权重有可能被不合理地负更新。王永忠等人在传统混合高斯背景建模的基础上,提出一种了自适应选择混合高斯模型个数的策略,孙丽等在此基础上提出了新的算法。
其算法的基本思想是对于每帧,在图像所有像素的模型总个数固定的情况下,对于频繁变化的背景点,当未达到像素点自身的模型个数上限且不超过图像模型总个数的前提下,可以“借用”相对稳定的区域像素点的未用模型个数的名额,用个数不定的模型来描述该像素点可能的背景。根据模型的转化规则,通过删除模型、增加模型、替换模型来动态分配模型个数及模型的参数更新,并实现背景模型的生成,从而使得背景模型个数能够随着场景的变化动态调整。
在当前时刻,每个像素点都有自己的初始模型,这些模型根据一定的阈值条件,被划分成背景模型和候选背景模型。背景模型和候选背景模型都有自我更新并保持自身模型的状态。当候选背景模型满足一定的条件后,转化成背景模型,而背景模型和候选模型通过刪除模型的机制来达到终止模型状态。本文的背景建模算法在不增加模型总个数的前提下,通过动态删除模型、增加模型以及模型间的转化三种处理机制,分配不定个数的背景模型,并自适应更新参数。
实验表明,该算法能够较好的处理复杂动态场景中背景的频繁变化如树枝叶摇曳、水面波动和喷泉,并在构建背景过程中,一定程度上克服了前景运动目标的影响。与传统的运动目标检测算法相比,本文算法对动态变化背景的描述能力更强,处理速度更快,符合实际场景中运动目标检测的实时性和准确性要求[22]。
第三章 改进的运动目标检测算法 7 12 运动目标检测方法研究总结
第四章 总结
运动目标检测是计算机视觉中富有挑战性的课题之一,对其展开研究具有重要的应用价值和理论意义。本文首先总结研究了现存的三种经典的运动目标检测算法:光流法、帧差法和背景差分法,并对分析了它们的优缺点。光流法不需要预先知道有关场景信息,可以支持摄像机的运动,但是计算复杂度高、耗时长、抗噪性能差,目前没有较好的通用硬件支持。帧差法是将相邻的两帧图像对应像素点进行相减而得到运动目标,能够适应光照突变,运算速度快、算法简单,但是检测结果容易出现“空洞现象”和“双影现象”,它适用于对实时性要求高,对检测的目标信息要求不高的场景中。背景差分法是将当前图像帧和建立的背景图片相减来得到运动目标,该算法复杂度不高,可以满足系统对实时性的要求,背景模型的建立对该方法的实现会产生至关重要的作用然后。
然后介绍了几种改进的检测算法,改进的三帧差分法将改进的 Sobel 边缘检测算子引入到三帧差分法中,因为图像的边缘信息不容易受噪声和亮度突变的影响,所以将三帧差分法和改进的 Sobel 算子相结合弥补了三帧差分法不能将运动目标轮廓完整检测出来的缺点。然后对检测结果进行后期处理,达到改善空洞现象和去噪的目的。最后通过实验对比经典三帧差分法和改进的三帧差分法的检测效果,结果表明改进的三帧差分法的检测结果准确性更高。利用光流场获得粗略的运动区域,将光流值经过滤波,二值化和形态学处理,获得大概的运动目标区域。利用帧间差分法将相邻两帧图像中变化的区域提取出来,通过结合光流法和帧间差分法的结果,进一步将运动目标的提取锁定在一个更加准确的范围内。背景建模法对于每帧,在所有图像像素模型总个数固定的情况下,对于频繁变化的背景点,当未达到像素点自身的模型个数上限且不超过图像模型总个数的前提下,可以借用相对稳定的区域像素点的未用模型个数的名额,用个数不定的模型来描述该像素点可能的背景,从而实现背景模型的动态分配及更新。并基于像素的时域信息,用不包含该像素点在内的小邻域内所有像素点的背景模型与当前点进行匹配,判断其是否为前景点,以此消除动态背景干扰的影响。这些算法都将为今后的研究提供参考和依据。第四章 总结 11 14 运动目标检测方法研究总结
参考文献:
[1] 冈萨雷斯.数字图像处理(第二版)[M].北京:电子工业出版社, 2003:1-115.[2] Stauffer C, Grimson W E L.Learning Patterns of Activity Using Real-time Tracking [J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000, 22(8):747-757.[3] H.Akaike.A New Look at the Statistical Model Identification.IEEE Transaction on Automatic Control, 1974, 19(6):716-723.[4] 朱宏.基于视频序列的运动目标检测与跟踪技术研究[D].西南交通大学硕士学位文,2008:1-5.[5] B K P Horn, B G Schunck.Determing Optical Flow [M].Artificial Intelligence, 1981:185-203.[6] Meyer D.Model Based Extraction of Articulated Objects in Image Sequences for Gait Analysis[C].Proe IEEE International Conference on Image Processing, Santa Barbara, California, 1997:78-81.[7] J L Barren, D J Fleet, S S Beauchemin.Performance of Optical Flow Techinques, Computer Vision, 2004, 12(1):43-77.[8] Roland M, Michael W.A Noise Robust Method for Shape Estimation of Moving Objects in Video Sequences Considering a Moving Camera [M].In Signal Processing, 1998:203-217.[9] 甘明刚, 陈杰, 刘劲.一种基于三帧差分和边缘信息的运动目标检测方法[J].电子与信息学报, 2010:894-897.[10] 郝毫刚, 陈家琪.基于五帧差分和背景差分的运动目标检测算法[J].计算机工程, 2012, 38(4): 146-148.[11] Wren C.Real-Time Traeking of the Human Body [J].IEEE Transactions on Pattern Analysis and Machine Intelligenee, 1997, 19(7):780-785.[12] Stauffer C, Grimson E.Learning Patterns of Activity Using Real-Time Tracking [C].In IEEE [13] 左军毅, 潘泉.基于模型切换的自适应背景建模方法[J].自动化学报, 2007, 5(33):467-472.[14] Transactions on Pattern Recognition and Machine Intelligence(TPAMI), 2000, 22(8):747-757.[15] Xuming Zhang.Impulse Noise Removal Using Directional Difference Based Noise Detector 参考文献 13
and Adaptive Weighted Mean Filter [J].Signal Processing Letters, IEEE, 2009, 16(4):295-298.[16] Gao P, Sun X, Wang W.Moving Object Detection based on Kirsch Operator Combined with Optical Flow[C].Image Analysis and Signal Processing(IASP), 2010 International Conference on.IEEE, 2010: 620-624.[17] Wixson L.Detecting Salient Motion by Accumulating Directionally Consistent Flow[J].IEEE Trans, Pattern Analysis and Machine Intelligence, 2000(22):774-780.[18] Seki M, Fujiwara H, Sumi K.A Robust Background Subtraction Method for Changing background [J].Proceeding of IEEE workship on Application of Computer vision, 2000:207-213.[19] Qinghua Ji, Suping Yu.Motion Object Detection Based on Adaptive Mixture Gaussian Model and Four-frame Subtraction [J].International Conference on Computational and Information Sciences, 2013:1202-1205.[20] 王霏.基于视频的运动目标检测算法研究[D].吉林大学, 2014.[21] 贺丽丽.视频序列中运动目标提取方法研究[D].西安电子科技大学, 2014.[22] 孙丽.基于背景建模的运动目标检测算法研究[D].东北大学, 2011
第三篇:肿瘤标记物检测
肿瘤标记物检测及临床意义
肿瘤标志物是肿瘤细胞本身存在或分泌的特异性物质,应具备以下一些特征:必须由恶性肿瘤细胞产生,并可在血液、组织液、分泌液或肿瘤组织中测出;不应该存在于正常组织和良性疾病中;某一肿瘤的肿瘤标志物应该在该肿瘤的大多数患者中检测出来;临床上尚无明确肿瘤证据之前最好能测出;肿瘤标志物的量最好能反映肿瘤的大小;在一定程度上能有助于估计治疗效果、预测肿瘤的复发和转移。理想的肿瘤标志物应符合上述各项特征。然而,实际上冻存在绝对理想的肿瘤标志物。现今所知的肿瘤标志物中,绝大多数不但存在于恶性肿瘤中,而且也存在于良性肿瘤、胚胎组织,甚至正常组织中。因此,这些肿瘤标志物并非恶性肿瘤的特异性产物,但在恶性肿瘤患者中明显增多。故有人将肿瘤标志物称为肿瘤相关抗原。
肿瘤标志物可以分成以下几大类:肿瘤胚胎性抗原,如甲胎蛋白(AFP)、癌胚抗原(CEA);异位激素(ACTH),血清铁蛋白(Fer/SF),血B2微球蛋白(B2-MG),神经元特异性烯醇化酶(NSE),细胞角蛋白19片段(CYFRA21-1),前列腺酸性磷酸酶(PAP),总前列腺特异性抗原(TPSA),游离前列腺特异性抗原(FPSA),EB病毒抗体(EB-IGM),糖类抗,CA-50),糖类抗原(CA-72-4),糖类抗原(CA-19-9),糖类抗原(CA24-2),糖类抗原(CA-125),糖类抗原(CA15-3),各项肿瘤标记物都有它的临床意义。
1.AFP原发性肝癌最敏感、最特异的指标,适用于大规模普查,如果成人血AFP值升高,则表示有患肝癌的可能AFP含量显著升高一般提示原发性肝细胞癌,但阴性并不能排除原发性肝癌。AFP水平在一定程度上反应肿瘤的大小,其动态变化与病情有一定的关系,是显示治疗效果和预后判断的一项敏感指标。AFP值异常高者一般提示预后不佳,其含量上升则提示病情恶化。通常手术切除肝癌后二个月,AFP值应降至20ng/ml以下,若降的不多或降而复升,提示切除不彻底或有复发、转移的可能。在转移性肝癌中,AFP值一般低于350-400ng/ml。正常参考值0-15ng/ml
2.癌胚抗原(CEA)
在正常成人的血液中CEA很难测出。CEA是一种重要的肿瘤相关抗原,70~90%的结肠腺癌患者CEA高度阳性,在其它恶性肿瘤中的阳性率顺序为胃癌(60~90%)、胰腺癌(70~80%)、小肠腺癌(60~83%)、肺癌(56~80%)、肝癌(62~75%)、乳腺癌(40~68%)、泌尿系癌肿(31~46%)。胃液(胃癌)、唾液(口腔癌、鼻咽癌)以及胸腹水(肺癌、肝癌)中CEA的阳性检测率更高,因为这些肿瘤“浸泡液”中的CEA可先于血中存在。CEA含量与肿瘤大小、有无转移存在一定关系,当发生肝转移时,CEA的升高尤为明显。CEA测定主要用于指导各种肿瘤的治疗及随访,对肿瘤患者血液或其他体液中的CEA浓度进行连续观察,能对病情判断、预后及疗效观察提供重要的依据。CEA的检测对肿
瘤术后复发的敏感度极高,可达80%以上,往往早于临床、病理检查及X光检查。
3.癌抗原125(CA125)
CA125是卵巢癌和子宫内膜癌的首选标志物,如果以65U/ml为阳性界限,Ⅲ-Ⅳ期癌变准确率可达100%。CA125迄今为止是用于卵巢癌的早期诊断、疗效观察、预后判断、监测复发及转移的最重要指标。CA125测定和盆腔检查的结合可提高试验的特异性。对输卵管癌、子宫内膜癌、子宫颈癌、乳腺癌和间皮细胞癌诊断的符合率也很高,良性病变阳性率仅2%。CA125水平的升高是女性生殖系肿瘤复发的信号。正常参考值:0.1~35 U/ml。
4.癌抗原15-3(CA15-3)
CA15-3是乳腺癌的最重要的特异性标志物。30%-50%的乳腺癌患者的CA15-3明显升高,其含量的变化与治疗效果密切相关,是乳腺癌患者诊断和监测术后复发、观察疗效的最佳指标。正常参考值:0.1~25 U/ml
5.癌抗原19-9(CA19-9)
CA19-9是胰腺癌,胃癌,结、直肠癌、胆囊癌的相关标志物,大量研究证明CA19-9浓度与这些肿瘤大小有关,是至今报道的对胰腺癌敏感性最高的标志物。胰腺癌患者85%-95%为阳性,CA19-9测定有助于胰腺癌的鉴别诊断和病情监测。正常参考值:0.1~27 U/ml
6.癌抗原72-4(CA72-4)
CA72-4是目前诊断胃癌的最佳肿瘤标志物之一,对胃癌具有较高的特异性,其敏感性可达28-80%,若与CA19-9及CEA联合检测可以监测70%以上的胃癌。
CA72-4对其他胃肠道癌、乳腺癌、肺癌、卵巢癌也有不同程度的检出率。CA72-4与CA125联合检测,作为诊断原发性及复发性卵巢肿瘤的标志,特异性可达100%。
正常参考值:0.1~7 U/ml
CA242是一种新的肿瘤相关抗原,当消化道发生肿瘤时,其含量升高
CEA与CA242联合检测可提高敏感性,与单独采用CEA检测相比,对结肠癌可提高40-70%,对直肠癌提高达到47-62%。CEA与CA242无相关性,具有独立的诊断价值,且二者之间具有互补性。
正常参考值:0~17 U/ml
CA50是胰腺和结、直肠癌的标志物,是最常用的糖类抗原肿瘤标志物,因其广
泛存在胰腺、胆囊、肝、胃、结直肠、膀胱、子宫,它的肿瘤识别谱比CA19-9广,因此它又是一种普遍的肿瘤标志相关抗原,而不是特指某个器官的肿瘤标志物。
另有报导萎缩性胃炎患者胃液CA50的浓度与正常人比较有显著改变。通常认为萎缩性胃炎是癌前高危期,因此CA50可作为癌前诊断指标之一。在胰腺炎、结肠炎和肺炎发病时,CA50也会升高,但随炎症消除而下降。
9.非小细胞肺癌相关抗原(CYFRA 21-1)
CYFRA 21-1是非小细胞肺癌最有价值的血清肿瘤标志物,尤其对鳞状细胞癌患者的早期诊断、疗效观察、预后监测有重要意义
CYFRA 21-1与良性肺部疾病(肺炎、结核、慢性支气管炎、支气管哮喘、肺气肿)的鉴别特异性比较好。
正常参考值:0.10~4 ng/ml
10.小细胞肺癌相关抗原(神经元特异性烯醇化酶,NSE)
NSE被认为是监测小细胞肺癌的首选标志物,60-80%的小细胞肺癌患者NSE升高
血清NSE水平的测定对于神经母细胞瘤的监测疗效和预报复发均具有重要参考价值,比测定尿液中儿茶酚胺的代谢物更有意义。
另外对胺前体摄取脱羧细胞瘤、精原细胞瘤及其它脑肿瘤的诊断也有重要意义。
正常参考值:0~16 ng/ml
11.鳞状细胞癌抗原(SCC)
鳞状细胞癌抗原(SCC)是一种特异性很好而且是最早用于诊断鳞癌的肿瘤标志物。SCC在正常的鳞状上皮细胞中抑制细胞调亡和参与鳞状上皮层的分化,在肿瘤细胞中参与肿瘤的生长,它有助于所有鳞状上皮细胞起源癌的诊断和监测,对子宫颈癌有较高的诊断价值:对原发性宫颈鳞癌敏感性为44%-69%;复发癌敏感性为67%-100%,特异性90%-96%;正常参考值:< 1.5 mg/L
12.总前列腺特异性抗原(TPSA)
PSA是前列腺癌的特异性标志物,也是目前公认的唯一具有器官特异性肿瘤标志物。血清TPSA升高一般提示前列腺存在病变(前列腺炎、良性增生或癌症
TPSA测定还可用于监测前列腺癌患者或接受激素治疗患者的病情及疗效,90%前列腺癌术后患者的血清TPSA值可降至不能检出的痕量水平,若术后血清TPSA值升高,提示有残存肿瘤。放疗后疗效显著者,50%以上患者在2个月内血清TPSA降至正常。
正常参考值:0.01~4.0 ng/ml
13.游离前列腺特异性抗原(FPSA)
单项的血清总PSA(TPSA)测定不能明确鉴别前列腺癌和良性的前列腺增生,主要是因为在浓度2-20ng/ml范围内,二组病人有交叉。而FPSA/TPSA不受此因素及年龄的影响,通过FPSA/TPSA比值达到鉴别前列腺癌或良性的前列腺增生的目的FPSA检测主要适用于未经治疗、TPSA值为2-20ng/ml病人,当TPSA值低于2ng/ml或高于20ng/ml时,FPSA/TPSA比值并不能用于鉴别前列腺癌和良性的前列腺增生。
正常参考值:0.01~2.0 ng/ml FPSA/TPSA:> 0.15
14.α-L-岩藻糖苷酶(AFU)
AFU是是对原发性肝细胞性肝癌检测的又一敏感、特异的新标志物。原发性肝癌患者血清AFU活力显著高于其它各类疾患(包括良、恶性肿瘤)。血清AFU活性动态曲线对判断肝癌治疗效果、估计预后和预报复发有着极其重要的意义
正常参考值:234~414 μmol/L
15.EB病毒抗体(EBV-VCA)
EB病毒阳性、鼻咽癌家族史、鼻咽癌的高发区、身体免疫力低下,都可能是患鼻咽癌的高危因素。从理论上讲,如EB病毒检查阳性者,仅是代表患者以前曾经受过EB病毒感染,但它是否是鼻咽癌发病的直接原因,目前尚无定论。但临床实践,科学研究表明,阳性者患鼻咽癌的机会比阴性者大得多。正常参考值:EBV-VCA抗体 阴性
16.肿瘤相关物质(TSGF)
TSGF肿瘤相关物质联合检测(原名恶性肿瘤特异性生长因子)是一种可以简便快速地用于恶性肿瘤早期辅助诊断的新型的肿瘤标志物,对疗效观察、人群查体亦有很高的应用价值。
恶性肿瘤患者血清中TSGF含量显著升高,不同种类的恶性肿瘤间差异不明显;而良性肿瘤与健康人群间无显著差异,TSGF是良、恶性肿瘤的鉴别指标,可在辅助诊断恶性肿瘤方面发挥作用正常参考值:正常人TSGF浓度范围为47±17U/ml;<64U/ml为阴性;≥64U/ml而<71U/ml为可疑;≥71U/ml为阳性。
17.铁蛋白(SF)
铁蛋白升高可见于下列肿瘤:急性白血病、何杰金氏病、肺癌、结肠癌、肝癌和前列腺癌。检测铁蛋白对肝脏转移性肿瘤有诊断价值,76%的肝转移病人铁蛋白含量高于400μg/L,当肝癌时,AFP测定值较低的情况下,可用铁蛋白测定值补充,以提高诊断率。
正常参考值:男性:30~400 μg/L 女性:13~150 μg/L
18.β2-微球蛋(β2-MG)
β2-MG是恶性肿瘤的辅助标志物,也是一些肿瘤细胞上的肿瘤相关抗原。在恶性血液病或其它实质性癌瘤中,突变细胞合成和分泌β2-MG,可使病人血清中浓度显著上升,在淋巴系统肿瘤如慢性淋巴细胞白血病、淋巴细胞肉瘤、多发性骨髓瘤等中尤为明显,在肺癌、乳腺癌、胃肠正常参考值:1.58~3.55 μg/ml
道癌及子宫颈癌等中也可见增高。
正常参考值:1.58~3.55 μg/ml
19.胰胚胎抗原(POA)
胰胚胎抗原是胰腺癌的又一新型、敏感、特异的新标志物,胰腺癌的POA的阳性率为95%
正常参考值:0~7 U/ml
20.胃泌素前体释放肽(PROGRP)
胃泌素前体释放肽是一种新的小细胞肺癌标志物。PROGRP是脑肠激素的一种,是小细胞肺癌增殖因子胃泌素释放肽的前体。PROGRP作为小细胞肺癌标志物有以下特点:1.针对小细胞肺癌的特异性非常高;2.较早期的病例有较高的阳性率;3.健康者与患者血中浓度差异很大,因而检测的可靠性很高。
正常参考值: 4~6 pg/ml
现在临床对一些肿瘤项目进行一些组合检查肿瘤普查:
1、肿瘤普查四项:AFP、CEA、Fer、β2-MG2、肿瘤三项:AFP、CEA、CA1993、妇科肿瘤五项:AFP、CEA、CA125、CA153、CA1994、卵巢癌二项:CA125、CEA5、乳腺癌二项:CA153、CA1996、消化道肿瘤六项:AFP CEA CA199 CA242 CA724 CA507、肝胆肿瘤五项:AFP CEA CA199 CA125 CA508、胃癌三项:CEA CA724 CA1999、肺癌三项:CEA NSE CYFRA21110、前列腺癌三项:PSA FPSA PAP11、前列腺癌两项:PSA FPSA
第四篇:图像和视频中的不规则检测
图像和视频中的不规则检测
摘要:我们从事于研究可视化数据中的不规则检测,例如检测视频中的可疑行为或者是识别图像中的跳跃性模式。“不规则”这个术语依靠于被定义的“规则的”或是“合法的”的上下文。然而,期待可以在一个给出的上下文显定义所有合法的结构是不现实的。我们把决定可视化数据合法性的问题当作构造迷题的过程:我们努力去用大块的数据(“一块块的迷题”)组成一个新的已经观察到的图像区域或是一个新的视频片断(“查询请求”),这些大块的数据是从先前的可视化样本(“数据库”)中抽取出来的。这些在被用数据库中的大块接近的数据组成的被观察的数据中的区域被认为是非常相像的,但是这些不可以从数据库(或者仅仅是可以用小片断数据组成)组成的被观察的数据中的区域是被认为是很不相像或是可疑的。这个问题被作为一个处理盖然论图像模型中的推论提出来。我们展示一些利用这些方法的应用程序来识别图像和视频中的显著,目的是用它来探测可疑行为和高质量保证的自动化图像检测。
关键字:探测可疑行为,显著,不规则探测,新奇事物探测,自动探测,动作识别,自动图像检查
1. 介绍
图像和视频中不规则图像模型的探测在各种各样的任务中都是很有用的。对于监视和监测来说探测可疑行为或是异常目标是重要的。对于质量控制和自动检查来说,在图像中识别空间显著是有用的。在视频中的行为显著对于吸引观看者的注意力是有用的。先前识别可疑行为或活动的方法可以广泛的被分成两类:基于规则的方法(例如,Ivanov and Bobick(1999))和没有预定义规则的统计方法(例如,Stauffer and Grimson(2000)和Zhong et al.(2004))。统计方法更加有吸引力,这是由于它们不用为所有合法结构假想出一系列预定义的规则集,而是,他们尝试着自动的从数据中学习规则中的概念,并且就这样推断出各种可疑行为。然而,在先前方法中已经被应用的代表方法要么是很有限制性(例如,trajectories of moving objects(Stauffer and Grimson, 2000))要么是太过全球性了(例如,a single small descriptor vector for an entire frame(Zhong等人, 2004))本论文中,我们用公式化的形式把探测规则和不规则的问题表示成为用从先前视频样本(数据库)中提取出来的时空块组成(解释)已经观察到的图像数据(一个图像或是一个视频,在下面提到时用“查询”表示)或是视频的问题。这些可以用从样本数据库中抽取的巨大接近的数据块组成的查询中的区域被认为是相似的,这些区域越大,相似性就越强。在不能用样本数据库组成的查询中的区域被认为是不相似的或是可疑的。我们的方法因此可以从仅仅少量的几个样本就能推断或是归纳更大上下文的图像模式和行为,甚至这些从来都没有见过的特别结构的图像模式和行为的合法性,本地描述符是从小图像或
是视频块(被组成在一起来形成大的块)中抽取出来的,因此它可以快速和高效的推断出行为改变中的细微但重要的改变(例如,一个人在走和一个人拿着一支枪在走的不同)。而且,我们的方法可以同时识别出一个合法的行为在一个视窗区域部分,并且可疑行为在另一个视窗区域中部分,因此在这一帧仅仅是标明探测到的可疑区域,而不是整一帧都标明出来。在第6节将给出这样的例子。从图像碎片中得出的推断在先前已经被应用到基于分类的目标识别(例如,Bart and Ullman(2004), Felzenszwalb和 Huttenlocher(2005)and Fergus等人)中的任务上去了。少数的情报帧已经被人学习和预选择用来作为少数的目标的预定义分类。然而,基于分类的表述不可以捕获组成一幅场景中未知目标或行为的所有一切的可能的情况,因此它不适合于探测不规则性任务。我们的方法也可以应用在探测图像和视频中的显著。例如,给出一幅没有先前信息的简单的图像,我们可以测量出每一幅图像区域(查询)相对于同样图像(被用作特殊查询的“数据库”)的剩下部分的“合法”性。类似的,给出一段简单的视频(没有关于什么是正常行为先前知识),我们可以探测“显著行为”,这些行为不能被任何其它在视频里同时发生的动态现象所支持。用来探测图像显著(例如,Itti等人(1998))的先前的方法被提议用来测量本地图像和它的瞬间周围区域的相异程度。因此,例如,显示出巨大改变的图像区域被探测为显著图像区域。他们的“视觉注意”的定义是来源于同样的推理。然而,我们相信显著的概念没有必
要由瞬间周围图像所决定。例如,一个在黑色纸上简单的黄点可以是显著。然而,假如在黑纸上有很多黄色的点,那么一个简单的黄点再也无法引起我们的注意,即使它相对于周围附近来说仍然有巨大的改变。因此我们的方法建议一种新对于术语“显著”更加直觉的解释,它来于整个图像的内部统计。我们处理空间图像显著的方法更接近于Honda和Nayar(2001).的方法。然而,(Honda 和Nayar, 2001)在重复性结构的图像模型是局限性的并且它高度依赖于本地周围图像属性,然而我们的方法却不是这样。用我们的方法探测图像空间显著和视频行为显著的例子将在第6节给出。我们的论文因此提供了四方面主要贡献:
1. 我们提议一个可以从仅有的几个样本中就可以推断和归纳的方法,这个方法是关于一个更大的上下文图像模式和行为的合法性的,甚至是这些从来都没有见过的特殊结构的合法性。2. 我们提出一个基于图表的贝叶斯定理的推论运算法则,它可以在成倍增加的时空范围里高效的探测巨大碎片块整体(例如,好几百块的碎片块)。它可以同时增强这些在整体以及单个的描述符上的碎片里的相关几何方面的排列上的约束。
3. 我们提议对图像和视频里术语中的“显著”和“视觉上的注意”给出一个新的解释。
4. 我们给出单个统一的框架来处理几个计算机视觉里的问题,这些问题在过去已经被单独的处理过。这些问题包括:图像的注意,视频的注意,可疑行为的识别,异常物体的识别,自动视频检查(例如,用来质量的保证)等等。
本论文的短文版在ICCV 2005(Boiman and Irani, 2005)提供。
2. 由组成得出的推论
当给出了几个样例后,我们(人类)对于什么是规则/合法,什么是不规则/可疑,甚至是见到以前我们从来没有见过的新结构的东西,都会有一个概念。我们从来不需要显定义给定上下文的合法结构的所有可能。“规则”/“合法”这些概念可以从简单的几个合法模型(视频中的行为或是图像的外观)的样例中学习和归纳得来,并且所有其它结构可以自动的从这些当中推断得到。图表1(Figure 1)说明了潜在于本论文的基本概念。假设一幅新图像(一个查询—Fig.1(a)),我们检查是否每个图像区域都可以从数据库里找到一张足够大的接近的区域来解释(见 Figs.1(b)和(c))。尽管我们从来没有见过一个人两臂举起来那样坐着,但是我们可以从这Fig.1(c)里的三个数据库图像里推断出这个动作的合法性。这样,能用数据库里巨大的数据块来解释的新观察到数据/查询(一个图像或是视频)里的区域被认为是很相像的,相反,不能用数据库里的足够大的数据块来解释的查询里的区域被认为是不相像或是可疑的。当一个视觉的查询是一个图像,那么这些数据块仅有空间的范围。当一个 视频查询是一个视频,那么这些数据块就既有空间又有时间范围了。
Detecting Irregularities in Images and in Video 19 Figure 1.The basic concept—Inference by Composition.A region in the query image is considered likely if it has a large enough contiguous region of support in the database.New valid image configurations can thus be inferred from the database, even though they have never been Seen before.Figure 2.Detecting a matching ensemble of patches.3. 碎片的组合
人类的行为或自然的空间结构从来都没有相同的重复着。例如,没有两个人是走路是相同的。一个人比另一个人的手臂抬高一点,或是仅仅走得快一点。我们因此想允许它在我们的“迷题的块”(数据块)里有一个小小的非严格变形(在空间和时间上)。这对于巨大的数据块来说尤其的正确。为了计算本地的非严格变形,巨大的块利用它们相对的几何位置在多维度上被分解成很多小块的组合。这在Fig.1(d)中有说明。在推论处理过程,我们寻找具有相似属性(行为或是外表)的块的相似的几何结构,同时允许在相对几何排列上有微小的本地未对准。这个概念在Fig.2中说明。当视觉查询是一个图像,碎片的组合被组成空间碎片(见Fig.3(a))。当视觉的查询是一个视频,那么碎片的组合被组成时空碎片(见Fig.3(b)),这允许我们捕捉动态的行为信息。在我们当前的实现来说,一个简单的典型的组合都同时从多维度(图像碎片案例中的多空间维度,和时空碎片案例中的多时空维度)具有好几百个碎片。当从样本碎片中组合新数据这个想法被先前证明对于大量的任务都是有用时,(e.g., Efros and Leung(1999), Freeman et al.(2000)and Wexler et al.(2004)),这些方法没有在用于构建的样本碎片上强加任何的几何约束,也就是说,它们的相对位置和距离在数据库里没有强加任何的几何约束。对于他们的目的来说一点必要都没有。然而对于检测不规则来说是至关重要的。经常,在相似和不相似现象之间区别的唯一真实的信息提示是数据库支持的碎片
程度。例如,一个举着一支枪的人伸直一条手臂和一个人走路时瞬间伸直手臂是相似的,但是在时间上它的区域的支持度是非常有限的。获取碎片的几何相关性被认为对于基于分类的目标识别(Bart and Ullman, 2004;Felzenszwalb and Huttenlocher, 2005;Fergus et al.,;Leibe et al.)任务来说是重要的。这些方法不适合我们的目标,因为两个原因:(i)他们的几何结构受限制于相关的小数量的碎片,这样就不能捕捉那些用来探测不规则性的敏感的区别。(ii)这些结构是为小数量预定义的目标类来预学习的,然而我们的框架是可以应用于任何类型的视觉数据。当Leibe等人的几何约束更加的灵活,这样就允许从仅仅少数几个样本就能识别新的目标结构,对于一堆有预定义目标中心的预定义的目标类,他们的方法仍然是有局限的。这就不适合于探测不规则性,它也没有目标类的概念。“Video Google‖(Sivic and Zisserman, 2003)强化了在巨大的非基于分类的描述符的几何约束,并且搜索他们都非常的高效。然而,这些描述符在自然界中有空间性的并且这搜索受限于单个的图像帧,这样就不能允许去捕捉行为。为了在合理的时间里推断处理完成,小块的信息和它们之间的相关排列必须被高效的存储在数据库里并且能从数据库里高效的抽取出来。对于每个从样本抽取出来的小块,一个描述符向量连同绝对相关碎片(空间的或是时空的相关性)被计算和存储(见下面)。这样,在图像和视频数据库里的所有碎片的相对排列都是隐式有效的。后来,我们的推论运算法则采取从视觉查询中的碎片组合并且查找数据
库来寻找相似的结构碎片(既有描述符又有他们的相对几何排列)。为了能快速的查找和检索,这些碎片被存储成多维的数据结构。用一个或然论的图形模式(第4节),我们为寻找问题的组合提出了一个高效的推论运算法则。
3.1 碎片描述符
碎片描述符是为每一个查询碎片和每一个数据库碎片而产生的。描述符捕捉关于外表和行为的本地信息。我们当前的实现用的是非常简单的描述符,这些描述符很容易就被那些更加世故圆滑的描述符所替代: 小空间碎片的空间图像描述符是由以下构成:为碎片里的每一个像素计算它的空间倾斜度的大小,这些值然后被一个向量所保存,这个向量规格化成一个单位长度。如此的描述符被密密麻麻的解压到图像里的每一个像素。这个描述符解压处理过程被几个图像的空间高斯金字塔的空间范围所替换。这样,一个从粗糙范围解压出来的7 X 7的碎片就比它的输入图像(也就是说精度)具有更高的空间支持度。在一些应用里,一个RGB/基于亮度的描述可能比一个基于倾斜度的描述符更适合。一般来说,我们的整体的框架没有局限SIFT(Lowe, 2004)于这些特殊的描述符。这些很容易就被比它更世故圆滑的空间描述符例如SIFT(Lowe, 2004)等所替代。一个小(也就是7×7×4)的时空视频碎片的时空视频描述符由碎片的所有像素的时间派生的绝对值所构成。这些值构成一个向量并且规格化成一个单位长度。这个描述符解压处理过程被几个时空视频金
字塔的空间时间维度所替代。这样,一个从粗糙维度解压出来的7 × 7 × 4的碎片比它的输入序列具有一个更大的空间和更大的时间支持度。注意到一点是,由于时间派生物在任何的静态的背景下总是为零的,所以这个描述符几乎是一个静态背景不等式。所以,利用这时空
描述符,我们可以在新的查询序列中探测不规则,而完全不用理会它的背景。然而,这简单的描述符依赖于空间织品的质量,比如当一个人穿着一件织地非常粗糙的衣服时它可能引起一个问题。我们的方法,然而就不会这样局限于这些简单描述符特殊的选择。这些描述符可以很容易的就被那些世故圆滑的时空描述符(这些描述符对动作敏感并且更加的外表不变)所替代,例如Shechtman 和 Irani(2005)或Laptev 和 Lindeberg(2003)。Boiman and Irani
Figure 3.Ensembles of patches in images and video.4. 基本的运算法则
给定一个新的视觉查询(一个图像或是一个视频),我们很愿意去估计它的每个点的可能性。这可以通过检查一个巨大的周围的每一个像素的区域(也就是说,50 × 50的图像区域和50 × 50 × 50视频区域)的合法性来实现。这巨大的周围区域被多维度(空间或是时空的)的分离成大量(好几百个)的小的碎片,并且被表述为一个单一的与特殊图像/视频点相关的碎片的组合。令q1, q2,..., qn表示组合中的碎片(见Fig.3(a))。每一个碎片qi都与两种类型的属性相关:(i)它的描述向量di和(ii)它的绝对坐标的位置li。我们选择任意的参考点C(也就是这组合的中心(见Fig.3(a)),C点作为本地坐标系统(这样就可以定义组合内碎片的相对位置)的“原点” 4.1.统计公式
令一个观察到的查询范围内的碎片组合用y来表示。我们想去计算连接的可能性P(x,y),其中观察到的查询中的组合y与在数据库(既在碎片的描述符值相似也在相对位置上相似)中的隐藏的组合x是相似的。我们可以连接可能性变成:P(x, y)= P(y | x)P(x)。我们的模型P(y | x)类似于Felzenszwalb and Huttenlocher(2005)的“星图”或然论模型。然而,在Felzenszwalb and Huttenlocher(2005)基于分类的设置表示为P(y;θ),其中θ是一个给定的基于分类的碎片群参数的预学习集。在我们的案例中,然而,对目标是没有概念的,也就是说,没
有数据库组合x的前验参数模型。这样,θ是未定义的,并且P(x)必须直接从样本数据库中非参数的评估。令diy表示观察到的碎片y中的第i个描述符向量,liy表示它的位置(在绝对坐标里)。类似的,dix表示在碎片x中的第i个隐藏(数据库)的描述符向量,lix表示它的位置。令cy和 cx表示被观察到的和隐藏的组合的“原始”点。任何这样一对组合y和x的相似性被以下的可能性公式捕获:
P(x, y)= P(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y,...)(1)
为了让计算Eq.(1)的可能性易于操作,我们做了一些简化的统计假设。给定一个隐藏数据库碎片和它的描述符dix,这相应的观察到的描述符diy被假设成与其它碎片描述符无关。(这是标准的马尔可夫链的假设,也就是说,Freeman等人(2000),这个在重叠碎片上明显是不合法的,但它是一个有用近似值)。我们用一个高斯分布在描述符间建立相似性模型:
P(diy|dix)=α1exp(−1/2(diy− dix)T S D−1(diy− dix))(2)这里,α1是一个常量,SD个常量协方差矩阵,它决定描述符值的可允许的偏差。其它的分布可以根据其它描述符的相似性函数插入到模型中。给定一个隐藏数据库碎片的相对位置(lix− cx),观察到的相应碎片(liy− cy)的相对位置被假设成不依赖于所有其它碎片位置。这个假设使得有足够灵活性去适应在视线角度、范围、位置和行为上的微小变化进行比较两个碎片组合的几何排列,这样:
P(liy | lix, cx , cy)= α2 exp(− 1/2((liy− cy)−(lix− cx))T× S−1L((liy− cy)−(lix− cx))))(3)这里α2是一个常量,SL是一个常量协方差矩阵,它捕获了相对碎片位置中的所被允许的偏差。(本案例中,相对位置的依赖是用高斯来建模,然而这模型并没有受限它)。到目前为止我们已经建立了组合(描述符:diy, dix相应位置:liy− cy , lix− cx)间属性的关系模型,我们仍然需要建立隐藏组合内的关系(也就是一个碎片描述符dix和它的位置间lix.的关系)模型。在一般的案例中,这关系是非常的不可分析,因此不能被参数化(与基于分类方法形成对照,也就是说Felzenszwalb 和 Huttenlocher(2005)和 Fergus 等人(2003))的建模。因此,我们利用数据库中的样本进行非参数化的为它建模:(dx, lx)∈ Database
P(dx| lx)=
0 otherwise
(4)
这里 dx 和 lx是任意描述符和位置。我们为cx和cy(本地原始点)假设一个相同的先验分布,也就是,没有预先优先选择哪一个本地数据库或是查询的组合。所有上面提到的变量之间的关系在Fig.4中的贝叶斯网络所描述。
Boiman and Irani
Figure 4 或然论图形模型
这贝叶斯依赖通过变量间的箭头表示出来。这依赖关系仅仅为组合中的一个碎片(第i个碎片)而表示出来。观察到的变量用“橙色”表示出来;隐藏变量用“蓝色”表示出来。cx 和 cy分别是隐藏的和观察到的组合的“原点”,Lix and li y是隐藏的和观察到的组合的第i个
碎片的位置(绝对坐标);dix 和 diy是每一个组合的第i个碎片的描述符向量。
这样,对于一个观察到的组合 y 和一个隐藏数据库组合 x,我
们可以通过利用Eqs.(2)–(4)来得出Eq.(1)的共同可能性P(x, y)如下: P(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y)
= αiP(liy| lix, cx , cy)P(diy| dix)P(dix| lix)(5)∏
我们可以得出连接可能性的协方差矩阵,每一个都与模型中的一个不同部分所关联着。当识别的任务受限于几个已知预定义的类型时,也就是每一个都有它的预定义部分和参数时,这是一个好方法。这,然而,不是我们案例中的设置,那里没有预定义我们要寻找什么的概念,然而,我们想能够探测相对于样本细小的不规则。我们的模型因此是 非参数的并且它的归纳能力不依赖于参数的调整,但是更依赖于数据库中样本的差异性。这在个意义上来说,我们的非参数模型具有了Leibe等人的非参数处理方法的共同之处。在我们的实现中,我们已经设置协方差矩阵SD和SL成为一个简单的凭经验决定的标量方差。这个简单的设置给我们的实验一个满意的答案。注意到在这个设置里,这两个参数的单一的目的就是适当的承担了几何变形和外表/描述符变形的代价。而且,注意到这些是模型中的仅有的参数,因此需要非常少的参数调整。4.2 信任传播推论
给定一个观察到的组合,我们寻找一个隐藏的数据库组合,这个组合最大化它的MAP(最大归纳的可能性)分配。这被通过上面统计模型来完成,这个模型具有一个简单并且确切的信任传播运算法则(Yedidia 等人,2003)。根据Eq.(5),MAP分配可以被写成: max1111P(c , d ,..., l ,..., c , d ,..., lxxxyyy)X maxP(li| li, c , c)maxP(di| di)P(di| li)(7)= α∏y xxyy xx xilixdix这个表达式可以被表达成一个在Fig.4里传递运算法则的消息。首先我们为每一个碎片计算从结点dix到结点lix关于它在位置lix的信任消息midl :
maxmdl(lx)= dixP(diy | dix)P(di x | lix)(8)ii也就是,对于每一个观察到的碎片,用高描述符相似性计算每一个候选数据库位置lix。下一步,对这些候选数据库的每一个位置,我们都传递一个包含在数据库中可能原始位置cx:
milc(cx)= maxlixP(liy | lix,cx,cy)mdl(lix)(9)在这一点,我们有一个被每一个碎片暗示的候选原始列表。为了计算一个整体组合任务的可能性,我们从组合里的所有个体碎片中乘这信任:
mi(c)(10)mc(cx)=∏ ilcx通过这个运算法则处理的推论运算量一个MAP推论。因此,在样本数据库中只发生一次的东西相等于那些发生很多次的东西。这个公式在很多应用中都很有用,然而,那可能有这样的应用,在那里我们愿意发生在数据库中的频率去影响一个组合的可能性。上面运算法则的
一个简单的修改允许去计算可能性而不是MAP,这是通过转换推论运算法则从一个最大乘积转换成一个和乘积。4.3 估计查询点的可能性
对查询中每一个点,我们尝试去在它周围组合一个巨大的区域。这可以通过检查一个围绕着每一个点的巨大区域的合法性,检查时用上面的推论处理过程(通过计算一个查询区域相似性)。这一点参与在很多查询区域中。我们定义一个查询点的相似性为包含那个点的最大区域可能性。因此,假如存在一个包含它的巨大区域,有相应的相似性数据库区域的话,在查询中的一个点将有一个高可能性。这个方法,我们可以利用部份的目标闭塞组合成查询,因为靠近边界的点被包含在目标里的一个巨大的区域中。然而,部分闭塞可能生成小的邻接的目标区域,这些区域不能被用高可能性利用我们当前推论运算法则去组合而已的。我们希望我们围绕每一个点组合的区域尽可能的大,因为这区域越大,这一点是不规则的这个证据就越大。然而,那有这样的案例,在这些案例里,一个“规则”的观察到的组合不能被完全的由一个简单的数据库组合而组成(例如,由于部分闭塞)。这那些案例中(不是很高频率的那些),我们减小观察区域的尺寸(例如,减小25%)并且重复着推论的过程,完全没有包括被丢弃的碎片。我们处罚总体组合可能性的分数为每一个我们丢弃的碎片。根据Eq.(6)我们增加一个常量代价处罚为每一个我们丢弃的碎片。处罚期限的大小,反映了我们归因于组合区域大小的重要程度。
处理不同大小的组合:为了探测在一个整体观察里的不规则区域,我们仅仅开始了在Eq.(6)里的组合代价。然而,那可能有一些观察到的组合大小可能不同的案例(例如,因为非情报性区域,排除分析的区域,数据边界,等等)。为了比较不同大小的组合合成代价,需要一个标准化的东西。我们利用一个标准化,它是基于统计组合代价显著水平的标准化。我们定义一个零假设H0,这样每一个观察到的组合都通过上面定义的统计模型来产生。因此,组成代价C0的统计显著水平可以通过P值 Pr(C > C0 | H0)来测量到。假定这零假设,并且给定一个隐藏的组合,每一期限在Eq(6)里的组成代价都是按照χ2分布的,并且总体代价的分布也是按χ2分布。这些分布可以被用到计算这样的P值,它为不同大小的组合“规格化”它们的组成代价。
5. 一个高效的推论运算法则
在第4.2节中信息传递运算法则的一个本地的实现是很不高效的,由于独立描符查询是为每一个观察到的组合中的碎片而处理的,完全不用回答先前被其它碎片处理的查询。这导致了一个O(Nk)的复杂度,N是数据库中碎片的数量(例如100,000个碎片为一个一分钟的视频数据库)并且K是组合中碎片的数量(例如256)。而且,我们将会扫描整个的查询(一个新图像或是一个新视频),这个查询导致一个总共O(Nkq)的复杂度,这里Q是查询中碎片的数量。这复杂性对于真实的应用来说是禁止的,因为每一个词语(N, k 和q)都是不可以忽
略的。在本章节中我们给出了怎么样可以做到不用牺牲精确度而显著的减少复杂度。5.1. 改进的排除过程
观察到的组合中的碎片与某一几何排列有关。我们可以用这知识通过改进的消除数据库里的查询空间来进行一个高效的查询:我们为一个少数量的碎片(例如1个)来计算消息midl。可能的候选原点的结果列表包含了为下一个碎片的非常有限的查询空间。下一个碎片,依次,从已经候选的短列表中消除附加的原点,等等。这个处理过程在Fig.5.中图表说明。为了加速这进步的消除的过程,我们在 Eqs.(2)和(3)用削去顶端的高斯分布(4σ之后的削去)。因此,根据几何学或是外观/描述符,这些分布将一个零的可能性给高碎片变形。第一个碎片查询的代价是O(N)。我们仅仅从被第一碎片(在我们的实现里,c=50)提议列表中保存了最好的C候选原点。第二碎片现在受限于C位置的近邻。第二碎片将受限于一个更加小数量的近邻。这样,在最糟糕的案例想定,我们的复杂是O(N + kc)≈ O(N)。相反,在Felzenszwalb and Huttenlocher(2005)and Leibe 等人的推论处理的复杂度是O(Nk),而这“群星模型”(Fergus 等人)复杂度在碎片数量上是指数型的。上面被提议的在复杂度方面的减少对于使能拥有几百个的碎片的组合的视频推论是极度重要的。值得注意的是极限缩小候选原点的数量直到C候选可能会是有问题的:例如,假如我们选择的第一个碎片是非情报的(也就是单边),那么选择最优C候选是武断的并且我们可能抛弃了全局最优组
合。在实践中,我们推论算法(多维度策略,预搜查,和扫描观察)的其它组件消除了这风险。注意到的是,假如我们采取削峰高斯分布(或其它有限支持分布),并且假如搜查第一个最新碎片范围少于C候选位置,那么这改进的消除处理保证一个确切的解决方法,因为我们仅仅抛弃有零相似性的候选。注意到这使得在这样的条件下,我们可以提供一个确凿推论,这个推论等价于含有简化复杂度的信任传播。而且,我们知道在推论过程中,这结果是确凿的(最优化)或是它仅仅是一个近似值。
5.2. 多维查找
为了进一步加速这消除过程,我们用一个由粗糙到精细的策略(既有时间又有空间)。我们从粗糙的维度选择第一个查找碎片,因为两个原因:(i)在数据库里有一个更小数量的粗糙碎片比精细的碎片(这样减少了有效的N在第一个最强烈的步骤中),并且(ii)粗糙的碎片更加有判别力的因为他们从巨大的区域中捕获了信息。这消除数据库组合的候选区域是非常快速的。我们进行下去直到我们处理完所有的在观察到的粗糙维度的碎片。于是我们投出候选原始点到下一个精密标度并且继续去处理在精密维度(既是空间上也是时间上的)里的碎片。我们用多维度的方法去处理所有在观察到组合里的碎片。这个多维度查找的复杂度是O(N0 + kc),这里N0是时空金字塔里最粗糙维度的碎片数量。
5.3.高效的数据库存储和检索
一个简单的数据库实现可以是用一个碎片描述符的排列和线性的查找。然而,时间和空间复杂度可以显著的分别的提升数据库的存储和检索。存储空间可以通过保持描述符向量近似值的方法得到显著的减少。例如,所有描述符向量通过利用标准技术例如PCA和ICA的技术可以被到映射成一个低维线性空间。另外,向量量子化技术(例如K均值,或是Jurie and Triggs(2005))可以被应用到描述符的聚类组中。映射和量子化的结果是出现更少存储的描述符,并且每一个描述符都更短了。另一个好处是数据库检索时间被缩短了。注意到映射和量子化在描述符向量里引进了错误。假如每一个“被压缩”的描述符向量包含一个连接原始描述符的话,我们就可以消除错误了。本案例中,存储空间没有被缩小,但是检索的时候将会被缩小。一个接近的相关的缩短数据库检索时间的相关方法是使用更好的数据结构去存储描述符向量,例如KD树和hash表去查找大约最近邻。这些数据结构使最快范围查询(在一个给定的元素的某一范围里发现所有在数据库里的元素)。这个时间复杂度的结果是O(Range(N0)+ kc),这里(N0)《 N0表示在有N0元素(碎片)的数据库数据结构的范围查询的代价。
5.4 利用预查询的方法
到目前为止我们假定上面描述的组合算法是被应用到所有观察的点,这些点完全不彼此不相关的。这常常是徒劳无功的,因为邻近的被观察到的组合在数据库里倾向于拥有近邻隐藏的组合。我们利用这个事实通过测试隐藏组合变量在空间和时间上的值去加速合成的过程。通过所有的先前组成的组合,凭借着从观察到的重叠碎片里获得的知识,我们预测隐藏组合中心的位置和数据库里的隐藏碎片的身份。我们用最简单的预测:给定一个近邻的观察到的组合(˜y和它的相应被探测的数据库组合~ X),我们预测一些在隐藏组合X里的隐藏变量,相对应的是一个新观察到的组合Y。我们预测用以下公式预测隐藏组合中心Cx:
cx = c˜x + cy − c˜y
(11)而且,对每一个观察到出现在预测组合(liy, diy)=(l˜jy ,d˜jy)的碎片(liy,diy),我们预测相应的隐藏变量(lix, dix)=(l˜jx ,d˜jx)。没有预测的剩下的隐藏变量,可以用改进的消除过程非常快的被推断出来。注意到的是对于近邻组合,大多数的观察到的碎片是重叠在一起的,因此组成一个新组合的复杂度是非常低的。万一预测错误并且因此导致一个低质量的组合(也就是说,被观察到的区域有较低的可能性),我们就抛弃这预测结果并且在整个的数据库里都用通用的推论。这样,这个预测查询就不会在数据库的别处阻止探测。然而,在大多数的情况下,这预测查询是很精确的并且它减少相当多的推论时间。假定有一个长度为r的合法性预测“链条”,在链条中预测一个组合的代价是O(k)。因此,这样一个链条的总的复杂度是O(Range(N0)+ kc + kr)而不是没有预测时的O(Range(N0)r +
krc)。除些之外,还非常的明显的缩短推论时间,预测确实提升了推论的准确性。这是因为组合精准的这些区域繁殖信息到了精确性不高的那些区域(例如,一个站立的人的一条腿比身体的上部有更少的确定性)。
6. 应用
在本论文提出的方法引起了各种各样包括探测图像和视频不规则方面的应用:
6.1.探测与异常图像结构
给定一个样本图像数据库,我们可以要新观察到的图像中探测一些异常的东西(例如从来都没有见过的物体,新的图像模式,等等)在Fig.6里给出一个例子。三个不同姿势的图像作为一个数据库被提供(Fig.6(a))。其它姿势的图像作为查询被提供(Fig.6(b))。新的合法的姿势被自动的从数据库里推断出来,尽管它们是从来都没有见过的。不能从三个数据库图像被推断出来的新姿势部分被用红色标示成“不熟悉的”(Fig.6(c))。Figure 6(d)真实的标出了这些能够为大多数查询图像中的每一个像素提供证据的数据库图像(也就是说,这告诉我们哪一个数据库图像包含了最大可能支持那像素的区域。注意,然而,这些并不是支持它们自己的区域)。默认具有相同碎片的和从推论过程中被抛弃(为了加快速度)的相同的碎片(具有可以忽略的图像倾斜度)被假定为合法的。
Figure 6.Detection of irregular image configurations.New valid poses are automatically inferred from the database(e.g., a man sitting on the chair with both arms up, a man sitting on a chair with one arm up), even though they have never been seen before.New pose parts which cannot be inferred from the three database images are highlighted in red as being ―unfamiliar‖.6.2 单一图像的空间显著
给定一幅单一的图像(也就是说没有数据库),显著图像区域可以被探测到,例如,那些凸出的不同于剩余部分的图像的区域。这可以通过测量每个相对于同一幅图像中剩余点的图像区域(即“查询”)的可能性来实现(这数据库用作推论这特殊的区域)。这个处理过程为每一个图像区域重复着。(当进行着从一个图像区域的分析到下一个图像区域的分析时,这个处理过程可以通过自适应增加或是减少数据库中的大约描述符的方法而很高效的实现)。这样的一个例子在Fig.7.中表示出来。这个方法可以被应用到自动视觉检测的问题中(计算机芯片、货物等的检测)。
Figure 7.Identifying salient regions in a single image(no database;no prior information).The Jack card was detected as salient.Note that even though the diamond cards are different from each other, none of them is identified as salient.6.3 探测可疑行为
给定显示几个合法行为例子的一个小数据系列,我们可以一个新的长
视频中探测到可疑和为。这是完全不管我们以前从来都没有看过这些行为的组合,而且是没有关于哪一类的可疑行为可能发生在视频里的先验知识的。这些是自动的组合与从数据库中的时空区域里推断出来的。Fig.8有一个这样的例子,它从一个2分钟长的视频短片里显示出几个用来探测可疑行为的例子。要看完整的视频请登录www.xiexiebang.combinations are automatically inferred from the database(e.g., two men walking together, a different person running, etc.), even though they have never been seen before.behaviors which cannot be inferred from the database clips are highlighted in red as being ―suspicious‖.For full videos see www.wisdom.weizmann.ac.il/∼vision/Irregularities.html
6.4 视频中的时空显著
利用我们的方法我们可以从一个简单的视频流里就能识别出显著行为,完全不用任何的数据库或是先验信息。例如,一个人在欢呼的人群中奔跑。这个人的行为很明显是显著的。在这个案例中,显著性是通过相对于同一时间观察到的其它行为的比较而测量出来的。每一个
时空视频片断(查询)的合法性是相对于所有其它视频片断而测量出来的。这个处理过程为每一个视频片断重复进行着。这样的例子在Fig.9里有给出。要获取全部视频,登录到www.wisdom.weizmann.ac.il/∼vision/Irregularities.html。视频显著性也可以通过相对于其它的时间窗口来测量到。例如,当显著性是通过相对于整个视频而测量的,那么那些只出现过一次的行为将显得突出。作为选择的,当显著性的测量是相对于过去(所有之前的帧)而测量的,那么新的之前没有发生过的行为就会被认出。这提升了应用的多样性,包括视频大纲。
Figure 9.Detecting salient behaviors in a video sequence(no database and no prior information).Saliency is measured relative to all the other behaviors observed at the same time.In this example, all the people wave their arms, and one person behaves differently.For full videos see www.wisdom.weizmann.ac.il/∼vision/Irregularities.html
6.5 自动视频检查(质量保证)
我们的方法可以被应用到自动视觉查检。自动视觉检查可以广泛的应
用在质量保证和货物的制造方面,电子印板,晶片等。自动检查的一个主要的问题是怎么描述所有可能正确的模式。在这些案例中,自动检测减少成一个具有转变探测的简单问题模型匹配。然而,有很多重要复杂案例,它是毫无意义或不可能提供比较参考,(例如,由于“好”案例的空间的组合复杂度)。我们用我们的方法从事这样的案例从而来探测不规则性。通过提供一些期待/正常模型的样例(对于货物,印刷板,晶片,光掩膜,平板显示,磁砖,织物,水果等)我们努力去从这些样例通归纳和组成新的从来都没有见过的现象。具有较低组成可能性的将为认为是错误的。在Fig.10给出这样的一个水果检查的样例。经常,被检查的产品呈现出重复的模型(例如,晶片,织物,平板显示)。在这些案例中,我们可以用我们的显著方法去探测错误根本不需要先验样例。这在Fig.11中图表说明晶片检查和Fig.12里的织物检查。对于给出的样例中,我们已经利用到基于RGB或是灰度等级的碎片描述符。我们已经利用到一个高斯分布来对描述符相似性建模。我们的方法,然而,没有局限于特定的描述符。
Figure 10.Detection of defects in grapefruit images.Using the single image(a)as a ―database‖ of high quality grapefruits, we can detect defects in different grapefruits at different arrangements in images(b),(c).In both image pairs the input image is to the left and the output image is to the right.Detected defects are highlighted in ―red‖.Figure 11.Detection of defects in wafer images(No database and no prior information).Wafers tend to exhibit repeating structures.This can be utilized using our saliency approach to detect defects without any database.In each example, the left image is the input, the right image is
the output.Detected defects are highlighted in ―red‖.Figure 12.Detection of defects in fabric images(No database and no prior information).Fabric tend to exhibit nearly repeating textures and patterns with small non-rigid deformations.This can be utilized using our saliency approach to detect defects without any database.Detected defects are highlighted in ―red‖.7. 结论
我们研究的问题是探测视觉数据(图像或视频)里的不规则现象。“不规则”这个术语是依赖于被定义“规则”或“合法”的上下文。然而,对于给定的上下文,期待显定义所有可能合法结构是不现实的。我们把决定视觉数据合法性的问题当作构造一个迷题的过程:我们尽力利用从先前视觉样例(数据库)中解压出来的数据块去组合一个新观察到的图像区域或是一个新视频片断(查询)。能够用数据库里的巨大邻接数据块去组成的观察到的数据区域被认为是相似的,相反那些不
能从数据库里的数据组成(或是能组成,但只是可以由小数量的碎片组成)的观察到的区域被认为是不相似/可疑的。我们把这个过程定义为“通过组合的推论”。它允许我们在仅仅少数几个样例就能在一个更大的上下文中去归纳什么是规则的什么是不规则的。这个压缩过程的实现是作为一个盖然论图像模型里的高效推论运算法则来完成的,它适应查询与数据库之间微小的时空变形。“通过组合的推论”也能应用在完全没有先验样例的情况下探测视觉数据显著性。为了这个目的我们把每一个图像区域称作一个“查询”,并且尽力利用剩下部分的图像(数据库)去组合它。这个过程依次对所有的图像区域重复着。像这样一些不能用图像的其它部分“解释”(组合)的区域将作为显著区域被探测出来。这引导了一个新定义的术语视觉数据显著性。在视频数据的案例中,这些区域是时空性的,并且这些显著性视频区域是相应于显著性行为。我们的“通过组合的推论”这方法是通用的并且因此能够研究在简单统一的框架里问题,它的一般性使它不用采取任何基于分类模型的预学习的方法。我们通过探测可疑行为,显著性行为,显著性图像区域,探测货物或产品来证明这个方法的应用。我们当前的运算法则有两个主要的局限性:(i)尽管闭塞可以被处理到一定程度,它不能处理一些极端的闭塞(例如当只有物体的小碎片部分是显著时)。(ii)时间和存储的复杂度在我们当前的推论算法中是随样例数据库的大小显线性变化的。这很显然对于巨大数据库来说是有问题的。这两个问题是我们将来研究的一个主题。
第五篇:读书笔记(图像和视频中的不规则检测)
论文题目:Detecting Irregularities in Images and in Video 所载刊物:International Journal of Computer Vision 74(1), 17–31, 2007 作者:Oren Boiman and Michal Irani
主要内容和结论(观点):
该文主要阐述了作者在检测图像和视频等可视化数据中的不规则数据的研究成果。
文章中表明,图像和视频中不规则图像模型的探测在各种各样的任务中都是很有用的。对于监视和监测来说探测可疑行为或是异常目标是重要的。
早先识别可疑行为或活动的方法可以广泛的被分成两类:基于规则的方法和没有预定义规则的统计方法。
而在该文中作者提出将探测规则和不规则的问题公式化成为用从先前可视样本(数据库)中提取出来的时空块组成(解释)新的观察的可视数据(一个图像或是一段视频,在下面提到时用“查询”表示)的问题。这些可以用从样本数据库中抽取的大的连续数据块组成的查询中的区域被认为是相似的,这些区域越大,相似性就越强。在不能用样本数据库组成的查询中的区域被认为是不相似的或是可疑的。作者的方法因此可以从仅仅少量的几个样本就能推断或是归纳出更大的上下文的图像模式和行为,甚至那些从来都没有见过的特别构造。(这个过程被定义为“通过组合的推论”)
作者认为该文作出了以下四个主要的贡献:
1、提出了一个可以从仅有的几个样本中就可以推理和归纳的方法,这个方法是关于一个更大的上下文图像模式和行为的合法性的,甚至是那些从来都没有见过的特殊构造的合法性。
2、提出了一个基于图表的贝叶斯定理的推论算法,它可以在成倍增加的时空范围里有效探测大的整套的碎片块(例如,数以百计的碎片块)。同时它可以增强这些在整体以及单个的描述符上的碎片里的相关几何方面的排列上的约束。
3、提出了对图像和视频里术语中的“显著”和“视觉注意”给出一个新的解释。
4、提出了一个单一的、统一的框架来处理计算机视觉里几个的问题,这些问题在过去已经被单独地处理过。它们包括:图像和视频中值得注意的地方,可疑行为的识别,异常物体的识别,自动视频检查(例如,用于质量保证)等等。
论文中的基本算法:
1、统计公式
用y来表示一个观察到的查询范围内的碎片组合。计算连接的可能性P(x,y),其中观察到的查询中的组合y与在数据库(既在碎片的描述符值相似也在相对位置上相似)中的隐藏的组合x是相似的。我们可以把连接的可能性分解成:P(x, y)= P(y|x)P(x)。
令dy表示观察到的碎片y中的第i个描述符向量,ly表示它的位置(在绝对坐标里)。类似的,dx表示在碎片x中的第i个隐藏(数据库)的描述符向量,lx表示它的位置。令cy和cx表示被观察到的和隐藏的组合的“原始”点。任何这样一对组合y和x的相似性被以下的可能性公式捕获: iiii
P(x, y)= P(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y,...)(公式1)
我们用一个高斯分布在描述符间建立相似性模型:
P(diy|dix)=α1 exp(−1/2(diy− dix)T S D−1(diy− dix))(公式2)
这里,α1是一个常量,S D是一个常量协方差矩阵,它决定描述符值的可允许的偏差。其它的分布可以根据其它描述符的相似性函数插入到模型中。给定一个隐藏数据库碎片的相对位置(lx− cx),观察到的相应碎片(ly− cy)的相对位置被假设成不依赖于所有其它碎片位置。这个假设使得有足够灵活性去适应在视线角度、范围、位置和行为上的微小变化进行比较两个碎片组合的几何排列,这样: iiP(liy | lix, cx , cy)= α2 · exp(− 1/2((liy− cy)−(lix− cx))T× S−1L((liy− cy)−(lix− cx))))(公式3)
到目前为止我们已经建立了组合(描述符:dy, dx和相应位置:ly− cy , lx− iiiicx)间属性的关系模型,我们仍然需要建立隐藏组合内的关系(也就是一个碎片描述符dx和它的位置间lx的关系)模型。利用数据库中的样本进行非参数化的为它建模:
ii
1(dx , lx)∈ Database
P(dx | lx)=(公式4)
0otherwise
这里dx和lx是任意描述符和位置。
这样,对于一个观察到的组合y和一个隐藏数据库组合x,我们可以通过利用公式(2)–(4)来得出公式(1)的共同可能性P(x, y)如下:
P(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y)
=αP(liy| lix, cx , cy)P(diy| dix)P(dix| lix)(公式5)
i
对于任何隐藏的非零可能性的集团分配,我们定义组合代价为负的对数可能性函数:
-logP(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y)
= i-log P(liy| lix, cx , cy)+-log P(diy| dix)+α1(公式6)i
当α1= log(α)时是常量。
2、信任传播推论
给定一个观察到的组合,我们寻找一个隐藏的数据库组合,这个组合最大化它的MAP(最大归纳的可能性)分配。这被通过上面统计模型来完成,这个模型具有一个简单并且确切的信任传播运算法则。根据公式(5),MAP分配可以被写成:
1111P(c , d ,..., l ,..., c , d ,..., lxxxyyy)MaxX
=αiiiiiiiP(l| l, c , c)P(d| d)P(d| ly xxyy xx x)(公式7)MaxMaxlxidxi
首先我们为每一个碎片计算从结点dx到结点lx关于它在位置lx的信任消息: iii
midl(lix)= iii iP(d| d)P(d| ly xx x)(公式8)Maxdxi
也就是,对于每一个观察到的碎片,用高描述符相似性计算每一个候选数据
库位置lx。下一步,对这些候选数据库的每一个位置,我们都传递一个包含在数据库中可能原始位置cx: i
milc(cx)= iiiP(l| l, c, c)m(ly xx ydlx)(公式9)Maxlxi
在这一点,我们有一个被每一个碎片暗示的候选原始列表。为了计算一个整体组合任务的可能性,我们从组合里的所有个体碎片中乘这信任:
mc(cx)=milc(cx)(公式10)
i
通过这个运算法则处理的推论运算量一个MAP推论。
3、估算查询点的可能性
对于查询中每一个点,我们尝试在它周围组合一个大的区域。这可以通过检查围绕着每一个点的大区域的有效性,检查时用上面的推论处理过程(通过计算一个查询区域相似性)。这一点参与了很多查询区域中。我们定义一个查询点的相似性为包含那个点的最大区域可能性。因此,假如存在一个包含它的大区域,有相应的相似性数据库区域的话,在查询中的一个点将有一个高可能性。这样,我们可以利用部份的目标遮挡组合成查询,因为靠近边界的点被包含在目标里的一个大的区域中。然而,部分遮挡可能生成小的邻接的目标区域,这些区域不能用我们当前推论算法去组合。
在文章中,作者还提出了算法的性能改进,并介绍了一些基于该文中所述方法的探测图像和视频中不规则方面的应用:包括探测异常图像构造、单一图像的显著空间、探测可疑行为以及自动视频检查(质量保证)等等。
最后,文章给出了结论:“通过组合的推论”,允许我们可以由少数几个样例就能在一个更大的上下文中去归纳什么是规则的,什么是不规则的。这个压缩过程的实现是作为一个概率图像模型里的高效推论算法来完成的,它适应查询与数据库之间微小的时空变形。
“通过组合的推论”,也可以应用在完全没有任何早先样本的情况下探测可视数据的显著性。为了这个目的我们把每一个图像区域称作一个“查询”,并且尽力利用剩下部分的图像(数据库)去组合它。这个过程依次重复所有的图像区域。像这样一些不能用图像的其它部分“解释”(组合)的区域将作为显著区域
被探测出来。这导致了在可视数据上的一个新定义的术语:显著。在视频数据的案例中,这些区域是时空相关的,并且这些显著的视频区域是与显著的行为相呼应的。
“通过组合的推论”,这一方法是通用的并且因此能够研究在一个单一的、统一的框架里的问题,它的一般性使得它不用采取任何基于分类模型的预学习的方法。我们通过探测可疑行为,显著行为,显著图像区域,探测货物或产品来证明这个方法的应用。
文章中也提到,该文中的算法有两个主要的局限性:(i)尽管遮挡可以处理某种程度的影响,它不能处理一些极端的遮挡(例如当只有物体的小碎片部分是显著时)。(ii)时间和存储的复杂度在该文的推论算法中是随样本数据库的大小显线性变化的。这对于大的数据库来说显然是有问题的。这两个问题会是作者将来研究的一个主题。
相关研究介绍:
赵峰等人在《计算机研究与发展》中发表的《一种基于奇异值分解的图像匹配算法》提出一种新的基于奇异值分解的图像匹配算法。首先在待匹配图像中分别提取带主方向的角点作为特征点,通过计算特征点间经旋转补偿的归一化互相关值建立特征点相似度矩阵,然后利用奇异值分解算法生成特征点匹配矩阵并获得特征点间的--对应关系。在复杂自然图像上的实验结果表明,算法能够匹配任意角度旋转的图像,对局部遮挡、光照变化、随机噪声等具有较强的健壮性,并具有较快的计算速度和较高的匹配精度。
张军、刘志镜在《模式识别与人工智能》发表的《基于模糊理论的行人异常动作检测》中根据行人躯干和四肢轮廓角度的变化,设计用于模糊化的函数式。提出利用躯干和四肢的模糊隶属度通过计算来得到整个人异常度的一种基于模糊理论异常行为判别的算法。在系统实现中,提出利用质心轨迹和模糊判别的联合方法来甄别行人是否异常的方法。模糊判别可实现在视频监控范围内对行人行为的主动分析,从而能够对行人异常的动作做出识别并进行报警处理。
田永鸿等人申请的专利201010568248.X,“图像显著对象提取方法、互补显著度图学习方法及系统”,通过给定任意图像,自动准确地提取出图像中的显著物体,有效地解决了在复杂场景下一般显著物体提取结果缺乏的准确性和鲁棒性问题。