第一篇:PET图像检测技术申请理由
PET图像检测技术
申请理由
肿瘤的早期预防、早期发现和治疗对于人的生命是至关重要的,PET检测技术的使用为肿瘤患者诊断方案的确定提供了便利条件,它独特的成像技术和PET图像的分析与研究,也越来越受到学者和研究人员的广泛关注。准确的将PET图像中的肿瘤区域分割出来具有要的临床意义。PET检测技术的引进,给癌症患者带来了一种准确的诊断方案。它能收到人们如此热切的关注,因为PET/CT相比于传统的诊断手段有了许多明显的优势。
在PET临床应用中,主要用到数字图像技术中的图像分割技术。运用图象处理中的分割方法能够提取影像数据中特殊组织,也是可视化实现的前提,分割后的区域能够进行组织容积的定量分析,诊断,治疗规划等,从而实现计算机辅助诊断分析。这就要求参加此项目的同学对数字图像学有一定的了解,尤其是要掌握其中的图像分割的多种方法,例如边缘检测阈值分割区域分裂与合并等等,当然这离不开计算机技术的配合,该项目要求同学有较强的编程能力,最好能将图像的检测与分割及计算等用代码实现,利用计算机最终实现肿瘤的较为精确的检测和定量分析(主要是算其体积)。
要完成该项目,还必须熟练使用一些有关图像的软件,比如ITKMATLAB等。这促使计算机同学又多掌握一些软件的使用,增加其课外知识。
总之,该项目不仅能增加同学们的知识,还能提高同学们的编程能力,最重要的一点是,使同学们将其所学知识应用于有用的地方,提升同学们对计算机技术的热情。
项目执行环节
1、项目的准备工作:确认项目组的团队成员,理解科研项目的意义,明确项目的研究方向;
2、项目的研究计划:首先,团队成员必须了解数字图像分析的基础知识;其次,必须熟练的掌握图像处理有关的软件,如itk、MATLAB等。在此基础上,通过对一些已有肿瘤图像分析案例的研究,结合所学的编程语言,开始独立进行肿瘤的检测和计算(其体积);最后,在研究过程中,不断发现问题,解决问题,挖掘较好的肿瘤分割方法,并能准确地测出其体积;
3、项目的研究内容:掌握汇编语言,C语言基础,C++语言。了解数字图像基础知识,熟悉图像的分割方法。李有较强的编程能力及软件ITK,对肿瘤进行检和分割。
4、项目的实施步骤:
1)对已有的肿瘤图像分析案例进项研究,了解其分割的方法。
2)在取得了一定研究经验的基础上,熟悉相关软件,开始独立对肿瘤图像进行检测和分割。
3)针对对研究过程中出现的问题进行讨论,解决问题,总结经验。
4)对所有取得的成果和数据进行整理,完成课题研究报告,并进行结题答辩。
进度安排 1、2013年3月初到2013年6月底,通过阅读导师规定书籍,熟悉项目的课题内容。(在这段学习时间内要了解数字图像基础知识的同时,再掌握C++等编程语言,提高自己编程能力); 2、2013年7月初到2013年11月底,学习图像处理相关软件,基本掌握ITK或MATLAB的使用; 3、2013年12月初到2014年2月底,分析过去著名肿瘤图像检测及分割实例,开始尝试自己独立对肿瘤图像检测与分割计算,不断积累经验; 5、2014年3月初到2014年7月底,开始对研究过程中出现的问题,在导师的帮助下进行解决; 6、2014年8月初到2014年9月底,进行所有数据成果上的处理,将试验中团队进行的肿瘤图像检测及分割案例进行处理,撰写研究报告。并准备结题答辩。
成果形式
1、团队对5个以上的肿瘤图像进行检测与分割
2、设计一个较好的肿瘤图像分割方法
3、提交一份课题研究报告 效益
1、通过这样的一个科研项目,我们可以熟悉数字图像的基本知识,掌握图像检测和分割的方法,特别是通过用ITK软件学习,可以极大地激发我们的学习热情,增加课外知识;
2、在肿瘤图像进行检测和分析过程中,我们还能增加自己编程能力(例如汇编语言,C语言)、调试程序的能力,特别是进一步明确这些所学课程的目的和价值。
3、通过团队的学习,能提高我们团队协作能力。
第二篇:图像合成技术教案
青年教师大奖赛公开课教案
——图像合成技术
授课教师:李天生
授课时间:2012年4月16日上午第三节课
授课地点:机房2
授课班级:101班
一、学情分析:
经过半年多的学习,学生对windows基本操作已比较熟悉,也已经有使用办公软件和flash软件的经验。对于图像处理软件photoshop,也有几次的使用经历。
二、教学目标:
1、知识与技能:掌握photoshop软件常见工具(移动工具、磁性套索工具等)的使用方法。
2、过程与方法:体会创作过程,初步了解图片合成技术的方法。
3、情感态度与价值观:培养学生交流与合作的能力,提高学生应用现代信息技术实现
创作的能力。
三、教学重难点:
重点:初步掌握图片合成的相关技术
难度:自学相关图片合成技术、利用图片合成技术实现创新。
四、教学方法:
任务驱动法:布置任务展开教学。
小组协作法:分成A-F六小组,每组选派一名组长,组内成员相互协作完成任务。
分层教学法:布置四个任务,任学生选择,学有余力的学生可以同时选择多个任务,使得每个学生都有进步。讲授法:
五、教学环境:多媒体机房
六、课时安排:1课时
七、教学过程:
(一)新课引入:
Flash影片引入:
(二)新课讲授
1、图片合成技术的概念:
把不同图片中的部分或者全部合成到一起形成一张新的图片的技术。
2、图片合成步骤:
3、实例视频讲解:四个实例都已经录制成视频文件,让学生选择学习其中的一个实例。其他实例的帮助文件会发送到学生机上,让学生自学。(注明:几个实例有很多相似的地方,这样也降低了学生自学的难度。)
(三)任务布置:
(四)点评与小结:
(五)课后作业:
八、课后反思:
第三篇:检测技术[推荐]
《检测技术》实验时间安排表
第九周星期四上午 8:00-11:20C11-4班前半班20110143--20110163
星期六上午 8:00-11:20C11-4班后半班 20110164---…
第十周星期四上午8:00-9:40
20110143--20110163
星期四上午9:40-11:20
20110164---…
C11-4班前半班C11-4班后半班
第四篇:图像处理技术
处理对象包括:静态图像和动态图像
静态图像格式:RAW,BMP,TIF,JPEG,JBIG
TIF可以包含矢量信息,可以包含多张tif文件
动态图像格式:MPEG,AVI,RM
1.图像压缩:无损压缩和有损压缩 JPEG
8x8像素块:像素值---->像素值-128------>DCT变化------>量化表---->Z字扫描(压缩过程)
2.动态图像压缩:MPEG
第五篇:图像和视频中的不规则检测
图像和视频中的不规则检测
摘要:我们从事于研究可视化数据中的不规则检测,例如检测视频中的可疑行为或者是识别图像中的跳跃性模式。“不规则”这个术语依靠于被定义的“规则的”或是“合法的”的上下文。然而,期待可以在一个给出的上下文显定义所有合法的结构是不现实的。我们把决定可视化数据合法性的问题当作构造迷题的过程:我们努力去用大块的数据(“一块块的迷题”)组成一个新的已经观察到的图像区域或是一个新的视频片断(“查询请求”),这些大块的数据是从先前的可视化样本(“数据库”)中抽取出来的。这些在被用数据库中的大块接近的数据组成的被观察的数据中的区域被认为是非常相像的,但是这些不可以从数据库(或者仅仅是可以用小片断数据组成)组成的被观察的数据中的区域是被认为是很不相像或是可疑的。这个问题被作为一个处理盖然论图像模型中的推论提出来。我们展示一些利用这些方法的应用程序来识别图像和视频中的显著,目的是用它来探测可疑行为和高质量保证的自动化图像检测。
关键字:探测可疑行为,显著,不规则探测,新奇事物探测,自动探测,动作识别,自动图像检查
1. 介绍
图像和视频中不规则图像模型的探测在各种各样的任务中都是很有用的。对于监视和监测来说探测可疑行为或是异常目标是重要的。对于质量控制和自动检查来说,在图像中识别空间显著是有用的。在视频中的行为显著对于吸引观看者的注意力是有用的。先前识别可疑行为或活动的方法可以广泛的被分成两类:基于规则的方法(例如,Ivanov and Bobick(1999))和没有预定义规则的统计方法(例如,Stauffer and Grimson(2000)和Zhong et al.(2004))。统计方法更加有吸引力,这是由于它们不用为所有合法结构假想出一系列预定义的规则集,而是,他们尝试着自动的从数据中学习规则中的概念,并且就这样推断出各种可疑行为。然而,在先前方法中已经被应用的代表方法要么是很有限制性(例如,trajectories of moving objects(Stauffer and Grimson, 2000))要么是太过全球性了(例如,a single small descriptor vector for an entire frame(Zhong等人, 2004))本论文中,我们用公式化的形式把探测规则和不规则的问题表示成为用从先前视频样本(数据库)中提取出来的时空块组成(解释)已经观察到的图像数据(一个图像或是一个视频,在下面提到时用“查询”表示)或是视频的问题。这些可以用从样本数据库中抽取的巨大接近的数据块组成的查询中的区域被认为是相似的,这些区域越大,相似性就越强。在不能用样本数据库组成的查询中的区域被认为是不相似的或是可疑的。我们的方法因此可以从仅仅少量的几个样本就能推断或是归纳更大上下文的图像模式和行为,甚至这些从来都没有见过的特别结构的图像模式和行为的合法性,本地描述符是从小图像或
是视频块(被组成在一起来形成大的块)中抽取出来的,因此它可以快速和高效的推断出行为改变中的细微但重要的改变(例如,一个人在走和一个人拿着一支枪在走的不同)。而且,我们的方法可以同时识别出一个合法的行为在一个视窗区域部分,并且可疑行为在另一个视窗区域中部分,因此在这一帧仅仅是标明探测到的可疑区域,而不是整一帧都标明出来。在第6节将给出这样的例子。从图像碎片中得出的推断在先前已经被应用到基于分类的目标识别(例如,Bart and Ullman(2004), Felzenszwalb和 Huttenlocher(2005)and Fergus等人)中的任务上去了。少数的情报帧已经被人学习和预选择用来作为少数的目标的预定义分类。然而,基于分类的表述不可以捕获组成一幅场景中未知目标或行为的所有一切的可能的情况,因此它不适合于探测不规则性任务。我们的方法也可以应用在探测图像和视频中的显著。例如,给出一幅没有先前信息的简单的图像,我们可以测量出每一幅图像区域(查询)相对于同样图像(被用作特殊查询的“数据库”)的剩下部分的“合法”性。类似的,给出一段简单的视频(没有关于什么是正常行为先前知识),我们可以探测“显著行为”,这些行为不能被任何其它在视频里同时发生的动态现象所支持。用来探测图像显著(例如,Itti等人(1998))的先前的方法被提议用来测量本地图像和它的瞬间周围区域的相异程度。因此,例如,显示出巨大改变的图像区域被探测为显著图像区域。他们的“视觉注意”的定义是来源于同样的推理。然而,我们相信显著的概念没有必
要由瞬间周围图像所决定。例如,一个在黑色纸上简单的黄点可以是显著。然而,假如在黑纸上有很多黄色的点,那么一个简单的黄点再也无法引起我们的注意,即使它相对于周围附近来说仍然有巨大的改变。因此我们的方法建议一种新对于术语“显著”更加直觉的解释,它来于整个图像的内部统计。我们处理空间图像显著的方法更接近于Honda和Nayar(2001).的方法。然而,(Honda 和Nayar, 2001)在重复性结构的图像模型是局限性的并且它高度依赖于本地周围图像属性,然而我们的方法却不是这样。用我们的方法探测图像空间显著和视频行为显著的例子将在第6节给出。我们的论文因此提供了四方面主要贡献:
1. 我们提议一个可以从仅有的几个样本中就可以推断和归纳的方法,这个方法是关于一个更大的上下文图像模式和行为的合法性的,甚至是这些从来都没有见过的特殊结构的合法性。2. 我们提出一个基于图表的贝叶斯定理的推论运算法则,它可以在成倍增加的时空范围里高效的探测巨大碎片块整体(例如,好几百块的碎片块)。它可以同时增强这些在整体以及单个的描述符上的碎片里的相关几何方面的排列上的约束。
3. 我们提议对图像和视频里术语中的“显著”和“视觉上的注意”给出一个新的解释。
4. 我们给出单个统一的框架来处理几个计算机视觉里的问题,这些问题在过去已经被单独的处理过。这些问题包括:图像的注意,视频的注意,可疑行为的识别,异常物体的识别,自动视频检查(例如,用来质量的保证)等等。
本论文的短文版在ICCV 2005(Boiman and Irani, 2005)提供。
2. 由组成得出的推论
当给出了几个样例后,我们(人类)对于什么是规则/合法,什么是不规则/可疑,甚至是见到以前我们从来没有见过的新结构的东西,都会有一个概念。我们从来不需要显定义给定上下文的合法结构的所有可能。“规则”/“合法”这些概念可以从简单的几个合法模型(视频中的行为或是图像的外观)的样例中学习和归纳得来,并且所有其它结构可以自动的从这些当中推断得到。图表1(Figure 1)说明了潜在于本论文的基本概念。假设一幅新图像(一个查询—Fig.1(a)),我们检查是否每个图像区域都可以从数据库里找到一张足够大的接近的区域来解释(见 Figs.1(b)和(c))。尽管我们从来没有见过一个人两臂举起来那样坐着,但是我们可以从这Fig.1(c)里的三个数据库图像里推断出这个动作的合法性。这样,能用数据库里巨大的数据块来解释的新观察到数据/查询(一个图像或是视频)里的区域被认为是很相像的,相反,不能用数据库里的足够大的数据块来解释的查询里的区域被认为是不相像或是可疑的。当一个视觉的查询是一个图像,那么这些数据块仅有空间的范围。当一个 视频查询是一个视频,那么这些数据块就既有空间又有时间范围了。
Detecting Irregularities in Images and in Video 19 Figure 1.The basic concept—Inference by Composition.A region in the query image is considered likely if it has a large enough contiguous region of support in the database.New valid image configurations can thus be inferred from the database, even though they have never been Seen before.Figure 2.Detecting a matching ensemble of patches.3. 碎片的组合
人类的行为或自然的空间结构从来都没有相同的重复着。例如,没有两个人是走路是相同的。一个人比另一个人的手臂抬高一点,或是仅仅走得快一点。我们因此想允许它在我们的“迷题的块”(数据块)里有一个小小的非严格变形(在空间和时间上)。这对于巨大的数据块来说尤其的正确。为了计算本地的非严格变形,巨大的块利用它们相对的几何位置在多维度上被分解成很多小块的组合。这在Fig.1(d)中有说明。在推论处理过程,我们寻找具有相似属性(行为或是外表)的块的相似的几何结构,同时允许在相对几何排列上有微小的本地未对准。这个概念在Fig.2中说明。当视觉查询是一个图像,碎片的组合被组成空间碎片(见Fig.3(a))。当视觉的查询是一个视频,那么碎片的组合被组成时空碎片(见Fig.3(b)),这允许我们捕捉动态的行为信息。在我们当前的实现来说,一个简单的典型的组合都同时从多维度(图像碎片案例中的多空间维度,和时空碎片案例中的多时空维度)具有好几百个碎片。当从样本碎片中组合新数据这个想法被先前证明对于大量的任务都是有用时,(e.g., Efros and Leung(1999), Freeman et al.(2000)and Wexler et al.(2004)),这些方法没有在用于构建的样本碎片上强加任何的几何约束,也就是说,它们的相对位置和距离在数据库里没有强加任何的几何约束。对于他们的目的来说一点必要都没有。然而对于检测不规则来说是至关重要的。经常,在相似和不相似现象之间区别的唯一真实的信息提示是数据库支持的碎片
程度。例如,一个举着一支枪的人伸直一条手臂和一个人走路时瞬间伸直手臂是相似的,但是在时间上它的区域的支持度是非常有限的。获取碎片的几何相关性被认为对于基于分类的目标识别(Bart and Ullman, 2004;Felzenszwalb and Huttenlocher, 2005;Fergus et al.,;Leibe et al.)任务来说是重要的。这些方法不适合我们的目标,因为两个原因:(i)他们的几何结构受限制于相关的小数量的碎片,这样就不能捕捉那些用来探测不规则性的敏感的区别。(ii)这些结构是为小数量预定义的目标类来预学习的,然而我们的框架是可以应用于任何类型的视觉数据。当Leibe等人的几何约束更加的灵活,这样就允许从仅仅少数几个样本就能识别新的目标结构,对于一堆有预定义目标中心的预定义的目标类,他们的方法仍然是有局限的。这就不适合于探测不规则性,它也没有目标类的概念。“Video Google‖(Sivic and Zisserman, 2003)强化了在巨大的非基于分类的描述符的几何约束,并且搜索他们都非常的高效。然而,这些描述符在自然界中有空间性的并且这搜索受限于单个的图像帧,这样就不能允许去捕捉行为。为了在合理的时间里推断处理完成,小块的信息和它们之间的相关排列必须被高效的存储在数据库里并且能从数据库里高效的抽取出来。对于每个从样本抽取出来的小块,一个描述符向量连同绝对相关碎片(空间的或是时空的相关性)被计算和存储(见下面)。这样,在图像和视频数据库里的所有碎片的相对排列都是隐式有效的。后来,我们的推论运算法则采取从视觉查询中的碎片组合并且查找数据
库来寻找相似的结构碎片(既有描述符又有他们的相对几何排列)。为了能快速的查找和检索,这些碎片被存储成多维的数据结构。用一个或然论的图形模式(第4节),我们为寻找问题的组合提出了一个高效的推论运算法则。
3.1 碎片描述符
碎片描述符是为每一个查询碎片和每一个数据库碎片而产生的。描述符捕捉关于外表和行为的本地信息。我们当前的实现用的是非常简单的描述符,这些描述符很容易就被那些更加世故圆滑的描述符所替代: 小空间碎片的空间图像描述符是由以下构成:为碎片里的每一个像素计算它的空间倾斜度的大小,这些值然后被一个向量所保存,这个向量规格化成一个单位长度。如此的描述符被密密麻麻的解压到图像里的每一个像素。这个描述符解压处理过程被几个图像的空间高斯金字塔的空间范围所替换。这样,一个从粗糙范围解压出来的7 X 7的碎片就比它的输入图像(也就是说精度)具有更高的空间支持度。在一些应用里,一个RGB/基于亮度的描述可能比一个基于倾斜度的描述符更适合。一般来说,我们的整体的框架没有局限SIFT(Lowe, 2004)于这些特殊的描述符。这些很容易就被比它更世故圆滑的空间描述符例如SIFT(Lowe, 2004)等所替代。一个小(也就是7×7×4)的时空视频碎片的时空视频描述符由碎片的所有像素的时间派生的绝对值所构成。这些值构成一个向量并且规格化成一个单位长度。这个描述符解压处理过程被几个时空视频金
字塔的空间时间维度所替代。这样,一个从粗糙维度解压出来的7 × 7 × 4的碎片比它的输入序列具有一个更大的空间和更大的时间支持度。注意到一点是,由于时间派生物在任何的静态的背景下总是为零的,所以这个描述符几乎是一个静态背景不等式。所以,利用这时空
描述符,我们可以在新的查询序列中探测不规则,而完全不用理会它的背景。然而,这简单的描述符依赖于空间织品的质量,比如当一个人穿着一件织地非常粗糙的衣服时它可能引起一个问题。我们的方法,然而就不会这样局限于这些简单描述符特殊的选择。这些描述符可以很容易的就被那些世故圆滑的时空描述符(这些描述符对动作敏感并且更加的外表不变)所替代,例如Shechtman 和 Irani(2005)或Laptev 和 Lindeberg(2003)。Boiman and Irani
Figure 3.Ensembles of patches in images and video.4. 基本的运算法则
给定一个新的视觉查询(一个图像或是一个视频),我们很愿意去估计它的每个点的可能性。这可以通过检查一个巨大的周围的每一个像素的区域(也就是说,50 × 50的图像区域和50 × 50 × 50视频区域)的合法性来实现。这巨大的周围区域被多维度(空间或是时空的)的分离成大量(好几百个)的小的碎片,并且被表述为一个单一的与特殊图像/视频点相关的碎片的组合。令q1, q2,..., qn表示组合中的碎片(见Fig.3(a))。每一个碎片qi都与两种类型的属性相关:(i)它的描述向量di和(ii)它的绝对坐标的位置li。我们选择任意的参考点C(也就是这组合的中心(见Fig.3(a)),C点作为本地坐标系统(这样就可以定义组合内碎片的相对位置)的“原点” 4.1.统计公式
令一个观察到的查询范围内的碎片组合用y来表示。我们想去计算连接的可能性P(x,y),其中观察到的查询中的组合y与在数据库(既在碎片的描述符值相似也在相对位置上相似)中的隐藏的组合x是相似的。我们可以连接可能性变成:P(x, y)= P(y | x)P(x)。我们的模型P(y | x)类似于Felzenszwalb and Huttenlocher(2005)的“星图”或然论模型。然而,在Felzenszwalb and Huttenlocher(2005)基于分类的设置表示为P(y;θ),其中θ是一个给定的基于分类的碎片群参数的预学习集。在我们的案例中,然而,对目标是没有概念的,也就是说,没
有数据库组合x的前验参数模型。这样,θ是未定义的,并且P(x)必须直接从样本数据库中非参数的评估。令diy表示观察到的碎片y中的第i个描述符向量,liy表示它的位置(在绝对坐标里)。类似的,dix表示在碎片x中的第i个隐藏(数据库)的描述符向量,lix表示它的位置。令cy和 cx表示被观察到的和隐藏的组合的“原始”点。任何这样一对组合y和x的相似性被以下的可能性公式捕获:
P(x, y)= P(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y,...)(1)
为了让计算Eq.(1)的可能性易于操作,我们做了一些简化的统计假设。给定一个隐藏数据库碎片和它的描述符dix,这相应的观察到的描述符diy被假设成与其它碎片描述符无关。(这是标准的马尔可夫链的假设,也就是说,Freeman等人(2000),这个在重叠碎片上明显是不合法的,但它是一个有用近似值)。我们用一个高斯分布在描述符间建立相似性模型:
P(diy|dix)=α1exp(−1/2(diy− dix)T S D−1(diy− dix))(2)这里,α1是一个常量,SD个常量协方差矩阵,它决定描述符值的可允许的偏差。其它的分布可以根据其它描述符的相似性函数插入到模型中。给定一个隐藏数据库碎片的相对位置(lix− cx),观察到的相应碎片(liy− cy)的相对位置被假设成不依赖于所有其它碎片位置。这个假设使得有足够灵活性去适应在视线角度、范围、位置和行为上的微小变化进行比较两个碎片组合的几何排列,这样:
P(liy | lix, cx , cy)= α2 exp(− 1/2((liy− cy)−(lix− cx))T× S−1L((liy− cy)−(lix− cx))))(3)这里α2是一个常量,SL是一个常量协方差矩阵,它捕获了相对碎片位置中的所被允许的偏差。(本案例中,相对位置的依赖是用高斯来建模,然而这模型并没有受限它)。到目前为止我们已经建立了组合(描述符:diy, dix相应位置:liy− cy , lix− cx)间属性的关系模型,我们仍然需要建立隐藏组合内的关系(也就是一个碎片描述符dix和它的位置间lix.的关系)模型。在一般的案例中,这关系是非常的不可分析,因此不能被参数化(与基于分类方法形成对照,也就是说Felzenszwalb 和 Huttenlocher(2005)和 Fergus 等人(2003))的建模。因此,我们利用数据库中的样本进行非参数化的为它建模:(dx, lx)∈ Database
P(dx| lx)=
0 otherwise
(4)
这里 dx 和 lx是任意描述符和位置。我们为cx和cy(本地原始点)假设一个相同的先验分布,也就是,没有预先优先选择哪一个本地数据库或是查询的组合。所有上面提到的变量之间的关系在Fig.4中的贝叶斯网络所描述。
Boiman and Irani
Figure 4 或然论图形模型
这贝叶斯依赖通过变量间的箭头表示出来。这依赖关系仅仅为组合中的一个碎片(第i个碎片)而表示出来。观察到的变量用“橙色”表示出来;隐藏变量用“蓝色”表示出来。cx 和 cy分别是隐藏的和观察到的组合的“原点”,Lix and li y是隐藏的和观察到的组合的第i个
碎片的位置(绝对坐标);dix 和 diy是每一个组合的第i个碎片的描述符向量。
这样,对于一个观察到的组合 y 和一个隐藏数据库组合 x,我
们可以通过利用Eqs.(2)–(4)来得出Eq.(1)的共同可能性P(x, y)如下: P(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y)
= αiP(liy| lix, cx , cy)P(diy| dix)P(dix| lix)(5)∏
我们可以得出连接可能性的协方差矩阵,每一个都与模型中的一个不同部分所关联着。当识别的任务受限于几个已知预定义的类型时,也就是每一个都有它的预定义部分和参数时,这是一个好方法。这,然而,不是我们案例中的设置,那里没有预定义我们要寻找什么的概念,然而,我们想能够探测相对于样本细小的不规则。我们的模型因此是 非参数的并且它的归纳能力不依赖于参数的调整,但是更依赖于数据库中样本的差异性。这在个意义上来说,我们的非参数模型具有了Leibe等人的非参数处理方法的共同之处。在我们的实现中,我们已经设置协方差矩阵SD和SL成为一个简单的凭经验决定的标量方差。这个简单的设置给我们的实验一个满意的答案。注意到在这个设置里,这两个参数的单一的目的就是适当的承担了几何变形和外表/描述符变形的代价。而且,注意到这些是模型中的仅有的参数,因此需要非常少的参数调整。4.2 信任传播推论
给定一个观察到的组合,我们寻找一个隐藏的数据库组合,这个组合最大化它的MAP(最大归纳的可能性)分配。这被通过上面统计模型来完成,这个模型具有一个简单并且确切的信任传播运算法则(Yedidia 等人,2003)。根据Eq.(5),MAP分配可以被写成: max1111P(c , d ,..., l ,..., c , d ,..., lxxxyyy)X maxP(li| li, c , c)maxP(di| di)P(di| li)(7)= α∏y xxyy xx xilixdix这个表达式可以被表达成一个在Fig.4里传递运算法则的消息。首先我们为每一个碎片计算从结点dix到结点lix关于它在位置lix的信任消息midl :
maxmdl(lx)= dixP(diy | dix)P(di x | lix)(8)ii也就是,对于每一个观察到的碎片,用高描述符相似性计算每一个候选数据库位置lix。下一步,对这些候选数据库的每一个位置,我们都传递一个包含在数据库中可能原始位置cx:
milc(cx)= maxlixP(liy | lix,cx,cy)mdl(lix)(9)在这一点,我们有一个被每一个碎片暗示的候选原始列表。为了计算一个整体组合任务的可能性,我们从组合里的所有个体碎片中乘这信任:
mi(c)(10)mc(cx)=∏ ilcx通过这个运算法则处理的推论运算量一个MAP推论。因此,在样本数据库中只发生一次的东西相等于那些发生很多次的东西。这个公式在很多应用中都很有用,然而,那可能有这样的应用,在那里我们愿意发生在数据库中的频率去影响一个组合的可能性。上面运算法则的
一个简单的修改允许去计算可能性而不是MAP,这是通过转换推论运算法则从一个最大乘积转换成一个和乘积。4.3 估计查询点的可能性
对查询中每一个点,我们尝试去在它周围组合一个巨大的区域。这可以通过检查一个围绕着每一个点的巨大区域的合法性,检查时用上面的推论处理过程(通过计算一个查询区域相似性)。这一点参与在很多查询区域中。我们定义一个查询点的相似性为包含那个点的最大区域可能性。因此,假如存在一个包含它的巨大区域,有相应的相似性数据库区域的话,在查询中的一个点将有一个高可能性。这个方法,我们可以利用部份的目标闭塞组合成查询,因为靠近边界的点被包含在目标里的一个巨大的区域中。然而,部分闭塞可能生成小的邻接的目标区域,这些区域不能被用高可能性利用我们当前推论运算法则去组合而已的。我们希望我们围绕每一个点组合的区域尽可能的大,因为这区域越大,这一点是不规则的这个证据就越大。然而,那有这样的案例,在这些案例里,一个“规则”的观察到的组合不能被完全的由一个简单的数据库组合而组成(例如,由于部分闭塞)。这那些案例中(不是很高频率的那些),我们减小观察区域的尺寸(例如,减小25%)并且重复着推论的过程,完全没有包括被丢弃的碎片。我们处罚总体组合可能性的分数为每一个我们丢弃的碎片。根据Eq.(6)我们增加一个常量代价处罚为每一个我们丢弃的碎片。处罚期限的大小,反映了我们归因于组合区域大小的重要程度。
处理不同大小的组合:为了探测在一个整体观察里的不规则区域,我们仅仅开始了在Eq.(6)里的组合代价。然而,那可能有一些观察到的组合大小可能不同的案例(例如,因为非情报性区域,排除分析的区域,数据边界,等等)。为了比较不同大小的组合合成代价,需要一个标准化的东西。我们利用一个标准化,它是基于统计组合代价显著水平的标准化。我们定义一个零假设H0,这样每一个观察到的组合都通过上面定义的统计模型来产生。因此,组成代价C0的统计显著水平可以通过P值 Pr(C > C0 | H0)来测量到。假定这零假设,并且给定一个隐藏的组合,每一期限在Eq(6)里的组成代价都是按照χ2分布的,并且总体代价的分布也是按χ2分布。这些分布可以被用到计算这样的P值,它为不同大小的组合“规格化”它们的组成代价。
5. 一个高效的推论运算法则
在第4.2节中信息传递运算法则的一个本地的实现是很不高效的,由于独立描符查询是为每一个观察到的组合中的碎片而处理的,完全不用回答先前被其它碎片处理的查询。这导致了一个O(Nk)的复杂度,N是数据库中碎片的数量(例如100,000个碎片为一个一分钟的视频数据库)并且K是组合中碎片的数量(例如256)。而且,我们将会扫描整个的查询(一个新图像或是一个新视频),这个查询导致一个总共O(Nkq)的复杂度,这里Q是查询中碎片的数量。这复杂性对于真实的应用来说是禁止的,因为每一个词语(N, k 和q)都是不可以忽
略的。在本章节中我们给出了怎么样可以做到不用牺牲精确度而显著的减少复杂度。5.1. 改进的排除过程
观察到的组合中的碎片与某一几何排列有关。我们可以用这知识通过改进的消除数据库里的查询空间来进行一个高效的查询:我们为一个少数量的碎片(例如1个)来计算消息midl。可能的候选原点的结果列表包含了为下一个碎片的非常有限的查询空间。下一个碎片,依次,从已经候选的短列表中消除附加的原点,等等。这个处理过程在Fig.5.中图表说明。为了加速这进步的消除的过程,我们在 Eqs.(2)和(3)用削去顶端的高斯分布(4σ之后的削去)。因此,根据几何学或是外观/描述符,这些分布将一个零的可能性给高碎片变形。第一个碎片查询的代价是O(N)。我们仅仅从被第一碎片(在我们的实现里,c=50)提议列表中保存了最好的C候选原点。第二碎片现在受限于C位置的近邻。第二碎片将受限于一个更加小数量的近邻。这样,在最糟糕的案例想定,我们的复杂是O(N + kc)≈ O(N)。相反,在Felzenszwalb and Huttenlocher(2005)and Leibe 等人的推论处理的复杂度是O(Nk),而这“群星模型”(Fergus 等人)复杂度在碎片数量上是指数型的。上面被提议的在复杂度方面的减少对于使能拥有几百个的碎片的组合的视频推论是极度重要的。值得注意的是极限缩小候选原点的数量直到C候选可能会是有问题的:例如,假如我们选择的第一个碎片是非情报的(也就是单边),那么选择最优C候选是武断的并且我们可能抛弃了全局最优组
合。在实践中,我们推论算法(多维度策略,预搜查,和扫描观察)的其它组件消除了这风险。注意到的是,假如我们采取削峰高斯分布(或其它有限支持分布),并且假如搜查第一个最新碎片范围少于C候选位置,那么这改进的消除处理保证一个确切的解决方法,因为我们仅仅抛弃有零相似性的候选。注意到这使得在这样的条件下,我们可以提供一个确凿推论,这个推论等价于含有简化复杂度的信任传播。而且,我们知道在推论过程中,这结果是确凿的(最优化)或是它仅仅是一个近似值。
5.2. 多维查找
为了进一步加速这消除过程,我们用一个由粗糙到精细的策略(既有时间又有空间)。我们从粗糙的维度选择第一个查找碎片,因为两个原因:(i)在数据库里有一个更小数量的粗糙碎片比精细的碎片(这样减少了有效的N在第一个最强烈的步骤中),并且(ii)粗糙的碎片更加有判别力的因为他们从巨大的区域中捕获了信息。这消除数据库组合的候选区域是非常快速的。我们进行下去直到我们处理完所有的在观察到的粗糙维度的碎片。于是我们投出候选原始点到下一个精密标度并且继续去处理在精密维度(既是空间上也是时间上的)里的碎片。我们用多维度的方法去处理所有在观察到组合里的碎片。这个多维度查找的复杂度是O(N0 + kc),这里N0是时空金字塔里最粗糙维度的碎片数量。
5.3.高效的数据库存储和检索
一个简单的数据库实现可以是用一个碎片描述符的排列和线性的查找。然而,时间和空间复杂度可以显著的分别的提升数据库的存储和检索。存储空间可以通过保持描述符向量近似值的方法得到显著的减少。例如,所有描述符向量通过利用标准技术例如PCA和ICA的技术可以被到映射成一个低维线性空间。另外,向量量子化技术(例如K均值,或是Jurie and Triggs(2005))可以被应用到描述符的聚类组中。映射和量子化的结果是出现更少存储的描述符,并且每一个描述符都更短了。另一个好处是数据库检索时间被缩短了。注意到映射和量子化在描述符向量里引进了错误。假如每一个“被压缩”的描述符向量包含一个连接原始描述符的话,我们就可以消除错误了。本案例中,存储空间没有被缩小,但是检索的时候将会被缩小。一个接近的相关的缩短数据库检索时间的相关方法是使用更好的数据结构去存储描述符向量,例如KD树和hash表去查找大约最近邻。这些数据结构使最快范围查询(在一个给定的元素的某一范围里发现所有在数据库里的元素)。这个时间复杂度的结果是O(Range(N0)+ kc),这里(N0)《 N0表示在有N0元素(碎片)的数据库数据结构的范围查询的代价。
5.4 利用预查询的方法
到目前为止我们假定上面描述的组合算法是被应用到所有观察的点,这些点完全不彼此不相关的。这常常是徒劳无功的,因为邻近的被观察到的组合在数据库里倾向于拥有近邻隐藏的组合。我们利用这个事实通过测试隐藏组合变量在空间和时间上的值去加速合成的过程。通过所有的先前组成的组合,凭借着从观察到的重叠碎片里获得的知识,我们预测隐藏组合中心的位置和数据库里的隐藏碎片的身份。我们用最简单的预测:给定一个近邻的观察到的组合(˜y和它的相应被探测的数据库组合~ X),我们预测一些在隐藏组合X里的隐藏变量,相对应的是一个新观察到的组合Y。我们预测用以下公式预测隐藏组合中心Cx:
cx = c˜x + cy − c˜y
(11)而且,对每一个观察到出现在预测组合(liy, diy)=(l˜jy ,d˜jy)的碎片(liy,diy),我们预测相应的隐藏变量(lix, dix)=(l˜jx ,d˜jx)。没有预测的剩下的隐藏变量,可以用改进的消除过程非常快的被推断出来。注意到的是对于近邻组合,大多数的观察到的碎片是重叠在一起的,因此组成一个新组合的复杂度是非常低的。万一预测错误并且因此导致一个低质量的组合(也就是说,被观察到的区域有较低的可能性),我们就抛弃这预测结果并且在整个的数据库里都用通用的推论。这样,这个预测查询就不会在数据库的别处阻止探测。然而,在大多数的情况下,这预测查询是很精确的并且它减少相当多的推论时间。假定有一个长度为r的合法性预测“链条”,在链条中预测一个组合的代价是O(k)。因此,这样一个链条的总的复杂度是O(Range(N0)+ kc + kr)而不是没有预测时的O(Range(N0)r +
krc)。除些之外,还非常的明显的缩短推论时间,预测确实提升了推论的准确性。这是因为组合精准的这些区域繁殖信息到了精确性不高的那些区域(例如,一个站立的人的一条腿比身体的上部有更少的确定性)。
6. 应用
在本论文提出的方法引起了各种各样包括探测图像和视频不规则方面的应用:
6.1.探测与异常图像结构
给定一个样本图像数据库,我们可以要新观察到的图像中探测一些异常的东西(例如从来都没有见过的物体,新的图像模式,等等)在Fig.6里给出一个例子。三个不同姿势的图像作为一个数据库被提供(Fig.6(a))。其它姿势的图像作为查询被提供(Fig.6(b))。新的合法的姿势被自动的从数据库里推断出来,尽管它们是从来都没有见过的。不能从三个数据库图像被推断出来的新姿势部分被用红色标示成“不熟悉的”(Fig.6(c))。Figure 6(d)真实的标出了这些能够为大多数查询图像中的每一个像素提供证据的数据库图像(也就是说,这告诉我们哪一个数据库图像包含了最大可能支持那像素的区域。注意,然而,这些并不是支持它们自己的区域)。默认具有相同碎片的和从推论过程中被抛弃(为了加快速度)的相同的碎片(具有可以忽略的图像倾斜度)被假定为合法的。
Figure 6.Detection of irregular image configurations.New valid poses are automatically inferred from the database(e.g., a man sitting on the chair with both arms up, a man sitting on a chair with one arm up), even though they have never been seen before.New pose parts which cannot be inferred from the three database images are highlighted in red as being ―unfamiliar‖.6.2 单一图像的空间显著
给定一幅单一的图像(也就是说没有数据库),显著图像区域可以被探测到,例如,那些凸出的不同于剩余部分的图像的区域。这可以通过测量每个相对于同一幅图像中剩余点的图像区域(即“查询”)的可能性来实现(这数据库用作推论这特殊的区域)。这个处理过程为每一个图像区域重复着。(当进行着从一个图像区域的分析到下一个图像区域的分析时,这个处理过程可以通过自适应增加或是减少数据库中的大约描述符的方法而很高效的实现)。这样的一个例子在Fig.7.中表示出来。这个方法可以被应用到自动视觉检测的问题中(计算机芯片、货物等的检测)。
Figure 7.Identifying salient regions in a single image(no database;no prior information).The Jack card was detected as salient.Note that even though the diamond cards are different from each other, none of them is identified as salient.6.3 探测可疑行为
给定显示几个合法行为例子的一个小数据系列,我们可以一个新的长
视频中探测到可疑和为。这是完全不管我们以前从来都没有看过这些行为的组合,而且是没有关于哪一类的可疑行为可能发生在视频里的先验知识的。这些是自动的组合与从数据库中的时空区域里推断出来的。Fig.8有一个这样的例子,它从一个2分钟长的视频短片里显示出几个用来探测可疑行为的例子。要看完整的视频请登录www.xiexiebang.combinations are automatically inferred from the database(e.g., two men walking together, a different person running, etc.), even though they have never been seen before.behaviors which cannot be inferred from the database clips are highlighted in red as being ―suspicious‖.For full videos see www.wisdom.weizmann.ac.il/∼vision/Irregularities.html
6.4 视频中的时空显著
利用我们的方法我们可以从一个简单的视频流里就能识别出显著行为,完全不用任何的数据库或是先验信息。例如,一个人在欢呼的人群中奔跑。这个人的行为很明显是显著的。在这个案例中,显著性是通过相对于同一时间观察到的其它行为的比较而测量出来的。每一个
时空视频片断(查询)的合法性是相对于所有其它视频片断而测量出来的。这个处理过程为每一个视频片断重复进行着。这样的例子在Fig.9里有给出。要获取全部视频,登录到www.wisdom.weizmann.ac.il/∼vision/Irregularities.html。视频显著性也可以通过相对于其它的时间窗口来测量到。例如,当显著性是通过相对于整个视频而测量的,那么那些只出现过一次的行为将显得突出。作为选择的,当显著性的测量是相对于过去(所有之前的帧)而测量的,那么新的之前没有发生过的行为就会被认出。这提升了应用的多样性,包括视频大纲。
Figure 9.Detecting salient behaviors in a video sequence(no database and no prior information).Saliency is measured relative to all the other behaviors observed at the same time.In this example, all the people wave their arms, and one person behaves differently.For full videos see www.wisdom.weizmann.ac.il/∼vision/Irregularities.html
6.5 自动视频检查(质量保证)
我们的方法可以被应用到自动视觉查检。自动视觉检查可以广泛的应
用在质量保证和货物的制造方面,电子印板,晶片等。自动检查的一个主要的问题是怎么描述所有可能正确的模式。在这些案例中,自动检测减少成一个具有转变探测的简单问题模型匹配。然而,有很多重要复杂案例,它是毫无意义或不可能提供比较参考,(例如,由于“好”案例的空间的组合复杂度)。我们用我们的方法从事这样的案例从而来探测不规则性。通过提供一些期待/正常模型的样例(对于货物,印刷板,晶片,光掩膜,平板显示,磁砖,织物,水果等)我们努力去从这些样例通归纳和组成新的从来都没有见过的现象。具有较低组成可能性的将为认为是错误的。在Fig.10给出这样的一个水果检查的样例。经常,被检查的产品呈现出重复的模型(例如,晶片,织物,平板显示)。在这些案例中,我们可以用我们的显著方法去探测错误根本不需要先验样例。这在Fig.11中图表说明晶片检查和Fig.12里的织物检查。对于给出的样例中,我们已经利用到基于RGB或是灰度等级的碎片描述符。我们已经利用到一个高斯分布来对描述符相似性建模。我们的方法,然而,没有局限于特定的描述符。
Figure 10.Detection of defects in grapefruit images.Using the single image(a)as a ―database‖ of high quality grapefruits, we can detect defects in different grapefruits at different arrangements in images(b),(c).In both image pairs the input image is to the left and the output image is to the right.Detected defects are highlighted in ―red‖.Figure 11.Detection of defects in wafer images(No database and no prior information).Wafers tend to exhibit repeating structures.This can be utilized using our saliency approach to detect defects without any database.In each example, the left image is the input, the right image is
the output.Detected defects are highlighted in ―red‖.Figure 12.Detection of defects in fabric images(No database and no prior information).Fabric tend to exhibit nearly repeating textures and patterns with small non-rigid deformations.This can be utilized using our saliency approach to detect defects without any database.Detected defects are highlighted in ―red‖.7. 结论
我们研究的问题是探测视觉数据(图像或视频)里的不规则现象。“不规则”这个术语是依赖于被定义“规则”或“合法”的上下文。然而,对于给定的上下文,期待显定义所有可能合法结构是不现实的。我们把决定视觉数据合法性的问题当作构造一个迷题的过程:我们尽力利用从先前视觉样例(数据库)中解压出来的数据块去组合一个新观察到的图像区域或是一个新视频片断(查询)。能够用数据库里的巨大邻接数据块去组成的观察到的数据区域被认为是相似的,相反那些不
能从数据库里的数据组成(或是能组成,但只是可以由小数量的碎片组成)的观察到的区域被认为是不相似/可疑的。我们把这个过程定义为“通过组合的推论”。它允许我们在仅仅少数几个样例就能在一个更大的上下文中去归纳什么是规则的什么是不规则的。这个压缩过程的实现是作为一个盖然论图像模型里的高效推论运算法则来完成的,它适应查询与数据库之间微小的时空变形。“通过组合的推论”也能应用在完全没有先验样例的情况下探测视觉数据显著性。为了这个目的我们把每一个图像区域称作一个“查询”,并且尽力利用剩下部分的图像(数据库)去组合它。这个过程依次对所有的图像区域重复着。像这样一些不能用图像的其它部分“解释”(组合)的区域将作为显著区域被探测出来。这引导了一个新定义的术语视觉数据显著性。在视频数据的案例中,这些区域是时空性的,并且这些显著性视频区域是相应于显著性行为。我们的“通过组合的推论”这方法是通用的并且因此能够研究在简单统一的框架里问题,它的一般性使它不用采取任何基于分类模型的预学习的方法。我们通过探测可疑行为,显著性行为,显著性图像区域,探测货物或产品来证明这个方法的应用。我们当前的运算法则有两个主要的局限性:(i)尽管闭塞可以被处理到一定程度,它不能处理一些极端的闭塞(例如当只有物体的小碎片部分是显著时)。(ii)时间和存储的复杂度在我们当前的推论算法中是随样例数据库的大小显线性变化的。这很显然对于巨大数据库来说是有问题的。这两个问题是我们将来研究的一个主题。