读书笔记(图像和视频中的不规则检测)

2024-04-26

读书笔记(图像和视频中的不规则检测)（精选4篇）

篇1：读书笔记(图像和视频中的不规则检测)

论文题目：Detecting Irregularities in Images and in Video 所载刊物：International Journal of Computer Vision 74(1), 17–31, 2007 作者：Oren Boiman and Michal Irani

主要内容和结论（观点）：

该文主要阐述了作者在检测图像和视频等可视化数据中的不规则数据的研究成果。

文章中表明，图像和视频中不规则图像模型的探测在各种各样的任务中都是很有用的。对于监视和监测来说探测可疑行为或是异常目标是重要的。

早先识别可疑行为或活动的方法可以广泛的被分成两类：基于规则的方法和没有预定义规则的统计方法。

而在该文中作者提出将探测规则和不规则的问题公式化成为用从先前可视样本（数据库）中提取出来的时空块组成（解释）新的观察的可视数据（一个图像或是一段视频，在下面提到时用“查询”表示）的问题。这些可以用从样本数据库中抽取的大的连续数据块组成的查询中的区域被认为是相似的，这些区域越大，相似性就越强。在不能用样本数据库组成的查询中的区域被认为是不相似的或是可疑的。作者的方法因此可以从仅仅少量的几个样本就能推断或是归纳出更大的上下文的图像模式和行为，甚至那些从来都没有见过的特别构造。（这个过程被定义为“通过组合的推论”）

作者认为该文作出了以下四个主要的贡献：

1、提出了一个可以从仅有的几个样本中就可以推理和归纳的方法，这个方法是关于一个更大的上下文图像模式和行为的合法性的，甚至是那些从来都没有见过的特殊构造的合法性。

2、提出了一个基于图表的贝叶斯定理的推论算法，它可以在成倍增加的时空范围里有效探测大的整套的碎片块（例如，数以百计的碎片块）。同时它可以增强这些在整体以及单个的描述符上的碎片里的相关几何方面的排列上的约束。

3、提出了对图像和视频里术语中的“显著”和“视觉注意”给出一个新的解释。

4、提出了一个单一的、统一的框架来处理计算机视觉里几个的问题，这些问题在过去已经被单独地处理过。它们包括：图像和视频中值得注意的地方，可疑行为的识别，异常物体的识别，自动视频检查（例如，用于质量保证）等等。

论文中的基本算法：

1、统计公式

用y来表示一个观察到的查询范围内的碎片组合。计算连接的可能性P（x，y），其中观察到的查询中的组合y与在数据库（既在碎片的描述符值相似也在相对位置上相似）中的隐藏的组合x是相似的。我们可以把连接的可能性分解成：P(x, y)= P(y|x)P(x)。

令dy表示观察到的碎片y中的第i个描述符向量，ly表示它的位置（在绝对坐标里）。类似的，dx表示在碎片x中的第i个隐藏（数据库）的描述符向量，lx表示它的位置。令cy和cx表示被观察到的和隐藏的组合的“原始”点。任何这样一对组合y和x的相似性被以下的可能性公式捕获： iiii

P(x, y)= P（cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y,...）(公式1)

我们用一个高斯分布在描述符间建立相似性模型：

P（diy|dix）=α1 exp（−1/2（diy− dix）T S D−1（diy− dix））(公式2)

这里，α1是一个常量，S D是一个常量协方差矩阵，它决定描述符值的可允许的偏差。其它的分布可以根据其它描述符的相似性函数插入到模型中。给定一个隐藏数据库碎片的相对位置(lx− cx)，观察到的相应碎片(ly− cy)的相对位置被假设成不依赖于所有其它碎片位置。这个假设使得有足够灵活性去适应在视线角度、范围、位置和行为上的微小变化进行比较两个碎片组合的几何排列，这样： iiP（liy | lix, cx , cy）= α2 · exp（− 1/2（（liy− cy）−（lix− cx））T× S−1L（（liy− cy）−（lix− cx））））(公式3)

到目前为止我们已经建立了组合（描述符：dy, dx和相应位置：ly− cy , lx− iiiicx）间属性的关系模型，我们仍然需要建立隐藏组合内的关系（也就是一个碎片描述符dx和它的位置间lx的关系）模型。利用数据库中的样本进行非参数化的为它建模：

1(dx , lx)∈ Database

P(dx | lx)=(公式4）

0otherwise

这里dx和lx是任意描述符和位置。

这样，对于一个观察到的组合y和一个隐藏数据库组合x，我们可以通过利用公式(2)–(4)来得出公式(1)的共同可能性P(x, y)如下：

P（cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y）

=αP（liy| lix, cx , cy）P（diy| dix）P（dix| lix）(公式5)

对于任何隐藏的非零可能性的集团分配,我们定义组合代价为负的对数可能性函数：

-logP（cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y）

= i-log P（liy| lix, cx , cy）+-log P（diy| dix）+α1(公式6)i

当α1= log(α)时是常量。

2、信任传播推论

给定一个观察到的组合，我们寻找一个隐藏的数据库组合，这个组合最大化它的MAP（最大归纳的可能性）分配。这被通过上面统计模型来完成，这个模型具有一个简单并且确切的信任传播运算法则。根据公式(5)，MAP分配可以被写成：

1111P（c , d ,..., l ,..., c , d ,..., lxxxyyy）MaxX

=αiiiiiiiP（l| l, c , c）P（d| d）P（d| ly xxyy xx x）(公式7)MaxMaxlxidxi

首先我们为每一个碎片计算从结点dx到结点lx关于它在位置lx的信任消息： iii

midl（lix）= iii iP（d| d）P（d| ly xx x）(公式8)Maxdxi

也就是，对于每一个观察到的碎片，用高描述符相似性计算每一个候选数据

库位置lx。下一步，对这些候选数据库的每一个位置，我们都传递一个包含在数据库中可能原始位置cx： i

milc(cx)= iiiP（l| l, c, c）m（ly xx ydlx）(公式9)Maxlxi

在这一点，我们有一个被每一个碎片暗示的候选原始列表。为了计算一个整体组合任务的可能性，我们从组合里的所有个体碎片中乘这信任：

mc(cx)=milc(cx)(公式10)

通过这个运算法则处理的推论运算量一个MAP推论。

3、估算查询点的可能性

对于查询中每一个点，我们尝试在它周围组合一个大的区域。这可以通过检查围绕着每一个点的大区域的有效性，检查时用上面的推论处理过程（通过计算一个查询区域相似性）。这一点参与了很多查询区域中。我们定义一个查询点的相似性为包含那个点的最大区域可能性。因此，假如存在一个包含它的大区域，有相应的相似性数据库区域的话，在查询中的一个点将有一个高可能性。这样，我们可以利用部份的目标遮挡组合成查询，因为靠近边界的点被包含在目标里的一个大的区域中。然而，部分遮挡可能生成小的邻接的目标区域，这些区域不能用我们当前推论算法去组合。

在文章中，作者还提出了算法的性能改进，并介绍了一些基于该文中所述方法的探测图像和视频中不规则方面的应用：包括探测异常图像构造、单一图像的显著空间、探测可疑行为以及自动视频检查（质量保证）等等。

最后，文章给出了结论：“通过组合的推论”，允许我们可以由少数几个样例就能在一个更大的上下文中去归纳什么是规则的，什么是不规则的。这个压缩过程的实现是作为一个概率图像模型里的高效推论算法来完成的，它适应查询与数据库之间微小的时空变形。

“通过组合的推论”，也可以应用在完全没有任何早先样本的情况下探测可视数据的显著性。为了这个目的我们把每一个图像区域称作一个“查询”，并且尽力利用剩下部分的图像（数据库）去组合它。这个过程依次重复所有的图像区域。像这样一些不能用图像的其它部分“解释”（组合）的区域将作为显著区域

被探测出来。这导致了在可视数据上的一个新定义的术语：显著。在视频数据的案例中，这些区域是时空相关的，并且这些显著的视频区域是与显著的行为相呼应的。

“通过组合的推论”，这一方法是通用的并且因此能够研究在一个单一的、统一的框架里的问题，它的一般性使得它不用采取任何基于分类模型的预学习的方法。我们通过探测可疑行为，显著行为，显著图像区域，探测货物或产品来证明这个方法的应用。

文章中也提到，该文中的算法有两个主要的局限性：(i)尽管遮挡可以处理某种程度的影响，它不能处理一些极端的遮挡（例如当只有物体的小碎片部分是显著时）。(ii)时间和存储的复杂度在该文的推论算法中是随样本数据库的大小显线性变化的。这对于大的数据库来说显然是有问题的。这两个问题会是作者将来研究的一个主题。

篇2：读书笔记(图像和视频中的不规则检测)

摘要：我们从事于研究可视化数据中的不规则检测，例如检测视频中的可疑行为或者是识别图像中的跳跃性模式。“不规则”这个术语依靠于被定义的“规则的”或是“合法的”的上下文。然而，期待可以在一个给出的上下文显定义所有合法的结构是不现实的。我们把决定可视化数据合法性的问题当作构造迷题的过程：我们努力去用大块的数据（“一块块的迷题”）组成一个新的已经观察到的图像区域或是一个新的视频片断（“查询请求”），这些大块的数据是从先前的可视化样本（“数据库”）中抽取出来的。这些在被用数据库中的大块接近的数据组成的被观察的数据中的区域被认为是非常相像的，但是这些不可以从数据库（或者仅仅是可以用小片断数据组成）组成的被观察的数据中的区域是被认为是很不相像或是可疑的。这个问题被作为一个处理盖然论图像模型中的推论提出来。我们展示一些利用这些方法的应用程序来识别图像和视频中的显著，目的是用它来探测可疑行为和高质量保证的自动化图像检测。

关键字：探测可疑行为，显著，不规则探测，新奇事物探测，自动探测，动作识别，自动图像检查

１．介绍

图像和视频中不规则图像模型的探测在各种各样的任务中都是很有用的。对于监视和监测来说探测可疑行为或是异常目标是重要的。对于质量控制和自动检查来说，在图像中识别空间显著是有用的。在视频中的行为显著对于吸引观看者的注意力是有用的。先前识别可疑行为或活动的方法可以广泛的被分成两类：基于规则的方法（例如，Ivanov and Bobick(1999)）和没有预定义规则的统计方法（例如，Stauffer and Grimson(2000)和Zhong et al.(2004)）。统计方法更加有吸引力，这是由于它们不用为所有合法结构假想出一系列预定义的规则集，而是，他们尝试着自动的从数据中学习规则中的概念，并且就这样推断出各种可疑行为。然而，在先前方法中已经被应用的代表方法要么是很有限制性（例如，trajectories of moving objects(Stauffer and Grimson, 2000)）要么是太过全球性了（例如，a single small descriptor vector for an entire frame(Zhong等人, 2004)）本论文中，我们用公式化的形式把探测规则和不规则的问题表示成为用从先前视频样本（数据库）中提取出来的时空块组成（解释）已经观察到的图像数据（一个图像或是一个视频，在下面提到时用“查询”表示）或是视频的问题。这些可以用从样本数据库中抽取的巨大接近的数据块组成的查询中的区域被认为是相似的，这些区域越大，相似性就越强。在不能用样本数据库组成的查询中的区域被认为是不相似的或是可疑的。我们的方法因此可以从仅仅少量的几个样本就能推断或是归纳更大上下文的图像模式和行为，甚至这些从来都没有见过的特别结构的图像模式和行为的合法性，本地描述符是从小图像或

是视频块（被组成在一起来形成大的块）中抽取出来的，因此它可以快速和高效的推断出行为改变中的细微但重要的改变（例如，一个人在走和一个人拿着一支枪在走的不同）。而且，我们的方法可以同时识别出一个合法的行为在一个视窗区域部分，并且可疑行为在另一个视窗区域中部分，因此在这一帧仅仅是标明探测到的可疑区域，而不是整一帧都标明出来。在第6节将给出这样的例子。从图像碎片中得出的推断在先前已经被应用到基于分类的目标识别（例如，Bart and Ullman(2004), Felzenszwalb和 Huttenlocher(2005)and Fergus等人）中的任务上去了。少数的情报帧已经被人学习和预选择用来作为少数的目标的预定义分类。然而，基于分类的表述不可以捕获组成一幅场景中未知目标或行为的所有一切的可能的情况，因此它不适合于探测不规则性任务。我们的方法也可以应用在探测图像和视频中的显著。例如，给出一幅没有先前信息的简单的图像，我们可以测量出每一幅图像区域（查询）相对于同样图像（被用作特殊查询的“数据库”）的剩下部分的“合法”性。类似的，给出一段简单的视频（没有关于什么是正常行为先前知识），我们可以探测“显著行为”，这些行为不能被任何其它在视频里同时发生的动态现象所支持。用来探测图像显著（例如，Itti等人(1998)）的先前的方法被提议用来测量本地图像和它的瞬间周围区域的相异程度。因此，例如，显示出巨大改变的图像区域被探测为显著图像区域。他们的“视觉注意”的定义是来源于同样的推理。然而，我们相信显著的概念没有必

要由瞬间周围图像所决定。例如，一个在黑色纸上简单的黄点可以是显著。然而，假如在黑纸上有很多黄色的点，那么一个简单的黄点再也无法引起我们的注意，即使它相对于周围附近来说仍然有巨大的改变。因此我们的方法建议一种新对于术语“显著”更加直觉的解释，它来于整个图像的内部统计。我们处理空间图像显著的方法更接近于Honda和Nayar(2001).的方法。然而，(Honda 和Nayar, 2001)在重复性结构的图像模型是局限性的并且它高度依赖于本地周围图像属性，然而我们的方法却不是这样。用我们的方法探测图像空间显著和视频行为显著的例子将在第6节给出。我们的论文因此提供了四方面主要贡献：

１．我们提议一个可以从仅有的几个样本中就可以推断和归纳的方法，这个方法是关于一个更大的上下文图像模式和行为的合法性的，甚至是这些从来都没有见过的特殊结构的合法性。２．我们提出一个基于图表的贝叶斯定理的推论运算法则，它可以在成倍增加的时空范围里高效的探测巨大碎片块整体（例如，好几百块的碎片块）。它可以同时增强这些在整体以及单个的描述符上的碎片里的相关几何方面的排列上的约束。

３．我们提议对图像和视频里术语中的“显著”和“视觉上的注意”给出一个新的解释。

４．我们给出单个统一的框架来处理几个计算机视觉里的问题，这些问题在过去已经被单独的处理过。这些问题包括：图像的注意，视频的注意，可疑行为的识别，异常物体的识别，自动视频检查（例如，用来质量的保证）等等。

本论文的短文版在ICCV 2005(Boiman and Irani, 2005)提供。

２．由组成得出的推论

当给出了几个样例后，我们（人类）对于什么是规则/合法，什么是不规则/可疑，甚至是见到以前我们从来没有见过的新结构的东西，都会有一个概念。我们从来不需要显定义给定上下文的合法结构的所有可能。“规则”/“合法”这些概念可以从简单的几个合法模型（视频中的行为或是图像的外观）的样例中学习和归纳得来，并且所有其它结构可以自动的从这些当中推断得到。图表1（Figure 1）说明了潜在于本论文的基本概念。假设一幅新图像（一个查询—Fig.1(a)），我们检查是否每个图像区域都可以从数据库里找到一张足够大的接近的区域来解释(见 Figs.1(b)和(c))。尽管我们从来没有见过一个人两臂举起来那样坐着，但是我们可以从这Fig.1(c)里的三个数据库图像里推断出这个动作的合法性。这样，能用数据库里巨大的数据块来解释的新观察到数据/查询（一个图像或是视频）里的区域被认为是很相像的，相反，不能用数据库里的足够大的数据块来解释的查询里的区域被认为是不相像或是可疑的。当一个视觉的查询是一个图像，那么这些数据块仅有空间的范围。当一个视频查询是一个视频，那么这些数据块就既有空间又有时间范围了。

Detecting Irregularities in Images and in Video 19 Figure 1.The basic concept—Inference by Composition.A region in the query image is considered likely if it has a large enough contiguous region of support in the database.New valid image configurations can thus be inferred from the database, even though they have never been Seen before.Figure 2.Detecting a matching ensemble of patches.３．碎片的组合

人类的行为或自然的空间结构从来都没有相同的重复着。例如，没有两个人是走路是相同的。一个人比另一个人的手臂抬高一点，或是仅仅走得快一点。我们因此想允许它在我们的“迷题的块”（数据块）里有一个小小的非严格变形（在空间和时间上）。这对于巨大的数据块来说尤其的正确。为了计算本地的非严格变形，巨大的块利用它们相对的几何位置在多维度上被分解成很多小块的组合。这在Fig.1(d)中有说明。在推论处理过程，我们寻找具有相似属性（行为或是外表）的块的相似的几何结构，同时允许在相对几何排列上有微小的本地未对准。这个概念在Fig.2中说明。当视觉查询是一个图像，碎片的组合被组成空间碎片（见Fig.3(a)）。当视觉的查询是一个视频，那么碎片的组合被组成时空碎片（见Fig.3(b)），这允许我们捕捉动态的行为信息。在我们当前的实现来说，一个简单的典型的组合都同时从多维度（图像碎片案例中的多空间维度，和时空碎片案例中的多时空维度）具有好几百个碎片。当从样本碎片中组合新数据这个想法被先前证明对于大量的任务都是有用时，(e.g., Efros and Leung(1999), Freeman et al.(2000)and Wexler et al.(2004))，这些方法没有在用于构建的样本碎片上强加任何的几何约束，也就是说，它们的相对位置和距离在数据库里没有强加任何的几何约束。对于他们的目的来说一点必要都没有。然而对于检测不规则来说是至关重要的。经常，在相似和不相似现象之间区别的唯一真实的信息提示是数据库支持的碎片

程度。例如，一个举着一支枪的人伸直一条手臂和一个人走路时瞬间伸直手臂是相似的，但是在时间上它的区域的支持度是非常有限的。获取碎片的几何相关性被认为对于基于分类的目标识别(Bart and Ullman, 2004;Felzenszwalb and Huttenlocher, 2005;Fergus et al.,;Leibe et al.)任务来说是重要的。这些方法不适合我们的目标，因为两个原因：(i)他们的几何结构受限制于相关的小数量的碎片，这样就不能捕捉那些用来探测不规则性的敏感的区别。(ii)这些结构是为小数量预定义的目标类来预学习的，然而我们的框架是可以应用于任何类型的视觉数据。当Leibe等人的几何约束更加的灵活，这样就允许从仅仅少数几个样本就能识别新的目标结构，对于一堆有预定义目标中心的预定义的目标类，他们的方法仍然是有局限的。这就不适合于探测不规则性，它也没有目标类的概念。“Video Google‖(Sivic and Zisserman, 2003)强化了在巨大的非基于分类的描述符的几何约束，并且搜索他们都非常的高效。然而，这些描述符在自然界中有空间性的并且这搜索受限于单个的图像帧，这样就不能允许去捕捉行为。为了在合理的时间里推断处理完成，小块的信息和它们之间的相关排列必须被高效的存储在数据库里并且能从数据库里高效的抽取出来。对于每个从样本抽取出来的小块，一个描述符向量连同绝对相关碎片（空间的或是时空的相关性）被计算和存储（见下面）。这样，在图像和视频数据库里的所有碎片的相对排列都是隐式有效的。后来，我们的推论运算法则采取从视觉查询中的碎片组合并且查找数据

库来寻找相似的结构碎片（既有描述符又有他们的相对几何排列）。为了能快速的查找和检索，这些碎片被存储成多维的数据结构。用一个或然论的图形模式（第4节），我们为寻找问题的组合提出了一个高效的推论运算法则。

3．1 碎片描述符

碎片描述符是为每一个查询碎片和每一个数据库碎片而产生的。描述符捕捉关于外表和行为的本地信息。我们当前的实现用的是非常简单的描述符，这些描述符很容易就被那些更加世故圆滑的描述符所替代：小空间碎片的空间图像描述符是由以下构成：为碎片里的每一个像素计算它的空间倾斜度的大小，这些值然后被一个向量所保存，这个向量规格化成一个单位长度。如此的描述符被密密麻麻的解压到图像里的每一个像素。这个描述符解压处理过程被几个图像的空间高斯金字塔的空间范围所替换。这样，一个从粗糙范围解压出来的7 X 7的碎片就比它的输入图像（也就是说精度）具有更高的空间支持度。在一些应用里，一个RGB/基于亮度的描述可能比一个基于倾斜度的描述符更适合。一般来说，我们的整体的框架没有局限SIFT(Lowe, 2004)于这些特殊的描述符。这些很容易就被比它更世故圆滑的空间描述符例如SIFT(Lowe, 2004)等所替代。一个小（也就是7×7×4）的时空视频碎片的时空视频描述符由碎片的所有像素的时间派生的绝对值所构成。这些值构成一个向量并且规格化成一个单位长度。这个描述符解压处理过程被几个时空视频金

字塔的空间时间维度所替代。这样，一个从粗糙维度解压出来的7 × 7 × 4的碎片比它的输入序列具有一个更大的空间和更大的时间支持度。注意到一点是，由于时间派生物在任何的静态的背景下总是为零的，所以这个描述符几乎是一个静态背景不等式。所以，利用这时空

描述符，我们可以在新的查询序列中探测不规则，而完全不用理会它的背景。然而，这简单的描述符依赖于空间织品的质量，比如当一个人穿着一件织地非常粗糙的衣服时它可能引起一个问题。我们的方法，然而就不会这样局限于这些简单描述符特殊的选择。这些描述符可以很容易的就被那些世故圆滑的时空描述符（这些描述符对动作敏感并且更加的外表不变）所替代，例如Shechtman 和 Irani(2005)或Laptev 和 Lindeberg(2003)。Boiman and Irani

Figure 3.Ensembles of patches in images and video.４．基本的运算法则

给定一个新的视觉查询（一个图像或是一个视频），我们很愿意去估计它的每个点的可能性。这可以通过检查一个巨大的周围的每一个像素的区域（也就是说，50 × 50的图像区域和50 × 50 × 50视频区域)的合法性来实现。这巨大的周围区域被多维度（空间或是时空的）的分离成大量（好几百个）的小的碎片，并且被表述为一个单一的与特殊图像/视频点相关的碎片的组合。令q1, q2,..., qn表示组合中的碎片（见Fig.3(a)）。每一个碎片qi都与两种类型的属性相关：(i)它的描述向量di和(ii)它的绝对坐标的位置li。我们选择任意的参考点C（也就是这组合的中心(见Fig.3(a)），C点作为本地坐标系统（这样就可以定义组合内碎片的相对位置）的“原点” 4．1．统计公式

令一个观察到的查询范围内的碎片组合用y来表示。我们想去计算连接的可能性P（x，y），其中观察到的查询中的组合ｙ与在数据库（既在碎片的描述符值相似也在相对位置上相似）中的隐藏的组合ｘ是相似的。我们可以连接可能性变成：P(x, y)= P(y | x)P(x)。我们的模型P(y | x)类似于Felzenszwalb and Huttenlocher(2005)的“星图”或然论模型。然而，在Felzenszwalb and Huttenlocher(2005)基于分类的设置表示为P(y;θ)，其中θ是一个给定的基于分类的碎片群参数的预学习集。在我们的案例中，然而，对目标是没有概念的，也就是说，没

有数据库组合ｘ的前验参数模型。这样，θ是未定义的，并且P(x)必须直接从样本数据库中非参数的评估。令diy表示观察到的碎片ｙ中的第ｉ个描述符向量，liy表示它的位置（在绝对坐标里）。类似的，dix表示在碎片ｘ中的第ｉ个隐藏（数据库）的描述符向量，lix表示它的位置。令cy和 cx表示被观察到的和隐藏的组合的“原始”点。任何这样一对组合y和x的相似性被以下的可能性公式捕获：

P(x, y)= P（cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y,...）(1)

为了让计算Eq.(1)的可能性易于操作，我们做了一些简化的统计假设。给定一个隐藏数据库碎片和它的描述符dix，这相应的观察到的描述符diy被假设成与其它碎片描述符无关。（这是标准的马尔可夫链的假设，也就是说，Freeman等人（2000），这个在重叠碎片上明显是不合法的，但它是一个有用近似值）。我们用一个高斯分布在描述符间建立相似性模型：

P（diy|dix）=α1exp（−1/2（diy− dix）T S D−1（diy− dix））(2)这里，α1是一个常量，SD个常量协方差矩阵，它决定描述符值的可允许的偏差。其它的分布可以根据其它描述符的相似性函数插入到模型中。给定一个隐藏数据库碎片的相对位置(lix− cx)，观察到的相应碎片(liy− cy)的相对位置被假设成不依赖于所有其它碎片位置。这个假设使得有足够灵活性去适应在视线角度、范围、位置和行为上的微小变化进行比较两个碎片组合的几何排列，这样：

P（liy | lix, cx , cy）= α2 exp（− 1/2（（liy− cy）−（lix− cx））T× S−1L（（liy− cy）−（lix− cx））））(3)这里α2是一个常量，SL是一个常量协方差矩阵，它捕获了相对碎片位置中的所被允许的偏差。（本案例中，相对位置的依赖是用高斯来建模，然而这模型并没有受限它）。到目前为止我们已经建立了组合（描述符：diy, dix相应位置：liy− cy , lix− cx）间属性的关系模型，我们仍然需要建立隐藏组合内的关系（也就是一个碎片描述符dix和它的位置间lix.的关系）模型。在一般的案例中，这关系是非常的不可分析，因此不能被参数化（与基于分类方法形成对照，也就是说Felzenszwalb 和 Huttenlocher(2005)和 Fergus 等人(2003)）的建模。因此，我们利用数据库中的样本进行非参数化的为它建模：(dx, lx)∈ Database

P(dx| lx)=

0 otherwise

（4）

这里 dx 和 lx是任意描述符和位置。我们为cx和cy（本地原始点）假设一个相同的先验分布，也就是，没有预先优先选择哪一个本地数据库或是查询的组合。所有上面提到的变量之间的关系在Fig.4中的贝叶斯网络所描述。

Boiman and Irani

Figure 4 或然论图形模型

这贝叶斯依赖通过变量间的箭头表示出来。这依赖关系仅仅为组合中的一个碎片（第i个碎片）而表示出来。观察到的变量用“橙色”表示出来；隐藏变量用“蓝色”表示出来。cx 和 cy分别是隐藏的和观察到的组合的“原点”，Lix and li y是隐藏的和观察到的组合的第i个

碎片的位置（绝对坐标）；dix 和 diy是每一个组合的第i个碎片的描述符向量。

这样，对于一个观察到的组合 y 和一个隐藏数据库组合 x，我

们可以通过利用Eqs.(2)–(4)来得出Eq.(1)的共同可能性P(x, y)如下： P（cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y）

= αiP（liy| lix, cx , cy）P（diy| dix）P（dix| lix）(5)∏

我们可以得出连接可能性的协方差矩阵，每一个都与模型中的一个不同部分所关联着。当识别的任务受限于几个已知预定义的类型时，也就是每一个都有它的预定义部分和参数时，这是一个好方法。这，然而，不是我们案例中的设置，那里没有预定义我们要寻找什么的概念，然而，我们想能够探测相对于样本细小的不规则。我们的模型因此是非参数的并且它的归纳能力不依赖于参数的调整，但是更依赖于数据库中样本的差异性。这在个意义上来说，我们的非参数模型具有了Leibe等人的非参数处理方法的共同之处。在我们的实现中，我们已经设置协方差矩阵SD和SL成为一个简单的凭经验决定的标量方差。这个简单的设置给我们的实验一个满意的答案。注意到在这个设置里，这两个参数的单一的目的就是适当的承担了几何变形和外表/描述符变形的代价。而且，注意到这些是模型中的仅有的参数，因此需要非常少的参数调整。4．2 信任传播推论

给定一个观察到的组合，我们寻找一个隐藏的数据库组合，这个组合最大化它的MAP（最大归纳的可能性）分配。这被通过上面统计模型来完成，这个模型具有一个简单并且确切的信任传播运算法则（Yedidia 等人，2003）。根据Eq.(5)，MAP分配可以被写成： max1111P（c , d ,..., l ,..., c , d ,..., lxxxyyy）X maxP（li| li, c , c）maxP（di| di）P（di| li）(7)= α∏y xxyy xx xilixdix这个表达式可以被表达成一个在Fig.4里传递运算法则的消息。首先我们为每一个碎片计算从结点dix到结点lix关于它在位置lix的信任消息midl ：

maxmdl（lx）= dixP（diy | dix）P（di x | lix）(8)ii也就是，对于每一个观察到的碎片，用高描述符相似性计算每一个候选数据库位置lix。下一步，对这些候选数据库的每一个位置，我们都传递一个包含在数据库中可能原始位置cx：

milc(cx)= maxlixP（liy | lix，cx，cy）mdl（lix）(9)在这一点，我们有一个被每一个碎片暗示的候选原始列表。为了计算一个整体组合任务的可能性，我们从组合里的所有个体碎片中乘这信任：

mi(c)(10)mc(cx)=∏ ilcx通过这个运算法则处理的推论运算量一个MAP推论。因此，在样本数据库中只发生一次的东西相等于那些发生很多次的东西。这个公式在很多应用中都很有用，然而，那可能有这样的应用，在那里我们愿意发生在数据库中的频率去影响一个组合的可能性。上面运算法则的

一个简单的修改允许去计算可能性而不是MAP，这是通过转换推论运算法则从一个最大乘积转换成一个和乘积。4．3 估计查询点的可能性

对查询中每一个点，我们尝试去在它周围组合一个巨大的区域。这可以通过检查一个围绕着每一个点的巨大区域的合法性，检查时用上面的推论处理过程（通过计算一个查询区域相似性）。这一点参与在很多查询区域中。我们定义一个查询点的相似性为包含那个点的最大区域可能性。因此，假如存在一个包含它的巨大区域，有相应的相似性数据库区域的话，在查询中的一个点将有一个高可能性。这个方法，我们可以利用部份的目标闭塞组合成查询，因为靠近边界的点被包含在目标里的一个巨大的区域中。然而，部分闭塞可能生成小的邻接的目标区域，这些区域不能被用高可能性利用我们当前推论运算法则去组合而已的。我们希望我们围绕每一个点组合的区域尽可能的大，因为这区域越大，这一点是不规则的这个证据就越大。然而，那有这样的案例，在这些案例里，一个“规则”的观察到的组合不能被完全的由一个简单的数据库组合而组成（例如，由于部分闭塞）。这那些案例中（不是很高频率的那些），我们减小观察区域的尺寸（例如，减小25%）并且重复着推论的过程，完全没有包括被丢弃的碎片。我们处罚总体组合可能性的分数为每一个我们丢弃的碎片。根据Eq.(6)我们增加一个常量代价处罚为每一个我们丢弃的碎片。处罚期限的大小，反映了我们归因于组合区域大小的重要程度。

处理不同大小的组合：为了探测在一个整体观察里的不规则区域，我们仅仅开始了在Eq.(6)里的组合代价。然而，那可能有一些观察到的组合大小可能不同的案例（例如，因为非情报性区域，排除分析的区域，数据边界，等等）。为了比较不同大小的组合合成代价，需要一个标准化的东西。我们利用一个标准化，它是基于统计组合代价显著水平的标准化。我们定义一个零假设H0，这样每一个观察到的组合都通过上面定义的统计模型来产生。因此，组成代价C0的统计显著水平可以通过P值 Pr(C > C0 | H0)来测量到。假定这零假设，并且给定一个隐藏的组合，每一期限在Eq（6）里的组成代价都是按照χ2分布的，并且总体代价的分布也是按χ2分布。这些分布可以被用到计算这样的P值，它为不同大小的组合“规格化”它们的组成代价。

５．一个高效的推论运算法则

在第4.2节中信息传递运算法则的一个本地的实现是很不高效的，由于独立描符查询是为每一个观察到的组合中的碎片而处理的，完全不用回答先前被其它碎片处理的查询。这导致了一个O(Nk)的复杂度，N是数据库中碎片的数量（例如100，000个碎片为一个一分钟的视频数据库）并且K是组合中碎片的数量（例如256）。而且，我们将会扫描整个的查询（一个新图像或是一个新视频），这个查询导致一个总共O(Nkq)的复杂度，这里Q是查询中碎片的数量。这复杂性对于真实的应用来说是禁止的，因为每一个词语（N, k 和q）都是不可以忽

略的。在本章节中我们给出了怎么样可以做到不用牺牲精确度而显著的减少复杂度。5．1．改进的排除过程

观察到的组合中的碎片与某一几何排列有关。我们可以用这知识通过改进的消除数据库里的查询空间来进行一个高效的查询：我们为一个少数量的碎片（例如1个）来计算消息midl。可能的候选原点的结果列表包含了为下一个碎片的非常有限的查询空间。下一个碎片，依次，从已经候选的短列表中消除附加的原点，等等。这个处理过程在Fig.5.中图表说明。为了加速这进步的消除的过程，我们在 Eqs.(2)和(3)用削去顶端的高斯分布（4σ之后的削去）。因此，根据几何学或是外观/描述符，这些分布将一个零的可能性给高碎片变形。第一个碎片查询的代价是O(N)。我们仅仅从被第一碎片（在我们的实现里，c=50）提议列表中保存了最好的C候选原点。第二碎片现在受限于C位置的近邻。第二碎片将受限于一个更加小数量的近邻。这样，在最糟糕的案例想定，我们的复杂是O(N + kc)≈ O(N)。相反，在Felzenszwalb and Huttenlocher(2005)and Leibe 等人的推论处理的复杂度是O(Nk)，而这“群星模型”(Fergus 等人)复杂度在碎片数量上是指数型的。上面被提议的在复杂度方面的减少对于使能拥有几百个的碎片的组合的视频推论是极度重要的。值得注意的是极限缩小候选原点的数量直到C候选可能会是有问题的：例如，假如我们选择的第一个碎片是非情报的（也就是单边），那么选择最优C候选是武断的并且我们可能抛弃了全局最优组

合。在实践中，我们推论算法（多维度策略，预搜查，和扫描观察）的其它组件消除了这风险。注意到的是，假如我们采取削峰高斯分布（或其它有限支持分布），并且假如搜查第一个最新碎片范围少于C候选位置，那么这改进的消除处理保证一个确切的解决方法，因为我们仅仅抛弃有零相似性的候选。注意到这使得在这样的条件下，我们可以提供一个确凿推论，这个推论等价于含有简化复杂度的信任传播。而且，我们知道在推论过程中，这结果是确凿的（最优化）或是它仅仅是一个近似值。

5．2．多维查找

为了进一步加速这消除过程，我们用一个由粗糙到精细的策略（既有时间又有空间）。我们从粗糙的维度选择第一个查找碎片，因为两个原因：(i)在数据库里有一个更小数量的粗糙碎片比精细的碎片（这样减少了有效的N在第一个最强烈的步骤中），并且(ii)粗糙的碎片更加有判别力的因为他们从巨大的区域中捕获了信息。这消除数据库组合的候选区域是非常快速的。我们进行下去直到我们处理完所有的在观察到的粗糙维度的碎片。于是我们投出候选原始点到下一个精密标度并且继续去处理在精密维度（既是空间上也是时间上的）里的碎片。我们用多维度的方法去处理所有在观察到组合里的碎片。这个多维度查找的复杂度是O(N0 + kc)，这里N0是时空金字塔里最粗糙维度的碎片数量。

5．3．高效的数据库存储和检索

一个简单的数据库实现可以是用一个碎片描述符的排列和线性的查找。然而，时间和空间复杂度可以显著的分别的提升数据库的存储和检索。存储空间可以通过保持描述符向量近似值的方法得到显著的减少。例如，所有描述符向量通过利用标准技术例如PCA和ICA的技术可以被到映射成一个低维线性空间。另外，向量量子化技术（例如K均值，或是Jurie and Triggs(2005)）可以被应用到描述符的聚类组中。映射和量子化的结果是出现更少存储的描述符,并且每一个描述符都更短了。另一个好处是数据库检索时间被缩短了。注意到映射和量子化在描述符向量里引进了错误。假如每一个“被压缩”的描述符向量包含一个连接原始描述符的话，我们就可以消除错误了。本案例中，存储空间没有被缩小，但是检索的时候将会被缩小。一个接近的相关的缩短数据库检索时间的相关方法是使用更好的数据结构去存储描述符向量，例如KD树和hash表去查找大约最近邻。这些数据结构使最快范围查询（在一个给定的元素的某一范围里发现所有在数据库里的元素）。这个时间复杂度的结果是O(Range(N0)+ kc)，这里(N0)《 N0表示在有N0元素（碎片）的数据库数据结构的范围查询的代价。

5．4 利用预查询的方法

到目前为止我们假定上面描述的组合算法是被应用到所有观察的点，这些点完全不彼此不相关的。这常常是徒劳无功的，因为邻近的被观察到的组合在数据库里倾向于拥有近邻隐藏的组合。我们利用这个事实通过测试隐藏组合变量在空间和时间上的值去加速合成的过程。通过所有的先前组成的组合，凭借着从观察到的重叠碎片里获得的知识，我们预测隐藏组合中心的位置和数据库里的隐藏碎片的身份。我们用最简单的预测：给定一个近邻的观察到的组合（˜y和它的相应被探测的数据库组合~ X），我们预测一些在隐藏组合X里的隐藏变量，相对应的是一个新观察到的组合Y。我们预测用以下公式预测隐藏组合中心Cx：

cx = c˜x + cy − c˜y

(11)而且，对每一个观察到出现在预测组合(liy, diy)=(l˜jy ,d˜jy)的碎片(liy，diy)，我们预测相应的隐藏变量(lix, dix)=(l˜jx ,d˜jx)。没有预测的剩下的隐藏变量，可以用改进的消除过程非常快的被推断出来。注意到的是对于近邻组合，大多数的观察到的碎片是重叠在一起的，因此组成一个新组合的复杂度是非常低的。万一预测错误并且因此导致一个低质量的组合（也就是说，被观察到的区域有较低的可能性），我们就抛弃这预测结果并且在整个的数据库里都用通用的推论。这样，这个预测查询就不会在数据库的别处阻止探测。然而，在大多数的情况下，这预测查询是很精确的并且它减少相当多的推论时间。假定有一个长度为r的合法性预测“链条”，在链条中预测一个组合的代价是O(k)。因此，这样一个链条的总的复杂度是O(Range(N0)+ kc + kr)而不是没有预测时的O(Range(N0)r +

krc)。除些之外，还非常的明显的缩短推论时间，预测确实提升了推论的准确性。这是因为组合精准的这些区域繁殖信息到了精确性不高的那些区域（例如，一个站立的人的一条腿比身体的上部有更少的确定性）。

６．应用

在本论文提出的方法引起了各种各样包括探测图像和视频不规则方面的应用：

6．1．探测与异常图像结构

给定一个样本图像数据库，我们可以要新观察到的图像中探测一些异常的东西（例如从来都没有见过的物体，新的图像模式，等等）在Fig.6里给出一个例子。三个不同姿势的图像作为一个数据库被提供（Fig.6(a)）。其它姿势的图像作为查询被提供(Fig.6(b))。新的合法的姿势被自动的从数据库里推断出来，尽管它们是从来都没有见过的。不能从三个数据库图像被推断出来的新姿势部分被用红色标示成“不熟悉的”(Fig.6(c))。Figure 6(d)真实的标出了这些能够为大多数查询图像中的每一个像素提供证据的数据库图像（也就是说，这告诉我们哪一个数据库图像包含了最大可能支持那像素的区域。注意,然而，这些并不是支持它们自己的区域）。默认具有相同碎片的和从推论过程中被抛弃（为了加快速度）的相同的碎片（具有可以忽略的图像倾斜度）被假定为合法的。

Figure 6.Detection of irregular image configurations.New valid poses are automatically inferred from the database(e.g., a man sitting on the chair with both arms up, a man sitting on a chair with one arm up), even though they have never been seen before.New pose parts which cannot be inferred from the three database images are highlighted in red as being ―unfamiliar‖.6．2 单一图像的空间显著

给定一幅单一的图像（也就是说没有数据库），显著图像区域可以被探测到，例如，那些凸出的不同于剩余部分的图像的区域。这可以通过测量每个相对于同一幅图像中剩余点的图像区域（即“查询”）的可能性来实现（这数据库用作推论这特殊的区域）。这个处理过程为每一个图像区域重复着。（当进行着从一个图像区域的分析到下一个图像区域的分析时，这个处理过程可以通过自适应增加或是减少数据库中的大约描述符的方法而很高效的实现）。这样的一个例子在Fig.7.中表示出来。这个方法可以被应用到自动视觉检测的问题中（计算机芯片、货物等的检测）。

Figure 7.Identifying salient regions in a single image(no database;no prior information).The Jack card was detected as salient.Note that even though the diamond cards are different from each other, none of them is identified as salient.6．3 探测可疑行为

给定显示几个合法行为例子的一个小数据系列，我们可以一个新的长

视频中探测到可疑和为。这是完全不管我们以前从来都没有看过这些行为的组合，而且是没有关于哪一类的可疑行为可能发生在视频里的先验知识的。这些是自动的组合与从数据库中的时空区域里推断出来的。Fig.8有一个这样的例子，它从一个2分钟长的视频短片里显示出几个用来探测可疑行为的例子。要看完整的视频请登录binations are automatically inferred from the database(e.g., two men walking together, a different person running, etc.), even though they have never been seen before.behaviors which cannot be inferred from the database clips are highlighted in red as being ―suspicious‖.For full videos see www.wisdom.weizmann.ac.il/∼vision/Irregularities.html

6．4 视频中的时空显著

利用我们的方法我们可以从一个简单的视频流里就能识别出显著行为，完全不用任何的数据库或是先验信息。例如，一个人在欢呼的人群中奔跑。这个人的行为很明显是显著的。在这个案例中，显著性是通过相对于同一时间观察到的其它行为的比较而测量出来的。每一个

时空视频片断（查询）的合法性是相对于所有其它视频片断而测量出来的。这个处理过程为每一个视频片断重复进行着。这样的例子在Fig.9里有给出。要获取全部视频，登录到www.wisdom.weizmann.ac.il/∼vision/Irregularities.html。视频显著性也可以通过相对于其它的时间窗口来测量到。例如，当显著性是通过相对于整个视频而测量的，那么那些只出现过一次的行为将显得突出。作为选择的，当显著性的测量是相对于过去（所有之前的帧）而测量的，那么新的之前没有发生过的行为就会被认出。这提升了应用的多样性，包括视频大纲。

Figure 9.Detecting salient behaviors in a video sequence(no database and no prior information).Saliency is measured relative to all the other behaviors observed at the same time.In this example, all the people wave their arms, and one person behaves differently.For full videos see www.wisdom.weizmann.ac.il/∼vision/Irregularities.html

6．5 自动视频检查（质量保证）

我们的方法可以被应用到自动视觉查检。自动视觉检查可以广泛的应

用在质量保证和货物的制造方面，电子印板，晶片等。自动检查的一个主要的问题是怎么描述所有可能正确的模式。在这些案例中，自动检测减少成一个具有转变探测的简单问题模型匹配。然而，有很多重要复杂案例，它是毫无意义或不可能提供比较参考，（例如，由于“好”案例的空间的组合复杂度）。我们用我们的方法从事这样的案例从而来探测不规则性。通过提供一些期待/正常模型的样例（对于货物，印刷板，晶片，光掩膜，平板显示，磁砖，织物，水果等）我们努力去从这些样例通归纳和组成新的从来都没有见过的现象。具有较低组成可能性的将为认为是错误的。在Fig.10给出这样的一个水果检查的样例。经常，被检查的产品呈现出重复的模型（例如，晶片，织物，平板显示）。在这些案例中，我们可以用我们的显著方法去探测错误根本不需要先验样例。这在Fig.11中图表说明晶片检查和Fig.12里的织物检查。对于给出的样例中，我们已经利用到基于RGB或是灰度等级的碎片描述符。我们已经利用到一个高斯分布来对描述符相似性建模。我们的方法，然而，没有局限于特定的描述符。

Figure 10.Detection of defects in grapefruit images.Using the single image(a)as a ―database‖ of high quality grapefruits, we can detect defects in different grapefruits at different arrangements in images(b),(c).In both image pairs the input image is to the left and the output image is to the right.Detected defects are highlighted in ―red‖.Figure 11.Detection of defects in wafer images(No database and no prior information).Wafers tend to exhibit repeating structures.This can be utilized using our saliency approach to detect defects without any database.In each example, the left image is the input, the right image is

the output.Detected defects are highlighted in ―red‖.Figure 12.Detection of defects in fabric images(No database and no prior information).Fabric tend to exhibit nearly repeating textures and patterns with small non-rigid deformations.This can be utilized using our saliency approach to detect defects without any database.Detected defects are highlighted in ―red‖.７．结论

我们研究的问题是探测视觉数据(图像或视频)里的不规则现象。“不规则”这个术语是依赖于被定义“规则”或“合法”的上下文。然而，对于给定的上下文，期待显定义所有可能合法结构是不现实的。我们把决定视觉数据合法性的问题当作构造一个迷题的过程：我们尽力利用从先前视觉样例（数据库）中解压出来的数据块去组合一个新观察到的图像区域或是一个新视频片断（查询）。能够用数据库里的巨大邻接数据块去组成的观察到的数据区域被认为是相似的，相反那些不

篇3：读书笔记(图像和视频中的不规则检测)

随着我国社会主义现代化建设的不断发展,我国的计算机信息技术得到了前所未有的发展,这也在一定程度上促进了人工智能技术以及图像工程等技术的革新。作为当前计算机领域中一个热点问题,视频图像运动目标检测在城市管理中的应用,对社会治安、打击犯罪以及和谐社会的建立有着重要的意义与价值,其能够促进人们对运动信息的有效捕捉,进而用于对实际问题的解决,对视频图像中的运动目标检测方式及算法分析迫在眉睫。

2 视频图像运动目标检测的意义

所谓运动目标检测,主要是指对视频的序列图像进行检测,观察在整个场景图像中有无运动的物体,共涉及到视频图像处理、人工智能以及计算机图像分析等多个方面,是视频监控体系的最底层,其为后期目标跟踪、分类与行为理解等环节打下了坚实的基础,对于视频监控系统功能的发挥有着重要的影响。通常对于运动目标检测包含了光流法、背景差分法等多种方式,其算法也多种多样。本次研究对视频图像中的运动目标检测方式及算法的分析有着一定的应用价值。

3 视频图像运动目标的检测方式

3.1 帧间差分法

作为运动目标检测最为常用的方法之一,帧间差分法能够对动态变化的图像进行有效检测,且多于相邻帧间或三帧之间进行,因此被称为是帧差分法,其主要根据序列图像相邻帧的极强相关性原理,能够实现对运动目标的变化检测,在滤波的作用下,对运动目标的范围、区域进行确定,其计算公式可采用相关描述:dk(x,y)=|fk(x,y)-fk-1(x,y)|[1]。其中fk(x,y)以及fk-1(x,y)表示两帧连续的运动图像,绝对差分图像由dk(x,y)表示,该计算公式仅包括对像素强度的相减计算,整个计算流程相对简单,具有一定的可行性,便于实现。该检测方式也存在一定的缺陷,容易受噪声干扰,当被遮挡的背景受运动影响出现时,将会使新背景作为运动物体出现误检现象,甚至出现鬼影,为了有效避免“鬼影”对运动目标的影响,对帧查法进行了新的改进[2],通过对多帧图像差分交集的求证对运动目标进行检测,常见有对称差分检测,具体如图1所示。

3.2 背景差分法

所谓背景差分法主要是指将视频序列中所呈现出的当前帧图像与预先存储的背景图像进行相减,对目标进行检测与提取,其具体流程如图2所示。可以将背景差分法进行如下描述:dk(x,y)=|fk(x,y)-B(x,y)|,其中dk(x,y)作为差分图像,背景则采用B(X,Y)来表示,当前帧图像则为fk(x,y)。在对目标进行检测时,先对第k帧图像与背景图相减,进而提取差分图像,然后对阈值进行选择,并使所得的差分图像转化成为二值差分图像,其中像素为0的则确定为背景区域,为1的则可确定为运动目标区域。作为背景差分法极为重要的一个环节,预处理指的是对视频图像的简单滤波,避免摄像机噪声以及外界环节的瞬时噪声等,若摄像机发生抖动,那么在对背景进行建模前,还必须所获取的连续视频帧进行图像综合处理。

4 视频图像运动目标的算法分析

4.1 多帧图像平均法

所谓多帧图像平均法主要是指在对运动目标进行检测与分析时,将其作为噪声源,并采用累加平均的方法对噪声进行逐步消除,将目标运行的序列图像作为重点分析对象,并从中得出背景图像,可以采用以下方式进行表达:。采用此算法,能够得到相应的背景图像,且该图像受平均帧数的影响,平均帧数越大,其消除噪声的效果就明显[3]。

4.2 连续帧差法

所谓连续帧差法主要是指在对视频图像运动目标进行提取与计算的过程中,计算出当前帧图像与前一帧图像的差值,并以此确定运动区域,其能够使运动区域背景保持不变的状态,而对于非运动区域的背景则可以采用当前帧实现动态更新,在迭代作用下,对背景进行提取。首先,原始图像B0可以采用第一帧图像I0进行表示,将迭代参数设置为i=1,所求为前帧与前一帧的差分二值图像,即BW1,其具体计算方法为:,其中当前帧与前一帧图像分别采用Ii与Ii-1表示,帧间差分则为ads(Ii-Ii-1)表示,帧间差分图像的灰度直方图用T表示,即最大峰值右侧1/10对应的灰度值。

然后通过二值图像对背景进行更新,其具体计算方法为:,其中Bi(x,y),BWi(x,y)表示两图像在坐标中的位置,将更新速度系数确定为0.1。设置条件i=i+1,然后将其代入BWi进行迭代计算,达到一定数量后,结束迭代,将B1设置为提取背景。

4.3 最大阈值分割

通常,在实际工作中往往需要高质量的运动图像,为了满足各个领域对高质量运动目标的需求,可以确定阈值对图像进行分割,使二值化图像能够对图像运动目标做出准确地反映。一般情况下,图像的直方图为双峰状态,其最佳阈值则为直方图双峰的谷。而对于多峰直方图,阈值的确定则面临着难题。经过研究可采用概率分布法对信息进行表示,通常,阈值不同,其目标区域与背景区域的信息量也有着明显的不同,那么总信息量阈值t则为最佳分割值,即最佳阈值。

5 结束语

近年来,视频图像运动目标检测与算法成为计算机领域研究的一个重点,其不仅是对计算机视觉检测的理论分析,更是对视频图像处理技术的实践探究,有着广阔的应用前景。目前,社会多个行业都对视频图像处理有着不同的需求,要立足于多样的应用环境,探究视频图像中的运动目标检测与算法的新途径,确保检测的准确性,为相关行业提供技术支撑。

参考文献

[1]毛育佼,陈苒君,唐莉萍.视频图像中运动目标检测算法的提高[J].计算机系统应用,2014,23(4):107-111.

篇4：读书笔记(图像和视频中的不规则检测)

在基于视频的车辆检测中, 由于车辆阴影的出现会给车辆检测造成目标粘连、目标失真和目标丢失等错误, 从而导致车辆检测不够准确, 因此必须对其阴影进行检测与去除。

当前运动目标的检测方法主要有光流法、帧间差分法和背景差分法[1]。光流法虽然能够在不知道场景任何信息的条件下, 检测出独立运动的对象, 但是多数光流法的计算复杂、耗时, 难以满足实时检测的要求。帧间差分法尽管检测速度快、对光照不敏感, 但不能检测静止或者速度慢的物体、产生空洞。背景差分法能完整地分割出运动目标, 但自适应能力较差。

目前对阴影的研究主要分为两类检测方法, 即基于阴影模型和基于特征的方法。基于阴影模型的方法依赖先验几何模型, 如目标的三维形状和光照模型。阴影的形状和位置都可以精确的计算出, 但很难满足实施性需求。基于特征的方法是利用阴影的颜色、梯度和纹理不变的特征来分割阴影。但当目标与阴影颜色相近时基于颜色特征的方法就不行了。基于阴影纹理不变的特性来分割阴影适用于背景纹理清晰且均匀的情况。所以本文主要采用基于特征的方法, 即基于纹理的算法来消除阴影。

2 基于混合高斯背景建模的运动目标提取

本文采用混合高斯背景建模[2]的减背景方法来实现运动车辆的提取。混合高斯背景建模是基于像素样本统计信息的背景表示方法, 利用像素在较长时间内大量样本值的概率密度等统计信息 (如模式数量、每个模式的均值和标准差) 表示背景, 然后使用统计差分 (如3σ原则) 进行目标像素判断, 可以对复杂动态背景进行建模。

在混合高斯背景模型中, 认为像素之间的颜色信息互不相关, 对各像素点的处理都是相互独立的。对于视频图像中的每一个像素点, 其值在序列图像中的变化可看作是不断产生像素值的随机过程, 即用高斯分布来描述每个像素点的颜色呈现规律 (单模态, 多模态) 。公式2-1是由K个基本高斯分布函数线性组合成的高斯混合模型。

高斯混合模型用于背景建模时, 对每个像素分别建模。当处理彩色图像时, 假定图像像素点R、G、B三色通道相互独立并具有相同的方差。在我们的研究中, RGB的3个颜色通道分别用一个单独的高斯函数进行描述, 即用3个高斯函数来综合描述一个像素点的颜色信息, 即k取值为3。

高斯混合模型的背景建模具体过程如下:

(1) 每个新像素值Xt同当前K个模型按下式进行比较, 直到找到匹配新像素值的分布模型, 即同该模型的均值偏差在2.5内:

(2) 如果所匹配的模式符合背景要求, 则该像素属于背景, 否则属于前景;

(3) 各模式权值按如下公式更新, 其中a是学习速率, 对于匹配的模式, Mk, t=1, 否则Mk, t=0, 然后各模式的权重进行归一化:

(4) 未匹配模式的均值与标准差不变, 匹配模式的参数按照如下公式更新:

(5) 如果步骤1) 中没有任何匹配模式, 则权重最小的模式被替换, 即该模式的均值为当前像素值, 标准差为初始较大值, 权重为较小值;

(6) 各模式根据w/2按降序排列, 权重大、标准差小的模式排列靠前;

(7) 选前B个模式作为背景, B满足下式, 参数T表示背景所占比例:

根据经验, 学习速率要与视频帧率相配合, 并考虑背景可能发生变化的频率。在一般情况下, 取=0.02能得到满意效果。

3 基于纹理特征的阴影去除

采用基于混合高斯模型的减背景方法得到目标区域, 但该区域往往包含了运动车辆的投射阴影, 需要进一步去除阴影。实验发现, 图像中运动车辆阴影区域纹理特征有以下特性:对于图像中的浅阴影来说, 纹理基本保持不变, 而对于图像中的重阴影来说, 几乎不存在纹理[3]。根据这一特性, 我们利用一阶梯度表示纹理, 并运用sobel算子计算每个像素点的一阶梯度值, 通过设定相应阈值区分阴影和非阴影, 实现车辆阴影的检测。

根据sobel算子, 背景像素点各通道水平和垂i直方向的一阶梯度计算式如式 (3-1) 和式 (3-2) 所示, 当前帧像素各通道水平和垂直方向的一阶梯度计算如式 (3-3) 和式 (3-4) 所示。

根据阴影的特性, 如果是重阴影处, 一阶梯度值应该接近为0, 而如果是浅阴影处, 背景和当前帧梯度值相近, 那么阴影的判断准则如下 (、η为阈值) :

用基于纹理的阴影检测能够较好地实现阴影检测, 将这些标记为阴影点的像素从前景中去除, 即可得到属于车辆的前景。

4 实验结果及分析

实验环境为Intel Dual-core Duo T5850 2.16GHz CPU、2GB内存, Visual Studio 2010开发平台, 运用Open CV2.4.3进行编程实现。

为了验证文中的阴影检测算法的性能, 我们将多种阴影检测算法分别对样本数据进行检测。样本数据为一段学校入口的车辆视频, 该视频阴影面积较大, 但阴影亮度值较高, 属于浅阴影。通过实验证明, 针对该段视频, 阴影检测的阈值选为=2.3, η=35。

图1为不同算法进行车辆阴影检测时的结果。首先获得车辆视频帧图 (a) , 对原始视频序列图像使用混合高斯模型进行背景建模, 得到背景图像 (b) 。将原始视频图像与背景图像相减得到图像 (c) 。图像 (d) 、 (e) 和 (f) 分别为基于纹理特征、颜色特征、几何特征去除阴影后的图像。由检测结果可以看出, 基于颜色特征的阴影去除算法不适合车辆图像, 基于几何特征的阴影去除会引起车辆区域失真, 本文算法能够较好地检测到车辆视频中的运动车辆并分割出阴影区域。

5 结语

本文采用了针对视频车辆目标检测的准确识别算法, 并结合基于纹理特征的阴影去除算法得到去掉阴影的运动目标。实验证明, 此方法能够快速、准确的在动态视频中分割出运动车辆和去除阴影, 但是还存在一定的不足, 还没有考虑车子相互遮挡的情况, 因此还需要不断改进。

参考文献

[1]赵旭东, 刘鹏, 唐降龙, 刘家锋.一种适应户外光照变化的背景建模及目标检测方法[J].自动化学报, 2011, 37 (8) :915-922.

[2]张红颖, 李鸿, 孙毅刚.基于混合高斯模型的阴影去除算法[J].计算机应用, 2013, 01:31-34.

[3]余孟泽, 刘正熙, 骆键.融合纹理特征和阴影属性的阴影检测方法[J].计算机工程与设计, 2011, 32 (10) :3431-3434.

[4]Andres Sanin, Conrad Sanderson, Brian C.Lovell.Improved Shadow Removal for Robust Person Tracking in Surveillance Scenarios[C].International Conference on Pattern Recognition, 2010:141-144.

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【读书笔记(图像和视频中的不规则检测)】相关文章：