人体行为

2024-05-21

人体行为(精选九篇)

人体行为 篇1

关键词:人体行为理解,模版匹配,状态空间,语义描述

1 研究现状

人体行为识别是处理时变数据, 即从图像序列中得到的按时间先后的一系列关键帧中选取用于描述人体静态姿势的参数, 连接成一组参数, 并和预先定义的动作模版匹配, 从而让计算机用自然语言描述人体的行为。假设Φ=ф1ф2…фn表示从视频中提取的时间间隔一定的图像序列关键帧, 然后对这一序列图像进行图像化处理得到有效关键帧包含了能表示人体姿态的有用信息, 根据这些信息并采用合适的技术, 将图像序列Φ=ф1ф2…фn近似的映射到某一个人体行为Ψ, 从而得出此人体行为的含义。

人体行为理解与描述所采用的技术主要分为以下三种。

1.1 基于模版匹配的方法

基于模版匹配的方法是将图像序列转换成一组静态形状模式, 然后将它和预先存储的动作样本进行比较, 在比较数据可以有轻微变化下识别人体行为。Johansson首先提出MLDs (Moving Light Displays) , 它是在穿着黑色衣服的演员的关节处装上发光装置, 用每个光源在图像序列中的位置变化来识别人体的动作含义。这一技术在90年代被广泛应用于模仿现实人物的动作来制作动画人物的行为。

Polana和Nelson采用被普遍使用的2D网格的特征方法进行人体行为识别。他们首先计算连续帧之间的光流场 (指图像中所有像素点构成的一种二维瞬时速度场, 其中的二维速度矢量是景物中可见点的三维速度矢量在成像表面的投影) , 并在空间栅格上沿X和Y方向分解每个光流帧, 然后累加每个单元格的幅度, 从而形成一个高维特征向量来识别, 为了归一化行为的持续时间, 他们假设人的行为是周期的, 并将整个序列分解为该行为的许多循环过程, 最后采用最近邻算法进行识别。

A.Bobick和J.Davis采用运动能量图 (MEI) 和运动历史图 (MHI) 来描述图像序列中人体的行为。它首先对图像序列中的图像差分运算并二值化, 然后将包含动作区域的二值化图像随时间积累形成HEI, 最后扩展为MHI, 而MHI中每个象素的值与那个位置上的动作的持续时间成比例。每个动作都由各个视角下的图像序列的MEIs和MHIs组成, 然后从中提取出基于矩的行为特征用于模板匹配的识别。

MEIs和MHIs是2D的动作模版, Daniel Weinland等提出了将2D推广到3D动作模板的MHV (Motion History Volumes) 。式 (1) 是定义的MHI函数, 其中是行为的最大持续时间。式 (2) 是将动作模版扩展到3D情形下的MHV函数。它采用在圆柱形中沿垂直轴的傅立叶变换对人体行为进行分割、分类、识别。实验结果表明它能有效学习和识别人体基本行为动作, 识别率也很令人满意。但是问题依然存在, 对未知动作的建模可能需要不止一个的初始化和分类, 在一般的未知动作中的多分类和直接学习变得相当重要, 而且, 很多行为不能用一个模板建模, HMMs可以用来解决这些问题。

模板匹配的方法计算复杂度低、操作和实现简单, 但是它对噪声和运动时间间隔的变化相当敏感。

1.2 基于状态空间的方法

基于状态空间的方法是将图像序列中的每个静态动作作为一个状态, 这些状态之间由给定的概率联系起来。任何的动作序列可以认为是这些静态动作在不同状态中的一次遍历过程, 计算这个遍历过程的联合概率, 取其最大值作为分类标准。基于状态空间的方法已经被广泛应用于预测、估计和检测时间序列。

其中最典型的是HMMs (Hidden Markov Model) 如图1所示。它是将用于识别的特征 (特征点、线、2D小区域等) 作为静态动作的状态。HMMs最早被用于语音识别, Yamato等把HMMs引入到行为识别中, 他将二维小区域块的运动、色彩、纹理等特征作为学习和识别的低级特征, 利用HMMs为每个类别产生符号模式, 并用Baum-Welch算法 (向前-向后算法) 实现模型的优化, 最后用给定序列图像下前向计算的结果确定识别。

节点表示模型的隐状态, 连线表示转移概率, vi表示每一隐状态的可见状态Matthew Brand等推出了耦合的可训练的HMMs (CHMMs) , 采用两个HMMs组件对行为的状态序列计算概率。作者将它和Single HMMs (HMMs) 、Linked HMMs (LH-MMs) 进行实验比较, 证明了CHMMs在处理较复杂行为时的优越性。Nuria Oliver等将分层的HMMs和动态贝叶斯网络 (DBNs) 结合起来设计了S-SEER识别系统用于办公室环境下的人的行为识别。

HMMs方法能用于行为识别的低级、中级和高级阶段, 它对噪音并不很敏感, 克服了模板匹配的缺点, 是一个比较通用的方法。而且, 在训练HMMs时增加一个新的动作到训练队列中也是相当容易的。但是, 在提取每一帧特征矢量之前做一些处理是非常必要的, 而且所用的迭代算法也是很复杂的。

1.3 基于语义描述的方法

人的行为的语义描述近几年来得到了很大的发展, 也取得了一定的研究成果。它是用种形式化的语法格式:主语 (人) 、谓语 (人的动作) 、宾语 (实物) , 将场景中人的活动情况用填空的形式填入语法格式中, 产生对场景的自然语言描述。

Kojima等首先从图像序列中提取代表整个人体的头部和双手区域, 并利用基于模型的方法估计整个人体的姿势和位置, 然后将这些轨迹分解为单一运动的基本单位元, 估计每个基本单位元的姿势和位置变化情况和其他环境中实物的相对距离、位置, 最后选取符合人体行为的词语按照给出的形式化语法规则, 利用机器翻译技术产生人体在环境中的行为的自然语言描述。

S.Ryoo and J.K.Aggarwal用基于CFG (context-free gram-

mar) 的方法定义复杂的人体行为。他们将人体动作分为原子动作、混合动作和交互, 开发了一套不仅能识别复杂的人体动作, 还能高精度地识别被描述的动作之间交互作用的系统。该系统能很好地识别两个人之间的握手、指点、拥抱等八种人与人之间的交互等行为, 精确度接近或超过90%。

Abhijit S.Ogale等用原子身体姿势产生句法来描述人体行为。首先将从多视角观测来的一系列人体动作轮廓作为人体姿势的知识结构隐含地存储起来, 然后用自动的关键帧选取过程将动作和他们必要的原子姿势从视频序列中提取出来, 最后建立一个PCFG (probabilistic context-free grammar) 结构, 这个结构能将提取的动作编码成动作句法。

基于语义描述的方法是对在一段持续时间内场景内容的分析过程, 目前还处于对场景中人体行为的简单语义解释, 对复杂场景中人体复杂行为有效的充分的语义描述还有相当艰巨的工作要做。

2 难点与发展趋势

尽管经过二十几年的发展, 人体行为识别取得了一定的成果, 但依然存在一些亟待解决的难点问题。主要难点有:

(1) 人体建模。人体的二维建模已经得到成功的运用, 但是二维建模只适用于对姿势或图像分辨率不需要精确的应用场合。而三维建模可以无条件准确地描述复杂的人体行为, 并可以避免遮挡带来的影响, 使识别率大大提高。

(2) 遮挡问题。遮挡问题一直是困扰研究人员的难点问题。遮挡问题解决的好坏程度直接影响着运动识别的效率。多视角分析虽然是最有实际意义的一种解决办法, 但对多人场景的分析, 尤其是拥挤状况下的分析就更难于处理了。我们必须开发更好的模型来解决遮挡时特征与身体各部分之间的准确对应问题。

(3) 识别效率有待提高。识别过程是一个图像处理和模式匹配的过程, 涉及到大量的数据运算, 而且人体是非刚性的, 加上人体行为的复杂性, 要想识别每个动作是相当困难的, 甚至是不可能做到的, 我们只有尽可能提高识别效率。

计算机视觉的人体行为描述与理解是一种新形式的人机交互方式, 拥有广阔的应用前景。不过, 目前的人体行为理解还处在初级阶段, 只能对人体一些简单动作行为, 而且对上下文的情景分析进展缓慢。怎样减少人体行为的识别歧义性需要加入一些不符合图像条件的约束条件。另外, 近些年, 机器学习和人工智能的发展, 开拓了人体行为的识别的研究手段, 我们需要利用和研究一些优秀的计算机视觉处理的算法和机器学习、人工智能领域的成果来提高识别效率、降低计算复杂度, 将语义描述推广到复杂场景中去。

3 结束语

人体生物纪录片《人体漫游》观后感 篇2

今天给大家推荐一部关于人体生物的纪录片——《人体漫游》,又名人体世界,这部纪录片是BBC最有名的纪录片之一,在豆瓣上的评分高达9分,曾获多个国际奖项。里面涵盖了从出生到死亡的全过程。

人体漫游观后感,带你一同探索人体生命系统

该片辑录了人生七个不同的阶段,全部利用真人真事的拍摄手法,由诞生开始,先讲述婴儿成长、十二岁女孩如何度过青春期、年轻妇人由怀孕至分娩的过程、年老夫妇共度晚年及一名胃癌病人步向死亡至气绝一刻的情形,全部是真人真事。

一个令人惊叹的探险之旅,带你一同探索世界上最复杂的生物工学–人体生命系统,英国广播公司以此系列与您一同探讨人体的世界,从生命意识的形成到无边界的死亡之地…

【生命物语】在我们生存的每一秒钟,体内都存有由无数个不可思议的微小生物所组成的奇异世界,它就是生与死之间的`差异处…..

【永不止歇的奇迹】生命的意识变化启动了世上最复杂难懂之生命循环系统,好似一出永不下档的戏曲,只为导向那坎坷多难的生之旅……

【人之初】于新生儿成长的四年中,他们从环境里学会每一项生存必备之技能,它们包括走路,甚至是为自我意识觉醒而学会的说话技巧…..

【澎湃的青春期】成人期生理上之变化是一连串荷尔蒙的革命,其转变速度有如云霄飞车般快速,它的影响不仅在身体上,也包括心里上…..

【脑力的支配】人类在经过了四百万年的脑进化后,对一个成熟完整的人脑来说,仍是这宇宙中最难懂和神秘的物体……

【光阴似箭】人类老化现象是为更复杂的过程,其过程却令人惊叹不已,并且它不代表人类的退化,而是进化…..

【生命的尽头】死亡自古以来就是一个难解之谜,但人类身体的秘密却比死亡更为神秘难懂,此集将真实纪录并观察一位癌症末期病患,他在其生命最后的旅途中如何地对抗死亡,进而接受死亡…..

【回顾人体世界】本集以人类超现代的进步科技与发展来回溯人体世界的整个制作过程,而为人体构造出一个完美的回顾与总结…..

香港无线台以过百万元之价购入《人体漫游》的纪录片,在明珠台播出。据香港媒体报道,《人体漫游》是电视史上首部有男女镜头的纪录片。

建议家长要陪孩子一起看,因为孩子在看的过程中会不断问问题。而我们回答孩子的问题,就要很科学地直接告诉他,尽量用正规词语,客观中肯,不带欺骗。

智能视频监控中的人体行为识别 篇3

1 视频监控技术发展现状及挑战

视频监控技术发展分为三个阶段,第一个阶段是人力现场监控,全靠人脑、眼睛盯着现场。后来发展为传统视频监控,电子眼和中控室结合,有人专门盯着屏幕,看各个视频点的情况。传统视频监控效率低下,因为人类只要观看监控器20分钟,人的集中力及判断力将会下降,观看监控器22分钟以上,将会放弃画面变动的95%以上。此外,也造成了资源浪费和信息噪声,高清监控设备的投入使得存储量需要扩展到标清设备的2-4倍,超过PB级的海量存储,信息量巨大;原始监控视频信息噪声大,基于内容、语义的智能分析技术不足,信息难以被充分利用。

第三个阶段是在智慧城市中实现计算机与电子眼结合,实现智能视频分析。智能视频分析技术,起源于计算机视觉技术。它的目标是从视频图像中识别、分析并提取语义的对象与事件,过程是通过背景建模跟踪,识别运动目标,记录目标运动信息和轨迹,分析运动的信息,最后监测某一个事件是否发生。它的理想目标就是监控系统具有自主分析的“大脑”,相当于人的眼睛看到一个视觉信息,然后传导到大脑视觉皮层当中进行处理。

智能视频监控主要涉及的技术有三个,一个是网络技术,即通过IP网络传输视频;第二个是计算机视觉技术,理解视频中的内容;还有一个是智能分析视频中的关键信息。

智能视频分析的案例有很多,如拥堵检测、行车越界、车流量预测、停车检测等等;对地铁、机场中的人员越界、货物遗留的监控;面向特定人群的监控,监控敬老院老人和幼儿园孩子的活动情况,监视孩子的个性是否有怪僻,是否合群等等。还有环境监测,对森林火灾、隧道火灾(见图1)、水灾等等进行监测。

2 视频人体行为分析与理解技术

人是现实世界的核心,因此对人体行为的分析与理解是关键,人体的行为包括肢体的运动,比如手势、跑步、倒地等等,还有多人交互行为。当前的研究应用,更多集中在行为层面的设备和理解上。当前的技术分成三大点,一个是时空分析方法,第二是序列分析方法,第三是层次化分析方法。

时空分析方法

有种研究思路是把视频图像时间轴组成一个3D的时空体,并且抽取各种特征进行比对,以实现行为识别。它是通过研究时间轴来组织3D时空。优点是方法简单、直接,缺点是难以处理速度变化以及行为变化。

序列分析方法

它是通过比对模版行为序列和测试行为序列的特征来实现行为识别。这个思路很简单,它把前面一组数据和后面一组数据进行比对。还有一个就是把人体行为序列看作是多个不同状态之间的转变,通过估计输入行为序列与状态模型之间的相似概率来实现行为的识别,比如对于几个不同的pose,它能对复杂的行为进行建模,但缺点是特征提取困难,需要大量的训练数据。

层次化分析方法

它是把人体行为分解成为多个运动基元或者子事件进行分层分析与识别。其中包括概率方法、具体描述方法。层次化分析方法的优点是适合对更加抽象的,可分解为多个子事件的高层的人体行为及事件进行分析识别,需要更多的人类知识的介入,因此可以含有较少的训练数据。但是缺点是上层分析很大程度上依赖于底层的分析,而底层又比较难做。

由于外部环境的多变性,比如光照、物体运动导致的复杂变化,相机的运动、抖动会导致的视觉变化,还有雾霾也将导致背景的建模困难(见图2)。还有人体行为、运动形式、类别的多样性也是建模的难点。因此需要研究一种鲁棒的行为特征表示。但是因为二维图象识别的二义性,如人体之间的遮挡与自遮挡现象,还有二维到三维的病态影射,所以获取鲁棒的三维特征数据非常困难。

3 视频人体行为分析与理解的关系技术

鲁棒的背景建模

关于鲁棒的背景建模,如果是一种简单的背景建模(见图3),例如(a)是当前拍的个体景的视频,背景是已经知道的,把这两个做一个减法,就变成(c)。它的优点是计算效率高,缺点是视角或背景发生变化时会失效。我们的方法是,用一个路口的摄像头,事先拍了很多的背景图,但是不知道哪一幅是对应的,所以把它拿进来进行背景合成,一下就找到这个合适的背景,然后减去这个背景图,就得到所需要的图像(e)。实验显示,在摄像机旋转、摄像机抖动的情况下,仍然能够拍出好的效果,把它的背景提取出来,也可以很快把一个人的运动轨迹提取出来。

高效的行为特征表达与提取

行为特征表达与提取,主要是基于侧影轮廓的行为特征表达与提取,当前存在多种侧影轮廓的表达方式,但是即使是两个侧影轮廓图看起来差不多,其实景图也可能相差很大。也就是说不同的姿态,可能有相似的轮廓。问题是,许多特征维度与具体问题无关,我们的目标是能够自动提取最有效的体征,降低特征维度,提高计算准确性。用自适应轮廓特征的合并与选取,就是将多个原始特征用多种方式来表述,分别计算傅里叶及小波特征,然后进行组合,做最终的特征输出。

对于人体行为的识别与姿态重建的应用,什么样的轮廓特征表达是最优的?不同轮廓的特征计算效率如何?人体相对于摄像机的朝向与倾角对于识别与重建结果有何影响?这些情况都不知道。我们采用的是一个HuumanEva-i的数据集,采用真实或者合成测试数据对不同轮廓表达,对三维人体效果进行测试。

对轮廓的特征表示可以有多种方法,我们对几种轮廓进行了对比。第一种是在训练和测试的数据中采用同样的表演者,使用合成的测试轮廓。第二种是在训练和测试中采用不同的表演者,使用合成的测试轮廓。通过这几种方式比较发现,训练和测试当中采用同样的表演者,它的误差可能要比使用不同的表演者的误差要小。如果采用同样的表演者,使用合成的测试轮廓要比使用真实的测试轮廓的误差要小。从这里得出的结论是,当训练数据跟测试数据中的行为对象不同的时候,使用合成的数据效果更好,真实应用中可以采用合成的数据作为依据。

图4是数据库指导下的姿态估计与重建思路。

图5是三维人体姿态的特征表达与距离度量。人体中可以分为很多关节点,几何的特征定义可以有很多方法,比如两个点之间的距离,这两点之间的距离相对于另外一个点的距离,可以作为特征,然后对它进行分析。这个实验结果表明,我们采用的这个方法是较好的方法。

三维人体姿态的估计与重建

我们现在叫基于自然视频的三维人体姿态估计与重建。我们在实验室里面要测试一个人体运动,身上可以带一个标记点,但是在一般的情况下,他没有这个标记点,这样的情况我们称之为自然视频。在智慧城市中录下来的视频,如何快速把这个人体的姿态恢复出来?以前的做法是要用视觉的办法,人对它进行分析。现在的思路是,假如有一大批的人体的模型,从中取出一种姿态,通过渲染以后产生一个结果,然后进行比较。如果这两个很接近,就反映了这个姿势就是视频当中我们要的那个动作。采用的方式是这样的,首先对侧影进行分析,引入目标函数。图6是一个电视台的学打太极拳的视频,首先把它进行三维建模,这里面实际上并没有用视觉的方法,而是把事先有的模型点获取下来,这样就很快能得出结果。这里的问题就是如何在每一个候选的姿态中确定最终的姿态,我们搭建了一个系统,支持1到6个普通USB摄像机配置的三维模型系统,可以很快的把人的运动骨架提取出来。对于双摄像机的情况,可以从两个视角对它建模。

关于具有区分度的紧凑多模态特征选择,传统基于多模态特征行为识别算法大多是将不同模态类型的特征直接拼接起来,构成一个更加高维的新的特征表达,增加了冗余性,忽略了不同模态特征之间的互补性。我们的主要思路是从多模态特征的角度来做。要做一些维度削减,去除非相关的特征。已有的方法有一些是基于监督的特征选择,还有非监督的特征选择,至于是监督还是非监督好一些?在现实条件下,非监督的人体行为视频数据比较充分,因此我们采用非监督的机制下的多视角的特征选择。基于RGB—D多模态特征融合的人体行为识别,RGB—D能够相对容易的进行背景建模,深度信息的引入有助于消除运动歧义性。现在有很多人在做这个工作,我们的思路是进行多特征的选择,然后通过多视角的特征学习,最后达到人体运动的设备跟检测的目的。大家最终的目的是一样的,就是对人体行为的识别。

4 人体行为分析与理解的发展趋势

面向具体的行業应用,要开发更具实用性的智能人体行为监控系统。解决的途径是引用多模态的传感器,提高准确性。同时,增强对环境上下文的理解,和面向大规模数据集的实时人体行为分析与理解。

现在已经有很多新的传感器,这些传感器的出现,能够解决很多问题,尤其是像现在RGB—D的传感器,因为它有更大的视角,更大的分辨率和更远的感知距离,可以在日常生活中进行应用,附加在环境中的各种传感器有助于辅助对复杂人体行为的理解与识别。因为有了传感器,在很多娱乐当中都可以作为一个很重要的交互手段,例如人与机器的交互。也增强了我们对环境上下文的理解,实时的人体行为的分析与理解技术是构建具有实用性的智能人体行为视频系统的关键技术。

这里还有一些值得思考的问题,比如说我们现在的很多训练数据如何标注,弱标注或者非标注,以及标注错误条件下的模型的建立等等。

基于光流的人体行为识别 篇4

关键词:光流,人体行为识别,跟踪,活动区域,视频处理

人体行为识别正成为计算机视觉领域内研究的热点之一,由于它研究的对象是视频或者图像序列,而这些是通过快速捕捉和存储二维图像形成的,并没有目标之间相对位置的信息,所以给研究者带来了很大困难。同一个目标在不同的成像环境下会有不同的成像效果,比如光照、视角等变化,另外,目标之间相互遮挡,或者有复杂的重复背景,都会对目标的提取造成困难。即使目标已经提取出来,由于人的差异性,每个人执行同一个动作也会有差异,这为行为识别也带来一定的困难。

在本文中,以教室内的学生站立或坐下的视频为研究对象,通过计算光流,实现对学生的站立和坐下2种动作进行识别。

1 相关工作

很多研究者已经开始人体行为识别[1,2]方面的研究,Rapantzikos[3]用密集显著特征点识别人的行为。Dai[4]等人利用上下文对动作进行分组交互分析。赵海勇等[5]利用背景差分法和阴影消除技术从图像中提取完整的人体轮廓,提出了一种以运动人体的轮廓为特征,基于模板匹配的人体行为识别方法.李宁等[6]提出了基于"从左到右三状态半连接HMM"的人体行为识别方法。钱堃等[7]在概率框架下提出一种基于抽象隐马尔可夫模型的人运动行为识别方法。韩磊等[8]提出一种基于时空单词的两人交互行为识别方法。

光流法[9]也得到了广泛的应用,Brox等[10]处理光流的大偏移问题。Bleyer等[11]讨论了颜色对光流的影响。Lei等人[12]利用离散优化对光流进行由粗糙到精细的估计。

2 人的行为识别

本文中人的状态有2种:坐和立。人的动作有三种:坐下、起立、维持不变。

整个算法主要分为4个过程:1)获取活动点集;2)获取活动区域;3)获取人的动作;4)更新人的状态。

2.1 获取活动点集

利用计算出来的光流,对当前帧中光流变化比较大的光流所在地位置保存下来。为了达到实时效果,对整幅图像进行了采样,这样就形成了一个小的图片,光流大的位置的亮度为255,其它的位置为0。

2.2 获取活动区域

在活动点集的基础上,利用形态学中的膨胀和腐蚀操作算子进行处理。考虑到在获取活动点集中有采样处理,这里膨胀的半径要根据采样频率设置。首先对活动点集进行膨胀操作,然后进行腐蚀。再进行二值图的轮廓查找,将轮廓比较小的舍弃,保留面积比较大的轮廓。根据大轮廓上点的坐标,计算出该轮廓的上下左右边界,从而得到活动区域。因为人的动作范围有可能比较大,这里把活动区域再往外扩充一半的距离。

2.3 获取人的动作

对每个活动区域处理,首先查询该区域中人的状态,然后利用保存好的前N帧图像的信息,统计该区域内的光流变化,得到该序列中向上光流和向下光流的矢量和。

因为人的一些习惯问题,在没有站立或坐下动作时,可能会有左右晃动,侧身,抬头,往前趴,往后靠等,都会引起光流的变化。这里分为有动作的处理和无动作的处理。

1)有动作的处理

在标准的站立和坐下情况下,根据向上光流和向下光流就可以判断出人的动作。但在实验过程中,由于每个人的站立和坐下的形态是不一样的,而且由于摄像头变形的原因,需要做更多的处理。对于标准站立的人,只根据向上光流就可以判断人的行为。同样,对于标准坐下的人,只根据向下光流就可以判断人的行为。但有的人站立时会先弯腰,然后再站起来,这样会先产生向下光流,然后才是向上光流,同样,有点人坐下时会先弯腰坐下,然后往后靠,这样会先产生向下光流,然后是向上光流。所以本文将站立分为以下2种:1)笔直站立;2)弯曲站立,同样,将坐下分为2种:1)笔直坐下;2)弯曲坐下。

2)无动作的处理

人的左右晃动或者侧身,引起的向上或向下光流很少,大部分是横向的光流,所以在实验过程中可以利用垂直方向的光流排除掉这类行为。对于抬头的行为来说,没有站立或做下引起的光流变化大,所以可以用一个门限来排除。对于往前趴并且随后直起身子的行为,其引起的光流变化如同弯曲站立引起的变化,但总的矢量和近似于零,而弯曲站立的矢量和比较大。相似地,往后靠并且随后直起身子的行为,其引起的光流矢量和近似于零,所以也可以排除掉。

2.4 更新人的状态

人在站立状态的时候,如果时间比较长,那么在当前帧不会得到活动区域,这样人的状态就没有办法维持。所以需要一个状态表记录每帧中站立人的状态。该状态表需要记录站立人的位置、区域和帧号。这样在判断下一帧人的动作的时候就可以更准确的判断。如人在站立状态的时候,仅有坐下或者维持不变两种动作,同样的,人在坐下状态时,仅有站立或者维持不变两种动作。最后,在显示的时候,就只需要根据该状态表把当前帧中站立的人显示出来。

3 实验

采用本文算法对实际视频进行实验,摄像头位于教室黑板的上方,以斜下视方式对准学生。视频图像分辨率为720×576像素。教室内的学生只有2种状态:坐和立,动作有3种:站立、坐下和维持不变。在整个视频中,把站立和坐下的动作识别并标识出来。识别出来的站立动作如图2所示,分别为视频中的第1、5、9、13、17、21帧,识别出来的坐下动作如图3所示,分别是视频中的43、47、51、55、59、63帧。

对整个视频进行统计站立和坐下的次数,与真实结果进行比较,其结果如表1所示。从结果来看,算法能够准确的识别出站立和坐下的动作。

4 结论

本文以教室内学生的站立和坐下的视频为研究对象,提出了一种基于光流的人体行为识别算法,整个算法主要分为4个过程:1)获取活动点集;2)获取活动区域;3)获取人的动作;4)更新人的状态。该过程在每帧图像进行处理,并保存以前结果作为下一帧识别的依据。实验结果表明了该算法的实时性和有效性。

参考文献

[1]阮涛涛,姚明海,瞿心昱,等.基于视觉的人体运动分析综述[J].计算机系统应用,2011,(2):245-247.

[2]Turaga P,Chellappa R,Subrahmanian V S,et al.Machine recognition of human activities:A survey.IEEE Trans.Circuits Syst.VideoTechnol.2008,18,(11):1473-1488.

[3]Rapantzikos,K.,Avrithis,Y.,and Kollias,S.Dense saliency-based spatiotemporal feature points for action recognition[C].In Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,Los Alamitos,CA,2009:1454-1461.

[4]Dai,P.,Di,H.,Dong,L.,Tao,L.,and Xu,G.Group interaction analysis in dynamic context[J].IEEE Trans.Syst.Man Cybern.Part B.2008,38(1):275--282.

[5]赵海勇,刘志镜,张浩.基于模板匹配的人体日常行为识别[J].湖南大学学报:自然科学版,2011,(02):88-90.

[6]李宁,须德,傅晓英,袁玲.结合人体运动特征的行为识别[J].北京交通大学学报,2009(02):6-10.

[7]钱堃,马旭东,戴先中.基于抽象隐马尔可夫模型的运动行为识别方法[J].模式识别与人工智能,2009,(03):433-439.

[8]韩磊,李君峰,贾云得.基于时空单词的两人交互行为识别方法[J].计算机学报.2010,(04):776-782

[9]Baker S,Scharstein D,Lewis J,et al.A database and evaluation methodology for optical flow[C].In Proceedings of the IEEE internationalconference on computer vision.Rio de Janeiro.2007:1-8.

[10]Brox T,Bregler C,Malik J.Large displacement optical flow[C].In Proceedings of the IEEE conference on computer vision and patternrecognition.Miami,FL.2009:41-48.

[11]Bleyer M,Chambon S.Does color really help in dense stereo matching[C]In Proceedings of the international symposium 3D data pro cessing,visualization and transmission.Paris,France.2010:05-17-2010-05-20-2010.

静态图像中的人体行为分类研究 篇5

随着机器视觉和数字信息技术的发展,人体行为分类已经成为模式识别和计算机视觉中的一个热点研究课题。在很多领域,它都具有广泛的应用前景和重要的经济价值,例如: 生物特征识别、智能视频监控、体育分析、基于内容的图像检索、人机交互等等。最近几年关于人体行为分类的大部分研究都是基于视频的研究[1,2],而基于静态图像的行为分类研究相对甚少。

目前有关静态图像的行为分类研究也慢慢得到了关注[3],其中大部分研究以人体姿势[4]为主要识别信息。但这些研究需要预先手动标定出行为对象,再对标定出来的行为对象进行特征提取和分析。 虽然取得了一定的分类效果,但需要大量人力物力。 此外,典型的行为分类图像会有遮挡、重叠等情况, 而且拍摄视角的改变也会导致同种行为姿势的不同变化,所以依赖人的姿势,单独提取行为对象不能够满足具有代表性的人体行为分类要求,针对此问题, 提出了结合图像场景与行为对象特征的图像表示方法。

在图像表示方面,采用非常流行的基于bag-ofwords的空间金字塔匹配模型( Spatial Pyramid Matching,SPM) ,此模型使用k-means聚类作为矢量量化 ( Vector Quantization,VQ) 方法,聚类中心的选择和生成字典的大小都影响了其后的图像描述能力,文献[5]是对上述方法的改进,取得了一定的效果。 但由于稀疏编码( Sparse Coding,SC) 对每部分的特征独立编码,忽略了各部分特征间的联系,编码之后,相似的特征可能变得完全相反,从而丢失许多相似性信息。为了保留这些相似信息,提高分类效率, Yang[6]等人提出了局部约束线性编码算法( Locality-constrained Linear Coding,LLC) 。受此启发,本文结合图像场景特征与行为对象特征并使用LLC编码算法进行实验分析。

1图像场景与行为对象的结合

为了证实场景特征对人体行为分类的影响,本文提出两种不同的实验图像形式。

1“行为对象”形式: 通过手动标定出的以人体为中心的行为对象图像,此图像中行为对象占据主要部分,场景被最大化剔除,这种设置类似于Gupta[4]中的图像设定,直接利用被标定出来的图像进行训练和测试。

2“行为对象 + 场景”形式: 通过标定粗略地将原图像分割为行为对象和场景两部分,分别对这两部分图像进行特征提取,然后将得到的两部分特征串接起来作为图像的最终特征描述符。此图像形式即为结合了图像场景特征与行为对象特征的图形表示形式。

2局部约束线性编码

在特征编码过程中,不同的编码方式决定了最终分类效果的好坏。图1中的VQ是硬关联编码方法,此方法使得最终输出的编码对应唯一的非零元素,SC和LLC属于软关联编码,最后输出的编码可对应多个非零元素,减少了量化误差。

设X为D维特征空间的一组从某一幅图像中提取的SIFT特征描述子集合,即X = [x1,x2,…, xN]∈RD × N,N为图像中的SIFT描述子数目。给出

一个M列的虚拟码本,B =[b1,b2,…,bm]∈RD × M, 这样不同的特征会在码本中映射成M维的编码作为最终的图像描述符,LLC主要解决局部性约束下的编码问题:

这里 Θ 是元素相乘的符号表示,λ 是用来控制输出编码稀疏程度的参数,参数 σ 用来控制局部因子的下降速度。式中di= exp( dist( xi,B) /σ) ,通常需要将di归一化。

其中

表示的是特征xi到每个码本词汇B之间的欧氏距离。参数约束项s. t. 1Tci= 1,i用来满足LLC编码的移动不变性要求。

LLC编码能够捕捉到相似的初始特征所共有的码本词汇。而VQ编码使得描述符只与码本中的一个词汇对应,造成较大的量化误差。在SC过程中, 由于存在过完备字典,相似的特征描述符可以选择完全不同的词汇来表示,因此忽视了词汇间的相互关系。在LLC过程中,局部约束性使得相似的两个描述符有多个相同的码本词汇,确保了相似的特征描述符有相似的编码,图像表示更加精确。

3实验结果与分析

在Stanford 40 Actions数据集[7]上对本文方法进行实验。此数据集包含了40种不同的人类日常行为图像,其中包括“鼓掌”,“攀爬”,“打电话”, “弹吉他”等人体行为。从此数据集中选择了常见的8类人体行为进行实验,每类随机选取100张图像做训练,剩余的做测试。实验中采用了最常用的尺度不变特征变换( SIFT) 描述子,以密集采样的方式获取SIFT[8],即从每幅图像中以步长为8像素等间隔提取若干个16 × 16尺度的图像区域。每个SIFT描述子都是128维,用来描述局部图像块。然后对SIFT特征进行LLC编码,最后结合SVM分类器实现人体行为分类。

实验1,首先在Stanford 40 Actions数据集上通过改变编码方式来验证LLC算法效果更好,实验采用文章第二部分提出的“场景 + 行为对象”形式,即结合图像场景与行为对象。实验中取码本尺寸M = 800,金字塔层级L = 2,在此数据集上各个算法的实验结果如表1所示。

由表1可以看出,LLC编码算法获得了更好的分类结果,比文献[5]的算法要高3% ,比文献[9] 高出11% 。此算法中每类人体行为的分类细节如图2所示,图中第i行第j列表示第i类行为被误分为第j类行为图像的百分比,对角线则表示每类行为的分类精度。图中将行为‘打电话’判为‘鼓掌’ 的占32% 。究其原因发现,这两种行为的人体姿势类似,而且背景相像。

VQ、SC和LLC算法在每类图像上的分类精度如图3所示。

本实验还考虑了不同码本尺寸对分类性能的影响,在LLC编码方法的基础上多次改变码本尺寸的大小进行实验。表2给出了码本尺寸取值分别为 [400,600,800,1000,1400]时LLC方法的分 类效果。

不同尺寸在每类 图像上的分 类结果如图4所示。

由图表可知,码本尺寸的选择对分类效果会产生一定的影响,码本尺寸为1000时获得最好的分类精度,比最小尺寸600高出4% ,比最大尺寸1400高出4. 23% 。究其原因,码本尺寸过小不能更好的描述图像中的多种特征,相似的特征容易混淆,码本尺寸过大,导致直方图维数过高,影响分辨效率。

实验2,在特征提取和分类器训练阶段,分别对本文第二部分提出的两种不同图像形式( “行为对象象””形形式式和和““场场景景 ++ 行行为为对对象象””形形式式)) 展展开开实实验验。。在在两种不同图像 形式的实 验编码阶 段,都选择了LLC编码方法。 实验结果如表3所示,分析表3可知,形式“场景 + 行为对象”比形式“行为对象” 获得的分类结果更准确,说明图像场景在行为分类中占有不可忽视的作用,也说明本文使用的方法比一般的只提取行为对象的分类方法效果更好。而表3中的“打电话”和“骑马”分类结果略差,因为这两个行为所在的场景变化较大,场景的作作用用相相对对薄薄弱弱一一点点。 。

4结束语

本文分别对采用的两种不同图像形式进行实验,一种是行为对象的图像,另一种是场景和行为对象相结合的图像,实验结果证实了图像场景信息对人体行为分类准确率的重要影响。此外在量化编码方面,得出的结论是: 局部约束线性编码LLC既能减少特征的量化误差,又可以使得相似的特征经编码后能够用近似的码本词汇表示,从而提高了分类准确率。分类的准确性还与背景的复杂性有关,因此如何精确区分相同背景下的不同行为成为本文今后要研究的问题。

摘要:静态图像中人体行为分类的一般方法是先手动标定出行为对象,再单独对行为对象进行特征提取和分析,不仅费时费力还丢失了场景信息。针对此问题提出了结合场景特征与行为对象特征的图像表示方法,充分利用图像的所有信息。此外为了减小量化误差,在特征编码阶段,采用局部约束线性编码(Locality-constrained Linear Coding,LLC)算法,并将其应用在空间金字塔模型的向量量化中。该算法与传统的矢量量化算法和稀疏编码算法相比,能够降低量化误差。最后在Stanford 40 Action数据集上对文中方法进行实验和验证,结果表明,结合场景特征与行为对象特征并使用LLC编码算法能够获得更好的分类效果。

人体行为 篇6

近年来, 随着计算机视觉和图像处理技术的发展, 由于其广泛的应用前景, 运动人体行为分析吸引了广泛的关注。运动人体行为分析是一个跨学科的研究课题, 主要研究内容涉及计算机视觉、图像处理、模式识别、人工智能、计算机图形学等多学科领域[1]。

1 研究流程

1.1 运动检测

运动检测的目的是在视频序列中将运动的人体区域从复杂的背景中提取出来。目前主要用到的运动检测方法包括背景减除法、时间差分法、光流法。

(1) 背景减除法

背景减除法是运动目标分割中广泛使用的一种方法, 特别是当背景是相对静止的情况下。它是利用当前帧和背景帧进行差分并阈值化来检测出运动物体, 它能得到运动物体很全面的特征数据, 但却对由于光线和其他无关事件影响的动态场景变化非常敏感。

(2) 时间差分法

时间差分方法是在连续的图像序列中两个或三个相邻帧间采用基于像素的时间差分并阈值化来提取图像中的前景区域的方法。

(3) 光流法

光流方法采用了运动目标随时间变化的光流特性。该方法的优点是在摄像机运动存在的前提下也能检测出独立的运动目标。然而, 大多数的光流计算方法相当复杂, 且抗噪性能差, 如果没有特别的硬件装置则不能被应用于全帧视频流的实时处理。

1.2 目标分类

不同的运动区域可能对应于不同的运动目标。目标分类是运动人体分析的必要过程, 它可以将其他运动物体与运动人体区分开。一般来说, 目标分类的方法可以分为两种:

(1) 基于形状信息的分类方法

基于形状信息的分类方法首先描述运动区域的形状信息, 例如点、框、块等。它通常被认为是一个标准的模式识别的问题。

(2) 基于运动特性的分类方法

基于运动特性的分类方法利用非刚性的人体运动的周期性区分运动人体与其他运动物体。

此外, 上述两种方法经常被结合使用, 设计出一个更为可靠的、视角无关的目标分类方法。实验结果显示了混合分类方法对于单独的基于运动特性或者形状信息分类方法的巨大优越性。多特征混合正逐渐成为现实场景中实现精确目标分类的重要方法[2]。

1.3 运动人体跟踪

运动人体跟踪就是确定运动人体在每一帧中的位置, 从而得到运动人体的时序运动轨迹。

我们可以把运动跟踪过程分为三个阶段:初始化、特征提取和跟踪[3]。第一个阶段, 初始化是确定人在图像中的位置, 对于基于模型的方法, 这个过程还包括出示的模型初始的模型参数估计以及采用什么方法来表示人体模型两个问题。在第二个阶段, 特征提取是从图像上提取感兴趣的特征。进行运动人体跟踪时, 最常见的特征就是外轮廓、边界、灰度、颜色等特征。第三个阶段是跟踪, 即在时间序列上反复地确定图像中人的位置, 甚至是在每一时刻都要估计出表示人体模型的参数, 得到一个在时间序列上的人体运动描述。

1.4 行为理解与描述

人体行为识别与理解是指对人的行为模式进行分析和识别, 并用自然语言等加以描述。人体行为识别可视为时序数据的分类问题, 即将测试序列与预先标注的代表典型行为的参考序列进行匹配。目前的方法主要被分为两大类:

(1) 基于统计模型的方法 (methods based on statistical model)

基于统计模型的方法是根据一定量的样本数据学习产生一个统计模型, 基于模型进行行为匹配。

(2) 基于模板的方法 (template-based meth-ods)

基于模板的方法的基本思想是首先将图像序列转换为一组静态形状模式, 然后在识别过程中和预先存储的行为标本相比较。

人体行为的语义描述是经过对运动人体的连续跟踪观察, 对运动人体的运动模式进行分析和识别, 判断该行为是否属于异常行为, 并利用自然语言进行描述。目前人的行为描述还只局限于简单的语义解释, 如Remagnino等[4]提出了一个基于视频对象行为的视觉监控系统, 该系统提供了三维场景中对象动态活动的文字性描述。

2 行为分析存在的问题与研究热点

尽管运动人体行为分析技术得到了较大的发展, 但是由于人体运动的非刚性以及高自由度、行为发生的场景和人运动的模糊性、遮挡、阴影、等因素的影响, 使得运动人体行为分析仍处于简单的行为与事件检测的初级阶段。行为分析的问题和难点主要体现在:

(1) 运动分割[1]

底层的运动人体检测是高层的行为分析的基础, 但是由于背景的动态变化, 遮挡和阴影等原因使得快速而又准确的运动分割成为一个困难的任务。

(2) 算法的有效性和鲁棒性

当前的很多研究大都是针对简单标准的动作、简单的行为、事件和背景, 因此, 提高算法的有效性和鲁棒性才能真正地将运动人体分析技术应用于复杂的现实环境。

(3) 运动特征的选择与表达

如何选择合适的特征充分表达人体运动是行为分析的关键问题, 而视点不变性对于行为的表达异常重要。

研究热点:

(1) 行为分析与生物特征识别相结合;

(2) 自适应的特征选取方法;

借鉴人类学习、识别和理解机理, 提取有关行为的主要特征, 当这些特征不足以完成行为的理解和分析时, 系统逐步提取候选的细节特征。另一种方法是提取行为的视点无关的鲁棒的特征, 当然这是很困难的事。

(3) 人的运动分析向行为理解与描述高层处理的转变。

借助计算机视觉, 模式识别等相关领域的成果, 将现有的简单行为识别和语义描述推广到更为复杂的场景下的行为分析与自然语言描述。

结束语

运动人体行为分析涉及到人工智能、模式识别、计算机视觉等多学科知识, 由于其在智能监控、运动分析、感知接口、虚拟现实等多方面都有着广泛的应用前景, 正吸引着越来越多的研究人员的注意。随着计算机视觉等相关知识的发展, 行为分析也将从简单的行为识别和语义理解上升到更高层次的复杂背景下的行为分析和自然语言描述。

参考文献

[1]王亮, 胡卫明, 谭铁牛.人运动的视觉分析[J].计算机学报, 2002, 25 (3) :225-237.

[2]Y.Bogomolov, G.Dror, S.Lapchev, E.Rivlin, M.Rudzsky, and I.Tel-Aviv, “Classifi-cation of moving targets based on motion andappearance, ”[M].Brit.Mach.Vis.Conf., 2003:429-438.

[3]陈睿.基于概率模型的三维人体运动跟踪研究[D].北京:中国科学院研究生院, 2005.

人体器官买卖关联行为法律规制研究 篇7

一、违背他人意愿摘取活体器官行为的刑法规制

知情同意原则是器官移植应当遵循的基本原则, 在吸收《条例》合理因素下, 我国刑法第234条之一第2款对违背他人意愿摘取活体器官行为做出了规定, 即“未经本人同意摘取其器官, 或者摘取不满18周岁的人的器官, 或者强迫、欺骗他人捐献器官的, 依照本法第234条、第232条的规定定罪处罚。”可见, 刑法以故意伤害罪论和故意杀人罪对以上三种行为加以规制, 一方面体现出刑法对违背他人意愿摘取活体器官行为的打击力度, 另一方面也充分体现出了刑法对未成年人的特殊保护。常见情形:

(一) 未经本人同意摘取其器官的

此处“本人”, 仅限定为具有完全行为能力人, 也只有完全行为能力人才具备有效地决定权。这种决权利包含捐献者知情同意权、拒绝接收权、临时放弃权等[1]。合法的器官捐献, 是建立在本人的知情同意上的, 未经本人同意摘取其器官的行为是侵害他人合法权益的行为。即自愿性是界定本罪的重点。笔者认为活体器官的自愿性须具备两个条件:一是活体供体要具有完全自由处分自身器官的权利, 这是前提;二是活体供体要具有做出自愿出卖器官的能力, 内心意思的真实表示也就是具备完全行为能力。如不具备上述两条件下, 行为人违背供体真实意思表示而摘取活体器官, 就违背了供体出卖器官的自主选择意识, 组织者的行为也就超出了组织出卖的范畴, 已经对受害人的身体健康权造成威胁, 行为人就会触犯故意伤害罪或者故意杀人罪。

如未经本人同意仅仅摘取了供体身上某一小部分组织的行为?笔者认为, 由于这种行为社会危害性较小, 再加上此组织对供体的身体健康不会造成严重的侵害, 就可以通过行政法或民法等加以救济, 而不需要用刑法加以定罪处罚。

实务也常出现, 供体反悔的情况, 即供体起初出卖器官, 后因为害怕或其他原因反悔的, 行为人对供体就采用恐吓、胁迫或其它暴力等手段, 迫使供体同意出卖器官的情况, 也应以故意杀人罪论处, 同样, 移植过程中如造成供体死亡的, 应以故意杀人罪论处。

(二) 摘取未成年人和精神病人的器官的

未成年人的身体及其智力正处在生长发育期, 心智还不够成熟, 还不具备有效识别自身决定和意思表示的能力。本条的规定则充分彰显出了刑法对未成年的合法权益的保护。这也与《条例》第9条明确禁止摘取未成年人器官用于移植的内容吻合。因此出于保护未成年人合法权益的目的, 无论未成年人或其监护人同意与否, 摘取未成年人器官的行为, 原则上应认定为犯罪。现实中, 存在未成年人冒充成年人自愿出卖其器官的可能, 对于这种情况又该怎么界定呢?本罪中, 年龄问题是构成本罪的关键。本罪中实施器官摘取者, 在摘取器官时往往是利用未成年人心智发育不成熟, 器官活性好、排斥反应低等优势等, 所以笔者认为针对这种情况, 如果摘取者不知道是未成年人, 则不构成本罪。

值得注意的是, 该罪并没有对组织精神病人出卖器官的问题作出规定。笔者认为, 精神病患者属于无或限制行为能力人, 根本无权同意他人摘取其器官, 对于组织出卖精神病人的器官的, 无论供体同意与否, 也应该与组织未成年人出卖器官一样, 以故意伤害罪论处。

(三) 强迫、欺骗他人捐献器官

《条例》第7条规定:“任何组织或者个人不得强迫、欺骗或者利诱他人捐献人体器官。”器官捐献人在受到强迫、欺骗而做出的承诺, 不合法也无效力。此处的“强迫”应作广义的理解, 它包含对他人身体采取暴力和对其精神进行威胁的行为, 只要这种胁迫达到压制他人无法反抗或者不敢反抗的程度, 就构成此处所谓的“强迫”。对于欺骗他人捐献器官的理解, 应理解为判断器官供体基于有瑕疵的认识而做出承诺的有效性, 即被害人如果知道真相就不会做出承诺时, 该承诺无效[2]。即当行为人的欺骗行为涉及到器官摘取的种类、风险以及对健康的影响等方面时, 器官供体所做出的不论任何承诺都不能成为违法阻却事由, 该欺骗行为都属于欺骗他人捐献器官。值得注意的是, 此处的强迫或欺骗他人行为的重点是迫使他人“同意”, 即做出不真实的承诺摘取其器官, 而与未经本人同意而直接摘取器官有所不同。例如, 以迫害当事人的子女加以威胁, 迫使当事人同意捐献自身器官。实践中, 如行为人在实施组织出卖人体器官的过程中, 如果对供体进行欺骗, 诸如告之供体摘除30%的肝脏, 而实际上摘除的是50%的肝脏。对供体隐瞒摘除1个肾脏对身体健康的影响, 供体信以为真同意肾脏移植的;欺骗供体是进行肾脏移植, 而实际移植的是肝脏。针对上述几种情况, 都应认定为故意伤害罪。移植过程中如造成供体死亡的, 应以故意杀人罪论处。

二、擅自摘取尸体器官行为的刑法规制

因活体器官供体的急缺, 尸体器官现已成为器官移植供体的重要来源。实践中擅自摘取尸体器官的案件时有发生。其常表现为违背当事人生前意愿或在当事人生前未表示同意的情况下违背其近亲属意愿摘取器官而摘取尸体器官的行为。其中无人认领的死刑犯或患者的尸体更成为肆意摘取的对象。而医疗机构、医师或其他人依据工作便利, 往往会成为擅自摘取并非法使用尸体器官的主要人群。

2007年8月13日, 郑州某医院眼科医生王某在得知所在医院一陈姓患者死亡后, 当晚潜入太平间盗取了陈某的角膜, 后联系受体、将角膜植入。8月17日陈某亲属举报王某, 案发。针对王某盗窃尸体角膜移进行植行为定性的问题, 2009年河南省乃至全国法律界展开激烈讨论[3]。在刑法修正案 (八) 实施之后, 我们再看这个案件, 很容易做出认定。按照罪刑法定原则, 基于角膜不属于《人体器官移植条例》中的规定的器官, 盗窃角膜的行为不能认定为人体器官移植犯罪中的盗窃尸体罪。反之, 如果医生王某盗窃的不是角膜, 而是具有活性的肾脏呢?同理根据《刑法》第234条之一第3款规定:“违背本人生前意愿摘取其尸体器官, 或者本人生前未表示同意, 违反法律规定, 违背其近亲属意愿摘取其尸体器官的, 依照本法第302条的规定定罪处罚”, 依法应该认定为盗窃尸体罪。如果有侮辱尸体情节, 一并予以定性处罚。

理清此处的“擅自”, 是认定本行为的关键。这就需要进一步探究当事人与其近亲属双方主体间决定权产生分歧和冲突后, 优先考虑谁的问题。而擅自摘取尸体器官的行为又分为摘取有主尸体器官的和无人认领尸体器官等情况, 下面将分有主和无主两种情形予以分析。

(一) 摘取有主尸体器官行为的

保障器官捐献者知情权、同意权、拒绝权等权利是器官捐献的基本原则。《条例》第8条第2款规定, “公民生前表示不同意捐献其人体器官的, 任何组织或者个人不得捐献、摘取该公民的人体器官;公民生前未表示不同意捐献其人体器官的, 该公民死亡后, 其配偶、成年子女、父母可以以书面形式共同表示同意捐献该公民人体器官的意愿。”即当事人生前对捐献自身器官具有自主决定权, 此权利应延伸及于死后的尸体[4]。

结合《条例》可见, 刑法对尸体器官的摘取拟定了两种同意的模式。第一种为知情同意模式, 即, 公民生前同意摘取自身器官, 该意思表示只要真实自愿, 就具有法律效力。其死亡后, 无论是其近亲属还是其他任何单位和人员都不能行使捐献器官的决定权, 这也体现了刑法对公民自主决定权的绝对保障。

第二种情况为当事人生前未做出捐献其器官的意思表示, 其死后, 近亲属, 可以以书面形式共同表示同意捐献该公民人体器官的意愿, 即认定为推动同意。这里要强调的是, 此处的近亲属范围应该参照《条例》的规定, 以配偶、成年子女、父母为范围, 推定同意的前提要全体近亲属且以书面形式的同意, 才可以推定为同意。

也就是说, 只要当事人生前在不违背公序良俗, 按照法定程序自愿做出同意死后捐出器官的决定, 其近亲属应尊重死者意愿, 无权决定尸体器官处置, 近亲属, 违背当事人生前意愿的情形皆认定为擅自摘取器官的情形。

(二) 摘取无人认领尸体器官行为的

对于无人认领的尸体器官的摘除, 因不会牵扯到近亲属同意与否的问题, 所以相较于有主尸体器官较于简单。对于无人收殓或家属不愿收殓的尸体器官, 从保护当事人合法权益的角度来看, 首先应当征得其生前同意, 如果当事人生前拒绝捐献器官或未表示同意, 在无近亲属的有效同意的情况下, 也不得摘取, 否则构成盗窃、侮辱尸体罪。

总之, 只有在正确厘清器官买卖中的违法行为, 正确适用法律规定, 才能更好地发挥刑法对此类犯罪行为的惩治与防范作用, 这也是本文研究的意义所在。

摘要:随着人体器官移植技术的广泛应用, 人体器官买卖已成为器官移植犯罪中争论最多的一类犯罪。本文重点分析人体器官买卖中违背他人意愿摘取活体器官的、擅自摘取尸体器官等行为, 通过对相关情况的分析, 进一步明晰了司法实践中关于人体器官买卖罪名的认定。

关键词:器官移植,器官买卖,法律规制

参考文献

[1]莫洪宪, 杨文博.刑法中的人体器官犯罪——对<刑法修正案 (八) >第37条的理解[J].人民检察, 2011 (9) .

[2][日]井田良.刑法总论的理论构造[M].东京:成文堂, 2005;张明楷.组织出卖人体器官罪的基本问题[J].吉林大学社会科学学报, 2011 (5) .

[3]梁平, 鲁嵩岳.盗窃死者器官非法移植行为应如何定性[J].人民检察, 2009 (16) .

基于多示例学习法的人体行为识别 篇8

近年来,随着人体行为分析在视频监控、人机接口、基于内容的视频检索等领域中的广泛应用,人体行为识别已成为计算机视觉和模式识别领域的研究热点。目前,人们对简单的人体动作研究较多,也有较好的识别效果,但对于复杂的人体行为识别仍然是一个具有挑战性的问题。

人体行为识别最基本的两个问题是行为的特征描述和行为识别[1]。按照人体行为理解中采用的特征不同,可以分为两类:一类是基于底层图像信息的方法,另一类是基于高层人体结构的方法。基于底层图像信息的方法从视频序列中获取运动人体的运动速度、运动轨迹[2]、轮廓[3]、光流[4]等信息,然后利用获得的特征识别人体行为。Daniel等人[3]采用人体轮廓模型,并通过根据欧式距离匹配两个轮廓的相似度来识别人体行为;Fadwa等人[4]采用图像中人体质心的光流,进行人体行为识别。人体的高层结构信息是指人身体结构所呈现的姿态,与底层图像特征相比,更能精细地描述人体行为,这些信息常通过人体模型来提取,如人体点模型、2维人体模型[5]、3维人体模型[6,7]。基于高层人体结构特征描述的方法通常参数多,计算量大,但该方法的优点是可以获取更加精细、更加充分的运动信息,有利于较复杂人体行为的识别。常用的人体行为识别方法可以分为:状态空间法和模板匹配法。状态空间法常用的模型有隐马尔可夫模型HMM[8](Hidden Markov Model)、动态贝叶斯网络DBN[9](Dynamic Bayesian Network)和条件随机场模型CRF(Conditional Random Fields)。Yamato等人首次提出利用HMM识别人体行为,该方法识别了人体演讲行为。Heung等[10]利用改进的因子隐马尔科夫模型进行复杂行为识别;Wang等人[11]利用贝叶斯网络来识别人体行为。文献[12]利用条件随机场模型用于行为识别。基于状态空间的识别算法,在识别简单行为时,可以达到较好的精度,但对于较复杂的人体行为,需要的训练样本大,计算复杂,识别精度不高。基于模板匹配的算法是将测试集的行为特征序列与训练集的特征序列进行匹配,包括帧对帧的匹配和融合匹配。基于模板匹配的行为识别算法计算简单,但对行为的执行时间比较敏感,由于不同的人在执行同一行为时,时间长短不一样而导致识别结果不同。为了解决这个问题,Sempena[13]将动态时间规整DTW(Dynamic Time Warping)引入行为识别用于模板匹配,计算两个长度不用的行为之间的相似性,该方法解决了模板匹配中的时间顺序关系,但是,对于包含的不相关的动作所带来的误差不能解决。

本文提出了基于多示例学习法的人体行为识别方法。以人体主要关节点的属性特征作为人体行为的特征;将分解后的行为看作一个包,各个动作看作包中的各个示例,利用Any Boost算法进行多示例学习,构建人体行为强分类器,利用该强分类器能对未知的测试包中的行为做出判断。

1 人体行为特征

首先,利用金字塔Lucas-Kanade-Tomasi(KLT)跟踪器得到关键点轨迹[14]。在跟踪过程中,认为一条持续5帧图像的轨迹是“可靠的”。任意短的轨迹将会自动被删除。当一条轨迹达到预定义的最大长度(25帧)时,将会自动分割同时生成一条新的轨迹。由于这些轨迹大部分是从背景区域中提取的,非人体运动轨迹,因此,采用文献[15]中的轨迹修剪法,移除这些轨迹,同时保留描述人体行为的轨迹。在此基础上,提取下列人体行为特征。

(1)轨迹形状描述符

给定一条轨迹上两个连续点:p=(xl,yl),p'=(xl+1,yl+1),计算这两个点之间的位移向量dl=(xl+1-xl,yl+1-yl),对于固定长度L的轨迹可计算出一系列的位移向量d={d1,d2,…,d L-1}。对位移向量d的大小和方向进行量化。对于位移向量大小的量化,首先,用同一轨迹中的最大位移量来归一化每个位移向量,然后,以4个均匀量化等级进行量化。方向量化时,则将上、下半圆分为8个相等的扇形区,每个区域都为22.5度,如图1所示。量化后描述符具有尺度不变性和方向不变性。根据大小、方向的量化,每个轨迹可由32位的直方图O表示。

(2)运动与结构描述符

对所得到的轨迹上的每个兴趣点计算SURF和HOF描述符。SURF具有快速和鲁棒性强的优点,可以很好地描述局部静态特征,而HOF则可很好地描述局部运动信息,根据这两种描述符,可表述运动轨迹中的每个兴趣点的运动与结构信息。

为了获取这两中描述符,首先对每个兴趣点的邻域内建立一个3D立方体,并在这个立方体内计算局部描述符。该立方体是一个时空立方体,并与轨迹相对应,立方体的大小为N×N像素以及L帧长。为了嵌入结构信息,立方体被分为大小为nσ×nσ×nτ的时空网格,这里,取nσ=2,nτ=3。对每个兴趣点分8个方向分别计算SURF和HOF,最后根据每个方向上值的大小进行加权并归一化,在HOF中多加了一个0点方向,这样就总共有了9个数值了。它所占像素的光流幅值比阈值要低。最后,得到的描述符的大小为SURF是96(2×2×3×8)HOF则为108(2×2×3×9)。

为了有效描述人体行为,采用BOW的方法将这二种互补的行为描述符结合在一起。对每条轨迹,首先,将其描述符O,F以及S归一化,并串联得到全局描述符G=[O,F,S]。然后利用BOW法得到行为特征的BOW表示。

2 行为自适应分解

人体行为由一些简单动作组成,为了提高人体行为识别的精度,将人体行为分解为一系列简单的动作。一个行为的执行过程可以模拟为一个函数,其中,T表示行为执行过程中对于一个固定的采样频率对应于时间轴的姿势的数量,[1:T]:={1,2,…,T},表示姿势的子集。连续帧的一个子集也被称为一个运动片段。对每个采样帧的人体姿势可以通过其相对应的特征向量F来表示,由于将人体行为特征表示为布尔函数的形式,当连续帧变化不大时,其特征向量F相近。故可以利用特征向量的变化来自适应的分解复杂行为。

定义F-run为D中特征值F连续相等的子序列的姿势,F-segements定义为D中特征值F相等的最大长度。分割时,将特征值F连续相等的子序列,表示为一个姿势F-run,并在其最大长度F-segements处进行分割。如走路行为分割结果如图3所示,特征Fr表示右脚是否在前,Fl表示左脚是否在前,令为由Fr和Fl形成的组合特征,红色代表特征向量为(1,1),蓝色代表特征向量为(1,0),绿色代表特征向量为(0,1),可以看到在Dwalk中,没有出现特征向量(0,0)。共有十个最大连续长度的运动构成Dwalk的分割。

由于每个分割部分对应于一个唯一的特征向量,分割减小了特征向量的序列,这样很简单地将运动过程函数D表示为F特征的序列,表示为F[D]。则F[D]表示为:

其中,K表示运动过程D中F特征序列的数量,D(tk)是第k个分割的姿势,其中tk∈[1:T],1≤k≤K。对走路行为Dwalk则可以得到其特征函数F2:

显然,对序列F[D]的任意两个关节向量都是不同的。这样,将时间不变性纳入了行为的分割,两个在时间轴上不同的运动将产生相同的F特征序列,如图4所示,由于不同的人执行同一个运动时速度不同,在时间轴上的运动有一些差别,但其F-特征相同。

如上述所说:对于周期运动性的运动,在其周期运动结束时分割,而对非周期运动,根据其特征向量的变化将其分解为简单的动作。一般情况下,分割数K的值远远小于帧的数量,减小了特征的数量,使得计算更加有效。

3 人体行为识别

由上述进行自适应分割的视频段,通常情况下,包含一个简单的动作或一个简单的周期性动作。为了进一步识别具体的人体行为,先将每个视频段的动作利用其相应的骨架特征向量F来表示。因此,人体行为可以表示为时间轴上连续变化的一系列几何特征向量。两个行为过程相似,则其具有相似的几个特征序列,基于这一原理,将人体行为识别过程转变为特征序列的匹配问题。但是,不同的人执行同一个行为的过程可能不同,可能包含一些不相关的动作,而这些不相关的动作给行为识别带来了干扰。一般标准的分类器很难去除不相关动作的影响,本文采用Any Boost框架中的多示例学习法,即MILBoost算法[16,17]。

多示例学习框架可以被描述为:假设训练样本集由一系列的包(Bag)组成,每个包则是由多个示例(Instences)组成的集合。每个包有一个训练标签,而包内示例无标签。如果一个包内至少包含一个正示例,则该包被标记为正标签;反之,如果一个包内所有的示例均为负示例,则该包被标记为负包。多示例学习的目的就是通过对多个包所组成的训练集进行学习,以尽可能正确地预测训练集之外包的概念标记。

Any Boost算法是针对不同的训练集训练同一个基本弱分类器,然后将这些在不同训练集上得到的弱分类器集合起来构成一个最终的强分类器来对待分类样本进行分类。在MILBoost算法中,引入了多示例学习的概念,因此样本不是单独被标记,而是多个样本包装成包,每个包有一个独立的标记。在这里,每个样本表示为xij,i表示该样本属于第i个包,j表示该示例为包中的第j个样本。在复杂人体行为识别中,每个包表示一个由一系列动作组成的复杂行为,包中每个示例表示行为中包含的各个动作。识别的过程是根据已知类型的训练样本,得到一个分类器,该分类器能够在未知类型的行为中检测到该行为类型。当复杂行为中包含所要检测的行为类型时,标记为正,否则为负。

根据Any Boost原理,样本的分类值为:

其中,c(xi j)是弱分类对样本xi j分类时的权重值,对于一个二值分类器来说c(xi j)∈{-1,+1}。

一个样本为正样本的概率为:

根据DD算法,一个包被标记为正包的概率为:

定义包的似然函数为:

其中,ti∈{0,1},表示第i个包的标记。

根据Any Boost算法,样本被分类是一个带权重分类的过程:分类效果好的弱分类器赋予大的权重,而分类效果差的弱分类器赋予小的权重值;被大多数分类器分对的样本被分类为正时赋予大的权重,表示该样本为正样本的概率大;而被大多数分类器分错的样本被赋予小的权重,表示该样本为正样本的概率小。训练的过程,实质就是一个反复调整权重值的过程。对L(C)求对数并对yij求导得:

得到样本的权重wij,每轮Boosting迭代过程实际上就是搜索一个使得最小的弱分类。参数λt用来搜索最大的log L(C+λtct)。由此可以得到对每个样本的权重都由两部分组成。

包的权重:

包中样本的权重:winstance=pij

对一个负包wbag始终为-1,因此对于负包中的所有样本都应为负,负样本的权重pij与普通的AnyBoost算法里面的样本权重值的计算相等。但是,对于正样本的权重的计算比较复杂。当学习算法迭代至包标记为正的概率越接近预设的阈值时,加载在该包上的权重逐渐减小,而在包中的样本示例上的权重加载依照越像正的样本则权重值越高的原则来进行。

4 实验结果及分析

4.1 实验设计

为了验证文中算法的有效性,在公用行为数据库Weizmann库、KTH数据库和Ballet数据库进行了测试。对于每个数据库,使用“留一法”交叉实验。实验时,用VC++6.0实现了文中的算法,测试环境是Intel(R)Core(TM)i3-2310M CPU,2G内存的普通PC,使用测试平台是Windows 7操作系统。

Weizmann数据库是一个专用于视频行为分析的数据库,行为库包含走(walk)、弯腰(bend)、跳(jump)、挥单手(wave1)、挥双手(wave2)等10中行为,由9个实验人完成,共有90个视频序列(180*144像素,50帧/秒)。该数据库在固定摄像头下拍摄,具有干净简单的背景,常用于行为分类。示例帧如图5所示。

KTH数据库:KTH数据库包含六种人体动作,包括走(walking)、慢跑(jogging)、跑(running)、拳击(boxing)、挥手(hand waving)和拍手(hand clapping),六种动作都由25个人在四个不同场景(户外、缩放变化户外、不同衣着户外和户内)下执行,同时带有摄像机运动。帧率为25帧/秒。本数据库的示例帧如图5(b)所示。

Ballet数据库:本数据库来自一个巴黎舞教学DVD中,视频中包含多个动作,这些动作分为8种:手从左到右打开(动作1)、手从右到左打开(动作2)、手站立打开(动作3)、摆动腿(动作4)、跳(动作5)、转身(动作6)、跳跃(动作7)和站立(动作8)。本数据无场景切换但有摄像机运动,关键帧如图5(c)所示。

文中基于多示例学习法的行为识别方法,通过Any Boost算法对训练集进行训练得到每种行为类型的一个强分类器,该强分类器能够避免不相关动作的干扰,检测出待识别的行为。为了进一步验证该算法的有效性,将文中的方法与HMMs[9]、DBN[10]以及DTW[14]算法进行了比较。

4.2 实验结果及分析

Weizmann数据库:该数据库中每个单独的视频序列中仅包含一种人体行为,对每种行为识别结果混淆矩阵如图6所示。从结果可以看出,总体识别精度为93.5%,从混淆结果可以看出,对弯腰(bend)、挥单手(wave1)、挥双手(wave2)、双脚跳(pjump)行为有很好的识别精度,由于走、单脚跳、跑几个行为的关节点特征有一些相似性,所以存在一些误差。文中算法与HMMs、DBN以及DTW算法进行结果如表1所示。

KTH数据库:在KTH数据库文中算法识别结果混淆矩阵如图7所示。与参考算法比较结果如表2所示。由图7可以看出慢跑和跑识别精度较低,原因是这两个动作相似。由比较结果可以看出,文中方法与DBN的方法识别精度接近,高于其他两种方法的识别精度。

Ballet数据库:文中算法对各个动作识别结果如图8所示,由图8可以看到总体识别精度为91.6%,除跳、跳跃和转身外,其他动作识别率都为100%,因跳与跳跃关节特征相似,识别率低于100%;而对于转身动作,由于手部的关节有遮挡,识别率有所下降。文中算法与HMMs、DBN以及DTW算法对比结果如表3所示,由表中可知本文识别效果优于参考识别方法。

由上述实验结果可以看出,文中利用MILBoost算法识别人体行为不仅在单一行为的数据库中可以达到较好的识别效果,而在包含有连续动作的数据库中也有很好的识别精度。由于MILBoost将整个行为过程看做一个包,只要包含有待识别的行为,标记为正包则可以被正确识别,消除了不相关动作对检测精度的影响,故其整体的识别精度高于一般的识别方法。

5 结束语

人体行为 篇9

关键词:背景差分,中心距,谱聚类,类内类间距离

0 引言

基于视觉的人体运动分析是计算机视觉领域的前沿方向之一,而人体行为识别[1]在智能视频监控、运动分析、虚拟现实等方面有着广泛的应用前景。

目前人体行为识别主要有模板匹配的方法,状态空间的方法和行为语义描述的方法等[2],这些方法在计算复杂度和行为识别的准确度之间进行折中。林春丽等人[3]利用增强步态能量图(EGEI)作为行为识别特征信息,实时性高,准确性需要加强;李英杰等人[4]利用多种分类方法对采集数据进行交叉检验、特征选择分析和线性判别分析,行为识别度较高,但是计算量较大。Poppe和Poel[5]对傅里叶描述算子、形状上下文和Hu不变矩三种算子在人体轮廓描述上的性能进行了比较,实验结果表明傅里叶描述算子在轮廓描述上比Hu不变矩更具有优势。

基于以上分析,本文提出基于聚类RBF神经网络的人体行为识别方法,利用背景差分法分割出人的动作序列的姿态图并提取其轮廓,采用基于中心距的傅里叶描述子提取人体轮廓的统计描述特征,利用谱聚类算法选择图像序列的关键姿态特征,降低了特征的维数,采用改进的聚类方法的RBF神经网络对人体进行行为识别。实验结果表明,提出的方法具有较好的识别效果。

1 人体轮廓提取与预处理

人体行为姿态的轮廓提取与预处理包括图像去噪、背景分割、阴影去除和轮廓提取四个步骤。图像去噪采用高斯滤波方法去噪和邻域去噪相结合的方法对图像进行处理;背景分割利用背景差分法检测运动人体,建立单模态高斯背景模型,将当前图像与背景模型作相减运算,并设定合适的阈值,二值化分割图像得到前景和背景;通过在RGB颜色空间中根据亮度差分公式去除阴影的影响;轮廓提取采用基于连通性的边界跟踪算法提取整个图像序列中行人的轮廓。

2 特征提取

2.1 傅里叶描述子提取人体轮廓特征

传统傅里叶描述子算法[6]的基本思想是把平面上轮廓曲线的有序点集转换到复平面上,形成一维序列,对有序点取傅里叶变换。

这种方法存在极大的复数变换运算量,且容易导致采样点数目不一致。为了减少时间复杂度,本文采用基于中心距的傅里叶变换来提取具有旋转、平移和尺度不变性的人体行为特征。选定轮廓线上头顶边缘点作为起点,沿顺时针方向将轮廓线分割成M段相同长度的弧:s1s2,s2s3,…,sm-1sm,其中si为割点,且s0=sm。这里将人体的边界轮廓线分成N等份(本文N=256)。图1为跑行为系列姿态图中的1幅图像。

假设人体轮廓的坐标为(xi,yi),i=l,2,…,N,其中N为轮廓像素数,则轮廓重心的坐标为(xc,yc),其中人体轮廓上面的任意一点到重心的距离为ri,其中所有的距离构成的特征矢量R=(r1,r2,…,rN)。

对R取离散傅立叶变换:

将傅里叶系数归一化,得到动作特征的傅立叶描述算子:

由于傅里叶变换具有能量集中性,动作序列的主要能量集中在低频系数上,低频系数决定了轮廓的整体形状,高频系数仅仅体现轮廓的细节特征。

因此,采用对应的低频分量的傅立叶描述算子不仅能够很好的描述轮廓特征而且可以减少序列特征维数。

经分析,采用傅立叶描述算子的64个低频分量作为动作轮廓识别的特征:

2.2 基于谱聚类的特征选择

谱聚类[7]作为点对聚类的分析算法,建立在图论中的谱图理论基础上,其本质是将聚类问题转换为图的最优划分问题,具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。

算法描述[8]如下:

步骤1设{X1,X2,…,Xn}为一帧图像的待聚类样本集(本文中n=64),构造了n个类,每个类包含一个样本。定义n×n的矩阵,其中Aij代表i点和j点之间的权重,每个Aij用以下高斯函数公式定义:

用高斯函数式(4)定义亲和矩阵A∈Rn×n;

步骤2计算标准化亲和矩阵L=D-1/2AD-1/2,其中D是对角矩阵,

步骤3计算L矩阵的前k个特征值(本文中取k=12)(λ1≥λ2≥…≥λk)和对应的特征向量组成的矩阵V=[V1,V2,…,Vk]∈Rn×k;

步骤4对V中每行再标准化形成矩阵Y:

步骤5把Y中每一列看成是R空间中的一个点,然后通过k-means算法获得原始数据的最后聚类。

取运动图像序列连续视频25帧进行聚类合并,从25×64个特征中选择25×12个最有效的特征分量来表达原始样本,从而极大地降低了样本维数,减少了数据冗余,提高训练精度,保证了行为识别率。

3 基于聚类RBF神经网络的人体行为识别

RBF网络结构与BP网络相似,用于复杂的模式识别问题时性能优于BP网络,具有结构简单、学习速度快等优点,可应用于基于视觉的行为识别中。

3.1 RBF神经网络

径向基神经网络是ANN中一种具有单隐层的三层前馈网络,第一层是输入层,n个输入节点分别对应于输入向量的每一个分量;第二层是隐含层,p个隐节点;第三层是输出层,m个输出,分别对应于输出向量的每一个分量。其拓扑结构如图2所示。

RBF神经网络的映射关系由两部分组成:

(1)从输入空间到隐层空间的非线性变换。假设RBF网络的输入为X=[X1l,X2l,…,Xnl]T(l=1,2,…,N)时,则第i个隐单元输出:

其中:Xl为n维输入向量,ci为第i个隐含层神经元的数据中心,‖·‖表示欧氏距离。(·)为隐单元的变换函数。

使用Gauss函数作为激活函数,则隐含层输出为:

其中:σi为聚类宽度。

(2)从隐含层空间到输出层空间的线性组合。第k个节点的输出:

其中:wik为第i个隐单元与第k个输出之间的联接权,p为隐单元数,m是输出维数。

3.2 基于聚类RBF神经网络的人体行为识别算法

传统的基于聚类算法在分类器的产生过程中,偏重利用误差平方和准则保证聚类类内距离较小,没有同时考虑类间距离较大的要求。若各类样本相差很大,聚类类间距离较大时,仅注重缩小类间距离,就有可能将样本数多的聚类一分为二,误以为得到了最优划分,实际上得到错误的划分,对最终分类器的识别准确性影响很大。

如果只关注聚类类内距离(评价聚类紧致性)或聚类类间距离(评价聚类分离度)的某一方面,可能会导致平凡的聚类。因此,将相反的两项指标组合,定义出能反映多方面综合性能的评价准则,才能得到最优的聚类效果。针对这种情况,本文提出了聚类紧致性和分离性的评价指标Silhouette宽度[9],通过对RBF神经网络中的聚类方法进行改进,可以很好地提高识别的精确度。

算法步骤如下:

(1)将提取的人体轮廓特征组成特征矩阵X=[X1,X2,…,XN],并归一化,其中Xl=[X1l,X2l,…,Xnl]T(l=1,2,…,N)为第1个样本,作为分类器的输入样本矩阵,对应的目标输出矩阵为O=[O1,O2,…,ON](每个输入样本对应一个输出目标样本类别)。

(2)假设隐含层的节点数为p0(通常取前p0个不同的输入样本),采用k-means算法聚类,计算聚类中心ci,以及扩展常数σi。

(3)定义聚类目标函数S

其中1≤i≤N(N为输入层样本数目),ai代表样本i到和它同类的所有样本的平均距离,bi表示样本i到其他聚类中最近一个聚类的所有样本的平均距离,这样定义的S(i)称为Silhouette值,所有样本的Silhouette值的平均值S称作Silhouett宽度,其取值在[-1,1]之间。Silhouette宽度越大,则聚类效果越好。

根据式(10)计算目标函数S的值,若S<ω(ω为判断聚类结束的目标值,本文取ω=0.8),则聚类结束,否则进一步更新隐含层节点数P,返回步骤(2),直到达到给定的判断聚类结束的目标值,此时可以确定隐含层的节点数p、聚类中心ci以及扩展常数σi。

(4)根据式(7),计算隐含层单元的输出。

(5)初始化权值wik,计算隐含层到输出层的实际输出,第k个输出为:

其中i=1,2,…,p,k=1,2,…,m,wik为隐含层第i个节点与输出层第k个节点之间的权值。

(6)定义网络输出的均方根误差RMS[10]

其中O为网络的目标输出,Y为网络的实际输出,根据式(12)计算出RMS的值,如果RMS<ε(ε为设定的目标误差),则训练结束,否则采用梯度下降法修正权值继续训练直到达到给定的目标误差。

(7)将测试样本输入到所建立的RBF神经网络模型中进行测试。

4 实验与分析

采用文献[11]所提供的Weizmann行为数据库。选取样本集中的6种类型的行为,分别为:走、跑、跳、弯腰、侧走、单腿跳。仿真实验的硬件环境为Intel Core Duo i7-2.3GHz+4GB DDR3内存;软件环境为Matlab 7.1,实验所有算法都是在Matlab 7.1平台上实现的。

实验中,每一种行为由10个人分别演示5次,得到的300个人体运动行为的视频序列,取150个运动视频序列作为训练样本,剩下的150个运动序列作为测试样本用来检测识别算法的分类性能。实验取帧数P为25,该帧数包含了一种运动完成的最小周期。那么总的训练样本为150×25共3750个特征向量。RBF神经网络的参数为:输入层150个节点,隐含层60个节点,输出层6个节点,对应着6种不同类型的行为。

实验1本文的测试图像为人的轮廓图像,共采集走、跑、跳、弯腰、侧走、单腿跳6种动作240个视频序列,每种动作均为40个。采用留一校验法进行实验,实验包括RBF神经网络的训练和测试两部分,识别结果如表1所示。

实验2对聚类算法进行改进后,提升率达到14.69%,为了进一步说明本文方法的识别性能,将本文的方法和文献[3,4]提出的方法进行对比实验。实验数据为文献[11]所提供的Weizmann行为数据库,3种方法对6种类型的行为进行识别,识别结果如表2所示,从表2中可以看出文中提出的方法性能优于其它两种方法。

5 结语

提出了基于聚类RBF神经网络的行为识别方法,方法的优点在于算法简单实用,稳定性好,识别误差率低,识别结果较为理想。缺点是因为没有考虑人体行为动作过程中的动态特征,所以对于诸如跑和单腿跳等行为之间的识别不是很理想,这也是利用轮廓特征识别行为的缺点所在。为此,基于复杂环境下复杂动作的行为识别以及多特征的融合将作为下一步的研究重点。

参考文献

[1]谷军霞,丁晓青,王生进.行为分析算法综述[J].中国图象图形学报,2009,14(3):377-387.

[2]阮涛涛,姚明海,瞿心昱,等.基于视觉的人体运动分析综述[J].计算机系统应用,2010,20(2):245-253.

[3]林春丽,王科俊,李玥.基于增强能量图和二维保局映射的行为分类算法[J].计算机应用,2011,31(3):721-744.

[4]李英杰,尹怡欣,邓飞.一种有效的行为识别视频特征[J].计算机应用,2011,31(2):406-419.

[5]Poppe R,Poel M.Comparison of silhouette shape descriptors for exam-ple-based human pose recovery[C]//Proc.of the7th IEEE Inter-na-tional Conference on Automatic Face and Gesture Recognition.south-ampton:[s.n.],2006.

[6]黄彬,田国会,李晓磊.利用轮廓特征识别人的日常行为[J].光电子.激光,2008,19(12):1686-1670.

[7]孙即祥,姚伟,滕书华.模式识别[M].北京:国防工业出版社,2009.

[8]贾建华.谱聚类集成算法研究[M].天津:天津大学出版社,2011.

[9]张学工.模式识别[M].北京:清华大学出版社,2010.

[10]杨淑莹.模式识别与智能计算—Matlab技术实现[M].北京:电子工业出版社,2008.

本文来自 360文秘网(www.360wenmi.com),转载请保留网址和出处

【人体行为】相关文章:

人体废物05-10

人体结构05-21

人体尺寸05-28

人体机能06-02

油画人体06-05

人体通范文05-15

读《人体》有感05-08

人体运动特征05-13

人体工效学05-16

人体健康影响05-17

上一篇:当归高效栽培实用技术下一篇:大众传播者的伦理责任