空间识别

2024-05-08

空间识别(精选九篇)

空间识别 篇1

DOA (Direction of Arrival) 估计是无源雷达、声纳、地震探测、天文学等需要解决的重点问题。多重信号分类[1] (Multiple Signal Classification, MUSIC) 算法是DOA估计算法中的最重要的一种, 20多年来一直受到人们的广泛研究。文献[2]在传统MUSIC的基础上提出了一种新的算法——SSMUSIC (Signal Subspace Scaled MUSIC) , 该算法是在研究阵列互相关矩阵的子空间模型和信号加干扰模型之间联系的基础上发展而来, SSMUSIC与传统的MUSIC一样, 也是通过谱峰搜索得到入射信号的DOA。SSMUSIC估计器的分母就是传统MUSIC的功能函数, 而它的分子是一种方位响应函数, 这个函数可以较好地利用信号子空间的信息。由SSMUSIC估计器的分子可知, SSMUSIC的性能好于传统的MUSIC, 特别是在低信噪比的情况下优越性更加明显。

当入射信号相干时, SSMUSIC就不能进行准确的DOA估计了, 其估计性能急剧下降, 甚至失去DOA估计的功能。本文把文献[3]提出的空间平滑方法应用到了SSMUSIC中, 成功地解决了SSMUSIC不能对相干信源进行准确DOA估计的问题。

1 SSMUSIC算法的基本原理

假设天线阵列是有M个阵元的均匀线阵 (Uniform Linear Array, ULA) , 阵元间距与入射波波长之比为0.5, P个不相干的远场窄带信号以不同角度θP入射到ULA, 将天线各阵元接收到的信号写为矢量形式:

X (t) =A (θ) S (t) +Ν (t) (1)

式中:X (t) =[x1 (t) , x2 (t) , …, xM (t) ]T为快拍数据输出矢量;S (t) =[s1 (t) , s2 (t) , …, sP (t) ]T为信源矢量;N (t) =[n1 (t) , n2 (t) , …, nM (t) ]T为加性高斯噪声列矢量, 且与信号源不相关;A (θ) =[a1 (θ) , a2 (θ) , …, aP (θ) ]为方向矩阵;aP (θ) =[1, e-jπsin θP, e-j2πsin θP, …, e-j (M-1) πsin θP]T。输出矢量的相关矩阵为:

R=E[X (t) XΗ (t) ]=ARSAΗ+σ2Ι (2)

式中:RS=E[S (t) SH (t) ]表示信源矢量的自相关矩阵;σ2为加性高斯噪声的方差;IM×M维的对角阵。

R进行特征分解, 可得到信号子空间US和噪声子空间UN, A (θ) 和US相同, 与UN正交。在实际情况下, 阵列输出矢量的协方差矩阵应由其相应抽样估计值代替, 可得MUSIC的DOA估计器为:

Ρ (θ) ΜUSΙC=1aΗ (θ) U^ΝU^ΝΗa (θ) (3)

对其进行谱峰搜索即可得到波达方向的估计。

输出矢量的相关矩阵R的特征值分解形式为:

R=[USUΝ][ΛS00σ2ΙΜ-Ρ][USUΝ]Η (4)

式中:ΛS是P×P维的对角矩阵, 它包含了RP个大特征值, 则RS=US (ΛS-σ2IP) UHS, 所以有:

RS#=US (ΛS-σ2ΙΡ) -1USΗ (5)

式中: (·) #表示摩尔-彭罗斯伪逆。

在实际情况下, 阵列输出矢量的协方差矩阵应由其相应抽样估计值代替, 可得SSMUSIC的DOA估计值为:

对其进行谱峰搜索即可得到波达方向的估计。

2 SSMUSIC算法的性能分析

假设有三个不相关的信号源分别从10°, 13°和40°方向入射到十阵元的ULA上, 阵元间距为半波长, 快拍数 (L) 为300, 信噪比 (SNR) 均为5 dB, 仿真结果如图1所示。

由图1可知, 传统MUSIC算法只是在12°附近和40°有谱峰, 它不能够分辨10°和13°这两个相隔很近的方向, 而SSMUSIC算法可以分辨出这两个很近的方向。

当有三个方向分别为10°, 20°和40°的信号入射到十阵元的ULA上, 阵元间距为半波长, 快拍数为300, 信噪比由大变小时, 传统MUSIC与SSMUSIC的DOA估计比较如图2所示。为方便分析, 笔者称DOA估计谱图中信源方向处的尖锐谱峰为主瓣, 其他的统称为副瓣。

由图2 (a) 可以看出, 在信噪比较大时, 传统MUSIC的主瓣幅度略大于SSMUSIC。但由图2可知, 随着信噪比的不断减小, 传统MUSIC算法的主瓣幅度不断下降, SSMUSIC算法的主瓣幅度的减小相比较于传统MUSIC算法要缓慢得多, 在图2 (d) 中, SSMUSIC的主瓣幅度已完全大于传统MUSIC的了, 说明在小信噪比的情况下SSMUSIC要优于传统的MUSIC。

分析图1、图2可知, 在信源不相干时, 传统MUSIC的DOA估计谱图的副瓣都比较平滑稳定, 而SSMUSIC的DOA估计谱图的副瓣波动较大, 稳定性较传统的MUSIC稍差些。同时在这两组图中还可以看到, 在信噪比较大时, 虽然SSMUSIC的主瓣幅度略小于传统的MUSIC, 但是其副瓣幅度要比传统的MUSIC的副瓣幅度小得多, 当信噪比较小时, SSMUSIC的主瓣幅度已经大于传统的MUSIC的主瓣幅度, 其副瓣幅度仍然小于传统MUSIC的。所以总的来讲, SSMUSIC的DOA估计效果要优于传统的MUSIC。

3 前后向平滑的SSMUSIC

虽然SSMUSIC可以分辨相隔很近的两个方向上的信源, 但是当信源相干时, 它的DOA估计性能会恶化, 甚至无法进行DOA估计。

假设有三个方向的信源, 10°与40°方向上的信源相干, 还有一个信源方向为13°, 阵列为十阵元的ULA, 阵元间距为半波长, 快拍数为300。信噪比为5 dB, SSMUSIC的仿真结果如图3所示。

从图3可以知道, 传统MUSIC与SSMUSIC都不能准确估计出三个方向, SSMUSIC只能测出13°方向上的信源, 而10°和40°方向上的两个相干信源已经不能被测出。

为了能让SSMUSIC对相干信源也具有很好的DOA估计性能, 可以先对接收到的数据协方差矩阵进行平滑, 然后再应用SSMUSIC对相干信源进行DOA估计。考虑到对数据协方差矩阵进行一般的平滑会有阵列孔径丢失的问题[4,5], 本文采用文献[6]中修正的前后向平滑技术 (MSS) , 也称双向平滑。平滑过程如下:

Rd=1/2 (R+JRΤJ) (7)

式中:JM×M维的置换矩阵, 平滑后对Rd进行特征值分解, 然后再进行SSMUSIC估计, 称此方法为MSS-SSMUSIC。

若对Rd进行特征值分解后直接进行传统的MUSIC估计, 称此方法为MSS-传统MUSIC。

由图4可清楚地看到, MSS-SSMUSIC估计出了三个方向的信源, 而MSS-传统MUSIC只在13°和40°方向上有尖锐的谱峰, 丢失了10°方向上的信源。所以MSS-SSMUSIC在解相干的同时, 仍然可以分辨10°和13°这两个相隔很近的信号源。MSS-传统MUSIC在信源方向相隔较大时也可以估计出所有波达方向 (此仿真图已省略) , 但是在信源相隔较小时会丢失信源方向。

4 结 语

MSS-SSMUSIC不仅可以分辨相干信源, 而且继承了SSMUSIC能够分辨角度相隔较小信源的优点。虽然MSS-SSMUSIC解决了分辨相干信源的问题, 但是其副瓣仍然波动较大, 如何使MSS-SSMUSICDOA估计谱图的副瓣更加平滑, 提高其稳定性这一方面是值得深入研究的。

摘要:在传统MUSIC的基础上介绍了SSMUSIC, 并以ULA为例, 通过计算机模拟发现SSMUSIC比传统的MUSIC具有更好的角度分辨力。但是当阵列入射信号相干时, SSMUSIC的估计性能明显下降。为了解决此问题, 首先对数据协方差矩阵进行前后向平滑, 再用SSMUSIC进行波达方向 (DOA) 估计。计算机仿真结果表明, 引入了前后向平滑后, 提高了SSMUSIC的解相干能力。

关键词:波达方向 (DOA) 估计,MUSIC,SSMUSIC,前后向平滑

参考文献

[1]SCHMIDT R O.Multiple emitter location and signal pa-rameter esti mation[J].IEEE Trans.on AP, 1986, 34 (3) :276-280.

[2]MCCLOUD Michael L, SCHARF Louis L.Anewsubspaceidentification algorithmfor high-resolution DOA esti mation[J].IEEE Trans.on Antennas and Propagation, 2002, 50 (10) :1382-1390.

[3]MESTER Xavier, LAGUNAS Miguel Angel.Modified sub-space algorithmfor DOA esti mation with large arrays[J].IEEE Trans.on Signal Processing, 2008, 56 (2) :598-613.

[4]SHAN TJ, WAX M, KAILATH T.On spatial smoothingfor esti mation of coherent signals[J].IEEE Trans.on AS-SP, 1985, 33 (4) :806-811.

[5]PILLAI S U, KWON B H.Forward-backward spatialsmoo-thing techniques for coherent signal identification[J].IEEE Trans.on ASSP, 1989, 37 (1) :8-15.

[6]WILLIAMS R T, PRASAD S, MAHALANABIS A K, et al.Ani mproved spatial smoothing technique for bearingesti mationin a multipath environment[J].IEEE Trans.onASSP, 1988, 36 (4) :425-432.

[7]王永良, 陈辉, 彭应宁, 等.空间谱估计理论与算法[M].北京:清华大学出版社, 2004.

[8]张贤达.现代信号处理[M].2版.北京:清华大学出版社, 2002.

[9]叶中付.空间平滑差分法[J].通信学报, 1997 (9) :1-7.

视觉空间关系识别中的认知加工特性 篇2

通过两个实验分别检测20名飞行员和10名老年被试及其相应控制组的视觉空间关系识别中的认知加工水平,旨在探讨视觉空间关系识别中的类别关系和数量关系加工子系统所表现出的认知特性.研究结果表明,在参与视觉空间关系判断的两个典型加工子系统中,负责数量(坐标)空间关系判断的加工子系统既可随系统训练而表现出功能增强的`练习效应,也可随年老过程而发生功能衰减的年龄效应.相对而言,涉及类别空间关系判断的加工子系统则较少受到练习和年老化因素的影响.研究提示,由于受大脑神经解剖结构特点以及加工任务性质的影响,数量空间关系加工子系统更多地表现出了认知加工的可塑性和易变性特点,而类别空间关系加工子系统则表现出相对的稳定性或可塑性较低的认知特性.

作 者:游旭群 杨治良 作者单位:游旭群(陕西师范大学心理学系,西安,710062)

杨治良(华东师范大学心理学系,上海,62)

空间识别 篇3

关键词 金融系统;金融混沌;相空间重构;李雅普诺夫指数;关联维数

中图分类号 F830.3 文献标识码 A

Title Identification of Financial Chaos Based on Phase Space Reconstruction Technology

ZHANGQiang, LI Li-hua

(College of Finance and Statistics, Hunan University, Changsha,Hunan 410079, China)

AbstractWith the phase space reconstruction, which is used to identify chaos of nonlinear system in the areas of project and technology, the problem of identifying financial chaos was studied. After studying China's financial system under the current global financial crisis, which is the most serious financial chaos in financial history, we find that determinate instability and financial chaos took place in China's financial system during the global financial crisis with the effect of global financial crisis. Further, it can lay the cornerstone for prevention and control of financial chaos.

Keywordsfinancial system;financial chaos; phase space reconstruction; Lyapunov exponents; correlation dimensions

1 引 言

金融混沌,是金融系统中发生因确定性运行的失稳,而导致的从量变(类似倍周期分岔)到质变(混沌)的不确定性运行;其外在表现为金融市场中出现异常的剧烈波动、金融过热、金融危机、金融风暴等现象.金融混沌的出现严重地降低了市场配置资源的效率,给经济的增长与社会的稳定带来了很大的负面作用.因此,如何准确识别出金融混沌,为进一步控制金融混沌、维持金融系统安全稳定运行显得尤为重要.然而,现实金融系统内在的非线性性与复杂性,要想通过构造完整的数理模型对其进行刻画是非常困难的;实际上,往往只能测得该系统中的某些状态分量的时间序列.相空间重构技术是工程技术领域内处理复杂系统的有利工具,其基本思想是:由于系统的任一状态分量的演化都是由与之相互作用的其他状态分量所决定的,因此,这些相关状态分量的信息就隐藏在任一状态分量的发展过程中;于是,只考虑某一个状态分量,并将在某些固定时间延迟点上的观测值作为新维来处理,从而通过“嵌入”方法可以构造出一个与原系统等价的相空间,并可以在这个空间中恢复原有的动力系统,并研究其吸引子的性质[1].现有研究已证明,当嵌入维数和时间延迟的选择适当时,重构出来的相空间具有与实际的动力系统相同的几何性质和信息性质,具有真实相空间的所有特征[2].因此,可借助这种技术对金融系统运行过程中出现的混沌状态进行识别[3].

当前,有关金融系统混沌方面的研究文献不是很多,其中具有代表性的研究成果主要有:李红权、马超群、邹琳(2005)使用小数据量算法计算最大李雅普诺夫指数以及其他混沌系统的科学判据,对我国证券市场的混沌动力学结构做出了仔细分析,发现了中国股市具有显著的非线性混沌特征[4];马超群、邹琳、李红权(2008)基于BDS与CR方法从不同角度对中国股票市场的混沌动力学结构进行了分析[5];向小东(2007)对原油期货价格的混沌进行了识别研究[6];李立华、张强(2010)基于混沌理论对金融系统的稳定性展开了深入的研究与探讨[7].现有这些研究,要么只是针对某个证券市场,如股票或者期货等;要么只是研究常态下金融系统的混沌动力学结构与非线性混沌特征;而并没有就整个金融系统在非常态特别是危机背景下的运行状况展开深入的研究.因此,本文将以我国金融系统历经本次全球金融危机为研究对象,借助工程技术领域中的相空间重构技术对金融系统混沌的识别进行实证研究[8].

2 数据来源与预处理

根据系统相空间重构技术的基本思想,原则上可以从金融系统中任意选取一个状态分量的时间序列就可以对其相空间进行重构.但由于证券市场在整个金融系统中具有非常重要的地位,同时上证综合指数又能综合反映我国证券市场的整体运行情况;因此,本文在这里选取这个指数的日收盘价数据对金融系统的相空间进行重构,相对于采用金融系统中其他的状态分量更具有说服力.并且由于本轮金融混沌——全球金融危机是在2007年8月9日开始浮现的;因此选取数据的时间跨度范围为2007年8月9日至2009年12月31日,共587个日收盘价数据,在此期间其趋势见图1.

图1 全球金融危机期间上证综合指数日收盘价

由于经济增长与通货膨胀等因素的影响,一般不能简单地、直接地利用证券市场的价格指数,必须对价格序列进行预处理以消除经济增长和通货膨胀的趋势.通常有两种处理方式:对数收益率法与对数线性法.本文的研究目的是考察金融系统的稳定性行为——金融系统是否存在混沌,对数收益率法并不是一个合适的趋势消除方式,因此,采用对数线性趋势消除法:

xt=ln pt-(α+β t) (t=1,2,…,T=587),(1)

其中,pt为原始的证券指数时间序列,xt为对数线性趋势消除后得到的新时间序列,α为最小二乘法得到的截距,β为常数增长率.消除趋势后的上证综合指数见下图2.

图2 对数线性趋势消除后的上证综合指数图

3 金融系统相空间的重构

要重构金融系统的相空间,首先得确定重构相空间所需的两个重要参数——嵌入维数m与时间延迟τ.在这里,采用C-C算法通过建立嵌入时间序列的关联积分,同时估计出时间延迟τ和数据依赖最大时间窗口τw;并由时间延迟、最大时间窗口与嵌入维数三者之间的数量关系τw=(m-1)τ,间接求出重构金融系统相空间所需的嵌入维数m.当选取上证综合指数对金融系统的相空间进行重构时,计算出时间延迟τ为35,时间窗口τw为280,从而可以计算出嵌入维数m为9.

于是,可以根据这些参数的取值重构出金融系统的相空间如下[9]:

Y(ti)=(xi,xi+35,…,xi+35×(9-1))∈R9

(i=1,2,…,n), (2)

其中,n=T-(m-1)τ=587-(9-1)×35=307.Takens定理已经证明:当确定的嵌入维数与时间延迟适当时,重构出来的相空间与现实金融系统在拓扑意义下等价,即重构的相空间能够恢复出现实金融系统运行过程中的所有特征与性质[10].因此,就可以通过分析重构相空间的几何性质,间接考察现实金融系统的运行状态,并进一步判断金融混沌的存在与否.

4 金融系统混沌状态的识别

识别系统混沌状态的方法很多,这些方法被广泛运用于工程技术领域,如系统相图结构法、李雅普诺夫(Lyapunov)指数法、分数维法、熵法、功率谱法等等.然而由于现实金融系统的特殊性,并不是所有这些识别混沌的方法都适合于金融系统混沌的识别.接下来,主要运用两种适合金融系统的混沌方法对其进行实证研究[11].

4.1 最大李雅普诺夫指数识别法

混沌动力系统最基本的特征之一是存在对初始条件的敏感依赖性,两个极靠近的初值所产生的轨道,随时间推移按指数方式分离,李雅普诺夫指数就是描述这一特征的量.李雅普诺夫指数通过量化相空间中两相邻点在映射作用下平均指数发散速度,从而可以整体上估计系统的混沌程度.

设F是由相空间重构技术重构出来的现实金融系统的相空间上的映射,它决定了该系统的运行状态.并将系统的初始条件取为一个无穷小的9维小球,由于在金融系统演化过程中的自然变形,球将变成椭球.将椭球的所有主轴按其长短顺序排列,那么第i(i=1,2,…,9)个李雅普诺夫指数就是根据第i主轴的长度Pi(n)增加速率定义为

σi=lim n→

1nln Pi(n)P0(n). (3)

这样李雅普诺夫指数就是与相空间的轨线收缩或扩张的性质相关联的,在李雅普诺夫指数小于零的方向轨道收缩,初值相邻的两轨线越来越靠近,其运动是渐近稳定的,对于初始条件不敏感;而在李雅普诺夫指数大于零的方向上,轨道迅速分离,对初始条件敏感,运动呈现混沌状态.不过为了判断系统中是否出现混沌状态,并没有必要计算出所有的李雅普诺夫指数.1983年,Celso Grebogi 与Edward Ott已经证明只要最大的李雅普诺夫指数大于零,就可以肯定混沌的存在.所以,金融系统的最大李雅普诺夫指数的正负号可作为混沌存在与否的一个判断依据[12].

根据求最大李雅普诺夫指数的小数据量方法的基本思路可知,在图3中回归直线的斜率就是所要求的最大李雅普诺夫指数.由图3可知:由上证综合指数序列重构的金融系统相空间的最大李雅普诺夫指数为0.0127大于零,表明在此期间我国金融系统运行的轨迹对初始条件的敏感依赖;从而,也进一步说明了在受到全球金融危机的影响下,我国金融系统发生了确定性的失稳,出现了明显的金融混沌现象.

图3 金融系统相空间的李雅普诺夫指数分析图

4.2 关联维数识别法

混沌动力系统另一个重要的特征是存在奇异吸引子,即轨迹在状态空间中的发散是在有限范围内的无规则运动.通常使用分数维来定量描述吸引子的“奇异”程度.分数维有多种定义方式,包括Hausdorf维、盒维、信息维、关联维、Lyapunov维等等.其中,在实践中运用最广泛的是由Grassberger和Procaccia提出计算关联维的G-P算法.因此,可以借助它来识别金融系统的混沌状态,度量金融系统整体的混沌程度.

对于金融系统的重构相空间,奇异吸引子由点yj=(xj,xj+35,…,xj+35×(9-1))所构成.定义这些点之间的距离为两点的最大分量差,即:

yi-yj=max 1≤k≤9yik-yjk.(4)

规定凡是距离小于正数r(事先给定的)的点,称为有关联的点.并假设重构相空间中有N个这样的点,计算其中有关联的点的对数,它在一切可能的N2种配对中所占的比例称为关联积分:

C(r)=1N2∑Ni,j=1θ(r-yi-yj),(5)

其中,θ为

Heaviside单位函数:θ=0,r|yi-yj|,1,r<|yi-yj|.适当地选取r使得在其的某个区间内有C(r)=rD,其中D称为关联维数.若计算出来的关联维数为分数(即非整数),则表明金融系统的运行过程中出现了混沌状态;否则,则表明金融系统不存在混沌.

在由上证综合指数序列重构出来的金融系统相空间中,计算关联积分C(r),并画出金融系统相空间的关联维分析图,见图4.

图4金融系统相空间的关联维分析图

根据关联维数判断系统是否存在混沌的基本思想,在图4中除了斜率为0或

的直线外,考察期间的最佳拟合直线,该直线的斜率就是所要求的关联维数.并根据计算机仿真结果可知:由上证综合指数序列重构的金融系统相空间的关联维数为3.12为分数(或者是非整数),从而也可以断定在本轮全球金融危机的影响下,我国金融系统在运行过程中发生了确定性的失稳,出现了金融混沌.

5 结束语

在现代市场经济体系中,金融的作用与地位越来越突出;金融系统的安全、稳定对一国乃至全球经济社会稳定与发展越来越重要.然而,随着金融自由化与全球化,特别是始于20世纪60年代的各种金融制度、金融产品、交易方式、金融组织、金融市场等金融创新的出现与蓬勃发展,使的金融系统越来越成为一个开放的、非线性的、复杂系统.与此同时,由于金融系统中发生因确定性运行的失稳,而导致的从量变(类似倍周期分岔)到质变(混沌)的不确定性运行,出现诸如金融市场的剧烈动荡、金融危机、金融海啸等金融混沌现象时有发生.这些金融混沌现象的出现严重地降低了金融市场配置资源的效率,给经济的增长与社会的稳定带来了很大的负面影响.因此,及时准确识别出金融混沌状态,为进一步控制金融混沌、维持金融系统安全稳定运行具有重要的意义.

在考察金融系统运行状况时,由于金融系统内在的非线性性与复杂性,要想通过构造完整的数学模型对其进行刻画是非常困难的、也是不现实的.于是,考虑采取工程技术领域内处理复杂系统的有利工具——相空间重构技术,在相空间中恢复出整个金融系统运行的所有特征与性质,并借助最大李雅普诺夫指数法与关联维数法分别从不同角度对金融系统中的混沌进行了识别.实证结果表明:在全球金融危机的影响下,我国金融系统在运行过程中发生了确定性的失稳,表现出了较强的混沌现象;这也进一步解释了在此期间我们金融系统动荡的根本原因.

参考文献

[1] 盛昭瀚,马军海.管理科学:面对复杂性——混沌时序经济动力系统重构技术[J].管理科学学报,1998,16(1):49-60.

[2] 谢忠玉,张立.相空间重构参数选择方法的研究[J].中国科技信息, 2009,27(16):84-90.

[3] 谢赤,杨妮,孙柏.汇率时间序列混沌动力学特征及实证[J].系统工程理论与实践, 2008,24(8):119-122.

[4] 李红权,马超群,邹琳.中国证券市场的混沌动力学特征研究[J].中国管理科学,2005,17 (13):194-200.

[5] 马超群,邹琳,李红权.股票市场的非线性结构与混沌效应检验-基于BDS与CR方法[J].湖南大学学报:自然科学版,2008,35(5):85-88.

[6] 向小东.原油期货价格的混沌识别研究[J].运筹与管理, 2007,22(8):57-65.

[7] 李立华,张强.基于混沌理论的金融系统稳定性研究[J].经济数学,2010,27(4):67-72.

[8] 陈士华,陆君安.混沌动力学初步[M].武汉:武汉水利电力大学出版社, 1998.

[9] 吕金虎,陆君安,陈士华.混沌时间序列分析及其应用[M].武汉:武汉大学出版社,2001.

[10]MANE F TAKENS. In dynamical systems of turbulence [C]∥Lecture Notes in Mathematics. Berlin: Springer, 1981,898.

[11]Li-hui WU,Jie ZHANG. A phase space reconstruction based approach to throughput prediction in semiconductor wafer fabrication system [J]. Journal of Donghua University: English Edition, 2010, 39 (1):765-779.

[12]GREBOGI CELSO,OTTEDWARD. Long-lived chaotic transients and unstable pair bifurcation [J]. Physical Review Letters, 1983, 50(7):897-901.

多色彩空间下的岩石图像识别研究 篇4

人工智能的发展使得越来越多的工作自动化, 而其发展至现在涉及人类的决策模拟, 通过信息技术给出问题的解决方案。因此, 模式识别与人工智能对于众多科学领域, 是一个值得研究的技术领域。这项技术已经应用于很多领域, 如天文学、生活和行为科学、工业应用、社会和环境应用、医学、农业应用, 以及地球物理科学[1]。近年诸多学者对图像的识别与分类研究进行大量工作。饶倩, 等用Normalized Cut将图像分割为超像素, 提取特征向量应用人工神经网络进行图像分类[2]。王瑞, 等应用BP神经网络方法对遥感图像进行分类, 徐硕, 等基于灰度共生矩阵提取纹理特征, 然后建立BP神经网络模型识别图像的内容[3,4]。杨怿菲建立图像颜色的三个通道特征统计模型, 利用特征统计评判和神经网络技术分析计算得到图像类型[5]。张宪, 等根据支持向量机模式识别原理建立显微图像分类识别模型[6]。

随着人工智能在图像识别领域的应用发展, 地质学中岩石图像分析也广泛采用诸如支持向量机、BP神经网络等技术方法。刘延保, 等将LS-SVM的分类方法与数字图像处理的阈值分割法相结合, 提出人机结合的岩石细观结构图像系统分析方法[7]。程国建, 等提出一种基于聚类分割和神经网络相结合的分类识别方法, 实现岩石薄片图像孔隙识别的自动化[8]。Marmo等基于图像处理和神经网络方法对海相环境碳酸盐岩进行组构识别[9]。叶润青, 等根据岩石图像的光谱和纹理特征, 提出矿物含量的测定方式[10]。李培军用变差函数作为纹理的计算函数来提取图像纹理, 并与原始的光谱数据结合进行岩性的分类[11]。

上述岩石图像识别的方法多以各类较为复杂的特征参数提取算法为基础, 为了获得一个相对简单且快速进行岩石图像识别所需的特征空间, 提出使用原始色彩图像结合其形态学变换, 统计不同色彩通道的标准算术值来表示特征空间。通过不同的色彩空间 (如RGB色彩空间) 下所获取的特征参数, 使得大量岩石显微图像进行快速自动识别与分类。

1岩石图像

岩石薄片是从岩石标本的垂直层理方向上切取的一小块岩片, 粘在载玻片上磨制成0.03 mm厚的薄片。薄片通常是由经验丰富的地质人员通过偏光显微镜进行观察与鉴定, 从而确定岩石的类型和结构参数。铸体薄片是岩石薄片的一种, 是将染色树脂或液态胶 (红色或蓝色) 在真空下灌注到岩石的孔隙空间中, 在一定的温度和压力下使树脂或液态胶固结, 然后磨制成岩石薄片, 进而在偏光显微镜下观察孔隙、喉道的大小及其相互连通、交合的二维空间结构等[12]。

岩石薄片图像来自鄂尔多斯盆地某油田区块, 薄片均为铸体薄片, 其中有色胶体为红色, 占据孔隙空间。从样本中选择具有代表性的若干类铸体薄片图像, 如图1所示, 根据其岩石类型、致密程度和孔隙发育特点, 将鄂尔多斯盆地该油田地区的岩石薄片图像分为四种类型。四种不同类型的岩石反映不同的沉积成岩环境与水动力条件:1类岩石代表沉积时水体较深, 水动力较弱, 如河流相的河漫滩与沼泽、深湖相泥岩和海相灰岩;2类岩石为三角洲前缘亚相沉积, 搬运距离较近, 水动力较强, 杂基较多;3类和4类岩石沉积环境相似, 均为河流—三角洲沉积体系的河流相沉积, 但其所经历的成岩作用不同, 3类岩石压实作用较强, 4类岩石溶蚀作用较为强烈。

四种类型岩石的特点分述如下。

(1) 1类岩石。该类岩石极为致密, 岩石类型以灰岩、泥岩、粉砂岩为主, 颗粒细小, 分选和磨圆程度好。在铸体薄片下仅发现少量孔隙零星分布[图1 (a) ]。

(2) 2类岩石。该类岩石致密, 岩石类型以细-中粒石英砂岩、岩屑石英砂岩为主, 颗粒粒度较小, 分选较差, 磨圆为次棱角-棱角状, 颗粒接触方式以线状接触为主, 点状接触较少。粒间多被泥质杂基所充填, 粒间孔极不发育[图1 (b) ]。

(3) 3类岩石。该类岩石致密, 岩石类型以粗粒石英砂岩为主, 颗粒粒度较大, 磨圆和分选程度较好, 颗粒接触方式为线状接触、凹凸状接触。石英颗粒普遍发生次生加大, 且粒间孔多被高岭石充填, 发育少量的残余粒间孔和高岭石晶间微孔[图1 (c) ]。

(4) 4类岩石。该类岩石较为疏松, 岩石类型以粗粒石英砂岩为主, 岩屑石英砂岩和长石石英砂岩次之, 颗粒粒度较大, 分选较好, 磨圆为次棱角—棱角状, 颗粒接触方式为点状接触、线状接触。石英颗粒普遍具次生加大且发生脆性破裂, 发育大量残余粒间孔、长石溶孔和微裂隙[图1 (d) ]。

2色彩空间

模式识别方法是基于特征空间进行研究的, 特征空间是抽象的, 每个样本在n维空间中表示为一个点。特征的数量决定了空间的维度, 因此, 确定特征空间是进行模式识别的第一步。有各种各样获取样本特征的方法, 但是理论中并没有提供一个自动定义特征空间的算法。为了获得一个相对简单并且快速的识别算法, 这个算法应该是广泛适用于图像分析[1]。作为有别于其它常见的图像特征提取算法, 现提出使用原始色彩图像结合其形态学变换, 统计不同色彩通道的标准算术值来表示特征空间。

岩石图像的13维特征空间定义如下:

(1) 第一个色彩通道的平均灰度值。

(2) 第二个色彩通道的平均灰度值。

(3) 第三个色彩通道的平均灰度值。

(4) 第一个色彩通道的标准偏差。

(5) 第二个色彩通道的标准偏差。

(6) 第三个色彩通道的标准偏差。

(7) 第一个色彩通道形态学梯度的平均灰度值。

(8) 第二个色彩通道形态学梯度的平均灰度值。

(9) 第三个色彩通道形态学梯度的平均灰度值。

(10) 第一个色彩通道形态学梯度的标准偏差。

(11) 第二个色彩通道形态学梯度的标准偏差。

(12) 第三个色彩通道形态学梯度的标准偏差。

(13) 灰值图像的变异函数基台值。

“色彩空间”一词源于西方的“Color Space”, 又称作“色域”, 色彩学中, 人们建立多种色彩模型, 以一维、二维、三维甚至四维空间坐标来表示某一色彩, 这种坐标系统所能定义的色彩范围即色彩空间。经常使用到的色彩空间主要有RGB等, 但其并不是唯一的色彩空间。计算机上显示通常使用RGB (红色、绿色、蓝色) 色彩空间定义, 其中红色、绿色、蓝色分布被当作X、Y和Z坐标轴。另外一个生成同样颜色的方法是使用色相 (X轴) 、饱和度 (Y轴) 和明度 (Z轴) 表示, 这种方法称为HSB色彩空间。此外还有许多其它的色彩空间, 可以按照这种方法用三维、更多或者更少维表示[13]。

所有岩石图像分析均在RGB色彩空间, 然而图像的RGB色彩空间可以转换到另一个色彩空间。有许多不同的色彩空间适合用于分析光学显微镜下的岩石结构图像, 最终确定RGB、HSV、YIQ和YCbC r四个色彩空间用于本次实验研究中。HSV色彩空间中, 三个色彩通道分别表示的是色调 (H) , 饱和度 (S) 和亮度 (V) ;YIQ色彩空间中, Y分量代表图像的亮度, I分量代表从橙色到青色的颜色变化, 而Q分量则代表从紫色到黄绿色的颜色变化;YCb Cr色彩空间中, Y为颜色的亮度、而Cb和Cr则为蓝色和红色的浓度偏移量成份。每个色彩空间的具有独立的13维特征空间, 为了防止各特征参数之间的影响, 数据进行归一化处理, 范围从0到1。

3模式识别

模式识别是指对表征事物或现象的各种形式的 (数值的、文字的和逻辑关系的) 信息进行处理和分析, 以对事物或现象进行描述、辨认、分类和解释的过程, 是信息科学和人工智能的重要组成部分。模式识别又常称作模式分类, 从处理问题的性质和解决问题的方法等角度, 模式识别分为有监督的分类和无监督的分类两种。二者的主要差别在于, 各实验样本所属的类别是否预先已知。一般说来, 有监督的分类往往需要提供大量已知类别的样本, 但在实际问题中是存在一定困难的。统计模式识别的基本原理是:有相似性的样本在模式空间中互相接近, 并形成“簇”。在连续情况下, 假设对要识别的物理对象有d种特征观察量x1, x2, …, xd, 这些特征的所有可能的取值范围构成了d维特征向量Xi=[x1, x2, …, xd]T (i=1, 2, …, N) , 这些假设说明了要研究的问题有c个类别, 各类别状态用wi来表示, i=1, 2, …, c;将一个给定的模式归入其中一个类别当中, 然后根据模式之间的距离函数来判别分类。其中, N为样本点数;d为样本特征数[14]。

模式识别中的人工神经网络方法直接从观测数据 (训练样本) 学习, 是更简便有效的方法, 因而获得广泛应用。神经网络是使用连接模式表达知识的模型, 其灵感来自人脑的工作机制。通过与大脑神经元的类比, 处理单元是神经元。神经网络是由许多神经元通过权值连接所组成的, 通过连接的权值表示知识。为获得神经网络的输出, 需要为每个神经元分配数值以及计算每个神经元相对应的方程, 神经网络的输出值是由输出层神经元的值所组成的。人工神经网络常在下述情况时使用:

(1) 没有算法或模型解决问题时; (2) 比计算更多的数据输入/输出操作; (3) 监督训练的许多例子是有效的。

文中研究的岩石图像识别问题满足这些需求, 神经网络成为一个理想的工具。分类问题是通过一组特征将对象分配至一个预定义的类别, 神经网络是使用非线性映射函数表示特征空间到分类空间的映射分类。为设计神经网络获得较好的映射和训练, 根据Bishop描述监督型神经网络的数学细节, 需要选择: (1) 神经网络模型; (2) 每个神经元的激励函数; (3) 误差和最小化函数; (4) 训练算法。

应用神经网络模式识别工具箱建立岩石图像的分类模型。用于进行模式识别的是一个两层的前馈神经网络。神经元分为输入、输出、隐层 (即这些单元既不是输入也不是输出) 和输出层。所给层的神经元连接着下一层的所有神经元 (图2) 。根据提取的特征空间, 输入有13个神经元, 输出有4个神经元, 对应每个岩石图像的类别;隐层有8个神经元。隐层神经元与输出神经元使用的都是Sigmoid函数。

在模式识别工具箱的训练中, 神经网络从特征输入组成的训练集进行学习, 期望的分类输出使用监督训练。训练过程是误差反向传播方法, 给定输入神经元的初始权值, 神经网络给出输出值。如果其不等于期望的输出模式, 则计算两者的差值 (即均方差) , 为减少差值而修改权值。在每个训练周期中重复这些操作模式, 直到误差最小。神经网络训练过程的权重矩阵由小随机数值组成。模式识别工具箱的训练使用量化连接梯度训练函数, 即trainscg算法。当网络验证集的误差均方差开始增长时, 即神经网络的泛化效果停止提高时, 网络结束训练[15]。

4实验结果

实验图像由100幅铸体薄片图像组成, 每个类别为25幅。神经网络的训练集、验证集和测试集随机分为70、10和20幅。实验基于MATLAB中的神经网络模式识别工具箱进行。在基于RGB色彩空间的岩石图像识别中, 随着训练过程的进行网络误差单调递减, 而验证误差只能减少至一定点, 然后增长 (图3) 。第24步训练时验证误差得到最小值从而停止训练:此时验证误差是0.06, 相应的训练误差是0.01。

测试集由20幅图像组成, 神经网络正确分类19幅图像 (95%) , 错误分类1幅 (5%) 。表1是测试分类结果:其中列代表真实分类, 行表示神经网络分类。在错误分类中, 神经网络将其中1幅2类岩石错误识别为3类岩石。

表2是基于RGB色彩空间的岩石图像识别实验中训练集、验证集和测试集的总体分类效果, 从表中可知在100幅岩石组构图像中, 神经网络正确分类98幅图像 (98%) , 错误分类2幅 (2%) 。错误分类的结果是将其中1幅2类岩石错误识别为3类岩石, 以及将其中1幅3类岩石错误识别为2类岩石。错误分类只是发生在相邻类别中, 并没有出现将1类岩石错误识别为3或4类岩石的情况。实验结果表明基于色彩空间与神经网络的岩石图像识别方法具有一定的可行性, 同时该方法仍然存在一定的分类误差。

与基于RGB色彩空间的测试结果相同, HSV、YIQ和YCb Cr色彩空间的测试均取得较好的分类效果。图4和图5给出各色彩空间测试集与总体的分类精度, 其中横坐标色彩空间的1至4号分别是指RGB、HSV、YIQ和YCb Cr空间。在图4中, 可以看到基于HSV和YIQ空间的测试集中四类岩石图像分类的正确率达100%;YCb Cr色彩空间的分类效果较这两种空间稍差一些, 其中第1、3和4类岩石图像的识别率达100%, 第2类岩石图像的识别率较低一些, 为80%。基于多色彩空间与神经网络的岩石图像分类测试结果均较好。图5是各色彩空间的总体分类情况, 各类岩石的分类精度均在92%以上, 其中HSV色彩空间的分类情况最佳, 四类岩石图像分类的平均正确率达99%;YCb Cr色彩空间的分类精度相对最差, 四类岩石图像分类的平均正确率为96%。综上所述, 结合多色彩空间的特征提取方法与神经网络模式识别方法, 对岩石图像分类研究效果良好, 表明该方法在技术上与现实应用中是可行的。

在不同的色彩空间, 岩石图像的分类效果不一 (表3) 。各色彩空间均提取13维特征参数作为神经网络的输入, 各色彩空间下的神经网络训练集是相同的。根据表3, 各色彩空间的分类效果均较好, 测试集与总分类的正确率均在95%以上, 其中HSV色彩空间下的岩石图像分类正确率达99%。四类色彩空间下的神经网络训练收敛周期与验证集均方差均较为理想。因此, 文中提出使用原始色彩图像结合其形态学变换, 统计不同色彩通道的标准算术值来表示特征空间的这种方法, 在岩石图像识别应用中时可行的。同时, 岩石图像的识别精度仍有少许误差, 可能是由于样本数量偏少所致。

5结论

空间识别 篇5

数控机床空间几何误差模型建立以后, 几何误差建模参数辨识的准确性对空间定位误差的影响极大, 不准确的误差参数使其误差模型计算结果背离实际误差值, 可能使定位误差补偿后不但没有减小, 反而增大。建立一套准确、可靠、方便实用的辨识方法是实现高精度空间误差补偿的关键[1]。

在数控加工中心误差辨识是一项复杂而费时的工作, 国内外许多学者开展了多方面的研究, 开发出了不少的误差辨识方法, 22线法[2]、15线法[3]、14线法[4]、9线法[5]等, 它们各有特色, 为进行误差辨识提供了多种选择;但是这些方法在测量时需特殊的测量元件, 也比较复杂、耗时。为了便于机床空间位置精度的快速检定, 国际标准IS0230—6推荐了一种沿着体对角线进行数控机床精度检验的方法[6]。但是, 这种方法无法获得足够的信息进行误差元素的分离, 不能成为获取误差补偿信息的方法。为给误差补偿提供更充分的信息, 本文将分步对角线法引入平面, 完全辨识全部的误差参数。

数控机床的空间几何误差包括直线度误差、直线定位误差、垂直度误差、转角误差等, 这些误差对机床精度的影响起决定因素。以三轴加工中心为例, 共有21项几何误差元素[7], 其中δx (x) , δy (y) , δz (z) 为直线定位误差;δy (x) , δz (x) , δx (y) , δz (y) , δx (z) , δy (z) 为直线度误差, εx (x) , εx (y) , εx (z) , εy (x) , εy (y) , εy (z) , εz (x) , εz (y) , εz (z) 为角度误差;εxy、εyz、εzx为垂直度误差。在上述误差元素参数中, 下标表示误差的方向, 括号内的字母表示运动轴的方向。

1 体对角线法误差辨识的基本原理

体对角线法即空间体对角线测量法是近几年开发出的数控加工中心三个直线轴误差辨识方法, 通过进一步改进后的建模方法简便、通用;建模时, 消除了不确定假设条件;采用改进的空间体对角线测量法, 可以改善数控机床误差参数的辨识精度, 提高测量效率。针对txyz形式的数控加工中心进行了详细的分析。

图1为加工中心的一条体对角线, 且沿xyz三个坐标轴的正方向, 定义为ppp, 其他三条对角线根据是否沿坐标轴正方向来一次定义为pnp、ppn、npp;p表示沿坐标轴正方向, n表示沿坐标轴负方向。在图2中, 进行对角线测量时, 先把对角线分成m个测定点, 假如体对角线的起点为 (xs, ys, zs) , 终点为 (xe, ye, ze) , 则几个连续测点在x、y、z轴上坐标变量为Dx、Dy、Dz。

对角线上的单位矢量表示为:

加工中心空间定位误差对角线测量一般公式为:

所以:

则, 沿体对角线ppp、npp、pnp、ppn的测量误差dRppp、dRnpp、dRpnp、dRppn为:

数控加工中心沿x、y、z三个坐标轴空定位间误差的矢量表示为:

其中, 分别表示x、y、z轴方向的单位矢量;

Ex (x) , Ey (x) , Ez (x) 表示为沿x轴运动时在x、y、z方向上产生的空间定位误差值, 下标为误差方向, 括号内表示运动方向。同理, Ex (y) , Ey (y) , Ez (y) Ex (z) , Ey (z) , Ez (z) 与上边的误差参数表达一致。

设加工中心沿x, y, z轴分别运动之后产生的误差为E (x, y, z) , 则每个方向上的误差为:

根据以上公式把式 (6) 代入式 (4) , 能够解得Ex (x) , Ey (x) , Ez (x) , Ex (y) , Ey (y) , Ez (y) , Ex (z) , Ey (z) , Ez (z) 的值。

在三轴加工中心数学建模过程中, 由变换矩阵求得Δx、Δy、Δz为:

把式 (6) 代入式 (7) , 最终得到:

式 (8) 中给出了9项位置误差与17项分项误差间的关系;但是, 因为只有9个等式, 是无法求解17个分项误差值的, 因此无法完全识别17项误差元素。

2 改进的体对角线方法的对数控加工中心空间误差的识别新方法

为了能够识别三轴加工中心的全部21项空间几何误差, 可以通过直接测量一些误差元素, 然后结合前面已知的误差元素与定位误差的关系进行求解;考虑实际情况和简化测量过程, 可以通过引入平面对角线的测量 (图3) 。平面对角线的测量相对于单向误差元素的测量包含了更多的误差元素的信息, 并且可以使用现有的测量设备和元件, 无需增加测量成本, 可以减少测量所增加的路径, 减少测量时间。

下面对平面对角线的测量方法进行详细介绍。

图3中体对角线ppp的投影在xoy面上形成的面对角线op, 记作ppz, 另一条平面对角线记作, npz;这里定义的两条xoy平面对角线图4与体对角线的区别主要在于字母z, 其表示为z轴坐标不发生变化。

根据式 (4) 同理可以得到平面对角线的公式:

式中:z=0表示在立体空间中z的坐标为0, 即在xoy平面内, 同理下面的公式中y=0, x=0, 均表示在xoz平面内和yoz平面内。

由上式得到:

把上式中的Ez=0x (x) , Ez=0y (x) , Ez=0x (y) , Ez=0y (y) , Ex=0y (y) , Ex=0z (y) , Ex=0y (z) , Ex=0z (z) , Ey=0x (x) , Ey=0z (x) , Ey=0x (z) , Ey=0z (z) , 根据式 (8) 代入, 得到:

通过对三个平面的六条对角线的测量, 得到了12个方程 (式14-16) , 再加上前面的式 (8) 中的9个方程, 总共21个方程, 其中重复方程有3项, 因此, 公式有18项, 而在txyz型的数控加工中心的空间几何误差元素未知变量共计17个, 足可以辨识这些误差元素。

3 结论

体对角线法作为一种快速检验机床空间几何误差的方法, 已被国际标准化组织作为一种推荐的方法写入了机床几何精度检验文件 (国际标准IS0230-6) 。它为三轴加工中心空间几何误差精度的检验提供了一种很好的方法。但是, 对于该方法来说, 无法对三轴加工中心的21项空间几何误差进行全部的识别, 它存在两个问题, 1) 该方法存在无法正确反映真实的空间定位精度的可能性;2) 由于该方法测量的四条对角线的点数据有限, 所测的数据用于误差补偿是不充分的。而改进的分步体对角线法, 通过增加对平面对角线的测量, 增加了误差方程, 能够全面的反映三轴加工中心空间几何误差的21项误差元素。并且为下一步误差补偿提供了全面的误差信息。

摘要:分析了国内外误差参数识别的方法, 介绍了分步对角线法识别和检测数控机床空间几何误差的过程和步骤, 通过改进的分步对角线法, 全面识别空间几何误差的21项误差元素。为后续机床误差补偿提供理论依据。

关键词:空间几何误差,误差识别,分步体对角线法

参考文献

[1]李欢玲, 吴洪涛.三坐标数控机床的几何误差参数辨识[J].机械制造.2008, (4) :5-7.

[2]张虎, 周云飞.基于激光干涉仪的数控机床运动误差识别与补偿[J].中国机械工程, 2002, 2 (1) :1838, 1841.

[3]CHEN G, YUAN X.A displacement measurement approach for machine geometric error assessment[J].International Journal of Machine Tools and Manufacture, 2001, 1 (41) :149-161.

[4]范晋伟, 田越.基于l4条位移线测量法的数控机床误差参数辨识技术[J].北京工业大学学报, 2000, 2 (26) :11-15.

[5]刘又午, 刘丽冰, 赵小松, 等.数控机床误差补偿技术研究[J]中国机械工程, 1998, 9 (12) :48-52.

[6]刘海阳, 曾涛, 刘建湘.基于分步对角线的数控机床误差辨识新方法[J].广西大学学报 (自然科学版) , 2010, Vo1.35No.5:729-732.

传统商业街空间环境的可识别性要素 篇6

1. 基本概念

1.1 传统商业街

传统商业街作为一种历史发展的产物, 它是以传统风貌为特征, 以传统商业活动为经营内容, 凝聚着历史场所感的物质空间形态与非物质文化生活的有机整体。

1.2 空间环境的可识别性

人对空间环境的识别是一个从认知到认同, 由表及里, 由外而内不断深入探索的过程, 如同人与人之间的交往会经历从陌生、了解到认识熟悉, 最后达到与之心意相通更深层次的理解。空间环境的可识别性即是人对空间环境的认知度与认同感。人们的认知度和认同感越高, 空间环境的可识别性就越高, 这说明空间特色与场所感也就越强。

2. 传统商业街空间环境的层次划分

传统商业街作为一个空间环境是可以被人所感知和识别的。按照人对空间环境识别的过程, 可以通过系统的分析方法将传统商业街空间环境划分为形式、结构和文化三个层面进行研究。形式层面主要从易于被人感知的实体要素和空间意象着手;结构层面是指隐含在街道空间要素之间的内在组织关系;文化层面则将更深层次的文化特征作为研究的内容。通过对这三个层面的研究分析, 从中可以了解影响传统商业街空间环境各层面可识别性的要素。

2.1 形式层面

形式指的是事物的外部表现特征, 是最易被人感知和接收到的事物外在属性。传统商业街区的形式层面可以从实体要素和空间意象两方面说明。实体要素是空间环境形成的物质基础, 而空间意象是对街道空间特征的抽象表达。实体要素比意象要素给人的视觉感受更加直接, 意象要素比实体要素对空间环境的理解更加深刻。

2.1.1 实体要素

传统商业街的实体要素主要包括建筑与商业标识、道路铺装、街道设施和植物水体四部分, 它是人能直观感受到的外部环境信息, 形成了人对空间环境的最直接印象。

a.建筑与商业标识

在传统商业街空间中, 街道的侧界面是由商业店铺与各种商业标识 (招牌与店幌) 共同组成的。沿街建筑与标识物是构成空间环境的主体要素, 建筑的风貌特征与标识物的形式直接影响了人们对街道的欣赏和空间感受。

b.路面铺装

路面作为街道空间的底界面, 它和建筑与标识物一起构成了空间的主体, 形成了人对街道的主要印象。路面铺地的色彩、材质、大小、花纹、图案等传递出了大量的视觉信息, 具有一定的文化功能。传统商业街的地面铺装普遍使用地方材料, 路面上出现的一些地方传统图案或民风民俗的图景, 增添了街道空间的趣味性和可读性。

c.街道设施

街道设施主要包括座椅、街灯、指示牌、雕塑小品、垃圾桶等。街道设施由于尺度较小, 更加贴近人的行为活动, 能给人留下深刻的印象。方便实用具有设计感的街道设施有助于提高人们对空间的好感。

d.植物与水体

植物与水体是街道空间中的自然要素, 优美的自然环境能够激发人们在室外活动的兴趣, 提高空间环境的舒适度。

传统商业街大多数选取地方性植物, 以此增强环境的地域特色, 便于人们认知。除了美化环境改善生态的作用外, 植物还具有一定的文化象征意义, 能够传达一种特殊的精神和气质, 例如竹子的高洁, 莲花出淤泥而不染等等。

水与人的生活息息相关, 人们总是渴望自己所在的地方有景可赏、有水可亲。水能够改善小气候环境, 并形成各种形态的水体景观。北方城市的街道对水的利用较少, 而我国南方特别是江浙一代, 城镇内水网密布、水街相依, 街道空间营造出的是一种“小桥流水”般的景致。

2.1.2 空间意象

“意象”原本是心理学用语, 用来表达人们通过对外部环境不断地体验和感知而形成的一种心智感受 (印象) 。在《城市意象》这本书中, 凯文?林奇认为城市空间通过五个意向要素形成了人们对城市的深刻印象, 五个意向要素包括路径、区域、边界、节点和标志。城市意象的五要素并不仅仅局限于大范围的城市空间, 它们同样可以适用于不同规模大小的空间当中, 因此将其延伸至传统商业街空间使用, 就形成了街道空间的五个意象要素。

a.路径

路径在传统商业街的空间意象中具有统治性地位, 它决定了街道空间的形态特征。街道空间的线型主要有直线型、折线型、曲线型、升降型和混合型等, 不同的线型所形成的空间感受不同。例如云南丽江古镇中的街巷就表现出一种曲折蜿蜒、丰富多变的线性特征, 显得自然活泼。而山西平遥南大街直线型的路径所表现出的又是笔直通畅, 指向性强的特点。

b.节点

节点一般位于街道方向发生转折或者街巷的交汇处, 古时这里是城市商业最初产生和聚集的地方, 也是人们活动交往和感受空间环境魅力的重要场所。传统商业街的街道尺度一般较小, 空间比较封闭, 需要借助节点空间的开敞性产生对比, 从而形成开闭有序的景观形象, 使空间更加生动有趣。

c.标志

标志物通过独特的造型和突出的地理位置, 以及由此产生的精神意义给人留下深刻印象, 成为空间场所中起控制性作用的视觉中心点。在传统商业街当中, 标志物通常表现为具有明确限定的具体目标, 如城门、高塔、牌楼等。

d.边界

边界也可称为边沿或者界限, 一般通过围合或分隔来划分空间领域的范围。边界可分为自然边界和人工边界, 如山丘、湖泊、小溪等属于自然边界;人工边界主要是由建筑、人工绿化、地面铺装和道路所限定。传统商业街由于街道宽窄不一曲折迂回, 店面开间小而密集, 从而形成了丰富多变错落有致的边界形式, 与现代街道整齐划一缺少进退变化的边界形式形成鲜明的对比。

e.区域

区域具有内部的一致性和外部的差异性。在传统商业街中, 由于功能属性与围合的边界不同, 每个区域所形成的空间氛围会产生差异, 这种差异性满足了人们不同活动的需要, 帮助人们建立了对街道空间的整体认知。比如四川成都锦里古街, 全长350余米, 共分为酒吧休闲区、地方小吃区、民居客栈区及传统工艺品区四大区域, 满足了人们吃、住、游、娱等各种需求, 形成了以传统的川西古镇风貌为特色、以川西民俗文化为主题、以地方商品为经营对象的休闲旅游特色街区。

2.2 结构层面街道空间结构层面指的是传统商业街的空间意象和物质要素的内在组织关系。

当空间环境缺乏清晰的组织时, 富于特色的街道空间就不易形成, 使人难以建立起对所在街区的一个整体认知。

2.2.1 街道的空间尺度

经过研究发现, 我国传统商业街大多数街宽在4~8米, 沿街建筑一般在1~2层, 街道宽高比多为0.7~1.5, 这样的尺度关系, 给人以舒适、亲切的感觉, 满足了人们对于传统市井生活的追忆, 也给予了人们不同于现代城市街道的空间体验。

2.2.2 街道的空间序列

传统商业街空间形态以线性空间为主, 最主要的变化来自节点和标志物, 它们往往构成了整个空间的核心, 与线性的街道空间形成了鲜明的对比, 丰富了空间形态。街道空间可以看作是由路径、节点、标志物共同组成的一个空间链条, 空间的起承转合主要依靠节点和标志物来完成。

2.3 文化层面

文化是隐含在环境当中更深层次的属性特征, 它是体现商业街地域性、民族性和历史性的重要因素, 也是传统商业街特殊神韵所在。影响传统商业街的文化因素主要体现在两个方面:

2.3.1 商业文化

传统商业文化特色主要通过商业业态来体现。传统商业街作为商业活动的物质载体, 它的街道空间能够反映出商业的布局与业态特征, 这也是传统商业街的魅力和特色所在。传统商业以经营地方工艺品、特色饮食、土特产品、古董字画等简单的零售业和服务业为主, 中小规模的店铺和沿街流动的摊贩成为主要的商品经营场所。传统的经营模式和店铺形式共同形成了具有历史韵味的商业氛围, 这与现代大型商场的销售模式和购物体验截然不同, 人们在这里可以感受到传统的商业文化特色。

2.3.2 民俗文化

传统商业街在满足日常性的交易买卖以外, 它还承担着其它一些民俗活动, 如庙会、灯会等传统节日庆典。在这里人们可以感受到地方民俗文化的浪漫和富有热情的一面。在传统商业街中各种民俗活动的开展, 能够增进人们的交往机会, 使外地人更多地了解当地的生活习俗, 感受不同地域文化的差异和魅力。

3. 结语

空间识别 篇7

随着无线传感技术的发展, 可穿戴计算、可穿戴传感网络等新概念、新方法为自然人机交互应用研究提供了新思路。有别于物理键盘、手写板和屏幕触控等二维输入方法, 三维空间手写输入一般通过惯性测量单元提取和解算手写特征, 经模式识别等手段实现字符、数字等信息的输入[1,2]。由于手写区域和姿态不受限制, 该方法具有较高的灵活性和自然性, 正成为当前研究的一个热点。

实现空间手写输入的关键是对手势运动过程进行采样, 并提取能够表征待识别字符的时域或频域特征用于模式识别。手势原始特征采样的任务是测量得到手写笔的姿态和加速度时间序列, 一般采用陀螺仪和加速度计构成惯性测量单元[3], 或使用单个加速度计的简化方案[4]。由于陀螺仪漂移较大、抗冲击能力差且价格昂贵, 使用加速度计和陀螺组合方案的可靠性低、成本较高; 而仅使用单个加速度计的简化方案, 对手势区域有严格限制, 灵活性较差。对于手写字符的识别问题, 目前研究较多的方法是基于手势特征定义字符模式并实现分类器, 常用的手势特征包括轨迹、笔画和统计特性等时域特征[5,6,7,8], 和FFT系数等频域特征[9]。由于书写习惯千差万别, 不易建立字符模式库, 手写过程存在连笔和无效笔画等问题, 特别是如何定义手势特征没有统一的标准, 手势特征能否准确描述和区分待输入字符仍是该方法的一个难题, 手写字符识别方法尚需更深入的研究。

本文提出一种无陀螺手势特征测量方案和基于笔画数、笔画走向及笔画长度等特征的字符识别方法。该方法避免使用陀螺组件, 但仍可准确测量手写笔的姿态变化和线加速度, 两个MEMS加速度计的特殊硬件布局可满足手写笔的小体积、易手持特征; 结合速度平面和轨迹平面描述笔画的数量、方向和长度等手势特征, 能较好刻画待输入字符的特性; 特征码的定义有利于手势特征模式库的构建及基于模式间差异化度量的分类识别。

1 手势原始特征提取

手写笔随手势运动过程包括在惯性系中的线性运动和自身的旋转运动。根据惯性导航系统的基本原理, 需要陀螺仪和加速度计测量得到复合加速度、旋转角速度, 并解算手写笔在惯性系中的线加速度。由于陀螺组件的缺点, 已有许多学者对无陀螺惯性测量方案[10,11,12]进行了研究并取得了大量研究成果。无陀螺惯性测量的基本思想是利用安排在载体不同位置的多个加速度计输出解算得到角速度, 常见的有六加速度计、九加速度计和十二加速度计的配置方案[13,14], 但这些方案常用于飞行器和船舶的导航系统, 传感器空间布局复杂, 并不适合小型化应用。本文针对手写输入的短采样时长以及手写笔横滚角变化小的特点, 提出一种新的无陀螺微惯性测量方案用于手势原始特征提取。

1. 1 双路 MEMS 加速度计配置方案

在手写笔长轴的两端位置各安排一个MEMS三轴加速度模块, 可构成双路共六轴加速度计配置方案, 如图1所示。

设OIXIYIZI为惯性系, ObXbYbZb为固连于手写笔的载体坐标系, 坐标原点Ob为可能的手持位置, Xb与笔体长轴方向一致; MEMS加速度传感器模块1和2被固定安装在Xb轴上Ob两侧L1和L2的位置, 其敏感轴Xa、Ya、Za与载体系坐标轴Xb、Yb、Zb分别重合。

与现有六轴、九轴等方案不同, 仅在载体系一个方向上配置双路MEMS加速度计, 可以较好的与手写笔狭长的几何特征相一致, 保证了手写笔小体积、易手持的特点。

1. 2 手势原始特征的提取和解算

设惯性系原点OI到载体系原点Ob的矢径为R, OI到某一传感器原点Oa的矢径为R', Ob到Oa的矢径为L, 则以下关系成立:

对式 ( 1) 两边求二阶导, 由哥氏定理可得:

式 ( 2) 在载体坐标系下仍然成立, 即:

式 ( 2) 和式 ( 3) 中, 为加速度计所在位置处的对地加速度, 可由加速度计输出得到;为载体坐标系原点对地加速度, 即手势动作的对地线加速度;为载体旋转加速度, ωIb为载体旋转速度。式 (2) 和式 (3) 中各量的参考系不同, 其关系为:。其中, C为载体坐标系到惯性系的方向余弦矩阵, 可由表示手写笔姿态的三个欧拉角:ψ (偏航角) θ (俯仰角) φ (横滚角) 描述。

按照1. 1节中所述配置方案, 两个加速度计可分别对应得到形如式 ( 2) 或 ( 3) 式的两个方程, 联立后可解算出手势动作的对地线加速度

设任一加速度传感器的比力输出为F, 当地重力加速度为G= (0, 0, -g) T, 则, 代入式 (3) 可得:

图1中, 加速度传感器1和传感器2处均满足式 (4) , 因此得到下列方程组:

由于L1= (-l1, 0, 0) T, L2= (l2, 0, 0) T, 将分别简记为a, , ω, 由式 (5) 得:

其中:

式 ( 6) 中, 线加速度a的求解依赖方向余弦矩阵C , 而C的求解又依赖角速度ω。可见, 由两路加速度计输出F1, F2计算角速度ω是问题的关键。

将F1, F2, ω, 写成分量形式, 即: F1= ( f1X, f1Y, f1Z) T, F2= ( f2X, f2Y, f2Z) T, , ω = ( ωX, ωY, ωZ) T, 则式 ( 6) 中第2项可化为:

将分别简记为cX、cY、cZ, 上式可表示为:

手势输入过程中, 手写笔形状的测量单元基本不会发生绕长轴的旋转, 根据图二中加速度计的布局特征可知, 横滚角φ的变化很小。因此ωx≈0 , 式 ( 7) 可进一步简化为:

根据式 ( 8) 中第1项和第2项, 可构造积分算法求解角速度分量ωy和ωz。

2 基于笔画特征的模式识别

笔画的数量、笔画的方向和笔画的长度等时域特征能够较全面描述一个待识别字符。本文以解算得到的手势动作的线加速度序列为依据, 提取上述笔画特征, 并用于模式库和分类器的构建。

2. 1 特征码定义

通过前面所述方法采样并解算线加速度序列{ a ( i) , i =1, …, N} 的同时, 进行积分运算得到速度序列:

由于手写笔运动过程中, 加速度、速度序列近似保持在三维空间的某个平面内, 可使用主元分析方法 ( PCA) 进行降维处理, 可得到二维速度序列:

其中:

, v*为协方差矩阵最小特征值对应的特征向量, 其垂直于V= (v (1) , v (2) , …, v (n) ) 确定的书写平面, 单位向量垂直于v*和惯性系OIXIYIZI的Z轴, 垂直于v*和x。

实验表明速度序列中的极小值点对应笔画的分界, 因此可由下列条件找到所有的笔画分界点:

以手写字符“8”为例, 图2标出了速度序列中的极小值点和对应的书写轨迹。

设满足上式的点共有m + 1个, 则笔画总数为m。单个笔画的方向向量可通过下式得到:

使用方向向量表示笔画后, 图2中的手写轨迹可得到简化, 如图3所示。

取, 则定义第i个笔画的方向为:

式 ( 13) 中, Di取值0, 1, 2, 3分别表示笔画方向为: 向上, 向下, 向右和向左。

笔画长度由下式得到:

则任一笔画i的归一化长度为:

总的笔画的归一化长度为:

综合上述笔画特征, 可定义手势特征码为, 其中, 笔画方向特征码D = ( D1D2, D2D3, …, Dm -1Dm) 表示相邻笔画间的方向变化。将12种笔画方向变化情况: 下 - 左、下 - 右、上- 左、上 - 右、左 - 上、左 - 下、右 - 上、右 - 下、下 - 上、上 - 下、左 - 右、右 - 左依次编码为0 - 9AB, 则D可表示为长度为m - 1的十六进制串;取值由式 ( 16) 得到。

2. 2 手势特征模式库的定义

不失一般性, 设系统预先定义的可识别字符集为S , 共m个字符。手势标准特征模式库的构建可通过采集n个不同书写习惯者的手势, 经编码生成特征码, 并按下列矩阵形式存储:

式中, 表示可识别字符集中第i个字符的第j个特征码; P中第i行共n个特征码对应第i个字符的n个样本, 称为一个模式pi, 即:

2. 3 分类器的实现

本文通过一种基于特征码间差异化度量的多分类器实现模式识别。首先定义特征码间的差异化度量值为:

式中, 为手势总笔画归一化长度之差的绝对值; lev ( D1, D2) 是笔画方向特征码D1, D2间的编辑距离, 又称为levenshtein距离[15] ( 作为一种度量符号序列间差异的方法, 编辑距离被定义为从一个序列变换到另一序列所需插入、删除和替换等操作的最小次数) 。

对于m个可识别字符的分类器, 可由个子分类器{C1, 2, C1, 3, …, C1, m, C2, 3, C2, 4, …, C2, m, …, Cm-1, m}实现, 单个子分类器Ci, j用于模式pi和pj的分类, 其函数形式可基于支持向量机方法定义为:

其中, αi, b为待定系数, 可由样本数据训练得到, k ( x, y) 为核函数, d为分类器的输入, 定义为手势特征码与特征模式库中所有模式pi ( i = 1, 2, …, m) 间的差异化度量:

其中, 为特征码与模式pi间的差异化度量:

分类器用于手势识别时, 对每个模式指定一个计数counti, i= 1, 2, …, m , 对于所有子分类器, 如果Ci, j= 1 , 则counti加1, 如果Ci, j= - 1 , 则countj加1; 最后取所有count值中最大的一个为优胜者, 即: countwin= max{ count1, count2, …, countm} , 编号为win的模式即为最终被识别的模式。

3 实验分析

为了验证上述双路MEMS加速度计配置方案和手势特征识别方法的可行性和有效性, 本文搭建了以下实验环境: Ardui-no原型开发 平台用于 采样传感 器数据, 两个ADI公司的ADXL345型三轴MEMS加速度计用于角速度解算和手势特征提取, 一个意法半导体公司的L3GD20型三轴陀螺仪模块用于验证角速度解算精度。相关算法在Matlab和libsvm中进行仿真验证, 分类器选用径向基函数作为核函数, 超参数由5 - 折交叉验证得到。

3. 1 角速度解算实验

按照本文第二部分所述配置方案, 两个加速度计被安排在实验装置的长轴方向上, 间距为10 cm, 陀螺仪模块被安排在装置的中心处, 三个传感器的敏感轴方向保持一致。实验过程中, 对数字0 - 9进行了空间手写, 并按照25 ms的间隔进行数据采样。结果表明, 在三个传感器均存在随机漂移误差的情况下, 经本文算法解算所得值与陀螺仪实测值已经非常吻合。不同手势动作及不同书写速度下, Y向和Z向偏差的平均值基本稳定在0. 15和0. 08左右, 标准差基本稳定在0. 5和0. 7左右。图4为手写数字‘8’时, 解算所得角速度与陀螺仪实测角速度曲线的吻合情况。直观观察可以发现, 在传感器随机漂移存在的情况下, 解算值与实测值间保持了较好的一致性。

此外, 虽然数字‘8’手写过程较其它数字的姿态变化最为明显, 但从陀螺仪三轴输出曲线可以看出, X轴分量较Y、Z轴明显偏小, 其标准差仅为0. 35 ( 而其它两轴标准差分别为1. 28, 1. 6) , 从而验证了手写过程中手持装置横滚角变化不大的假设; 而Y、Z两轴解算值与实测值吻合较好的实验结论, 也证明了将式 ( 7) 中ωx近似为0是合理的。

3. 2 字符识别实验

为了验证本文手写特征识别方法的实际效果, 实验中对10名测试人员手写数字0 - 9、字符a - z和A - Z的过程进行了数据采样, 每名测试人员按照不同的书写速度和姿态对每个字符书写10次。其中5人的样本用于构建字符特征模式库和训练分类器, 另外5人的样本用于字符识别测试。

表1列出了使用本文方法和文献[5]所述HMM方法对数字、大小写英文字母的识别效果比较。由于英文字母数量较多, 表中仅给出了平均识别率。从识别实验可以看出, 除了数字“1”, “2”, “3”, “7”的识别率基本持平外, 对其它数字的识别效果, 本文方法较HMM方法都有较明显优势; 对于英文字母a -z、A - Z的识别效果, 本文方法的平均识别率也较HMM方法有较大提升。分析不难发现, 空间手写过程中存在连笔情况, 数字“0”与“6”, “4”与“9”, “5”与“8”, 字母“a”与“d”, “K”与“R”等都有相近的笔画数和笔画方向特性, 传统方法识别效果并不理想。而由于本文识别方法综合了笔画数、方向变化、归一化长度等多个时域特征, 因此可以较好区分这些字符。

此外, 由于本文方法基于笔画变化特征码间的差异化度量 ( 基于levenshtein距离) 进行分类识别, 分类器对起笔和落笔阶段出现的一些冗余笔画 ( 参见图3所示, 由于手写轨迹难以观察引起) 有较好的适应性。除了在构建字符特征模式库阶段需对样本进行笔画校正外, 识别过程中的采样数据无需做额外处理。

3. 3 算法时间、空间性能测试实验

本文所述空间手写字符的模式识别方法, 其时间开销主要包括: ( 1) 两个三轴加速度计比力输出的采样; ( 2) 角速度和线加速度的解算; ( 3) 线加速度的二重积分; ( 4) 笔画数、方向变化、归一化长度等时域特征的提取和编码; ( 5) 基于多分类器的模式识别。其中, 步骤 ( 1) - 步骤 ( 3) 需在数据采样阶段 ( 即手写过程中) 同步完成, 对时效要求较高; 步骤 ( 4) - 步骤 ( 5) 可在采样结束后进行, 由于两次手写识别间隔时间相对充裕, 时效性要求较低。

本文方法的空间需求主要体现为字符特征模式库的存储。对于待识别的数字、大小写英文字母集合, 共有62个字符; 每个字符对应10位不同书写习惯测试者的手写特征码; 字符的平均笔画数为16, 字符的总笔画归一化长度用无符号短整数表示, 则每个特征码的编码长度约为10个字节。字符特征模式库需要62×10×10约6 KB字节的存储空间。

在本文实验环境下, 考虑到算法步骤 ( 4) - 步骤 ( 5) 对时效性要求较低, 故字符特征模式库的存储、模式识别算法均在微机中进行了模拟仿真。但从上述分析可知, 将相关算法过程和存储移植到单片机或具有射频接口的SOC系统是可行的, 只需在硬件上扩充约6 KB的存储空间。针对算法中对时效性要求较高的步骤 ( 1) - 步骤 ( 3) , 本文分别在Arduino单片机平台 ( 主频为8 MHz) 和射频SOC平台nRF24LE1 ( 主频为16 MHz) 下进行了测试。实验结果表明, 在Arduino系统中, 将加速度计输出的采样周期设置为25毫秒时, 算法步骤 ( 2) 、步骤 ( 3) 可随采样过程同步完成, 而使用nRF24LE1芯片时, 采样周期可进一步缩短到10毫秒而不影响算法的功能。从最终手写字符特征提取结果可以看出, 25毫秒左右的采样周期可完全满足模式识别的要求。因此, 本文所述方案在目前主流嵌入式硬件环境下是可行的。

4 结 语

空间识别 篇8

关键词:解空间谱单元离散,全局动态应力,Lagrange插值,关键时间点

0 引言

工程机械结构几乎都在动态载荷作用下工作,其各种性能均表现为时间的函数。为了使机械结构的动态性能达到极致,确保其在动载环境下可靠工作,目前最行之有效的办法是进行结构动态响应优化设计。然而,在动态响应优化过程中,优化器需要反复调用与设计变量相关的目标函数和约束函数,最直接的方法是通过结构动态分析获得相关数据,然而结构瞬态动力学分析非常复杂和耗时[1,2],因此动态响应优化设计存在很大困难,有时是不太可能实现的。

动态优化设计的参数变化使得应力解空间在整个时间域和结构空间域上变化,即不论是目标函数还是约束函数在随时间变化的同时,其空间位置也在发生变化。与此同时,结构静态优化技术已经趋于成熟,在此背景下将动态优化问题转化为静态优化问题成为了可能。既然要转化,那么首先要解决的问题是在哪个时刻转化,即等效转化为结构在哪个时刻的动态响应,这是动态优化转化等效静态优化的关键一步。文献[3]研究了3种识别关键时间点的方法:第一种方法采用自适应搜索技术,在3点或5点拟合二次函数,然后运用优化方法得到极值点,该方法适合于响应比较缓慢的情况;第二种方法利用最小二乘抛物线样条函数来近似结构的动态响应,该方法可以有效近似噪声动态响应;第三种方法是超峰值法,采用包括设计变量倒数的一阶泰勒展开来近似约束函数。此外,文献[3]中的关键时间点是针对直接求解动态优化问题提出的,仅对与时间相关的约束函数进行了近似,并利用近似函数获得关键时间点。这种方法满足了与时间相关的约束函数,认为时间域上的所有时间点都满足约束,而没有考虑目标函数通常也是与时间相关的函数。在结构动态优化过程中,对目标函数的求解也需要进行动态响应分析,因此没有从根本上解决问题。

文献[4]采用动态位移响应对时间的微分等于零来确定关键时间点,然而微分求解比较困难,并没有详细研究求解方法;而且,即便已经确定关键时间点,即动态位移响应的极值点为关键时间点,虽然从一定意义上可以说明结构在动态载荷作用下位移响应达到极值的时刻最危险,然而位移达到极值的时刻应力不一定也达到极值时刻[5];再者目前的研究文献中仅仅以结构某一个节点的动态位移绝对值最大为结构关键时间点,没有从结构全局考虑最危险的时刻。因此,将某一节点动态位移响应达到极值的时刻作为结构最危险的时刻来进行结构设计,结构可能欠设计或过设计。

课题组在前期研究中发现,利用谱单元离散插值一个未知函数的精度非常高[6,7],并在系统动力学分析中得到应用验证,可是对于零部件结构的进一步设计需要借助有限元软件来实现。笔者前期在研究动态优化时,提出了基于动态应力解空间谱元离散的关键时间点识别方法[8],旨在找到结构受动态载荷作用最危险时刻,为下一步等效静态转化提供转化时间点;笔者在进一步研究中发现结构最危险的时刻并不是某一个单元的应力达到极值的时刻,而应该是结构全局动态应力达到极值的时刻。全局动态应力是结构在动态载荷的作用下,结构所有单元中的应力最大值,并且最大应力随时间变化,最大应力发生的单元也随着时间变化。因此,本文从结构全局动态应力的角度来确定关键时间点,提出全局动态应力解空间谱单元插值的关键时间点识别方法。

1 谱单元插值

对未知函数的插值,学者们一直不断探索新的方法以追求高精度,但往往由于被插值函数的复杂性,插值效果并不理想。研究中发现在正交多项式的零点插值时,能够获得高精度插值函数[9]。

任意一个定义在参考单元上的函数,都可以用下式近似:

式中,Lk(j)(ξ)为j单元的k次Lagrange多项式;ξk为定义在[-1,1]上的GLL点;x(j)(ξk)为单元j上未知节点在GLL点的值。

Legendre正交多项式是Sturm -Liouville form方程的解:

式中,n为Legendre正交多项式的阶数。

它的权函数ω=1。k阶Legendre多项式可以定义如下:

由于Legendre多项式的零点不包括区间端点,因此引入Lobbato多项式。Lobbato多项式是通过Legendre多项式的微分定义的,即

其满足正交特性:

式中,δij为Kronecher函数。

GLL点定义如下:

式(6)的解为GLL点,其中,N为插值次数。

求解式(6)可以获得GLL点坐标值,16次插值GLL点的分布如图1所示。对龙格函数分别进行平均离散插值和GLL点离散插值,可以清楚地看到GLL点离散插值的高精度优势,见图2。

2 全局动态应力

承受动态载荷的结构响应都是时间的函数,动态应力也不例外。对于成熟的有限元法来说,结构动态应力不仅是时间的函数还是位置的函数,即结构的每一个空间位置点的动态应力均是时间的函数,变化趋势基本一致,但由于受动态载荷的结构是振动的,结构每一空间位置的动态应力达到极值的时刻不一定相同。本文在前期研究基础上提出更加合理的基于全局动态应力解空间关键时间点识别方法。

结构在动态载荷作用下,其任一点i的动态应力满足[10]:

式中,m为所截取的主模态数;σk(i)(t)为结构中任一点i第k阶模态应力;D(i)为弹性矩阵;Bk(i)为第k阶主振动应变位移关系矩阵;qk(i)为第k阶主模态坐标;Φ(i)为模态矩阵。

全局动态应力对应的关键时间点可以表示为

3关键时间点识别

结构动态优化需要反复进行动态分析,每迭代一次需要n+1次动态分析[11]。因此,基于等效原理将动态载荷转化为静态载荷,利用结构静态优化代替动态优化,可以有效提高动态优化效率。本文提出基于全局动态应力解空间谱单元插值的关键点识别方法,其流程见图3,具体步骤如下:

(1)建立有限元动力模型。运动微分方程可表达为

式中,q为模态位移向量;为模态加速度向量;为模态速度向量;f(t)为时间的任意函数;Φ为模态矩阵;m为质量矩阵;c为阻尼矩阵,在本文中假设c=0;k为刚度矩阵。

(2)动力学分析。采用模态叠加法,先求解式(9),获得q,然后得到结构的节点位移x=qΦ,再由公式σk(t)=DBkqkΦ获得第k阶模态应力,通过式(7)得到结构动态应力,最后应用式(8)获得结构全局动态应力。

(3)全局动态应力解空间谱单元离散。利用式(2)~式(6)将全局动态应力进行解空间谱单元离散,并计算GLL点对应的结构全局动态应力的值|σ|G(tGLL)。

(4)Lagrange插值结构全局动态应力。La-grange插值函数为

其中,为GLL点对应的全局动态应力插值基函数,GLL点对应的全局动态应力值等于步骤(3)中获得的值;Lk(ξ)为全局动态应力在GLL点上Lagrange插值函数。

(5)识别时间关键点。由于结构动态应力不仅是时间的函数还是位置的函数,即结构的每一个空间位置点的动态应力均是时间的函数,因此全局动态应力解空间函数特性极为复杂,一般为非线性多峰值函数。结合前期优化设计经验,文中采用区域细分算法(DIRECT)计算结构全局动态应力的绝对极大值点。DIRECT算法是一种全局优化算法,该算法既不需要确定目标函数的具体方程,同时也不要求相关的导数信息,而是自动根据优化迭代过程中的每个采样点处的目标函数估值和超矩形的区域细分情况选择搜索方向,因而非常适合于黑盒函数的仿真优化,而且它能够保证收敛到全局最优点。采用的基于全局动态应力关键时间点识别的数学模型如下:

其中,M为全局动态应力解空间离散的单元数;k为每一个单元离散GLL点数;|σ(i)(tk)|max为第i个单元的第k个GLL点对应的全局动态应力;t0为仿真开始时间,通常为0;t1为仿真结束时间。

4 应用验证

4.1 124杆平面桁架

如图4所示,该平面桁架结构有49个铰链,94个自由度。弹性模量E =207GPa,泊松比ν=0.3,密度ρ = 7850kg/m3,杆的截面积为64.5mm2。动态载荷为半正弦函数(图4)。在节点1、20、19、18、17、16、15的x正方向作用同样大的动态载荷,在节点1、2、3、4、5的y负方向也作用同样大的动态载荷。

图5所示为124杆平面桁架全局动态应力谱单元离散插值结果,从图中可以看出结构的全局动态应力非常复杂,是高度非线性多峰值函数。谱单元Lagrange插值全局动态应力精度非常高,应用DIRECT全局优化器准确地找到了关键时间点。

如果从某一节点的动态位移或者动态应力出发,寻找关键时间点,当然可以找到对应的“关键时间点”,见图6、图7。将不同识别方法得到的关键时间点汇总至表1,可以发现:基于位移识别方法获得的两点为t1= 0.096 698 411s,t2=0.192 408 258s,t1时刻节点15 x方向正位移达到最大,t2时刻节点15 x方向负位移达到最大;基于局部应力识别方法获得的两点为t1=0.106 521 572s,t2=0.192 519 952s,t1时刻单元15拉应力达到最大,t2时刻单元15压应力达到最大;基于全局动态应力识别方法也获得两点,即t1=0.102 063 859s, t2=0.192 058 523s,t1时刻全局某一点拉应力达到最大,t2时刻全局某一点压应力达到最大。位移关键点与局部应力关键点不一致,最大相差0.009 823 161s,也就是说位移达到最大时,局部应力还没有达到最大,存在一个时间差;而全局应力关键点与局部应力关键点也不一致,最大相差0.004 457 713s,说明局部应力达到最大时,全局应力还没有达到最大,存在一个时间差。

4.2 均布力与集中力作用的平面桁架

图8所示为均匀分布力与集中力共同作用的平面桁架结构。弹性模量E=207GPa,密度ρ=7850kg/m3,竖直杆横截面积为0.03m2,水平杆横截面积为0.0068m2。半正弦均匀分布力F1(t)作用在水平杆上,半正弦集中力F2(t)作用在节点2和节点3处。

图9所示为应用本文方法得到的桁架全局动态应力及关键时间点,从图中可以看出全局动态应力不仅呈非线性多峰值状态,而且似乎没有规律可循;可以肯定的是无论全局动态应力解空间多么复杂,谱单元Lagrange插值总是体现其优越性,在此基础上找到关键时间点。

图10、图11 所示分别是从局部动态应力与位移的角度来识别关键时间点的结果。将不同识别方法得到的关键时间点汇总至表2,可以发现3种方法总是有时间差的。另外基于全局动态应力的关键时间点识别方法还可获得结构最大应力值,这为结构动态设计从另一个角度提供参考。当然,如果以位移或局部应力为依据识别关键时间点,其对应时刻不是结构最大应力的时刻,这样可能造成结构欠设计。

5 结论

(1)结构动态应力最大的时刻与动态位移最大的时刻存在一个时间差,以动态应力最大时刻为结构关键时间点,虽然相比以位移最大时刻为结构关键时间点合理,然而结构某一点应力达到最大时,全局动态应力并不一定达到最大,因此以全局动态应力最大时刻为结构关键时间点最合理。

(2)应用谱单元离散插值全局动态应力解空间,可获得高精度的插值函数。结构全局动态应力呈现极度非线性多峰值,采用在GLL点处Lagrange插值获得高精度的全局动态响应解空间近似函数。

(3)通过全局优化算法对谱单元离散插值函数进行寻优,获得满意的关键时间点。应用局部优化算法对谱单元离散插值函数寻找最大值点,往往会由于初始点的不同而找到不同的局部最优点,区域细分全局优化算法可以找到全局最大值与全局最小值,对应的就是全局应力最大拉应力与全局应力最大压应力。

参考文献

[1] James M L.Vibration of Mechanical and Structural Systems[M].2nd ed.New York:Harper Collins,1994.

[2] Clough R W.Dynamics of Structures[M].New York:McGraw-Hill,1993.

[3] Grandhi R V,Haftka R T,Watson L T.Designoriented Identification of Critical Times in Transient Response[J].AIAA Journal,1986,24(4):649-656.

[4] Choi W S,Park G J.Transformation of Dynamic Loads into Equivalent Static Loads Based on Modal Analysis[J].Int.J.Numer.Meth.Engng.,1999,46:29-43.

[5] 张艳岗.基于关键时间点的能量等效静态载荷法及结构动态响应优化研究[D].太原:中北大学,2014.

[6] Zhang Yangang,Su Tiexiong.Dynamic Analysis of Diesel Engine Piston Based on Time Spectral Element Method[J].Applied Mechanics and Materials,2013,415:565-568.

[7] 毛虎平,吴义忠,陈立平.基于时间谱元法的动态响应优化[J].机械工程学报,2010,46(16):79-87.Mao Huping,Wu Yizhong,Chen Liping.Dynamic Response Optimization Based on Time Spectral Element Method[J].Journal of Mechanical Engineering,2010,46(16):79-87.

[8] 张艳岗,苏铁熊,毛虎平,等.动态应力解空间谱元离散的关键时间点识别方法[J].机械工程学报,2014,50(3):82-87.Zhang Yangang,Su Tiexiong,Mao Huping,et al.Critical Time Points Identification Method for Solution Space of Dynamic Stress Based on Spectral Element[J].Journal of Mechanical Engineering,2014,50(3):82-87.

[9] Pozrikidis C.Introduction to Finite and Spectral Element Methods Using Matlab[M].New York:Chapman and Hall/CRC,2005.

[10] 张汝清,殷学纲,董明.计算结构动力学[M].重庆:重庆大学出版社,1987.

空间识别 篇9

关键词:人脸识别,线性判别回归,小样本问题,最近子空间,最远子空间,最近-最远子空间分类器

0 引言

人脸自动识别系统[1]通常使用人脸图像来识别特定的身份,已广泛地应用于生物特征认证的人机交互中,如视频监控和访问控制等[2]。学者们开发的大多数人脸识别系统都是从静态图像或视频图像中进行人脸识别,众所周知的方法包括主成分分析PCA(Principal Component Analysis)[3]、独立成分分析ICA(Independent Component Analysis)[4]和线性判别分析LDA(Linear Discriminant Analysis)[5],这些方法都试图找到一个低维子空间并使用降维技术实现有效的人脸识别。尽管以前的研究试图尽力得到良好的特征提取结果,但最近的一些研究表明,即使是非常简单的非传统的特征,对于基于线性表示的方法来说都可以很好的工作。由此可见,设计这类分类器时,特征空间的选择和特征提取方法可能不如设计一个性能、鲁棒性良好的分类器重要[6]。

人脸识别研究中,学者们已使用过很多分类器来辨识脸部图像,其中,NFC因其有效性和简单性而颇受欢迎。最近邻分类器(NN)[7]试图寻找测试图像的最佳匹配,测试图像应该与它的最佳匹配有相同的类别标签。为了覆盖因光照、姿势、视角引起的大范围人脸图像变化,人脸识别系统需要大量的原型图像,极大地增加了内存和计算要求,更重要的是,实际中采集这么多原型图像很不容易,为了提高原型图像的表示能力,后续采用合并多个训练样本说明一个测试样本的方法。最近线性(NL)分类器是文献[8]提出的改进算法,文献[9]又对NL算法进行了一系列的修改和改进。文献[10]提出的最近平面(NP)分类器和最近空间(NS)分类器是NN和NL分类器的进一步扩展,利用一个对象的许多原型图像表示探针,解决了不同几何视角的表示问题。最近,文献[11]提出了NS方法的一个改进算法,用下采样图像作为特征进行分类。最近,许多研究提出使用多个类的原型图像表示探针,其中,基于稀疏表示的分类[12]引起了广泛的关注,随后产生了许多使用稀疏表示思想的新的方法,例如,为了使表示对无意义的点敏感,文献[13]提出一种新的框架,将相关熵准则引入了稀疏表示中。

基于上述分析,本文对NS方法进行了后续研究,提出了基于线性判别回归的最远子空间分类器和最近-最远子空间分类算法。首先为每个类定义一个“不考虑该类”(leave-one-classout)的子空间,包含其余类的所有图像;然后,提出了最远子空间分类器,通过线性判别回归[14]寻找与测试图像距离最远的“不考虑该类”子空间,然后划分这个测试图像到它所属的类。为了进一步提高FS的性能,提出了最近-最远子空间分类器,将NS和FS分类器混合,把测试图像分为一个类,满足类依赖子空间到测试图像最近,且“不考虑该类”的子空间到测试图像最远。实验结果表明本文算法明显改进了NS分类器的性能。

1 相关技术

1.1 线性判别回归

假设有N个对象,包含来自第i个类的pi个训练图像i=1,2,…,N,将图像投影至人脸空间上,矩阵W包含来自N个对象的所有特征向量,即W=[W1,…,Wi,…,WN],为了应用回归分析估计类的具体模型,将有关类成员列向量wi,j组成集合,因此,对于第i个类,有:

式中,每个向量是一个大小为L×1的列向量,训练阶段,第i类由向量空间Wi表示,它称为每个对象的预测器。

如果y属于第i类,它可以由第i类训练图像的一个线性组合来表示,定义如下:

式中,βi∈Rpi×l是回归参数的向量。是一个误差向量,且其独立同分布随机变量的均值为零。线性回归的目标是找到来最小化剩余误差。

由文献[14]可知,线性回归是基于源向量和投影向量最小距离而开发的,如果源向量属于类i的子空间,预测向量将是离源向量最接近的向量。计算源向量和预测响应向量之间的欧式距离即可确认身份i*,即:

1.2 最近子空间分类器

选择好特征空间后,下一步是对新的测试样本正确分类。最近子空间NS(Nearest Subspace)分类器[10]是无参数算法中最重要的一个分支,而NN分类器是最简单可行的人脸识别方法,NS要寻找测试图像到所有原型图像距离最小的训练样本,然后确定测试图像的类标签。

首先,给出一个普通的人脸识别脚本描述,给定N个不同的类,第i类,i=1,2,…,N有pi幅原型图像,特征空间内每个原型图像表示为一个向量ai(m)∈Rq×1,其中m=1,2,…,pi和q是特征空间的维度。然后,对一个类的原型图像向量排列,构建一个类依赖子空间模型:

令y为特征空间内未标记的特征图像的点,然后计算y和子空间Ai之间的距离,也就是第i类给出的y和预测向量之间的差值:

式中,简单的由最小二乘估计得到:

式中,应该约束好,否则,需使用PCA使其可逆。最后,将y分类至有最小距离di的类。

然而,当测量测试图像和某个类之间的关系时,NFC算法只把在该单一类能力范围内的表示计算在内,却忽略了其它类也可以表示测试图像。

2 算法提出

2.1 最远子空间分类器

已知特定对象类的样本图像位于一个类依赖子空间,那么可以假设每个类依赖子空间有一些独特的基础向量,这些向量与其它类中的向量相互独立。因此,本文提出一种新颖的人脸识别思路,当一个查询图像被所有原型图像包括这个查询图像所在类的原型图像表示时,如果为第i类构建一个“不考虑该类”子空间,由所有训练图像包括第i类中的图像构建,则在所有“不考虑该类”子空间中第i类的样本到这个子空间距离最大。因为,在第i类的独特基础向量中只有这个类的“不考虑该类”子空间是独占的。

基于以上分析,本文提出了最远子空间FS(Far Subspace)分类器。首先,第i类“不考虑该类”子空间的线性模型通过排列N-1个类依赖子空间模型来构造:

类似于NS分类器,FS分类器仍然是一个简单的基于线性判别回归的方法,FS变量的确定定义为查询图像到“不考虑该类”子空间的距离,计算如下:

式中,,利用PCA使可逆,移除小的主成分。最后,分类探针到带有最大距离li的类。FS分类方法如算法1。

算法1最远子空间分类

1:输入:类依赖模型Ai∈Rq×pi、“不考虑该类”模型Bi=[A1A2…Ai-1Ai+1…AN],i=1,2,…,N、测试图像向量y∈Rq×1。

2:计算“不考虑该类”子空间Bi上的投影y。

3:计算y和之间的距离,

4:输出:测试图像来自有最大距离li的类。

2.2 最近-最远子空间分类算法

FS分类器和NS分类器都是基于回归的算法,但是它们采用了不同的类依赖子空间特性。NS测量测试样本与类依赖子空间的距离,而FS则是检索“不考虑该类”子空间包括测试样本的独特基础向量。直观上,本文希望构建一个新的可以利用这两类判别信息的分类器。必须指出的是,一方面希望这两类判别信息本质上不同,另一方面需要二者互助以增强判别力。

本文提出最近-最远子空间分类器,它分配一幅测试图像到某个类,这个类的类依赖子空间离测试图像最近,它的“不考虑该类”子空间离测试图像最远。NFS分类方法既要用到Ai,也要用到Bi,测量测试图像与第i类的这两类子空间的距离。定义NFS的决策变量为:

测试图像被分类至有ji最小值的类,此外,决策变量可定义为ji=λdi-(1-λ)li,其中,λ∈[0,1],然后使用不同的λ值,权衡di和li。在这种情况下,使用最优λ可以得到最大识别率。然而,找到这个最优的λ并不容易,本文主要关注NFS判别的提升,所以本文使用式(9)作为NFS的决策变量。NFS分类方法总结为算法2。

算法2最近-最远子空间分类

1:输入:类依赖模型Ai∈Rq×pi、“不考虑该类”模型Bi=[A1A2…Ai-1Ai+1…AN],i=1,2,…,N、测试图像向量y∈Rq×1;

2:计算子空间Ai上的投影;

3:测量y和之间的距离,;

4:计算每个”不考虑该类”子空间Bi上的投影y,;

5:测量y和之间的距离,;

6:计算决策变量,i=1,2,…,N;

7:输出:测试图像来自有最小距离ji的类。

接下来,本文将对NFS和FS分类器的研究进行解释,讨论提出的NFS分类方法是否可以当作一个替代简单混合方法的单个分类规则。已知来自某个类依赖的人脸图像往往都位于一个线性子空间,且每个类依赖子空间都有一些独特的基础向量,即类依赖子空间不仅与许多类依赖子空间共享的常见基础向量有关,而且有它自己的基础向量。当原型图像足够多或者类依赖子空间实现时,查询图像可以使用它自己类的类依赖模型来表示,因为他们的类没有这些独特的基础向量。即NS分类器能够充分利用独特基础向量去进行分类。

理想的类依赖子空间应该覆盖人脸图像的大范围变化,但是人脸识别通常会有小样本(SSS)问题,实际类依赖子空间只能由较少数目的原型图像构成,其数目是远低于理想的类依赖子空间的。即SSS问题通常会导致类依赖子空间的不完善,这可能遗漏一些通用的基础向量。因此,尽管来自同一类的图像位于一个类依赖子空间,但是这样测量到的测试图像和不完善的类依赖子空间之间的距离就会与真正的距离值有偏离。

3 实验

在三个公开的人脸数据库上对本文算法做了测试,分别为扩展Yale B[3]、ORL[4]、AR[15]。数据库中包含有大范围的变化,包括姿势、光照和手势变化。许多特征提取方法都可以被用于降低原始图像的维度,以便消除“维度诅咒”,然后每个图像在特征空间的表示用于分类。近期的研究指出,关于特征提取,如下采样图像和随机投影这些简单特征可以依靠PCA、独立成分分析(ICA)、LDA等算法方便的实现。因此,本文的特征空间由下采样图像构建。文献[11]中描述了一种NS分类方法,称作基于线性回归分类(LRC),它使用下采样图像作为特征,是对NS方法的改进。因为这个新提出的算法执行效果优于其他几个分类方法,所有用本文提出的算法与LRC算法作对比,也因此主要遵循文献[11]中的实验协议来进行实验,本文也使用低维下采样人脸图像。

3.1 扩展Yale B人脸库

扩展的Yale B人脸数据库由38个对象的2414张正面人脸图像组成(每个对象约64幅图像)。依据光照条件由弱到强将数据库划分为5个子集,图1描述了每个子集的四个例子。

下采样图像为20×20大小,子集1(每个子集包括7幅图像)的图像用于训练数据,其余的用于验证。子集2、3、4、5分别包含每个对象12、12、14、19幅图像。表1显示了本文提出的方法与其他方法的对比,包括NS、主成分分析(PCA)、独立成分分析1(ICA1)、线性判别回归分析(LDA)、SRC。使用L1LS算法求解SRC中的l1-最小化问题,L1LS可以为人脸识别问题得到高识别率。PCA和ICA算法中,样本需要靠一些特征向量转换到一个低维子空间中,实验中用足够多的成分来保留超过99%的方差。

从表1可以看出,对于子集2、3,NS、FS、NFS的准确率非常高,接近100%,对于子集4、5,尽管FS不能与NS相提并论,但是,NFS的执行效果比NS分别高出3.83%、9.17%。由此可以推出,NFS分类器在对抗光照变化方面的鲁棒性要比NS分类器好。当测试样本严重受光照影响时,NS和本文提出的算法要优于其他算法。

为了评估本文算法的计算开销,列出了CPU时间,这个时间是依据探针数目划分的总的识别时间,如表2所示。

从表2可以看出,经典算法的计算开销,包括PCA+NN、ICA1+NN、LDA+NN均很低,因为在特征提取阶段之后,NN的复杂度是很低的。由于“不考虑该类”子空间模型Bi比类依赖子空间模型Ai大,FS完成识别消耗的时间比NS多。根据前文描述,帽子矩阵的计算在训练阶段独立于测试样本,这可以确保本文提出的方法和NS的高效率。但是,SRC需要平均超过1s的时间才能识别测试样本,比其它算法消耗的时间长更多,因为SRC需要为每个测试样本求解一个l1-最小化问题,这是比较耗时的。

正如前文所述,FS和NFS使用PCA降低Bi的维度,上述实验为了避免奇异,保持了BiTBi的前99个主成分,这会保持矩阵超过99%的方差。

图2所示为在扩展的Yale B数据库上子集4中使用NFS和FS相对于BiTBi各种维度的识别率。

从图2可以看出,BiTBi的维度对FS有严重的影响,意味着如果只保持小数目的样本图像,独特基础向量会缺失。尽管FS执行效果并不好,NFS仍比NS的效果好,相对于增长的维度,NFS和FS的性能几乎会同步增长,表明FS给出了可靠的协助去提高NS的识别能力。

上述实验中,本文的目的是演示NFS对NS分类器的改进。以前的研究中样本图像下采样为同样大小,而实际上使用高维样本可以提高FS和NFS的识别能力,如图3所示为FS及NFS在扩展Yale B数据库子集5上相对于预测图像特征维度的识别率。

从图3可以看出,识别率随着维度的增大而提升,因此,高维对提升FS和NFS分类器的识别率是有益的。理由是高维特征空间可以包含每个类的非常丰富的独特基础向量,这对提升FS和NFS的判别是有益的。

3.2 ORL数据库

ORL人脸数据库中有40个对象,每个对象10幅图像,数据库中纳入了各种变化,包括脸部姿势变化、改装(戴不戴眼镜)、小角度脸部转动(小于20度)。大小为112×92的图像训练和测试时均被下采样为10×5大小,如图4所示为ORL人脸数据库上某人的10张人脸图像示例。

为了对NS、FS和NFS与其他方法对比,该实验遵循文献[14]中的两个评估协议。对于评估协议1(EP1),前5个图像用作原型图像,剩余5个图像作为测试图像。评估协议2(EP2)采用“留一法”策略。表3给出了实验结果,图像被下采样至较低的50D,这仅有的40个对象对于FS来说是吃亏的。

从表3可以看出,两个评估协议中,ERE的结果都是最好的,比NFS和SRC要好2%。ERE是最近提出的一个基于特征值的特征提取算法,首先分解图像空间的特征向量到三个子空间,然后分别基于不同的特征谱模型进行规整,提取的特征值在噪声和训练样本数目限制方面的鲁棒性都很好,因此,能够取得最高的识别率。NFS分类器不仅使用了查询图像和类之间的相似度,还采用了查询图像与其他类之间的不相似度,当训练样本足够多时,也能取得相当好的效果,在评估协议2中,NFS的识别率可高达99.25%,该结果与ERE相同,在两个评估协议下,NFS的执行效果明显优于Fisher脸、特征脸、SRC、核特征脸和NS。

3.3 AR数据库

AR人脸数据库包括70个男性56个女性的4000幅图像,这些图像包含有六类差异:脸部表情变化(无表情、微笑、生气、尖叫)、不同的光照变化、遮蔽(太阳镜和围巾)。本文从原始AR数据库选择100个对象(50个男性和50个女性)用于实验,所有的图像下采样为10×10大小,本小节中,对脸部表情变化、不同光照条件、不同遮蔽物三种情况分别进行了三个实验。

首先,测试本文提出的方法能否应对脸部表情变化的挑战。图5显示了AR数据库中一个对象的4个不同的脸部表情。实验中采用了交叉验证策略,每次验证,训练样本包括三个不同的表情图像,剩余的图像作为探针。实验结果如表4所示,本实验中NS和NFS分类器对所有脸部表情都能达到很高的识别率,且对应的识别精度几乎相同。

接着,在不同光照条件下验证本文提出的方法,共包括四种光照条件:柔光、左侧光、右侧光、所有的测光(如图6所示)。实验仍是基于交叉验证,每次实验,不同光照条件的每个人6幅图像用于训练,其余的图像用于测试。表5给出了实验结果,本实验中,NS和NFS可以给出左侧光和右侧光条件下没有任何错误的图像预测。

最后,使用图7所示的图像预测有遮蔽的图像,包括戴太阳镜和围围巾两种遮蔽方式,对于戴太阳镜遮蔽,只使用前半部分图像,因为后半部分几乎被太阳镜全覆盖了,也就没有相关的判别信息,在这种情况下分类在50D特征空间执行。近几年对有连续遮蔽的人脸识别进行了大量的研究和调查。本实验比较了本文提出的算法和其他著名的算法,包括PCA、ICA1、局部非负矩阵分解(LNMF)、基于稀疏表示的分类(SRC)。NFS分类器在两种有遮蔽的条件下执行效果均优于其他算法,实验结果如表6所示,结果表明,本文算法的识别率明显高于其他各个算法。

4 结语

本文提出了两种新颖的分类算法。首先提出了FS分类器,FS中“不考虑该类”子空间的概念,测试样本到每个“不考虑该类”子空间的距离表示这个探针的标签,验证了本文的假设,即每个类在类依赖子空间内有它自己独特的基础向量。实验结果表明FS分类器可以达到可接受的识别精度,当原型图像数目很小且样本中包含了各种变化时,FS分类器的执行效果比其他算法更好。接着,本文提出了另外一种基于线性回归分类的NFS分类算法。尽管近期的研究表明用下采样图像作为特征图像的NS分类器已经可以得到很好的人脸识别效果,但是本文在3个不同的人脸数据库上进行的实验表明,本文提出的NFS分类器的识别精度比NS还要高。

本文来自 360文秘网(www.360wenmi.com),转载请保留网址和出处

【空间识别】相关文章:

基于结构特征的空间目标识别算法05-09

模式识别实验识别字母01-21

车牌识别中字符识别05-04

模式识别储层识别07-10

模式识别储层识别04-27

电缆识别05-07

声源识别05-11

人像识别05-18

识别干预05-20

视频识别05-21

上一篇:中学生物课堂导入小议下一篇:作文写作三段式