近场声源定位算法研究论文

2024-04-11

近场声源定位算法研究论文(精选8篇)

篇1:近场声源定位算法研究论文

基于MUSIC算法的水下噪声源近场高分辨定位方法

摘要:针对舰艇辐射噪声的能量和线谱主要分布在低频段,而常规噪声源近场定位方法在低频段很难获得到比较理想的.空间分辨率,无法满足舰艇低频辐射噪声源定位识别需求问题.在研究远场平面波模型下MUSIC算法基础上,建立了基于相位和幅度联合补偿的MUSIC近场噪声源定位算法,通过仿真计算和湖试试验研究了该算法的噪声源定位性能,结果表明该算法可以有效地提高基阵在低频段的空间分辨率,而且可以在一定程度上抑制高频段的空间混叠,具有较高的工程应用价值. 作者: 杨德森陈欢时胜国 Author: YANG DesenCHEN HuanSHI Shengguo 作者单位: 哈尔滨工程大学水声技术国防科技重点实验室,黑龙江哈尔滨,150001 期 刊: 哈尔滨工程大学学报 ISTICEIPKU Journal: Journal of Harbin Engineering University 年,卷(期): ,32(8) 分类号: B535 关键词: 水下噪声源 近场定位 幅度补偿 MUSIC算法 高分辨 机标分类号: TN9 TB5 机标关键词: MUSIC算法噪声源近场高分辨定位方法MUSIC algorithmbasednoise source声源定位空间分辨率低频段舰艇辐射噪声平面波模型应用价值试验研究识别需求联合补偿基于相位仿真计算定位性能 基金项目:

篇2:近场声源定位算法研究论文

建筑立面对场地的声环境存在不可忽视的影响。Berardi等人研究表明建筑立面使其附近区域的声压级有所提升。[1]Kang研究表明, 通过增加建筑立面的吸声系数或者降低建筑高度可以达到降噪2~4 d B的效果。[2Hothersall等人研究表明, 通过改变建筑立面上阳台的声学特性, 最高可达到降噪10 d B的效果。[3]Hall等人通过研究表明, 建筑立面对其前方2 m处的“声能加倍”效应仅适用于高于200 Hz的频段。[4]Quirt认为由于建筑立面的复杂和多样性, 立面对其附近区域的声压级提升同样具有复杂性, 简单的“声压加倍”或“声能加倍”并不适用于所有建筑立面。[5]Hothersall和Simpson建议在研究建筑立面周围场地的声环境时, 仅需考虑建筑立面的几何反射效应, 不需要考虑扩散反射。[6]然而, 上述研究的研究方法都是基于ISO 16283-1:2014、ISO 717-1:2013、ISO 3382等国际标准或者计算机模拟, 均不能直观地展示建筑立面上不同部位对入射声的几何反射和扩散反射效应。

本文旨在通过现场实测的方式, 运用声源定位技术, 可视化地揭示建筑立面影响周围场地声环境的全过程, 找出建筑立面中对地面声环境影响最大的区域或建筑构件, 为建筑场地声学设计提供可靠的理论依据。

二、研究方法

1. 实验设计

在研究建筑立面对场地声环境的影响时, 为确保测试场地中除地面和目标立面外, 不存在其他声反射物体, 本研究选择哈尔滨工业大学二校区主楼立面及其南广场作为测试的目标立面和测试场地。广场北侧为主楼立面, 南侧临近城市道路, 东西两侧为开阔的场地, 广场东、南、西侧150 m范围内不存在其他建筑物或构筑物。图1为主楼立面, 高46.2 m, 除入口处有一个带台阶的雨篷外, 整体立面较平整, 无大型悬挑构件。立面除一至二楼的入口雨篷外, 以上每两层设置一道石膏装饰线, 顶层以玻璃幕墙收尾。图2为测试声源与声学相机的场地布置图, 声学相机高1.5 m, 距离建筑立面30 m。四个脉冲声源高0.5 m, 分别距离建筑立面35 m、45 m、55 m和65 m。

2. 声学相机

GFa I声学相机是一个基于Beamforming[7]技术的传声器阵列声源定位系统。这种声源定位系统已广泛用于列车、飞机、风力发电机等远距离高速运动物体的噪声源定位。[8~10]Ortiz等人使用该系统进行建筑声环境实测后, 证明该系统在建筑声学研究领域具有可靠性。[11]本次测试采用的GFa I声学相机为48通道的星型阵列, 能以192k Hz采样率, 在20~20k Hz频率范围和4~500 m的距离内进行声源定位。

3. 立面扩散反射声与声线理论

图3为声源d产生的立面扩散反射声线图。根据声线理论, 声源d发出的脉冲声信号最早到达声学相机, 之后依次到达建筑立面上的不同位置并在相应位置产生声扩散反射。由于声线路程距离的不同, 脉冲声信号在建筑立面上的不同位置发生声扩散反射并返回到声学相机时存在一定的时间差。表1为立面上特殊位置的声线路程统计。以声源发声时间为起点, 根据实测时环境温度 (-8℃) 确定声速为326.5 m/s, 则声学相机将在107.26 ms接收到直达声信号、在238.02 ms接收到来自台阶的扩散反射声信号、在258.20 ms接收到来自雨篷檐口的扩散反射声信号、在290.66~373.87 ms之间接受到来自建筑立面的扩散反射声信号, 其中第308.66 ms为来自四楼立面装饰线的扩散反射声信号。

图4为声源d在立面中轴线上形成的反射声时域图, 横坐标为时间, 纵坐标由于存在视觉透视, 为建筑立面声学相机取景器中对应的高度。在图中可明显观察到在建筑立面中轴线上存在若干个较强的声信号, 并且反射声的位置和时间与表1完全契合。这说明声学相机在建筑立面扩散反射声定位研究中, 具有可靠性。

三、结果

由图4可知, 从立面上扩散反射回声学相机的声信号总共分为3片区域, 分别为台阶、雨篷及后面的整体立面。

1. 台阶的声反射特性

图5为4个脉冲声源在台阶上产生的扩散反射声图, 图6为4个脉冲声源在台阶区域形成的反射声曲线。由图5可知, 作为建筑立面上的第一个扩散反射声源, 声信号的最高点集中在建筑立面中轴线上, 这意味着台阶的声扩散反射特性在水平方向上更偏向于几何反射。虽然, 不同声源在台阶上形成的声扩散反射声图高度相似, 但是由于声源到建筑立面的距离不同, 扩散反射声在台阶上沿水平方向的分布是不同的。从图6可知, 脉冲声源a在台阶上形成的扩散反射声压级曲线中, 声压级从曲线中间最高点向两侧迅速下降, 并在两侧各延伸约6 m后维持在同一水平, 声压级的落差约为7 d B。而其他脉冲声源在台阶上形成的扩散反射声压级曲线中, 声压级从曲线中间最高点向两侧下降的趋势随着声源距离的增加而趋于平缓, 在两侧各延伸约8 m后维持在同一水平, 声压级的落差约为11 d B。

图7为声源d在台阶上形成的扩散反射声频谱图, 其中入射声为图4中脉冲声源直接到达声学相机的声信号。从图中可知, 虽然背景声在中低频拥有较高的声压级 (63 Hz频段声压级约52 d B) , 但是入射声各频段的声压级仍然至少高于背景声30 d B, 且反射声曲线位于两者之间, 这说明该反射声曲线对台阶声扩散反射频率特征的描述具有可靠性。

图8为4个脉冲声源的反射声与入射声频谱差值曲线, 曲线以入射声的频谱为基准。从图8可知, 在低于250 Hz频段, 除声源a的反射声均低于入射声约10 d B外, 其他3个声源的台阶反射声均低于入射声20 d B;在315~630 Hz之间反射声的声压级迅速提升并与入射声持平;在1k Hz之后, 反射声的声压级重新低于入射声, 声压级差随着频率的增大而逐渐提升;在5k Hz左右, 反射声与入射声维持在约10 d B水平;最后, 在16k Hz附近, 除声源a外, 其他声源反射声的声压级再次接近入射声。

因此, 有理由相信, 台阶的声扩散反射特性具有频率选择性。在低于250 Hz的频段声扩散反射能力最弱, 扩散反射声衰减量约为10~20 d B;在315~630 Hz频段具有极高的声扩散反射能力, 扩散反射声衰减量约为0 d B;在1k~8k Hz频段, 扩散反射声衰减量约为5~10 d B, 衰减量随频率的增加而增加;高于8k Hz频段, 扩散反射声衰减量约为5~10 d B, 衰减量随频率的增加而减小。

2. 雨篷檐口的声反射特性

图9为4个脉冲声源在雨篷檐口上产生的扩散反射声图, 图10为4个脉冲声源在雨篷檐口形成的反射声曲线。如图9所示, 雨篷檐口的声扩散反射特性与台阶类似, 声信号同样集中在建筑立面中轴线上, 但是雨篷檐口的扩散反射声源尺寸明显小于台阶上的扩散反射声源, 此外, 不同声源在台阶上形成的声扩散反射声源同样存在微小差异。从图10可知, 对脉冲声源a来说, 声压级从曲线中间最高点向两侧迅速衰减, 并在两侧各延伸约5 m后维持在同一水平, 声压级的落差约为8 d B。脉冲声源b的表现与脉冲声源a类似, 唯一的差别是脉冲声源b的声压级从曲线中间最高点向两侧衰减的趋势更快一些, 这意味着其在声图上的尺寸更小、声扩散反射区域更集中。虽然脉冲声源c和脉冲声源d的声压级从曲线中间最高点向两侧衰减的趋势更快些, 但是两次衰减的曲线在约1.5 m时存在一个相对平稳的缓冲区, 而后声压级再次衰减, 最终脉冲声源c的声压级落差约为8 d B, 脉冲声源d的声压级落差约为6 d B。

图11为声源d在雨篷檐口上形成的扩散反射声频谱图。从图中可知, 反射声曲线整体略低于入射声, 但远高于背景声, 这说明反射声的频谱信息具有有效性。图12为4个脉冲声源的反射声与入射声频谱差值曲线, 曲线以入射声的频谱为基准。从图12可知, 雨篷檐口的声扩散反射能力主要集中在100~1 k Hz之间, 而低于100 Hz或高于1 k Hz频段的声扩散反射能力则随着声源距离的增加而有所提升。

3. 立面的声反射特性

图13为4个脉冲声源在建筑立面上产生的扩散反射声图, 图14为建筑立面中轴线上的扩散反射声压级。从图13可知, 建筑立面上声扩散反射强信号的区域为雨篷内部空间和立面中轴线。雨篷内的声反射强信号区域面积随着声源距离的增加而逐渐变大。在声源a (距离建筑立面35 m) 中, 雨篷的声反射信号区域主要集中在雨篷内的天花板附近;而在声源d中, 雨篷的声反射强信号区域已经覆盖整个雨篷内, 宽度达5个柱距 (单个柱距3.5 m) 。在中轴线上, 声信号的声压级随着立面高度的增加而有所衰减。这种衰减量在不同声源之间略有不同, 在声源a中衰减量约为3 d B, 其他声源的衰减量约为5 d B。此外, 不管是哪个声源, 来自立面的最强反射声信号全都来自于雨篷内部。

四、结论

本文运用声学照相机, 对建筑立面不同部位的声反射全过程展开了可视化研究。结果表明, 使用声学照相机的声源定位技术, 不仅能在空间维度上精确地定位来自建筑立面的扩散反射声源位置, 更能在时间维度上定位来自建筑立面上不同部位扩散反射声的先后次序、不同区域, 为声线理论提供现实依据。在本次测试中, 来自建筑立面的扩散反射声主要来自台阶、雨篷檐口以及整体立面这3部分, 且由于台阶和雨篷檐口在空间上声线路程更短, 因此能在整体立面之前发生声扩散反射现象。经分析得知, 台阶的声扩散反射性能在315~630 Hz频段最强, 雨篷檐口的声扩散反射性能在100~1k Hz频段最强。建筑立面上声扩散反射强信号区域为雨篷内部空间和立面中轴线。其中, 雨篷内的声反射强信号区域面积随着声源距离的增加而逐渐变大, 立面中轴线上声信号的声压级随着立面高度的增加而有所衰减, 衰减趋势随声源距离越远而越大。

参考文献

[1]BERARDI U, CIRILLO E, MARTELLOTTA F.Interference Effects in Field Measurements of Airborne Sound Insulation of Building Facades[J].Noise Control Engineering Journal, 2011 (2) :165-176.

[2]KANG Jian.Numerical Modelling of the Sound Fields in Urban Streets with Diffusely Reflecting Boundaries[J].Journal of Sound and Vibration, 2002 (5) :793-813.

[3]HOTHERSALL D C, HOROSHENKOV K V, MERCY S E.Numerical Modelling of the Sound Field Near a Tall Building with Balconies Near a Road[J].Journal of Sound and Vibration, 1996 (4) :507-515.

[4]HALL F L, PAPAKYRIAKOU M J, QUIRT J D.Comparison of Outdoor Microphone Locations for Measuring Sound Insulation of Building Facades[J].Journal of Sound and Vibration, 1984 (4) :559-567.

[5]QUIRT J D.Sound Fields Near Exterior Building Surfaces[J].The Journal of the Acoustical Society of America, 1985 (2) :557-566.

[6]HOTHERSALL D C, SIMPSON S.The Reflection of Road Traffic Noise[J].Journal of Sound and Vibration, 1983 (3) :399-405.

[7]JOHNSON D H, DUDGEON D E.Array Signal Processing:PTR Prentice Hall[M].Englewood Cliffs, N.J., 1993:111-118.

[8]BRANDES T S, BENSON R H.Sound Source Imaging of Low-Flying Airborne Targets with an Acoustic Camera Array[J].Applied Acoustics, 2007 (7) :752-765.

[9]BRUHL S, SCHMITZ K P.Noise Source Localization of Highspeed Trains Using Different Array Tyres[C]//Pierre Chapelle, Gerrit Vermeir.INTER-NOISE and NOISE-CON Congress and Conference Proceedings.Leuven:Institute of Noise Control Engineering, 1993 (4) :1311-1314.

[10]LEE G S, CHEONG C, SHIN S H, et al.A Case Study of Localization and Identification of Noise Sources From a Pitch and a Stall Regulated Wind Turbine[J].Applied Acoustics, 2012 (8) :817-827.

篇3:近场声源定位算法研究论文

关键词 时延估计算法 声源定位技术 麦克风阵列 声源信号 目标声源

中图分类号:TN912 文献标识码:A

1声源定位技术的应用

被动声探测定位技术是一种利用电子装置接收信息来确定目标声源的定位技术,该定位技术属于无辐射源定位方式,主要用于被动声探测,没有主动检测功能。其特点是系统本身只能靠声音信号发送到目标声源,使用接收到的声音信号来实现位置检测和定位目标声源。目前,声源定位技术主要是利用麦克风阵列的声场信息,对声源信号到达各个阵列元素之间的时间差来估值,被动声源信号的实时延迟估计可以完成测向和测距的任务。所以,在几何位置信息已知的麦克风阵列的声源信号的情况下,根据准确到达麦克风阵列的每个数组元素的时间差估值,我们就可以计算出声源位置的精确参数信息。

声源定位技术具有悠久的发展历史。第一个用声纳系统的目的是利用水下目标定位,在定位时,发现了水下电磁波,电磁波衰减是非常大的,导致其作用距离非常有限。在这种情况下,基于水下目标跟踪方法的声信号将应运而生。意大利的科学家达芬奇首先发现声管,水声被动定位技术由此开始,到现在已经整整几百年的发展历史。但真正意义上的发展,要从第二次世界大战结束后算起,主要是使用主动声纳来进行水下目标的寻找,但使用这种方法也很容易暴露目标,使自己陷入潜在的危险之中。因此,人们开始对水下被动声定位进行研究。被动声探测技术应用于地面是在第一次世界大战中产生的,主要是用来探测敌人的炮兵阵地,并取得了良好的应用效果。第二次世界大战期间,声探测技术是特别重要的,超过半数的炮兵侦察任务是依赖于声源定位技术来实现的。在朝鲜战争中,声波检测技术也显示了其优越性。

但在一段时间内,随着红外,激光的发展,雷达侦察技术的提高,在一定程度上影响了被动声源检测技术的发展。但近年来发现,雷达在目标搜索使用中面临到电子干扰,低海拔的突变,隐身技术,反辐射导弹这四大挑战,导致目标越来越容易受到攻击。在这种情况下,人们开始重新审视了被动声探测定位技术的应用价值,对被动声探测技术的研究已经引起了新的关注。目前,随着计算机技术,微电子技术的出现,现代数字信号处理技术,人工神经网络,阵列处理技术,自适应信号处理和其他各种相关技术的成熟,使得被动声定位技术得到了又一次迅速的发展,并取得了进一步的实际应用。

在现代国防领域,声源定位技术可以用来衡量炮兵阵地和地面战争;可以用来找到隐藏狙击手和弹药仓库的具体位置。在航空航天领域,可以用来测量降落点。此外,在现代军事战争中,坦克应具备了防护力强,机动性好,火力强等特点,使其在土地上是曾经的骄傲;武装直升机以其灵活的操作和独特的超低空飞行能力模式也深受战争的喜爱。但随着现在的隐身技术迅速发展,在坦克和直升机的常规检测技术中,被动声探测技术将发挥巨大的优势。

声源定位技术在语音信号处理的过程中也起着重要的作用。例如,一个麦克风阵列拾取声源信号进行处理,数字信号通过阵列信号对环境噪声做分析,可以在有效的空间中获得更高质量的声音效果;甚至可以拾取语音信号强度高的背景噪声,提高语音拾取的质量。麦克风阵列系统可以通过电子瞄准的方式使声源定位产生高质量的信号,语音和噪声能同时抑制对方,因此其得到的噪声抑制效果好。麦克风阵列系统不需要将传感器放置在声源处,不需要无限制的扬声器,也不需要通过移动接收机来改变方向。这些特征帮助它获得多个移动声源,并且可以用在一些特殊的场合。它具有单个麦克风所不具备的特性,即自动检测和定位,并在接收区域跟踪扬声器。如果该算法设计合理,简洁明了,则系统可实现实时跟踪的强大功能。

在当今的学术研究领域中,机器人技术是一个热门的研究课题,基于传声器阵列的声源定位系统可以在机器人的声音系统中进行研究。目前,机器人的语音识别系统研究已经非常成熟,机器人视觉的研究取得了不小的成绩,如何让机器人在语音信号识别的同时也能准确地定位声源的位置,而不是依赖于机器人视觉搜索系统,将成为一个重要的研究方向。声源定位系统的研究可以应用在机器人听觉系统的研究。

2时延估计算法简介

时延估计技术和理论使空间目标的定位问题得以快速发展。根据不同的检测系统,对不同类型的目标信号源来进行时间延迟估计,电流的时间延迟估计方法主要分为主动和被动延迟型两种不同的研究主流。主动时延估计理论典型的应用研究是雷达和主动声纳,雷达或主动声纳依靠发出的电磁波或声波信号,然后通过对电磁波或声波返回的检测和计算返回时间发送和接收的差异,来确定空间距离目标的参数,如方向和速度。活动时间延迟估计的最大特点是积极地通过自己来完成计算信号和信号检测。被动时延估计则恰恰相反,被动时延估计系统本身不发电磁或声信号,而是主要依靠空间位置信息。两个不同的时间延迟估计方法测量原理的不同导致他们有不同的特点,积极的延迟,具有良好的抗干扰性能,参數可以随时调整积极信号,而被动时延估计主要是被动的接受,它会受到信号强度和外界的干扰,但由于主要检测处理所接收的信号,而不发出一个信号,在军事领域具有十分重要的研究意义。

参考文献

[1] 崔玮玮,曹志刚,魏建强.??声源定位中的时延估计技术[J]. 数据采集与处理. 2007(01).

[2] 朱广信,陈彪,金蓉.??基于传声器阵列的声源定位[J]. 电声技术. 2003(01).

篇4:近场声源定位算法研究论文

关键词:麦克风阵列,方位检测,时间延迟估计,数字信号处理

1 音频信号的处理

由于麦克风的阵列接收到的信号是非平稳的, 没有经过调制, 并且有各种噪声及混响的信号, 所以它的信噪比会比较低, 时延估计的性能比较差, 为此我们对麦克风信号进行了以下的预处理:

1.1 预滤波

麦克风采集到的信号中语音信号是有限带宽信号, 其能量主要集中在300-3400Hz之间, 而信道噪声和背景噪声则可能分布在整个频谱空间中。因此, 算法使用带通滤波器将低频和高频段的噪声滤除, 为后续处理提供高信噪比的信号。

1.2 加窗分帧

在处理过程中, 为保证语音信号的短时平稳性, 对其进行了加窗分帧。我们采用帧与帧互叠的方法, 在语音短时平稳允许的时间间隔内, 增加可处理的帧数, 减少语音分帧处理所造成的不连续性。前一帧和后一帧的交叠部分称为“帧移”, 一般情况下, 帧移与帧长的比值为0-1/2。算法中采用的是1/2帧移帧长比。

加窗是用可移动的有限长度窗口进行加权的方法来实现的, 也就是用一定的函数w (n) 乘以x (n) , 从而形成加窗的语音信号。在语音信号数字处理中常用的窗函数有汉明窗 (Hamming) , 它的表达式如下所示 (N为帧长) :

加窗分帧处理完成后, 语音信号被分割成一帧一帧平稳的随机短时信号, 利用数字信号处理技术, 按帧从数据中取出数据进行处理, 处理完成后取下一帧, 最后便可提取语音的特征参数。

1.3 端点检测

端点检测就是从背景噪声中找出语音的起始点和终止点, 根据语音信号的自身特点, 本算法采用的是短时能量和短时过零率两种判断标准进行端点检测。

对离散的语音信号x (n) 而言, 短时能量的定义如下所示:

表现在信号的第n个点开始加窗函数时的短时能量。如果表示w (n) 经过加窗处理后的信号 (其中N为窗长) , 则短时能量可以表示为:

对于离散时间信号, 如果相邻的取样值具有不同的代数符号则称之为发生了“过零”。由于语音信号是一种短时平稳的信号, 因此在统计平均过零率时以帧为单位来计算, 其定义为:

在实际应用中, 过零率常受到A/D转换时的直流偏移、信号中50Hz交流声干扰以及其它噪声的影响。要消除这些干扰一般有两种措施:一种是采用带通滤波器消除信号中的直流分量和50Hz低频分量;另一种方法是使用过门限率来修改过零率, 以减少随机噪声的影响。

2 TDOA (Time Different of Arrival) 声源方位估计算法

TDOA声源定位算法分为时延差计算和声源定位两步, 其中, 时延差计算决定其精度。本文采用的是传统广义互相关函数法GCC的一种改进形式。

麦克风阵元的接收信号可表示为:

式 (5) 中s (t) 是声源信号, αi是麦克风阵元i接收信号的衰减因子τi是麦克风阵元i接收信号相对参考麦克风接收信号的时延, ni (t) 是麦克风阵元i接收到的加性噪声。

任意两阵元的相关函数可表示为:

为减少计算量, 我们首先对信号进行FFT变换, 其次在频域做两阵元接收信号的相关函数, 得到的结果如下式:

式 (7) 中X (f) 表示麦克风阵元i接收信号的傅里叶变换结果, Xj* (f) 表示麦克风阵元j接收信号的傅里叶变换结果的共轭。

PHAT-GCC算法是对频域相关函数进行加权, 去除互功率谱的幅度信息, 减小多径信道的畸变, 增强系统对混响的鲁棒性, 从而提高峰值尖锐度, 以提高时延差估计精度, 其加权函数为:

大值时所对应的时间差值。因此, 可以通过对式 (8) 进行峰值搜索, 估计出时延差。

本系统采用四个麦克风在二维空间中进行声源定位, 主要是增加冗余信息, 使得定位的结果更精确。A、O、B、C分别为四个麦克风, 其间距为d, 点O为阵列基准点, 声源为S, 当声源位于远场范围时, SA、SO、SB、SC被认为相互平行, 因此:

从而可得出β的值

3 算法运行调试

声源位置符合远场条件, 假设麦克风阵列的距离为5m, 当阵列与声源的夹角在30°~150°范围内变化时, 声源方位估计值比较准确。因此, 实测时实际角度分别取30°、50°、70°、90°、110°、130°和150°, 并在每个实际角度位置记录3次角度估计值, 然后把3个数据的平均值作为该位置的估计值。 (下转第25页)

实验中发现, 角度定位精度为3°。当声源与麦克风阵列所成夹角为90°时, 角度估计误差最小;角度变大或变小时, 估计的误差也随之变大。

参考文献

[1]吴晓, 靳世久.基于麦克风阵列声音信号定位方法研究[J].传感技术学报, 2010, 5:43-47.

[2]韦金辰, 李刚, 王臣业.DSP原理与应用系统设计[M].北京:机械工业出版社, 2012.

[3]周霖.DSP信号处理技术应用[M].北京:国防工业出版社, 2004.

[4]Texas Instruments.PCM4204 Data Sheet[EB/OL].http://www.ti.com, 2005.

[5]Texas Instruments.TMS320C6713 Data Sheet[EB/OL].http://www.ti.com, 2004.

篇5:声源定位技术的研究意义与现状

关键词 声源定位 声纳系统 麦克风阵列 时间差 信号

中图分类号:TB51 文献标识码:A

1声源定位技术的发展与应用

被动声探测定位技术是一种接收声场信息,利用电子装置确定目标声源位置的高新技术,该技术属于无辐射源目标定位技术,主要用于被动声探测,没有主动检测功能。其特点是系统本身仅依赖于目标声源的声音信号的接收,并实现使用接收到的声音信号来实现位置检测和定位目标声源。目前,声源定位技术主要是利用麦克风阵列接收声场信息,依靠声源信号到达各个阵元的时间差估计以及时间延迟估计来实现被动声源信号的测向和测距。因此,在已知几何关系的麦克风阵列情况下,由源信号准确到达每个麦克风阵元时间差的估算,我们可以准确地计算出的位置参数信息源。

声源定位技术有着悠久的发展历史。其最先在声纳系统中使用, 采用电磁波来发现水下目标的位置,在水下电磁波是非常大的,所以受到了距离限制。在这种情况下,水下目标声信号追踪法应运而生。1940意大利达芬奇首先发现了声管,水声被动定位技术由此诞生,现在有超过500年的发展历史。但真正意义上的发展,是在第二次世界大战结束后,在水下使用声纳来寻找目标的时候,这种方法也将很容易暴露自己,带来潜在的危险。因此人们开始了水下被动声定位的研究。在第一次世界大战中应用在地面上的被动声探测技术,主要是用来探测敌人的炮兵阵地,并取得了良好的应用效果。在第二次世界大战的时候,声探测技术是特别重要的,大部分炮兵侦察任务是依赖于声源定位技术实现的。在朝鲜战争中,声波检測技术也显示出独特的优越性。

但在一段时间内,随着红外,激光的兴起,雷达侦察技术在一定程度上影响了被动声探测源技术的发展,导致其曾经被忽视。但近年来,使用雷达搜索目标面临的电子干扰,低海拔的突变,隐身技术,反辐射导弹这四大挑战,使其越来越容易受到攻击。在这种情况下,人们开始重新审视被动声探测定位技术的应用价值,这是研究被动声探测技术的又一个重要的原因。目前,随着计算机技术,微电子技术的发展,现代数字信号处理技术,人工神经网络,自适应阵列处理技术,信号处理技术和其他相关技术,被动声定位技术再次发展迅速,并取得了进一步的实际应用。

在国防现代化方面,声源定位技术可以用来测量在地面作战的炮兵阵地;可以用来找到隐藏在某地的狙击手位置,还可用于测量弹药试验火炮的着落点和空中炸点。在航空航天领域,可以使用声源定位技术来测量位置。此外,在现代军事战争中,坦克具有防护力强,机动性能好,火力强劲等特点,所以在地面战斗上能压制敌人;武装直升机以其灵活的运作方式和独特的超低飞行能力也深受战争的信赖。但随着现在隐身技术的迅速发展,应用在坦克和直升机上的传统检测技术已经丧失作用,在这种情况下,被动声源探测技术将发挥巨大的优势。

2声源定位技术的研究状况

声源定位技术经过几十年的发展后,检测技术已经有了一定程度的发展,也有一定程度的提高。原来的普通声波检测技术是碳粒子或冷凝器来接收声信号,无线或光纤技术传输信号,通过点蚀纸袋或墨水磁带录音来记录信号信息,随后将录音机连接到计算机上,用计算机处理采集到的信号来分析出结果。现代的声源定位现代技术中,开发出了功率集成电路,简化了测量过程。

国外的声波检测技术不仅应用在坦克和武装直升机上,而且还应用在智能地雷上。智能地雷能够找到目标的位置,在正确的时间和地点引爆,从而可以达到最有效的攻击。智能地雷的原理是依靠声源定位技术产生声源位置信息,并将其反馈到爆炸的位置控制系统中,控制起爆时间。研究这种武器能够有效打击地面坦克和低空直升飞机。

国外早在二十世纪80年代开始,就已经开始研究基于语音增强技术会议的声源定位技术。近年来,语音处理的声源定位技术已成为新的研究热点,具有广阔的应用前景和实际意义,许多国际著名公司和研究机构如IBM,贝尔,已经在开发新的用于大型会议语音增强和滤波技术的产品,部分产品已进入实际应用阶段,包括视频电话,视频会议系统,电话会议系统。还有在强噪声环境下语音采集的声源定位技术,语音识别和说话人识别软件处理,大型网站的会议记录和助听器等。这些产品应用于各种实际的社会生活场合,已经显示出巨大的优势和市场潜力。

先前已被应用于实际的声源定位算法波束形成法。基于麦克风阵列波束形成法中,阵列输出是各个阵元输出的加权总和,然后通过调整加权系数来形成理想的波束,导致在其他方向产生响应。通过观察空间波束扫描可确定声源信号的方向信息。然而,阵列的分辨率通常受到瑞利判据的限制,这是一个无法解决的棘手难题。

为了解决常规波束形成的信号处理问题,许多研究人员已经做了大量的研究,希望能够改变这种不利的因素,因此出现了各种高分辨率算法。如最小方差法,结构法,信号子空间法和最大熵谱法。与传统的波束形成方法相比,这些高分辨率算法虽然提高了阵列的分辨率,但不能解决相干源问题。

参考文献

[1] 崔玮玮,曹志刚,魏建强.声源定位中的时延估计技术[J].数据采集与处理,2007(01).

[2] 靳莹,杨润泽.声测定位技术的现状研究[J]. 电声技术,2007(02).

篇6:近场声源定位算法研究论文

无线传感器网络[1,2]是由一组无线传感器节点以自组织方式构成无线网络,其目的是协作地感知、采集和处理网络覆盖的地理区域中感知对象的信息,并发布给观察者。传感器、感知对象和观察者是传感器网络的3个基本要素。协作地感知、采集、处理和发布感知信息是传感器网络的基本功能。

声源定位[3]是无线传感器网络的一个典型应用。声音信号到达的先后,携带了目标对象的距离等信息。利用这些物理量的附加信息,依靠无线传感器网络中各节点的协同感知和计算能力,能测算出目标对象的位置。

但是传感器节点的体积小、成本低等因素导致节点本身在设计上存在着一些限制,如:电源能量有限、通信能力有限、计算和存储能力有限。因此,要实现声源定位时,需要考虑在获得准确有效的目标对象信息的同时,尽可能减少能耗。时间同步和定位算法是无线传感器网络声源定位的两大关键技术。时间同步使得各个节点的时间达到统一,这也是测量距离的一个前提条件。而定位算法是在得到各个距离的确切之后采用何种方法计算出声源的坐标。本文通过研究时间同步和定位算法,提出了一种改进的无线传感器声源定位方法,并在Micaz节点上实现了定位功能。

1时间同步的改进与实现

由于复杂度、功耗、成本和体积等因素,传统的时钟同步机制,如GPS(Global Position System)或NTP(Network Time Protocol)等均不能直接应用于无线传感器网络。节点微小的体积也不能安装除本地振荡器和无线通信模块外更多的器件,因此需要一种实现简单的、且能达到一定精度的时间同步算法。

无线传感器网络声源定位中,单一节点要确定声源的位置,需要多个节点的声音事件时间,并利用同步机制将其转化为整个网络的标准时间。时间同步机制分为前时间同步和后时间同步。前者会消耗大量的能源,但通过多次的同步操作修正本地时间,可达到较高的精确度;而后者仅在事件发生后通过同步消息的交互完成一次同步操作,会影响时钟同步的精度。对于小范围内的声源定位,对同步精度的要求较高,因此选择前时间同步精度。

定位中需要一种较高精度的局部时间同步算法。但为了可扩展大规模无线传感器网络定位应用的考虑,实验中选择了可以扩展到整个网络的FTSP算法。FTSP算法[4]是使用单个广播消息实现发送节点与接收节点,接收节点之间的时间同步算法,并且FTSP算法在局部时间同步方面有具有较高的精确度。改进算法步骤如图1所示。

改进FTSP算法在完成SYNC字节发射后给时间同步消息标记时间戳t并发射出去。时间戳t为当前时间减去包含时间戳t的消息数据部分的发射时间,消息数据部分的发射时间可通过数据长度和发射速率得出。

接收节点记录SYNC字节最后到达时间tr并计算位偏移(Bit Offset)。在收到完整消息后,接收节点计算位偏移产生的时间延迟tb,这通过偏移位数与接收速率得出。

接收节点计算与发送节点问的时钟偏移量:offset=tr-tb-t;然后调整本地时钟和发送节点时钟同步。

改进FTSP算法对时钟漂移(Clock Drifts)进行了线性回归分析。FTSP算法考虑到在特定时间范围内节点时钟晶振频率是稳定的,因此节点间时钟偏移量(Offset)与时间成线性关系;通过发送节点周期性广播时间同步消息,接收节点取得多个数据对(Time,Offset),并构造最佳拟合直线L(Time)。通过回归直线L(Time),在误差允许的时间间隔内,节点可直接通过L(Time)计算某一时间点节点间的时钟偏移量而不必发送时间同步消息进行计算。

Micaz节点本身在低能耗状态下,利用FTSP算法同步各个节点时钟,使所有节点能够同时被唤醒或休眠,不需要让无线通信单元长期处于等待状态,以降低能耗。此类应用不需要很高的精确度,但要求同步算法尽可能简单高效。因此,Micaz节点本身的时间同步操作中使用的本地时间是由一个32 kHz的内部计时器提供的,其时钟精度范围大于2 ms。且在调整本地时钟时使用了nesC中的提交任务(Post)方法,这种同步运行方法没有考虑任务在执行前的等待时间,其运行时间具有不确定性,这也是影响同步精度的重要因素。为保证高精确度,同步精度要小于100 μs,才能确保定位所需距离或距离差的误差在0.1 m内,显然,32 kHz的内部计时器无法提供这样的精度。实验中使用Micaz节点上提供的7.238 MHz的外部晶振实现,将外部晶振计数器的频率设置为7.238/32 MHz,可将时钟的精确度提升到8.7399 μs。

由试验数据可知,该算法同层节点的同步误差在4×8.739 9 μs内,其主要原因是节点频偏;而相邻层节点同步误差在5×8.739 9 μs内,是由节点间频率偏移和传输处理延迟所致。

2定位算法的选择与实现

要做到精确定位,需要得到距离和角度等位置信息,而对于一个位置随机的声源,单个传感器无法得到角度信息,虽可以使用传感器阵列,但会提高节点的成本,且会消耗大量资源。而节点能够从传感器上直接获取的就是声音事件发生的时间和声音在某时刻的强度,这2种信息都能转化为距离。强度向距离的转换是利用声音传播中的损耗得到的,但由于一般声源发出的声音是复合音,转化难度较大,只能利用时间来转化距离。实际上,由同一声音事件到达不同节点的时间差可知声源距各个节点的距离差,由此可以计算出声源的位置[5]。

首先将问题简化为在二维空间内对声音源的定位,定位的结果是目标对象相对于网络节点的距离和角度。在此基础上,把算法推广到三维情形。理论上讲,无线传感器网络的节点数不少于3个就可以对声音源进行定位。因此,预设3个节点的位置。

2.1定位算法

如图2所示,在平面上分布有3个传感器A、B和C,坐标分别为(-a,0),(a,0)和(x3,y3)。当平面上某S(x,y)处发出声波时,3个传感器将先后接收到信号。设信号S(x,y)到达A、B的时间差为Δt1,到达A、C的时间差为Δt2,到达B、C的时间差为Δt3,则声源发生的位置应当在到A、B两点的距离差为Δt1v的曲线和到A、C两点的距离差为Δt2v的曲线上,确定2条曲线的交点就可以确定声源所在的位置。很明显,3个时间差可得出3条双多个声源曲线确定声源范围曲线。由于实验中存在误差,因而3条曲线不会交于一点,而是两两相交形成三角形。求解3个交点的坐标的推导过程如下。

3条曲线的方程分别为:

由方程可以解得3个交点的坐标。为了确定较为精确的声源位置,可以考虑找出3个坐标点形成的三角形的重心,该重心即为发声源的位置。

2.2声源定位实现关键问题

在选择时间同步算法和定位算法并实现后,就需结合起来实现定位功能。在这个过程中还存在着一些问题:

首先,要得到声音到达各个节点较为准确的时间信息,在节点有限的计算和储存能力的限制下,想要利用分析波形以及频谱的方式是很难实现的,若将传感器采集到的数据全部传送到服务器上去分析则可能造成网络堵塞,所以需要使用一种较为简捷的方式,并把因此产生的误差降至一定程度。

其次,各节点数据的传送方式。Micaz各个传感器板的典型应用都是周期性的发送传感器数据,并且发送周期一般都以秒为单位,随机变化的声源按一定时间顺序发出的声音在各个节点看来并不能严格的按原顺序依次到达节点,因此不能利用这种顺序来判断声音事件的对应关系,这就导致无线传感器网络在一个周期内最多只能定位一次,降低了网络的灵敏度。

根据多次采样的结果得到一个门限值,利用门限的方法判断声音到达的时间,此方法虽抗干扰性较差,但是实现非常简单,在一个外界噪声强度较为稳定的环境下可以适当的门限值来清除噪声的干扰,达到较高的准确度。由于声音传感器的各体差异,工作时基准值并不相同,这里采用自适应的方式来实现来确定基准值。将节点数据传送方式由周期性发送改为触发式,即事件发生时传送数据,这样不但可以减少能量消耗,还可以提高定位的灵敏度。

2.3试验结果及分析

实验采用CROSSBOW公司的Micaz节点和MIB520节点接口板:节点采用8位微处理器ATmega128,512 k External Serial Flash,通信模块工作与2.4~2.483 5 GHz频段,理论传输速率为250 kbps,运行TinyOS操作系统。传感器板为自制声音传感器板,具备声音采集、放大功能。

在试验中将3个传感器节点A、B、C和一个同步信标节点布置在一个平面上,确定坐标分别为A(-30,0)、B(30,0)、C(0,40)长度单位是cm,在信标节点的作用下完成节点A、B、C之间的同步,来自声源的信号通过空气传播先后到达3个节点上的传感器转换为电压信号,当传感器采样数值超过门限值时,各节点记录此刻时间,并将时间戳通过无线信道通过网关节点传入服务器,服务器在得到时间数据后按照定位算法对数据进行处理,最终得到声源节点的坐标值。

表1为从数据库中抽取的部分试验记录,单位为cm,(x0,y0)表示声源的实际坐标,c1、c2、c3分别是通过节点发回的时间信息换算出来的距离差,x、y则是定位算法得出的横、纵坐标。

3结束语

本文提出了一种改进的声源定位方法,该实现方法虽然以小范围二维定位为目的,但因为小范围网络是大规模网络的基础,故可以扩展到更大的网络上;另外,由于此定位算法完全是将应用问题转化为一个解析几何问题求解,更容易扩展到三维空间中。

摘要:对无线传感器网络中声源定位的两大关键技术时间同步和定位算法进行了研究,针对声源定位关键问题,提出了一种改进的无线传感器定位方法。通过修改时间同步消息标记时间戳,对时钟漂移进行线性回归分析,有效降低了系统能耗。利用改进的TPSN时间同步算法与声源定位算法在Micaz节点上实现了定位功能。实验结果证明了本文方法的有效性和可靠性。

关键词:无线传感器网络,声源定位,时间同步

参考文献

[1]孙利民,李建中,陈渝,等.无线传感器网络[M].北京:清华大学出版社,2005.

[2]于海斌,曾鹏,梁韦华.智能无线传感器网络系统[M].北京:科学出版社,2005.

[3]杨丽霞,汪文勇,李炯.无线传感器网络的目标定位问题研究[J].电子科技大学学报,2006,35(2):1-6.

[4]任丰原,黄海宁,林闯.无线传感器网络[J].软件学报,2003,14(7):1282-1291.

篇7:近场声源定位算法研究论文

关键词 仿生学 声源定位技术 听觉系统 声音信号 目标声音

中图分类号:TB51 文献标识码:A

1仿生学概览

1.1仿生学的发展历史

通过研究可以得出结论:一些植物和动物具有类似的功能,实际上超出人们关于这方面设计的方案需要。人们通过模仿动物和植物在技术方面得以借鉴,是一个突破。仿生学是一门交叉学科,如工程仿生技术和生物科学相结合,近年来发展迅速。对于合理应用生物学原理,不仅要找到一些长期存在难题的解决方案,而要使这个方案完全适应自然的需要。

仿生学研究生物学的系统结构,研究功能,信息控制与能量转换等的优良特性,而这些特性应用于实际系统,用于改善现有的技术,并建立一个全面的自动设备,工艺,技术架构配置系统等。从生物学的角度看,仿生学的一个分支,属于生物学的应用。仿生学作为一门独立的学科,在1960年9月问世,仿生学在俄亥俄州空军基地的第一次会议在美国空军航空局召开了。从第二十世纪50年代以来,人们已经认识到,生物系统是一个开发新技术的主要途径。人们通过数学,化学,物理和数学模型,对生物系统的研究,并促进生物学快速发展,而研究生物功能的机制也取得了很大的进步。

1.2仿生学的应用背景

仿生学已经进入了各行各业技术创新和技术革命的前沿,如在自动控制,航空,航海等军事领域都获得了不少的成就。科学家的灵感来自与旗鱼状突起的长针,开发超音速飞机在高速飞行时产生刺耳声的屏障;从鲸鱼的形状发展潜艇;通过模仿蝙蝠的行为使雷达可以在任何时间根据脉冲参数的目标检测方法和调整方向,提高雷达的灵敏度和抗干扰的能力。

仿生学的任务是研究生物系统与生俱来的能力和原则,为这些能力与原则创建相应的数学模型,并设计崭新的设备,开展了一个全新的应用空间。听觉仿生模型应该更全面地描述目标声识别过程。现在大多数的研究没有在本质上对听觉系统创建出一个合理的模型,特征提取不能够完全体现出声音的特点。因此,在听觉系统模型几何部分中建立一个更精确的语音识别系统是发展的必然趋势。

1.3机器人听觉系统的应用

随着电子技术和数字信号处理技术的发展,仿人机器人(如图1所示)的研究有了新的进展,机器人听觉与视觉系统是智能机器人的重要标志,已成为机器人研究领域的一个重要研究方向,是实现机器人与环境的相互作用和人机交互的一个重要手段。因为声音绕过障碍,听觉可以由机器人多信息采集系统来实现功能,利用机器人的其他感官来弥补其他传感系统无法通过非透明障碍物的缺点。此外,对于模拟人类听觉系统的研究,也表明了人类对于听觉生理能力所掌握的知识程度很高。

2声源定位技术的发展

2.1声源定位技术的应用背景

声源定位技术是对具有听力功能的耳朵进行仿真,利用声波传感装置接收声音,声音信号通过电子设备进行处理,从而实现并定位声源识别的检测,定位和声源目标跟踪。利用被动声来定位,并对多通道信号分析与处理,得出一个或多个在平面或在空间域中的声源空间坐标,以获得声源位置。

声源定位技术具有隐蔽性强,适应性强的优点,成本低,逐渐受到世界各国的重视,在军事和民用领域具有广阔的应用前景。在水下感知目标,在危险的环境中应用程序来完成战场扫雷工作。声探测技术在许多控制装置中得到广泛使用,如声雷达,被动声纳,语音识别系统,视频会议系统和辅助收听系统等。它可用于扬声器麦克风阵列波束的方向控制,视频会议系统的对准;也可用于语音信号的预处理,提供高质量的声音信号,提高相关的系统功能;检测管道泄漏的位置,管道泄漏后的声波振动会沿墙传播,只要在管道泄漏的地方进声源振动信号的采集,就可以通过两个信号时延估计确定泄漏的位置;在电话会议中的声源定位,语音信号接收不同谈话的人,根据不同的传感器位置接收声音信息,确定发言人的立场;对于室内监控系统,安装拾音器在走廊,房间,采集目标方位角接收到的声音信号,并进一步记录声音和图像目标的信息。声源定位技术具有应用价值和广阔的发展前景,值得研究。

2.2声源定位技术的优势

声源定位技术是利用电子装置来获知声音位置的信号处理技术。声源定位技术可以分为被动声源定位和主动声源定位两种。主动定位包括发送和接收装置,如雷达发射信号的使用,根据目标的接受波形来判断的位置。被动声定位是接收装置,与传统的主动声源定位技术相比,它具有隐蔽性强的优点,不易受电磁干扰。

参考文献

[1] 郭策,戴振东,孙久荣.?生物机器人的研究现状及其未来发展[J].机器人,2005(02).

[2] 崔玮玮,曹志刚,魏建强.?声源定位中的时延估计技术[J].数据采集与处理,2007(01).

篇8:近场声源定位算法研究论文

目前,智能视频监控领域的研究大多集中在视频图像的分析上,主要通过计算机软件分析和抽取视频源中的关键信息,识别和跟踪目标。但随着安防系统的要求越来越高,单一的视频监控不能完全满足监控的需要,比如对可疑物的报警判决通常只是根据对监控画面的分析来做出的,而监控画面往往存在盲区,无法覆盖整个监控现场;在被障碍物挡住的地方由于无法采集图像而使视频监控系统不能发挥作用。于是音频监控在近几年被一些专家提出,其目的是通过传声器阵列对采集到的相关声音数据进行分析判断是否有异常情况发生,但音频监控受环境噪声和混响的影响较大,所以目前在工程领域的应用较少。针对这一问题,本文研究的智能视频监控系统将声源定位与摄像头视频动态采集结合起来,采用声音、画面联合判决的报警方式。这种报警判决方式对现有的智能视频监控系统将会是一个良好的补充,尤其在无人职守环境下的视频监控系统中具有潜在的应用价值。

1 声源定位的方法分析

声源定位是利用传声器拾取语音信号,并用数字信号处理技术对其进行分析和处理,继而确定和跟踪声源的空间位置。传统的单个麦克风的拾音范围很有限,且由于室内各种其他声音的多径反射和混响等因素,导致其接收的信号信噪比低,拾取信号的质量差。随着传声器阵列信号处理技术迅猛发展,人们提出了用麦克风阵列进行语音处理的方法。麦克风阵列系统就是由一组按一定几何结构摆放的麦克风组成的系统,对接收到的来自空间不同方向的信号进行空时处理,麦克风阵列具有去噪、声源定位和跟踪等功能,从而大大提高语音信号处理质量。目前基于麦克风阵列的声源定位技术分为三类,一是基于最大输出功率的可控波束形成声源定位技术;二是基于高分辨率谱估计的声源定位技术;三是基于时延估计的声源定位技术。基于时延估计的声源定位技术在运算量上优于其他两种方法,实时性好,易于在实际中低成本实现。

图1是麦克风阵列示意图,各麦克风接收的信号可用矢量排列的形式表示为:

式中,α表示声波传播衰减量,τ是一组时延矢量,n是噪声矢量。基于时延估计的声源定位是通过估计阵元接收信号之间的时延来估计波达方向DOA(Direction of Arrive)。假设一对麦克风之间的时延估计为τ,距离为d,声速为c,那么波达方向θ可用几何定位估计为:

在基于时延估计的声源定位技术中,时延估计的精度是关系到声源定位精确与否的关键因素,时延估计的方法很多,广义互相关函数[3,4]GCC(Generalized Cross Correlation)方法是最常用的时延估计方法,具有一定抗噪声和抗混响能力。该方法通过求两个信号之间的互功率谱,并在频域内给予一定的加权,来抑制噪声和混响的影响,再反变换到时域,得到两信号之间的互相关函数,其峰值位置即两信号之间的相对时延。其表达式如式(3):

式中,Ψ12(τ)为两个麦克风接收信号x1(t)与x2(t)的互相关函数,X1(f)X2(f)为两个接收信号之间的互功率谱,Φ12(f)为互功率谱的加权函数。这样得到的时延估计为12=arg maxΨ12(τ)。根据式(3)选取不同的加权函数Φ12(f),可以使得Ψ12(τ)有个比较尖锐的峰值,得到最好的估计效果。在实际应用中,权函数的选取是一个难点,本系统使用的是基于互功率谱的相位加权法[5]PHAT-GCC(Phase Transform-Generalized Cross Correlation),其中加权函数Φ12(f)为,这种方法通过信号功率谱的归一化,去除了信号的幅度信息,只保留信号的相位特征,对于噪声和混响都有较好的抑制效果。应用PHAT-GCC算法实现时延估计的算法流程图如图2所示。

2 声源定位实现方案

在实际环境中,由于各麦克风所接收的声源信号易受到噪声和混响的干扰,使互相关函数Ψ12(τ)的峰值不再明显,所以在考虑声源定位方案的实现时,不仅要选择合适的时延估计算法,还应考虑影响定位的因素,如环境噪声、房间混响、模型噪声、声源信号的采样频率与位分辨率等,并兼顾系统的实时处理能力。

大量环境噪声的频带很宽,而声源信号的频率范围可近似为300~4 500 Hz,这样可以利用FIR[9](Finite Impulse Response)滤波器滤除带外噪声的干扰。对于带内的噪声影响,由于信号和随机噪声的小波系数在不同尺度上存在正负奇异性特点,可以进行小波频带阈值消噪法[8]处理。根据声源信号的频率范围,声源信号的采样频率必须大于等于9 kHz才能将语音数字信号进行还原。由于PHAT-GCC算法对语音信号的相位非常敏感,因此采样频率越高,所获得的相位信息就越精确,求得的估计时延也就越接近真实值。但采样率越高,导致的后果是数字化后的数据量越多,对数字处理能力的要求也就越高,所以必须在采样频率和数字处理能力之间做一个折衷考虑。兼顾本系统数字处理能力的要求,声源信号采样频率为48kHz,分辨率为16位。

由于声源信号是一个非平稳信号[6],在做数字处理分析时,必须近似为平稳信号。语音信号在20~40ms的短时间范围内可以近似看作是平稳的,因此,对一长段语音信号进行分析和处理时,需先分成一些相继的短时信号,再将每帧短时语音信号视作平稳信号来处理。在处理麦克风接收的各帧数据时,接收到的当前帧中是否含有语音信号,对系统的运算量影响很大。为了只对真正的语音信号进行处理,需对接收的各帧数据进行语音信号端点检测,可以采用短时平均能量的检测方法来鉴别语音帧。在声源定位方案中,取信号帧长为30 ms,前后帧重叠20 ms,每500 ms为一次判决周期,共处理50帧数据。在判决周期内,对每帧数据进行加窗FFT分析和语音帧计数,若检测到足够多的语音帧数,便认为声源信号活跃,然后采用PHAT-GCC算法进行声源定位。整个声源定位方案流程图如图3所示。

3 系统的硬件结构

系统的硬件结构包括控制和算法处理器、音频采集电路、视频采集电路、摄像头控制电路、存储器等组成部分,其结构框图如图4所示。控制与算法处理器采用ADI公司的Blackfin系列处理器ADSP-BF533[7],ADSP-BF533基于由ADI和Intel公司联合开发的微信号架构MSA (Micro Signal Architecture),将信号处理功能与通用型微控制器所具有的易用性组合在一起,在本系统中完成各接口电路的控制和音视频算法处理。音频信号采集电路由麦克风阵列和音频编解码器AD1836组成,麦克风阵列采集空间音频信息,传送到AD1836转换成数字信号,通过DSP的SPORT口以DMA方式传送到SDRAM。视频采集电路由模拟摄像头SCC-C6475和视频编码器SAA7111组成,摄像头SCC-C6475采集监控区域的动态视频,并通过SAA7111转换成YUV数字图像,再通过DSP的PPI端口以DMA方式传送到SDRAM。SCC-C6475与RS-485串口相连,由声源位置决定摄像头转动角度,通过RS-485串口发出信号,控制摄像头转动。存储器包括SDRAM和Flash,SDRAM由2片MT48LC16M16A构成,容量为32 M×16 bit,用于存储采集的音视频数据;Flash由2片AM29LV800D构成,容量为1 M×16 bit,用于引导程序。

4 系统的软件设计

系统的软件功能是完成音视频信号的采集、分析、处理,并根据声源定位和图像检测结果给出异常情况的报警信息。系统的软件在结构上分为主控程序、音频采集程序、声源定位算法程序、视频采集程序、图像检测算法程序和摄像头控制程序,各个子程序之间的调度由主控程序完成。系统上电后,由主控程序读取启动参数,完成各个功能模块的初始化,顺序启动视频采集、音频采集,同时控制音视频的采集交替运行;主控程序按一定时间间隔调用声源定位算法程序进行声源定位,如果有声源存在,则主控程序控制摄像头转动到声源位置采集视频信息,同时调用图像检测算法程序,如果有异常情况,系统报警。系统的软件流程图如图5所示。

5 系统测试及实验结果

系统测试在一间大小为8.2m×5.5 m×3.3 m的钢筋混凝土结构的房间中进行,噪声干扰和混响均不明显,硬件结构按照图4进行连接。水平和垂直方向各放置2个麦克风,麦克风间距为35 cm,说话者以麦克风阵列为中心,在半径2~3 m的范围内走动。

实际测试过程中,通过摄像头的转动角度和主机端的监控图像可以看到,人站在某一方位发出声音,系统能检测到声源的方位,驱动摄像头转动到声源所在的位置。如果此时人没有走动,系统只是作监控;如果连续走动,系统就会自动报警。

以上结果基本满足设计要求,同时也观察到以下现象:

(1)系统在水平方向的定位效果优于垂直方向上的定位效果,这是由于桌面、地板的反射造成的。因为这些反射面离麦克风或声源很近,其上的反射波与直达波时延差常常小于所设的屏蔽时间,因此算法不能屏蔽掉这些反射波,而且这些反射波的镜像源在垂直方向上分布,并不影响水平定位。

(2)由于声源定位和图像检测算法的局限,系统比较适用于安静的环境,对于噪声干扰较大,移动物体较多的场合定位误差较大。

基于麦克风阵列的声源定位技术是目前的研究热点之一,可以广泛用于视频会议系统、语音控制系统及实际环境中的语音识别系统。本文结合声源定位技术,介绍了一种基于麦克风阵列声源定位的智能视频监控系统。同时详细分析了声源定位的实现方案,并给出系统的软硬件结构和设计流程。实验结果表明,在低噪声和混响不明显的情况下,系统能准确检测到声源的方位,根据定位方向监控声源方向上的活动物体,进行异常情况报警。这种声音和画面相结合的报警判决方式能够更加有效地协助安全人员处理危机,最大限度地减少误报和漏报现象。

参考文献

[1]郑世宝.智能视频监控技术与应用[J].电视技术,2009, 33(1):94-96.

[2]骆云志,刘治红.视频监控技术发展综述[J].兵工自动化,2009,28(1):1-3.

[3]王波,王树勋,赵彦平.基于麦克风阵列的时延估计新方法[J].吉林大学学报,2008,26(3):223-229.

[4]KNAPP C H,CARTER G C.The generalized correlation method for estimation of time delay[J].IEEE Trans Acoustics, Speech and Signal Processing,1976,24(4):123-128.

[5]CHEN J D,BENESTY J,HUANG Y T.Performance of GCC and AMDF-Based time delay estimation in pratical reverberant environments[J].EURASIP Joumal on Applied Signal Processing,2005(1 ):25- 36.

[6]王大中,李晓妮.基于麦克风阵列的语音信号实时时延估计[J].吉林大学学报,2009,27(2):133-137.

[7]ADI.ADSP-BF533 Blackfin Processor Hardare Reference. 2008.

[8]Stephane Mallat.信号处理的小波导引[M].北京:机械工业出版社,2004.

本文来自 360文秘网(www.360wenmi.com),转载请保留网址和出处

【近场声源定位算法研究论文】相关文章:

声源定位实验报告04-13

上一篇:用幽默化解矛盾的事例下一篇:表扬与批评登记册

本站热搜

    相关推荐