自动特征识别

2024-05-04

自动特征识别（精选九篇）

自动特征识别篇1

本文应用红外摇控系统设计了一个类似骰子的正六面体端面特征自动识别系统, 是吉林省大学生电子设计竞赛的一个课题, 可以作为基于单片机的一个红外接收系统实训项目。

二、设计任务与要求

设计并制作一个正六面体, 在相应各个表面安装1-6个LED, 作为标记 (类似于传统的骰子) , 内置控制电路。随机转动六面体, 等待此六面体静止后, 实现自动识别平行于地面上方的端面并点亮LED, 用LED不同位数显示标记信息, 其它端面LED灯不亮。

要求能够实现自动识别上端面并点亮其LED, 六面体静止后3秒内完成识别。采用无线方式将上端面标记信息 (如1、2……6) 传送到外部接收装置, 外部接收装置能够显示标记信息, 并将识别次数及标记进行存储及回放。

三、方案设计

设计题目要求采用无线方式将六面体内部信息传送到外部。本设计采用红外发光二极管发射红外线传递六面体端面信息。

对于端面识别, 我们采用在正六面体内部放置一个自制的六位位置开关, 当六面体静止后, 处于地面的位置开关接通, 点亮平行于地面的上方端面的LED灯, 同时内置控制电路通过红外发光二极管, 发出该面的编码信息。发射部分使用电视遥控器的编码调制芯片SAA3010T和LED红外发送器;接收部分使用一体化红外接收头, 由单片机进行解码处理。类似红外遥控器对接收头, 按红外遥控器上的按键执行对应按键功能的效果。

本设计中采用单片机系统来接收和处理红外遥控信号, 实现端面点数显示和识别次数和标记的存储与回放。

四、制作过程

1. 六位置开关

六位置开关是仿照市面的四位开关制作。将软木塞外形削成边长2厘米的正立方体, 内部挖成球形空洞, 六个面各由外向里引两根探针作开关的两极, 中间球形空洞放入大小合适的钢珠。正立方体静止在水平面时, 底面的开关即由钢珠接通, 其余五面开关断开。由此模拟了六个位置的开关效果。

2. 正六面体内置控制电路

下图为第3面识别控制电路, 其他面相同。

3. 单片机红外接收电路

采用红外一体化接收头接收红外信号, 使用外部中断1, 单片机采用最小系统, 电路图略。

4. 程序设计

5. 系统合成与组装

(1) 整机结构和工艺

正六面体的六个面使用电路板切割, 各面做成插接槽, 镶嵌粘贴后成正六面体, 体积为6.9cm×6.9cm×6.9cm。为保证各端面向上概率相同, 内部做一个十字型框架, 中间挖空, 将六位位置开关固定在六面体的中间, 将控制电路板、电池、LED灯等部件均匀分布在内部空间。

(2) 结果演示

制作并安装硬件电路, 下载程序, 通过实际测试, 旋转六面体, 静止后向上面的所有LED灯亮。接收装置显示该面点亮的LED灯的个数即此面的点数, 并记录当前识别次数。当按下回放按钮时, 一个数码管显示识别次数, 另一个数码管显示对应点数。

摘要：本文介绍了一个类似骰子的正六面体端面自动识别系统的设计和制作。作品以SAA3010T遥控器将正六面体端面的信息发送, 通过51单片机进行解码。文中介绍了原理和制作方法, 并给出了硬件电路和源程序。

关键词：端面特征自动识别,位置开关,红处遥控

参考文献

[1]吴爱萍, 朱晓春, 基于AT89S51的多功能红外遥控器设计, 仪表技术与传感器, 2008

[2]洪刚, 潘小琴, 一种简易红外遥控键盘的设计, 重庆科技学院学报 (自然科学版) , 2008

红外图像自动目标识别技术发展篇2

主要介绍了有关红外图像自动目标识别技术发展的现状.红外图像自动目标识别系统的关键技术包括: 算法和算法执行的`硬件技术.最后指出了红外图像自动目标识别的发展趋势和应用前景.

作者：王甜王建民杨树谦田金文金善良作者单位：王甜,田金文(华中科技大学)

王建民,杨树谦,金善良(中国航天科工集团第三研究院)

自动特征识别篇3

关键词：人脸自动识别,子空间,特征提取

0 引言

人脸自动识别作为一种崭新的生物特征识别方法,在商业、司法、监控和视频检索等众多领域有着广泛的应用前景。与利用指纹识别、视网膜识别、虹膜识别等其他生物特征识别技术相比,人脸识别具有数据采集简单、快捷、无侵扰性、自然性等特点,对于个人而言,几乎可以没有任何心理障碍。

早期的人脸识别研究主要由人脸集合特征的提取方法和模板匹配的方法,Betro对这两种方法进行了全面的分析和比较,确定模板匹配的方法优于集合特征的提取方法。近几年的研究也有两个方面:一是基于人脸整体的研究,考虑到了模式的整体属性,有特征脸方法、人脸密度线分析匹配方法、弹性图匹配方法以及神经网络方法等;二是基于特征分析的方法,就是将人脸的基准点的相对比率和其他描述人脸脸部特征的形状参数或类别参数等一起构成识别特征向量。本文主要基于第二种方法进行了分析和研究。

1 人脸图像的预处理

为了保证人脸在图像中的大小、位置和偏斜的不变形,需要除去头发、脖子、肩及图像背景等与人脸无关的部分。在特征提取之前,需要对人脸图像进行几何归一化处理。对于大多数人来说,两眼之间的距离基本相同,所以,采用两只眼睛的位置作为图像几何归一化的依据。假设人脸图像中两只眼睛的位置分别是Er和El,如图1所示。通过下述步骤,可以实现人脸图像的归一化。

(1)将图像进行旋转,使Er和El的边线 $\overset{— — —}{E_{r} E_{l}}$ 保持水平。这样保证了人脸方向的一致性,实现了人脸在图像平面内的旋转不变性。

(2)根据上图所示的比例关系,进行图像裁剪,设 $d = \overset{— — —}{E_{r} E_{l}} ‚$ 点o为 $\overset{— — —}{E_{r} E_{l}}$ 的中心点,通过裁剪,在2d*2d的图像范围内,保证点固定于(0.5,d)处。这样保证了人脸位置的一致性,实现了人脸在图像平面内的平移不变性。

(3)进行图像的缩放变换,得到统一大小的标准图像,统一规定图像的大小是32*32像素,即使 $d = \overset{— — —}{E_{r} E_{l}}$ 为定长(16个像素),缩放倍数为2d/32。这样保证了人脸图像大小的一致性,实现了人脸在图像平面内的尺度不变性。

经过上述处理,在一定程度上获得了人脸图像表示的几何不变性,而且还基本上消除了头发和背景的干扰。

2 人脸图像的特征提取

经过预处理后,图像的维数依然很高,在高维空间中,人脸图像的分布不紧凑,计算复杂度大,且不利于分类。所以,必须通过有效地手段对图像进行降维,即进行特征提取。子空间分析法是广泛应用于生物特征识别的一种特征提取算法,具有描述能力强、计算代价小的特点。它的基本思想是根据一定的性能目标来寻找一个线性或非线性的子空间,把原始图像压缩到一个低维子空间内,使数据在子空间内的分布更加紧凑,更好地提取出数据中含有特征的信息。本文主要基于主成分分析PCA、线性差别分析LDA和非负矩阵分析NMF三种常用的子空间分析方法进行了研究,随机抽选人脸的5幅图像作为训练集,5幅图像作为测试集,分别利用PCA、LDA和 NMF算法进行特征提取并比较分析。

2.1 基于PCA分析法的人脸特征提取

PCA算法的理论依据是K-L变换,通过一定的性能目标来寻找线性变换W,实现对高维数据的降维。已知存在n个训练样本{xi} $_{i = 1}^{n}$ ∈Rm,其中,xi=(i=1,2,……n)是一个m维列向量,由一幅人脸图像的非负灰度值所组成,变换矩阵W可以通过最大化如下目标函数得到:max(WTSW),其中,S为样本的协方差矩阵, $S = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \overset{—}{x}) (x_{i} - \overset{—}{x})^{Τ} = \frac{1}{n} X X^{Τ}$ ,能够使上式取最大值的变换矩阵W,可以通过求解SW=λW的广义本征值问题得到。

将S的特征值按照降序排列,选择前m(m≤n)个非零特征值所对应的特征向量作为基向量来形成变换矩阵,即W=[w1,w2,…,wn],对于人脸识别问题,基向量也可称为本征脸,变换矩阵W叫做本征空间,将任意一幅图像x向变换矩阵W做投影,即可得到它的PCA特征: $y_{i} = W^{Τ} (x_{i} - \overset{—}{x}) (i = 1, 2 \dots, n)$ 。当人脸的训练样本数目是5,令m=40,应用PCA算法可以得到40个本征脸,这40个本征脸构成的PCA子空间W。

2.2 基于LDA分析法的人脸特征提取

与PCA寻求样本数据的最优重建不同,LDA以提高样本在子空间中的可分性为目标。寻找一组基向量,在这些基向量组成的子空间中,不同类别的训练样本能量有最小的类内离散度和最大的类间离散度,假设n幅人脸图像构成训练样本{xi}(i=1,2,…,n,xi∈Rm)分别属于C个不同的类别,定义类间离散矩阵Sb和类内离散矩阵Sw为: $S b = \sum_{i = 1}^{C} (μ_{i} - \overset{—}{μ}) (μ_{i} - \overset{—}{μ})^{Τ}, S w = \sum_{i = 1}^{C} \sum_{j = 1}^{n_{i}} (x_{j}^{x} - μ i) (x_{j}^{x} - μ i)^{Τ}$ ,其中,x $_{j}^{x}$ 为第i个类别中的第j个样本;μi为第i个类别的均值向量, $\overset{—}{μ}$ 为所有样本的均值;ni为第i类样本的样本数。

通过最小化Fisher准则求取子空间W,即 $J (W) = \arg \max | \frac{W^{Τ} S_{b} W}{W^{Τ} S_{w} W} |$ ,可以证明,当Sw非奇异时,最优投影矩阵W的列向量恰为Sbwi=λSwWi广义特征方程的d(d≤C-1)个最大的特征值所对应的特征向量。将训练样本xi向LDA子空间W做投影,yi=WTxi,其中,低维向量yi即为样本xi的LDA特征。

当人脸的训练样本数目为5,令d=25,利用LDA算法对训练图集进行运算,就可得到25个基向量构成的LDA子空间W。

2.3 基于NMF的人脸特征提取

PCA和LDA基向量的像素点可以是正值也可以是负值,这两种方法缺少直观意义上的由部分合成整体的效果。NMF的基本思想是找到一个母性子空间W,使得构成子空间的基图像的像素点都是正值,而且人脸图像在子空间上的投影系数也是正值。

对于由n幅人脸图像构成的训练样本V={xi}ni=1,其中,xi是一个m维列向量,由一幅人脸图像的非负灰度值组成,NMF将其分解为一个非负m*r维的矩阵W和一个非负r*n的维矩阵H的乘积V≈WH,对于非负矩阵分解问题,常用的目标函数为 $\min_{W, Η} D (V ∥ W Η) = \sum_{i, j} (u_{i j} \log \frac{u_{i j}}{y_{i j}} - u_{i j} + y_{i j})$ ,其中W和H满足 $W ‚ Η \leq 0 \sum_{i} b_{i j} = 1$ ,采用交替梯度投影法,得到迭代公式、根据迭代公式,可以得到由r个基向量构成的子空间W=[w1,w2,…,wr]。训练样本xi向子空间W做投影,即yi=wTxi,低维向量yi即为样本xi的NMF特征。

当人脸的训练样本数目是5,令r=56,利用NMF算法对训练图集进行运算,就可得到56个基向量构成的NMF子空间W。

3 最近邻分类器的设计

在子空间内,为了更精确地刻画人脸的训练样本的分布情况,对训练样本集各类训练样本进行K-L变换,其产生矩阵选为各类训练样本的协方差矩阵,即 $\sum_{i} = \frac{1}{Μ_{i}} \sum_{y \in ϖ i} (y - c_{i}) (y - c_{i})^{Τ}, i = 0, 1, \dots, Ρ - 1$ ,且 $y = U^{Τ} x ‚ x \in ω, c_{i} = \frac{1}{Μ_{i}} \sum_{y \in ω_{i}} y$ ,其中Mi为第i个人的训练样本集合ω中的样本数目。通过K-L变换,可得到各类互不相同的最优表示坐标系,这相当于对原子空间的坐标系分别进行一次旋转变换,称为各类的旋转子空间。

接着,可在两重子空间内实现一个最近邻分类器。设任意两个图像xi和xj的特征向量yi和yj之间的距离定义为它们的欧式距离:d(yi,yj)=‖yi-yj‖2,将待识别图像xnewd向子空间W做投影,得到其分量特征ynew,如果d(ynwe,y1)=midd(ynew,y1),并且xl属于第k类,则分类结果xnew也属于第k类。

4 实验结果

在工作站上对15人,每人10幅图像,共计150幅图像组成的小型数据库进行了实验。该数据库包括了表情变换、微小姿态变换、20%以内的尺寸变换的人脸正面图像。此外还有一些特例,如光照不同、聚焦不准等。

首先,选取每人具有代表性的5幅图像作为训练集,分别应用PCA、LDA和NMF算法构造的PCA子空间、LDA子空间和NMF子空间。对训练集和每人另外5幅图像组成的测试集中的人脸分别根据上述三种算法提取PCA特征、LDA特征和NMF特征。接着利用最近邻规则进行识别,最终的识别结果如表1所示。

从上表可以看出,随着训练样本数目的增多,PCA、LDA和NMF三种算法的识别率都有所提高,这表明训练样本数目越多,学习的越从分,识别率也就越高。

5 结束语

本文分别对PCA、LDA和NMF三种常用的子空间分析方法进行了研究,在一定程度上提高了人脸特征的识别率。人脸识别是一个富有挑战性的课题,但由于人脸识别的理论还不完善,具体算法的实现也有很多的问题有待研究,因此,计算机人脸识别的实用化还需要众多研究人员的不懈努力。随着人脸识别技术的不断成熟,理论研究的不断深入,新的人脸特征提取的方法将会不断改进和完善,人脸识别技术的应用前景将会越来越广泛。

参考文献

[1]Lam K M,Yan H.An analytic-to-holistic approach for face recog-nition based on a single frontal view[J].IEEE Trans on PAMI,1998,20(7):673-687.

[2]Sanaria F,Young S.HMM-based architecture for face identification[J].Image and Vision Computing,1994,12(8):537-543.

[3]王瑜,穆志纯.基于核典型相关分析的姿态人耳、人脸多模态识别[J].北京科技大学学报,2008(10):1200-1204.

[4]李全彬,黄昶.自动人脸识别系统的设计与实现[J].电脑知识与技术,2008(5):75-77.

基于结构特征的空间目标识别算法篇4

基于结构特征的空间目标识别算法

提出了基于结构特征的空间目标识别算法.卫星结构的对称性使得卫星的`一维距离像具有对称性,碎片结构的不对称性使得碎片的一维距离像不具有对称性,文中首先应用RELAX算法提取出目标的强散射中心的位置和幅度,然后根据模式匹配和对称性测度两种方法来检测强散射中心是否具有对称性,进而对卫星和碎片进行识别.经过计算机仿真实验,该算法取得了比较好的识别效果.

作者：马君国赵宏钟李保国 MA Jun-guo ZHAO Hong-zhong LI Bao-guo 作者单位：国防科技大学ATR实验室,湖南,长沙,410073 刊名：现代雷达 ISTIC PKU英文刊名：MODERN RADAR 年，卷(期)： 27(7) 分类号：V474.2 关键词：模式匹配对称性测度空间目标识别

自动特征识别篇5

随着城际出行需求不断增加, 长途汽车客运市场得到了持续发展。然而, 长途客车在运营时, 存在在规定区域外上下旅客的违规行为, 带来严重的安全隐患。这些违规上下客的地点称作长途客运车站外违规载客点。传统方法依靠执法人员现场侦察实现违规载客点的调查, 耗费大量人力和时间成本。

近年来国内各级城市均建有基于GPS的长途客车监控系统, 可实时记录、存储车辆运行的位置与速度信息, 但现有系统主要是通过简单的数据对比实现车辆超速、偏离路线的自动报警[1-3], 无法判断沿规划路线的短时站外载客行为。同时, 主流的GPS轨迹数据挖掘研究集中在交通拥堵状态的识别[4]、出租车驾驶行为分析[5]、个人出行模式分析[6,7]等领域, 在长途客车的站外违规载客点识别方面存在空白。

本文通过深入分析长途客车在深圳运营的GPS轨迹和特征, 提出了一种长途客运车站外违规载客点的自动识别算法, 建立了可视化系统GIS-TP, 可为行业主管部门执法提供数字化参考依据。

二、系统总体框架

GIS-TP的基础数据源是含有ID、经度、维度、瞬时速度和时间戳5个属性的GPS数据。如图1所示, 系统由前后端两部分的6个子模块构成:

数据预处理模块:错误及异常数据检测及处理;

停车事件检测模块:识别长途客车的全部停车事件, 每个停车事件定义为连续多个GPS点的速度为0, 考虑到GPS定位误差, 取这多个GPS点的平均经纬度为停车事件的地理位置、第一个点和最后一个点的时间差为停车时长, 通过设定时长阈值Tstop筛选候选疑似违规停车点;

违规载客地点识别模块:基于停车事件的时空特征自动识别疑似违规载客点;

云计算平台:基于多节点Hadoop集群支持海量GPS数据处理与分析;

GIS (地理信息系统) 引擎:提供空间分析功能, 支撑违规载客点识别算法实现;

GIS服务:提供系统结果、地图的前端可视化服务。

三、长途客车站外违规载客点识别算法

从车辆的角度, 违规载客点通常相对固定且违规载客事件周期性频繁发生;从行业管理者的角度, 重点需要发现具有一定规模的违规载客点, 因此, 算法的第一步是检测出高密度的停车事件发生区域。

步骤一:高密度停车事件发生区域提取

为有效的提取出停车事件簇并确定空间簇的边界, 本文使用核密度生成停车事件的密度分布图, 将研究范围内的空间区域按尺度Lgrid划分网格, 按公式1~3计算每个网格的密度概率, 其中, (x, y) 是网格中心点, K (x) 是二次核函数, d是网格边长, h是带宽 (搜索半径) , n是边长小于h的网格数。

基于停车事件的密度分布, 设定密度阈值DENstop (可自定义调整) 提取高密度网格, 连接相邻网格组成单个停车簇。

步骤二:疑似站外违规载客点推理

从停车事件簇中识别疑似站外违规载客点是算法核心与难点部分, 基于对大量停车簇的实地观测, 本文提出了基于规则的疑似违规载客点识别方法, 消除规则主要包含如下4类: (1) 规划停靠点:用区域表示, 与之相交的停车簇视为正常停靠点; (2) 信号灯停靠点:每个信号灯用空间点表示, 当停车簇与信号灯的最小空间距离低于阈值DIStraffic时, 视为正常停靠点; (3) 交通拥堵停靠点:由交通拥堵造成的停车簇呈现带状形态, 当停车簇为带状且平均行驶速度小于速度阈值Vtraffic时, 视为正常停靠点, 其中停车簇的几何形态由形态指数SI[8]判定。 (4) 其他合法停靠点:包括收费站、维修店、车辆保养店等, 每个合法停靠点用区域表示, 与之相交的停车簇视为正常停靠点。

按照以上规则完成推理后, 剩下的停车簇定义为疑似站外违规载客点。

步骤三:评估疑似等级及特征

算法定义了三层级的站外违规载客可疑度, 常见高频违规载客事件发生地标 (包括长途车站、地铁站、停车场、旅行社等) 附近的疑似违规载客点具有高可疑度, 同一车辆频繁重复出现的点具有中可疑度, 其他点定义为低可疑度。

为了提供更全面、有效的参考, GIS-TP基于海量历史轨迹信息挖掘各疑似违规载客点的高可疑时段和高可疑车牌:假定违规载客事件服从泊松分布, 则单位时段至少发生1次违规载客事件的概率可公式5计算, 其中λ是单位时段事件的平均发生次数;在具体应用中可通过调节单位时段概率阈值和发生次数阈值定义高可疑时段和高可疑车牌。

四、结果分析

4.1违规载客点识别结果总体情况

本研究通过深圳市2000辆长途客车6个月的实际GPS数据验证GIS-TP和提出算法的准确性和可用性。结合深圳市实际情况, 对算法中的相关参数设定如下 (可随场景的变化而调整) :Tstop=30分钟;Lgrid=10米;DENstop=0.005/m2;DIStraffic=30米;Vtraffic=10公里/小时。如表1所示, 从海量停车事件中, 平均每月识别出198个疑似站外违规载客点, 其中高可疑、中可疑、低可疑的比例为5.5:14.3:1;约50%的疑似站外违规载客点重复出现, 符合违规载客点相对固定且违规载客事件周期性频繁发生的认知特征。

如图2所示, 疑似站外违规载客点在公交站附近分布得最多, 其次是地铁站、加油站、停车场和旅行社;73%的疑似站外违规停车点的平均停车时长小于5分钟, 与“车辆快速载客离场”的实际观测经验一致;各疑似站外违规载客点的高可疑时段具有8:00-12:00和18:00-20:00两个较为明显的时段峰值区间。

4.2疑似违规载客点典型实例

图3为系统识别出的某地铁站附近的疑似违规载客区域的实景图和高可疑时段分布图, 该区域平均每月发生130起疑似违规载客事件, 高可疑时段为9:00-10:00 (发现违规载客事件的概率为50%) , 其中有3个车牌高频出现, 对应每月各10起以上的违规载客事件。

4.3实地调查验证情况

本研究从系统识别出的各类疑似违规载客点中随机抽样选取8个进行了实地调查, 包括停车场、加油站、公交站等, 其中高可疑区域4个, 中可疑区域4个, 实地调查高可疑时段1个小时的观测情况, 若发生载客事件则确认系统识别结果。总体调查情况如表2所示, 8个疑似站外违规载客点中, 有6个被确定, 剩余2个在调查期间未发现违规载客现象, 无法确定。抽样调研结果表明GIS-TP识别出的可疑停车区域准确度较高。

五、结语

本文基于车辆GPS轨迹分析, 提出了一种自动识别长途客车站外违规载客点的算法, 并开发了可视化系统GIS-TP, 结合深圳市实际数据的案例分析表明算法的识别结果有较好的准确性、系统功能有较高的可用性。在后续工作中, 可通过深入调查违规载客行为特征、扩展数据样本、提升精度, 并接入实时动态GPS数据, 实现长途客车站外违规载客事件的实时监测与预警。

摘要：部分区域的长途客车在运营时, 存在在规定的停靠站点外上下旅客的违规行为, 带来严重的安全隐患, 现有车辆动态监控系统无法识别这种违规行为。本文提出了一种基于车辆GPS轨迹时空特征的长途客车站外违规载客点自动识别方法, 开发了可视化系统, 通过结合深圳市长途客车实际GPS数据的案例分析, 验证了方法的准确性和有效性。

关键词：信息技术,违规载客点识别,GPS轨迹分析,城市交通

参考文献

[2]Cristian E.Cortés, Jaime Gibson, Antonio Gschwender, Marcela Munizaga, Mauricio Zúñiga, Commercial bus speed diagnosis based on GPS-monitored data, Transportation Research Part C:Emerging Technologies, Volume 19, Issue 4, August 2011, Pages 695-707

[3]Barñññimñek, Fatma Pakdil, Berna Dengiz, Murat Caner Testik, Driver performance appraisal using GPS terminal measurements:Aconceptual framework, Transportation Research Part C:Emerging Technologies, Volume 26, January 2013, Pages 49-60

[4]Zicheng Liao;Yizhou Yu;Baoquan Chen, "Anomaly detection in GPS data based on visual analytics, "Visual Analytics Science and Technology (VAST) , 2010 IEEE Symposium on, vol., no., pp.51, 58, 25-26 Oct.2010

[5]Daqing Zhang, Nan Li, Zhi-Hua Zhou, Chao Chen, Lin Sun, Shijian Li, i BAT:Detecting Anomalous Taxi Trajectories from GPS Traces.Proceedings of the 13th ACM International Conference on Ubiquitous Computing (Ubi Comp'11) , Beijing, 2011.99-108

[6]Quannan Li, Yu Zheng, Xing Xie, Yukun Chen, Wenyu Liu, Wei-Ying Ma.Mining user similarity based on location history.In proceeding of:16th ACM SIGSPATIAL International Symposium on Advances in Geographic Information Systems, ACM-GIS 2008, November 5-7, 2008, Irvine, California, USA,

[7]Jing Yuan, Yu Zheng, Liuhang Zhang, Xing Xie, and Guangzhong Sun.Where to Find My Next Passenger?In proceeding of:Ubi Comp2011:Ubiquitous Computing, 13th International Conference, Ubi Comp 2011, Beijing, China, September 17-21, 2011, 109-118.

植物叶片特征提取及识别篇6

植物保护的一个重要方面就是对植物进行分类研究。无论从植物分类学的角度,还是从计算机图谱的模式识别角度,识别一种植物最直接有效和最简单的方法就是从其叶片着手。研究发现,对于同一种植物,尽管随着时间的变化,叶片的大小老嫩都会变化,但是有一些比例参数基本保持恒定,如叶片内切圆周长与叶片周长的比值及叶片面积与叶片最小包围盒面积的比值等。对不同植物,上述的那些比例参数也完全不同,所以可将精心挑选的6种比例参数作为植物叶片的分类依据,以概率神经网络(PNN, Probabilistic Neural Networks)为分类器,通过网络训练,最后可以很好地对植物叶片进行分类识别。

1 图像预处理

首先,有针对性地采集常见的30种树木叶片,且有意挑选那些斑点较少或无斑点的优良叶片;同时,为了有效提高训练样本集的自相容能力[1]和泛化能力,有代表性地采集每种树木的叶片大小和老嫩不等各15片,使其尽可能多地囊括该种植物叶片的全部特征;然后,通过扫描仪将450多片树叶制成数字图像(见图1所示);接着,对叶片图像进行的预处理,主要包括阈值分割、叶片图像形态学处理和叶片轮廓的提取3个环节;再用叶片轮廓信息计算出叶片形状特征参数,从而得到叶片识别的特征向量;最后,用PNN分类器对样本进行训练,从而识别出叶片所属种类。

1.1 阈值分割

分割的目标是把叶片图像与背景分开,并形成二值图像,以便其后进行叶片轮廓提取和形状特征参数的计算。由于使用了扫描仪,所以叶片图像与其背景的灰度级存在着明显的差别,为此采用计算较为简单方便的双峰法,用VC++语言编程计算出灰度限值,并对图像进行分割。结果表明,尽管原始叶片上存有很细小的斑点,但所得叶片二值图像内部并无小的孔洞,这就为后续工作节约了大量的宝贵时间。图2为用双峰法进行阈值分割所得的结果。

1.2 叶片图像形态学处理

由于不同叶片的叶柄长度不一,且在采集的时候大都受到不同程度的损伤,因此有必要将其从二值图像中剔除。使用形态学处理中的开运算,先进行腐蚀运算,再进行膨胀运算,成功地剔除了叶柄。然而经开运算所得叶片无柄二值图像的叶缘锯齿细节受到了不同程度的损伤,为了恢复原来的完整叶缘锯齿细节,将与剔除叶柄前的二值图像做“与”运算,便可得到剔除叶柄且具有清晰完整叶缘细节信息的二值图像,结果如图3所示。

1.3 叶片轮廓提取

本文采用轮廓跟踪法来确定无柄二值叶片图像的轮廓,具体的算法步骤为:

1) 按从上到下和从左到右的顺序逐次扫描图像,以第1个象素值为1的点作为起始点,如寻找起始点失败则算法结束,否则继续。

2) 以逆时针顺序从当前点右边象素点开始搜索其8个方向上的领域点,如果发现1个未曾搜索过的象素值为1的点,并且该点8个方向上的领域点含有0值象素点,则将此1值象素点置为当前点,同时记录下相应的链码值。重复该过程直到找到起始点。

3) 根据所记录的链码值,采用8方向弗里曼链码法[2]对其进行编码,从而输出轮廓信息。图4所示为找到的叶片轮廓信息,从中可以发现用轮廓跟踪法可以很好地提取出叶片的锯齿细节信息。

2 叶片形状特征参数提取

植物叶片的形状特征是识别叶片所属种类的有效依据。由于同种叶片有大有小,这样就不能用一些绝对值特征作为分类的依据(如周长、面积或横纵轴长等)。研究中,使用一些相对值特征,从叶片轮廓信息如图4所示,可得到带最小包围盒和内切圆的叶片轮廓,如图5所示。由图5可得到最小包围盒(bound_box)、凸包(convex_hull)和内接圆(inscribed_circle)等形状描述。通过以上形状描述,再结合文献[3]中提出的一些特征参量,可以得到以下形状特征参数。

1) 矩形度(Rectangularit):

叶片面积与其最小包围盒面积的比值。

2) 横纵轴比(AxisRatio):

叶片最小包围盒的宽与长的比值。

3) 凹凸度(Convexity):

叶片凸包面积与叶片面积的比值。

4) 圆形度(Circularity):

叶片内接圆半径与其外接圆半径之比。

5) 偏心率(Eccentricity):

叶片自身短轴与长轴的比值。

6) 锯齿度(Sawtooth) :

反映叶缘锯齿的多少,是叶缘锯齿尖像素总数与叶片轮廓像素总数的比值。

以上6项几何形状都具有旋转、平移和尺度不变性特征,从而构成了一个非常有效的特征向量。图1所示叶片的6项特征的参数值为

矩形度:611

横纵轴比:0.452

凹凸度:1.098

圆形度:0.368

偏心率:0.475

锯齿度:0.014

3 PNN分类器

人工神经网络技术由于其自学习、自适应和高度并行性等优点而倍受关注。迄今为止,BP算法是应用最普遍的前馈神经网络学习的算法之一,但由于算法本身的制约,其网络训练速度通常较慢,也比较容易陷入局部极小值。尽管采用一些改进的快速学习算法,可以一定程度上解决某些实际问题,但在设计过程中往往都要经过反复的试凑和训练过程,从而无法严格确保每次训练时BP算法的收敛性和全局最优性[4]。概率神经网络(PNN, Probabilistic Neural Networks)与BP网络相比,具有学习速度较快、收敛性好和网络结构设计灵活方便等特点,因此得到了广泛的应用[5]。

PNN是径向基网络的一个重要分支,它是一种有监督的网络分类器。基于概率统计思想,由Bayes分类规则构成,采用Parzen窗函数密度估计方法估算条件概率,从而进行分类模式识别。它也是3层网络:第1层为输入层,第2层为隐层,第3层为输出层。其隐层神经元个数与输入样本矢量的个数相同,输出层神经元个数等于训练样本数据的种类个数。隐层又称模式层(或样本层),由若干个典型样本集构成;输出层针对隐层每个典型样本的输出进行简单的求和运算。假定训练样本集有M个模式集合{ωi ,i=1,2,…,M },隐层每个典型样本集的样本数分别为N1、N2、…、NM,针对输入样本x,隐层神经元xij的输出为

undefined

其中 d—输入样本的维数;

σ—平滑因子。

输出层第i个输出可以表示为

undefined

4 网络训练及测试结果分析

经叶片采集及其预处理和特征的提取,最终得到30种常见树木的450多片叶子的特征向量,从而构成了网络训练样本和测试样本。从每种树叶的15个叶片中随机地选出10片,共得到300片作为网络训练样本,所剩的150片作为分类测试样本。

为了更好地显示PNN较BP网络的优势,分别训练了PNN和BP两个网络,PNN网络的输出节点均为30,平滑因子均取0.5;然后,在网络测试集中随机地抽出10种叶片共50个待测试的特征向量,输入到已经训练好的两个网络中。分类结果见表1和表2所示。

续表1 PNN与BP分类结果

由表1和表2可见:与BP网络相比,PNN采用Parzen概率密度函数估计方法,并使用Bayes分类规则进行判别,可以获得良好的自相容能力和泛化能力,而且从整个网络的训练及测试过程发现,该网络稳定, 训练不需要太多的样本,过程简单,收敛速度快,因此在植物叶片的聚类预测中取得了非常好的应用效果。

然而,PNN分类器也有其自身的弱点,即随着输入样本数目的增多,网络输出层节点也随之增加,网络计算也将变得复杂,因此运算速度也会着慢慢下降。在本研究中,随着训练集中植物叶片种类的增多,无疑也会遇到类似问题,在以后的研究中有待改进。另外,本研究仅仅涉及到叶片图像的几何特征,有待于在下一阶段的研究中引入纹理特征,从而继续加深和拓宽植物物种的计算机分类研究,最终达到植物保护和生态改良的目的。

摘要：随着计算机技术的飞速发展,对植物的分类研究已经突破了单纯从植物细胞及化学遗传成分的角度去鉴定植物种类的方法,可以综合应用图像处理技术和模式识别技术,辅以图像获取设备实现对植物的快速识别。为此,精心选取了植物叶片图像的典型形状特征,构成了叶片识别的特征向量,然后用概率神经网络(PNN)作为分类器,对样本进行训练。实验结果证明,针对少量常见的植物叶片图像,PNN与BP神经网络相比有更好的识别效率。

关键词：叶片识别,特征提取,PNN,BP

参考文献

[1]CAI Yu Dong,Liu Xiaojun,Chou Kuchen.Artificial neural network for predicting protein subcellular location[J].Computers and Chemistry,2002,26:179-182.

[2]杨顺辽.弗里曼链码法在图像处理中的应用[J].中国水运(理论版.自然科学),2006,4(1):24.

[3]王晓峰,黄德双.叶片图像特征提取与识别技术的研究[J].计算机工程与应用,2006(3):191.

[4]许东,吴铮.基于MATLAB6.x的系统分析与设—神经网络(2版)[M].西安:西安电子科技大学出版社,2002:24.

无序图像自动匹配与识别篇7

图像匹配的方法一般分为两种类型, 直接匹配或是基于特征的匹配。直接匹配的方法试图使用图像的像素值通过迭代的方法对图像进行配准[1,2]。基于特征的方法试图从图像中提取出不同类型的特征, 例如线特征或点特征, 并使用该特征的邻域信息来进行特征匹配[3,4]。

在基于特征的方法中, 目前使用较多的是基于不变特征的方法。这类方法根据点特征的邻域信息计算出相应的特征描述符用以完成特征检索和匹配。这方面的工作最早是由Schmid和Mohr提出的[5], 他们的方法通过对Harris角点进行高斯求导, 形成旋转不变描述符。Lowe对这种方法进行了扩展, 增加了特征的尺度不变性[6]。其他一些研究人员还设计出对于仿射变换不变的特征描述符[7,8]。常用的特征点检测算子包括Harris角点检测算子、DOG检测算子、最大稳定区域的方法[9]。并且在特征点的可重复性和描述符匹配性能评价方面也取得了不错的进展[10,11]。

基于不变特征的方法已经成功地应用到很多领域中, 包括物体识别[6], 从运动获取结构[12]以及全景图像拼接[13]。虽然对图像匹配的研究已经取得了很多进展, 仍然有值得研究的空间, 特别是在现有的文献中缺乏对以下问题的详细讨论:如何对输入的多幅无序图像进行自动匹配与识别, 并将属于同一个场景的不同图像进行分类并合成相应的全景图像。

基于此, 本文设计并实现了一个全景图像自动识别和拼接的系统, 能够对输入的多幅无序图像进行自动分类识别与拼接。整个系统分为特征检测、特征匹配、多图像匹配和多图像识别四个部分。系统首先对输入图像进行MOPS特征检测, 然后使用k-d树对特征点进行快速匹配, 根据最近邻特征点距离与次近邻特征点距离之比得到初始匹配点对。根据图像特征点之间的对应关系使用RANSAC算法建立任意两幅图像之间的匹配模型, 并用概率统计策略对其进行鲁棒校验。本文的主要贡献在于将多图像匹配问题建模为在不同图像节点之间建立无向连通图的问题, 而多图像识别的问题可以归结为对建立好的一个或多个无向连通图进行深度优先遍历。整个系统的流程如图1所示。

1 MOPS特征检测

为了判别输入图像之间是否具有重叠区域以及图像之间的运动模型, 首先对图像进行MOPS特征检测。MOPS算法[14]是Matthew Brown针对图像拼接中尺度变化相对较小提出的一种特征检测算法, 与SIFT[6]相比具有检测速度更快的优势。MOPS算法对Harris算法进行了扩展, 为原本不具备旋转不变和尺度不变的Harris算法增加了一定的旋转不变性和尺度不变性。

对于每一幅输入图像I (x, y) , 首先和SIFT算法类似, 在构造图像金字塔的时候使用子采样率参数s=2, 金字塔平滑尺度参数σp=1.0构造高斯图像金字塔。然后在金字塔的每一层提取Harris特征点。在金字塔第PL (x, y) 层图像处的Harris矩阵计算公式为:

其中表示梯度算子, 积分参数σd=1.0, gσi表示二维高斯卷积函数, 其σi=1.5。为了在金字塔图像中的每一层检测特征点, 首先需要计算Harris角点响应函数fHM:

其中det (HL) 代表矩阵HL的行列式, tr (HL) 代表矩阵HL的迹矩阵, λ1和λ2分别为矩阵HL的特征值。如果金字塔图像PL (x, y) 在 (x, y) 处的角点响应函数值在其3×3的邻域中为最大值, 并且大于阈值t, 则将其作为候选特征点, 在实验中取参数t=10.0。

为了使Harris特征点具备旋转不变性, 需要对每一个候选特征点赋予一个主方向θ。通过对局部梯度进行平滑可以计算得到方向向量uL:

其中积分尺度参数σo=4.5。

一旦确定了特征点在金字塔图像中的位置, 还需要为每一个特征点赋予一个描述符。这个描述符是对特征点所在局部区域的某种描述, 并能够支持不同图像之间可靠的、有效的特征匹配。给定一个特征点fp (x, y, level, θ) , 对以特征点为中心的w×w大小的图像局部块进行采样, 因此特征向量为w×w维。参数w用于控制检测到的特征点数目, w的值越大, 检测到的特征点数目越少。为了使描述符向量对光亮度变化具有不变性, 还需要对描述符向量进行归一化, 使其均值为0, 标准偏差为1。

2 特征匹配

如果拼接的是柱面全景图或球面全景图, 首先需要使用反向映射将每一幅输入图像转换为柱面图像或球面图像, 在转换过程中还需要使用双线性插值避免在图像变换中的走样。然后将每一幅图像中的特征点通过正向映射也转换到相应的柱面坐标系或球面坐标系中, 再进行匹配。在对不同图像之间的特征点进行匹配时, 需要对特征向量进行最近邻搜索。本文采用基于k-d树的最近邻搜索算法, 可以将特征检索的时间复杂度从O (N1N2D) 降低到O (N1log2N2) 。

算法1基于k-d树的快速特征匹配

(1) 为每一幅图像的特征点集构造一颗k-d树;

(2) 依次对每一幅图像的每一个特征点进行遍历。初始时图像索引值i=0, 特征点索引值n=0。对于第i幅图像的第n个特征点, 对所有其他图像的k-d树进行检索, 查找和当前特征点欧氏距离最近的前两个特征点nn1和nn2, 其欧氏距离分别为d1和d2。当d1和d2的比值小于0.6时, 认为是最佳匹配点;

(3) 当所有图像的所有特征点都遍历完成后, 还需要对特征匹配的结果进行校验。假设第i幅图像中第ni个特征点的匹配图像索引值为j, 匹配特征点索引值为nij。需要检查第j幅图像中第nij个特征点对应于图像i的匹配特征点索引值是否为ni, 如果两者不相符就认为该匹配是错误的。

3 多图像匹配

根据图像特征点之间的对应关系就可以建立输入图像集合中任意两幅图像之间的匹配关系。可以用无向图结构来表示这个计算过程, 每一幅输入图像是无向图中的一个节点, 如果两幅图像之间满足给定的匹配关系, 则在这两个节点之间存在一条连接线。多图像匹配问题就是要计算这个无向图结构中所有存在的无向连通图。

算法2基于无向图结构的多图像匹配

(1) 依次对输入的每一幅图像进行遍历, 初始索引值i=0;对除了第i幅图像以外的图像进行遍历, 初始索引值j=0。如果第i幅图像和第j幅图像之间有匹配的特征点对, 就将该特征点对加入到第i幅图像的图像匹配集合中;

(2) 如果第i幅图像和第j幅图像之间匹配的特征点数量大于给定的阈值, 则认为两幅图像之间存在一个可以计算的模型, 并将第j幅图像的索引值加入到第i幅图像的模型集合中;

(3) 用RANSAC算法[15]对第i幅图像和第j幅图像之间的匹配特征点对进行鲁棒校验, 剔除外点, 同时求出两幅图像之间的运动模型参数。

对于每一对潜在的匹配图像之间都存在两组不同类型的匹配特征点对, 一组是符合运动模型几何一致性的特征点对, 即内点;一组是几何不一致性的特征点对, 即外点。本文使用基于统计的策略对图像匹配进行鲁棒校验, 其基本思想是比较这一组内点/外点是由一个正确的图像匹配或者错误的图像匹配产生的概率大小。对于一幅给定的图像, 用nf表示这幅图像在重叠区域中的特征点数目, ni表示这幅图像在重叠区域中的内点数目。可以用服从0-1分布的随机变量m来表示随机事件“这幅图像匹配正确或错误”。假设事件“第i个匹配点对f (i) ∈{0, 1}是内点/外点”是n重伯努利实验, 那么随机变量“内点总的数目”服从二项分布:

其中p1是给定一个正确的图像匹配, 一个特征点是内点的概率;p0是给定一个错误的图像匹配, 一个特征点是内点的概率。因此内点的数目ni=∑nfi=1f (i) 。本文在实验中选择参数p1=0.7, p0=0.01, 与使用RANSAC算法校验后的结果进行对应, 可以通过贝叶斯公式计算一个图像匹配样本是正确的后验概率:

如果p (m=1| f (1:nf) ) >pmin, 则认为该图像匹配是正确的。假设p (m=1) =P (m=0) , 则:

本文在实验中选择参数pmin=0.97, 则当条件ni>5.9+0.22nf成立时, 认为该图像匹配是正确的。

4 多图像识别

一旦建立好图像两两之间的匹配关系, 就可以根据匹配图像的连接集来查找全景图像序列, 还可以对一组输入图像之间存在的一个或多个全景图像进行自动识别, 同时拒绝那些不和其他图像匹配的“噪声”图像。本文把这个问题表示为对多个无向连通图的深度优先遍历。

算法3全景图自动识别算法

(1) 检查图像列表里面是否还有没有拼接过的图像, 如果有, 选择这幅图像记为Ifrom, 作为新的拼接图像Iresult的起始图像, 将其标记为“已经拼接”;如果没有则算法退出;

(2) 假设图像Ifrom的匹配列表中共有N幅图像, 令索引值s=0, 从匹配列表中选取索引值为s的图像Ito, 如果图像Ito还没有被拼接, 则调用算法4对这两幅图像进行拼接;

(3) 令索引值s=s+1, 如果s

算法4全景图自动拼接算法

(1) 根据Ito和Iresult之间的映射关系动态调整包围盒的大小;

(2) 根据包围盒的位置依次调整Iresult中已经拼接过的图像的位置参数, 生成新的结果图像I'result, 将旧的图像Iresult拷贝到I'result中新的位置, 并令Iresult=I'result;

(3) 使用多频带融合算法[16]将Ito与Iresult进行合成, 并记录Ito在Iresult中的位置和索引号, 将其标记为“已经拼接”。依次从Ito的匹配列表中取出每一个元素, 递归调用算法4。

5 实验结果

系统的运行环境为Ubuntu 13.04 64位操作系统, 系统的实现方式为C++语言, Open CV 2.4.5。图2是对两幅具有重叠部分的图像进行MOPS特征检测的结果。图中每一个特征点旁的数字表示两幅图像特征点之间的对应关系, 图中的网格大小为16×16, 表示计算特征点描述符时图像局部块的采样大小, 两幅图像边角处的灰色图像块表示以当前选中特征点为采样中心, 采样大小为16×16的图像局部块中的每一个像素的灰度值。在进行特征匹配时, 如果图像I1和图像I2包含的特征点数目分别为m和n, w为特征向量的维数, 采用直接搜索的算法时间复杂度为O (mnw) , 使用基于k-d树的匹配算法可以将时间复杂度降低到O (mlog2n) 。在参数估计步骤, 假设匹配集U中包含N对元素, 其中内点的数量为I, 计算一次去除外点的操作最少需要m对特征, 则RANSAC算法的时间复杂度与 (N/I) m成正比。在图像融合步骤, 如果两幅图像的重叠区域宽度为w, 高度为h, 频带数为bands, 颜色通道数为c, 则多频带融合算法的时间复杂度为O (bands×c×w×h) 。

图3 (a) 是使用佳能40D相机拍摄的6组共25幅图像, 每一幅图像的分辨率都是1024×683。为了测试系统的正确性和鲁棒性, 在将图像输入系统之前先对这25幅图像进行随机排列。图3 (b) 为这25幅无序图像经过系统处理以后的输出, 共有6幅输出图像。从输出结果可以看到系统能够对输入的多幅无序图像进行正确匹配和识别。另外, 注意到虽然有一幅图像和其他图像有重叠部分, 但是由于这幅图像的拍摄地点和重叠图像的拍摄地点不同, 不满足全景图像合成的要求, 因此作为一幅单独的合成图像输出。

6 结语

本文设计了一种新的无序图像自动匹配和识别系统。这个系统使用MOPS对多幅无序图像进行特征检测, 并使用概率模型对图像匹配进行校验, 在没有任何用户输入的情况下能够对无序图像集中的多个图像序列进行自动匹配与识别, 并将属于同一个场景的多幅图像进行自动拼接。即使图像之间存在由于光照变化带来的亮度差异, 对多频带图像融合方案的采用也能够在图像之间形成平滑过渡, 同时保持高频细节。本文进一步的研究内容包括使用Open CL或CUDA这样的并行计算框架将计算放到GPU中运行, 以及探索其他特征检测、图像匹配和图像融合方法。

摘要：设计一个多幅无序图像的自动匹配和识别系统, 能够根据用户输入的多幅无序图像进行自动匹配和识别, 并对具有重叠的图像进行自动拼接。系统首先对输入的每一幅图像进行MOPS特征检测, 然后通过k-d树的最近邻搜索完成不同图像特征之间的快速匹配。其次基于图像特征之间的对应关系使用RANSAC算法建立任意两幅图像之间的匹配模型, 并用概率算法进行鲁棒校验。通过构建与图像匹配关系对应的无向连通图结构, 实现多幅无序图像的自动识别。最后使用递归算法对无向连通图进行深度优先遍历, 并用多频带融合算法消除拼接痕迹, 合成相应的全景图像。实验结果表明该系统能够自动对多幅无序图像进行自动匹配与识别, 验证了算法的可行性和有效性。

车牌自动识别技术研究篇8

车牌自动识别系统利用计算机对视频交通图像进行处理、分析和识别, 从中提取出车牌信息, 是智能交通管理的关键技术。该技术主要包括三个环节:车牌定位、字符分割和字符识别。该方面的研究目前虽然已有较多成果出现, 但仍存在着许多值得改进的问题, 如现在大多数的车牌识别方法对清晰度高的图像识别率很高, 但都不能解决全天候的问题, 准确率很低。所以提高全天候条件下车牌识别技术的鲁棒性, 是值得深入研究的一个方向。本文以全天候拍摄的视频交通图像为研究对象, 进行车牌识别方法研究, 通过实验与传统的识别方法进行比较, 拟大幅度提升车牌识别的整体准确率与识别速度。

1 车牌定位

车牌定位首先要对车牌图像进行灰度化与边缘提取, 本文采用传统的灰度转换公式, 如下式:

其中R、G、B分别表示彩色图像的红色 (R) 、绿色 (G) 和蓝色 (B) 。分量f (x, y) 为每个像素的灰度值。

本文采用两种边缘检测算子。在边缘提取前先计算灰度图像的灰度均值, 将灰度均值小于经验阈值Q (Q=30) 的图像视为不清晰图像, 采用提取弱边缘效果较好的Canny算子;其他图像视为清晰图像, 采用具有平滑作用的Sobel算子。

为了满足不同清晰度图像的二值化, 本文选用自适应动态阈值来对图像进行二值化。首先设定一个较高的初始二值化阈值, 并利用传统的二值化公式对图像进行二值化, 然后根据二值化后图像中白点数所占比例判定是否降低二值化阈值。本文实验中将比例关系K的值设为0.0025。自适应二值化法对各种清晰度的车牌图像鲁棒性较强, 能有效处理雾天、雨天以及夜晚拍摄的清晰度较低的图像。

得出车牌候选区域后, 需要求出各候选区域的宽、高和其在图像中的位置, 然后根据车牌的几何特征和各候选区域的灰度跳变次数锁定车牌区域。常用的求候选区域位置和大小的方法是用连通区域标记法, 但是连通区域标记法需要判断的点很多, 操作比较复杂导致花费时间较多, 本课题提出一种简单快速的角点提取法, 具体步骤如下:

①逐行扫描找出灰度跳变点, 并判断其是不是角点, 如果是角点, 将其标记。②标记出角点后, 从下往上逐行扫描, 找出第一个角点A后, 判断其它角点与角点A的关系。假设像素点B为另一角点, 且B和A之间能找到一条通路全为白点 (二值化后候选区域全为白点) , 那么A和B属于同一连通区域, 如图1所示。其中, 用来判断的通路只需要四条, 即A和B两点组成的矩形的两条边路, 矩形平行边和其中点连线构成的两条通路。③找出第一个区域的所有角点后, 得出所有角点坐标值x、y的最大值和最小值, 将第一区域的所有白点置为黑点。返回步骤一, 如果搜索不到灰度跳变点, 即表明已找出所有候选区的坐标信息。④根据所得的候选区坐标信息, 求出自适应二值化后的图像中每个候选区域的灰度跳变次数, 然后结合长宽比最终得出车牌区域。

该方法需要判断的点非常少, 因此大大缩短了标记时间, 在复杂度和实时性方面都要优于传统方法。

得出各个区域的角点后, 我们就可以通过角点的位置信息得出各候选区域的位置和大小信息, 然后结合每个候选区域的灰度跳变次数就可以锁定车牌区域。

车牌精确定位的工作是去除边框和铆钉, 得到一个精确的二值化图像, 粗定位后得到的车牌区域图像比较小, 适合做一些增强图像质量的处理和几何校正, 这既能增加精定位的精度, 又能提高后续的字符识别率。本文在这一环节利用灰度跳变次数进行水平切分, 然后利用垂直投影法进行垂直切分, 由于之前已经进行了几何矫正, 所以在水平方向上用灰度跳变次数进行投影切分最为简单, 而且非常的精确。图2为本文粗定位和精定位的实验效果图。

2 字符切割

经过车牌定位处理后, 得到的是一个精确的二值化图像, 为了后续的字符识别, 需要将车牌的7个字符分别分割出来, 这就是字符切分环节的任务。

由于在定位环节已经完成了几何校正和增强图像质量的处理, 所以本文直接采用基于模糊决策的垂直投影法进行字符分割字符。利用各字符间的间隔, 做车牌二值化图像像素灰度的垂直投影, 根据垂直投影的结果做一些模糊决策, 具体步骤如下:

①将精确定位的车牌图像上下左右各增加一行黑色像素。②对白色像素点在水平轴上投影统计, 找出投影的波谷段, 并标记。③求出相邻波谷段的距离, 以及各波谷的宽度, 如果前波谷段末和后波谷段前之间的距离小于二分之一倍的平均字符宽度w (可由精定位后图像的高度得出) , 且两波谷的宽度不能全部大于某一经验值 (一般为0.4倍的w) , 则其为断裂区, 或者是汉字, 可通过合并消除一个波谷段。④如果前波谷段末和后波谷段前之间的距离大于1.5倍的平均字符宽度w, 则为两字符粘连, 大于2.5w则为三字符粘连。可以根据情况通过w增加一至三个波谷段, 最终找出最合适的八个波谷段。

3 字符识别

对于数字、字母的识别, 本文提取了字母和数字的八个特征并建立特征集, 它们分别是:①环的个数H1;②字符的下半图与上半图白色像素点个数比例H2;③字符的左半图与右半图白色像素点个数比例H3;④字符图像垂直方向上的平均灰度跳变次数H4;⑤字符下半图水平方向的平均灰度跳变次数H5;⑥字符上半图水平方向的平均灰度跳变次数H6;⑦左半图纵向白点线段特征H7;⑧右半图纵向白点线段特征H8。在字母数字识别过程中, 通过计算待识别字符图像的八维特征向量与库集中向量的相似度来进行字符识别。

本文所选的八个特征受字符图像的模糊程度的影响较小, 抗干扰能力强, 并且能完全区分所有的数字和字母, 对于相似字符, 如数字“0”和字母“D”, 还有数字“8”和字母“B”, 在二值化图像质量很差时容易串识, 所以本文采用特征点匹配法对这四个字符进行二次识别。

对于汉子识别, 首先要提取汉字的模糊轮廓, 步骤如下:

①对归一化的汉字二值图像先进行从上至下的列扫描, 标记出每列第一次遇到的白点。②再次进行从上至下的列扫描, 找出没有标记点的列, 为这些列添加虚拟标记点, 假设第n列没有标记点, 添加的方法是从该列向左右方向同时发散寻找第一个有标记点的列, 如果有一个方向没有找到, 则该列不用标记, 如果两个方向均找到, 则比较所找到的两列的标记点的h (行位置) , 取其中较小的h作为第n列的标记点。该操作的目的是为那些不连通汉字添加虚拟边缘, 例如“川”。③判断相邻两列标记白点的位置, 如果第n+1列的标记点与第n列的标记点之间的垂直像素个数大于1, 则标记该像素。④对汉字图像进行从下至上的列扫描, 标记出每列第一次遇到的白点后, 然后执行类似第②和③步的操作。⑤对汉字图像进行从左至右的行扫描, 标记出每行第一次遇到的白点后, 然后执行类似地②和③步的操作。⑥对汉字图像进行从左至右的行扫描, 如果该行既有上下列扫描时的标记点, 又有行扫描标记点, 则去掉行扫描标记点左方向的列扫描标记点。⑦对汉字图像进行从右至左的行扫描, 标记出每行第一次遇到的白点后, 然后执行依次类似地②、③和⑥步的操作。

图3为“鲁”的模糊轮廓提取效果图和“川”的前两步效果图

在提取完模糊轮廓后, 我们会得到一个闭合曲线, 在提取傅里叶描述子特征前, 需要得到闭合曲线的的坐标, 本文采用传统的链码跟踪法, 图7为几个汉字图像提取模糊轮廓后跟踪坐标的实验效果图。

4 实验与结论

本课题选取了400幅定点拍摄的全天候视频交通图像进行试验, 其中200幅为晴天拍摄得的高清晰度图像, 剩余200幅为阴雨天、夜晚或者雾天拍摄的低清晰度图像。汽车车速均小于60km/h。表1为本文对400幅图像的定位结果, 表2为本文对392幅定位车牌的识别结果。

实验结果表明, 本课题对全天候图像的整体定位率大约为97.7%, 字符识别率大约为95.6%, 整个车牌识别系统的识别率约为93.4%, 误识率为6.6%, 平均识别时间约为0.5s/幅。相对传统的车牌识别方法, 在定位时间基本没有增加的前提下, 大大提高了识别率, 证明了本文方法的可行性和有效性。实验同时表明, 本文提出的方法识别时间相对较短, 鲁棒性强, 对于全天候条件下拍摄的车牌图像识别具有应用价值。

参考文献

[1]Takashi Naito, Toshihiko Tsukada, Keiichi Yamada, et al.Robust license-plate recognition methods for passing vehicles under outside environment, IEEE Transactions on Vehicular Technology, 2000, 49 (6) :2309-2319.

[2]Anagnostopoulos C., Anagnostopoulos I, Loumos V, Kayafas E, A License Plate-Recognition Algorithm for Intelligent Transportation System Applications, IEEE Transaction on Intelligent Transportation Systems, 2006, 3 (7) :377-392.

自动识别字母的研究篇9

在识别字母时, 我们只关注字母的形状, 而其颜色、大小等其它因素不会影响整个识别过程, 因此可以先屏蔽掉这些因素, 再判断其形状是否与我们认识的字母相符。基于上述的考虑, 我们将字母图像转换成灰度图或黑白二值图像, 并对其消噪及图像增强, 利用边缘检测、寻找连通区域实现图像分割, 最后计算分割出的区域与字母模板的相关性, 从而判定是哪个字母。

为了实现上述的操作, 我们需要对图像中的每个像素做相应的处理, 用矩阵运算能很好的实现。而MATLAB (矩阵实验室) 的基本数据单位是矩阵, 可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等, 因此用MATLAB解算识别过程简单快捷。

1. 自动识别的原理及过程

1.1 灰度图

图像识别处理中, 采用的方法需要将彩色图转换成灰度图, 即把白色与黑色之间按对数关系分为256阶, 即灰度, 而用灰度表示的图像为灰度图。在计算机中, 图像通常采用RGB彩色模型, 可以通过浮点算法、整数法、移位法、平均值法或仅取绿色法求得Gray, 将原来RGB中的R、G、B统一用Gray替换, 形成新的颜色RGB (Gray, Gray, Gray) , 用它替换原来的RGB (R, G, B) 即得到灰度图。

首先利用imread函数读入需要识别的RGB图像, 再调用函数rgb2gray使用浮点算法Gray=R×0.299+G×0.587+B×0.114将其转换成灰度图, 屏蔽掉色彩因素, 使识别过程简化。

1.2 图像增强

将图像转换成灰度图后, 我们在图像中经常见到的一些随机的白点或者黑点, 即椒盐噪声 (salt-andpepper noise) 。这些噪声通常是由图像采集、压缩、信道传输、解码处理、切割等图像处理过程中产生的黑白相间的亮暗点。在图像进一步处理之前, 通常需要进行一定程度的降噪。在字母识别中, 无需考虑图像降质的原因, 只需要进行图像增强, 将原来的图像变得清晰, 或强调突出图像中感兴趣的特征, 抑制不感兴趣的特征, 使之改善图像质量、丰富信息量, 提高图像的可懂度, 加强图像判读和识别效果。通过对字母图像的分析, 可以使用具有代表性的中值滤波直接在原图像上进行数据运算, 对像素的灰度值进行处理, 以达到去除或减弱噪声的效果。

中值滤波是一种非线性数字滤波器技术, 常用于去除图像中的杂质, 其设计思想是检查输入信号中的采样并判断它是否代表信号, 使用技术个采样组成的观察窗实现这项功能。观察窗口中数值排序, 位于观察窗中间的中值作为输出, 然后丢弃最早的值, 取得新的采样, 重复上面的计算过程。它不但与输入信号有关, 而且与窗口形状有关, 不同的图像内容和不同的应用要求, 往往采用不同的窗口形状和尺寸。常用的二维中值滤波窗口有线状、方形、圆形、十字形及圆环形等。窗口尺寸一般先用3×3, 再取5×5逐渐增大, 直到滤波效果满意为止。中值滤波是图像处理中的一个常用步骤, 不仅去除图像中的噪声, 同时保持图像中物理的边缘, 在一定条件下, 克服线性滤波器所带来的图像细节模糊。它能有效消除图像处理所产生的椒盐噪声, 同时还保持了字母边缘的完整性。

在MATLAB中, 将二维中值滤波功能封装在med filt2函数中, 使用时只需调用就可以了。方法如下:B=medfilt2 (A, [m, n]) ;其中B是中值滤波后得到的图像矩阵, A是原图矩阵, m和n是处理模版大小, 默认3×3。字母图像经处理后得到的效果如下图所示。

1.3 图像分割

为了便于识别, 将图像二值化, 即灰度图像转换为黑白二值图像。例:B=im2bw (A, level) , 输出图像B将输入图像A中亮度值大于阈值level的像素值替换为1 (白色) , 其他替换为0 (黑色) , 其中输入图像A最好是像素点, 但要取得每个像素点一一判断较为烦琐。识别过程中, 可以取图像中的区域来分析处理, 即图像分割。

图像分割是图像检索、识别和理解的基本前提步骤, 将图像中有意义的对象与其背景分离, 基于灰度图像中灰度值的不连续性和相似性, 将图像划分成若干个具有特性的互不相交的小区域。小区域是某种意义下具有共同属性的像素的连通集合, 即集合中任意两个点之间都存在着完全属于该集合的连通路径。对于离散图像而言, 有4连通和8连通之分, 在这里采用8连通来确定区域, 即从区域上一点出发, 通过左、右、上、下、左上、右上、左下、右下这8个方向的移动组合, 在不越出区域的前提下, 到达区域内的任意像素。在二值图像中标记连通区域, 使用bwlabel函数。用L=bwlabel (B, n) ;语句调用函数, 其中n的值为4或8, 返回一个与B大小相同的L矩阵, 包含了标记B中每个连通区域的类别标签, 标签的值为连通区域的个数。

字母图像中通常字母与背景之间灰度值相差较大, 图像具有局部不连续的特性, 在分割过程中应该进行边缘检测, 提取图像特征进行形状分析, 以保证切割出来的字符都紧贴边缘。边缘检测有多种方法, 选用不同的方法, 图像处理效果也不同。我们希望通过简单的运算快速得到效果好且完整的边缘, 因此采用自动选择阈值Sobel算子进行边缘检测。Sobel算子是一离散性差分算子, 用来运算图像亮度函数的梯度之近似值。Sobel算子分别用水平算子和垂直算子对图像进行卷积, 得到横向及纵向的亮度差分近似值。A表示原图像, Gx及Gy分别表示经横向及纵向边缘检测的图像, 其公式如下:而图像中的每个像素的梯度大小由公式将其横向及纵向梯度近似值结合得到, 并由公式得到梯度方向。

在MATLAB中, 提供了现成的函数edge实现上述算法, 通过语句B=edge (double (A) , 'sobel') , 即可得到原图像经自动选择阈值Sobel算子边缘检测的效果图。图像分割得到的效果如下图所示。

1.4 模板匹配

在识别前, 首先创建每个字母的图像模板, 再将其与原图像比较, 寻找目标, 以确定在原图像中是否存在与该模板相同或相似的目标区域, 若该目标存在, 确定其位置并提取该区域, 即实现模板匹配。在原图像中寻找的目标应该与模板有相同的尺寸, 具有相同的数据格式, 在图像分割过程中得到区域图像通过imresize函数调整大小, 而目标区域的搜寻使用计算两者相关系数的方法实现。

在匹配过程中使用计算相关系数的函数corr2 (A B) , 即在大小为m×n的图像A (x, y) 中寻找匹配的大小为j×k的子图B (x, y) , 其算法如下

其中x=0, 1, …, m-1, y=0, 1, …, n-1, 是B中像素的平均值, 是A中与B当前所在位置相重合区域平均值。相关系数 (x, y) 在-1到1之间取值, 与A和B幅值中的区间变化相独立, 若为1或-1或者接近1或-1则表示源图像中找到与模板完全匹配或者相似的子图。

1.5 关键性代码

在识别过程中, 图像的分割、寻找连通区域、边缘检测、模扳匹配等处理需要依据字母图像的实际尺寸及字母个数而多次循环。为了代码更清晰, 自定义line (和cut () 函数实现图像分割, 定义read_letter () 函数实现模板匹配。

2、识别效果

带有噪声的原RBG字母图像Figure1经上述自动识别过程, 最终识别出字母, 并将结果写入记事本tex中, 如下图所示。

3. 适用性分析

该自动识别系统只适用于识别某种特定字体的字母和数字。如果识别各种各样的字母或数字, 则需要为每个字母、数字创建各种模板, 且匹配过程繁琐、速度慢、代价太高, 这种情况一般采用基于神经网络的识别方法。虽然该识别方法有一定的局限性, 但由于其实现简单, 识别速度快, 广泛应用于车牌识别、帐号识别等系统中, 值得进一步深入探讨研究。

摘要：本文阐述了自动识别字母的主要思想及其过程, 详细阐述了识别过程式中所使用的关键技术的原理, 及MATLAB环境下的实现方法。

关键词：图像,字母,识别,MATLAB

参考文献

[1]冈萨雷斯、阮宇智、阮秋琦.《数字图像处理 (第2版) 》.电子工业出版社.2007-08

[2]冈萨雷斯.《数字图像处理 (MATLAB版) 》.电子工业出版社.2005-09

[3]王爱玲、叶明生、邓秋香.《MATLAB R2007图像处理技术与应用》.电子工业出版社.2008-01

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【自动特征识别】相关文章：

目标自动识别05-11

生物特征识别技术研究论文04-26

自动识别系统介绍05-29

人脸识别图像特征提取方法及其应用09-11