两级识别神经网络技术论文

2022-04-23

摘要:随着机器学习领域深度学习研究,以及大数据语料的积累,语音识别技术得到突飞猛进的发展,开始从实验室走向市场。语音识别技术已经逐渐进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。本文主要分析和总结了当前几种具有代表性的语音识别方法,介绍了其中关键的语音信号处理和语言模型建立的方法,最后总结了目前语音识别技术领域的研究成果及进展。以下是小编精心整理的《两级识别神经网络技术论文(精选3篇)》,仅供参考,希望能够帮助到大家。

两级识别神经网络技术论文 篇1:

图像魔术师

编者按:光学字符识别(OCR),是将图像中的文字识别为可编辑的文字的技术。OCR技术极大地推动了纸质书籍数字化的进程,使得浩如烟海的存量书籍转化为数字版本成为可能,是数字化图书馆建立过程中当之无愧的最大功臣。当OCR技术插上人工智能的翅膀,更是将应用拓展到很多行业,如场景文字识别、手写识别、车牌识别、证件识别、汽车VIN码识别、发票识别、智能交通……使相应领域的工作方式和效率得到了前所未有的革新。因此,我们将分两期探讨光学字符识别(OCR)的发展以及使用。

OCR(Optical Character Recognition,光学字符识别)是指电子设备(如扫描仪或数码相机)检查字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,即采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。传统的OCR技术已经发展了几十年,如今在人工智能(AI)的推动下,OCR技术又焕发出了新的活力。

● 汉字OCR发展沿革

我国使用汉字的历史源远流长,汉字的识别远比数字、西文要棘手,主要体现在以下三个方面。

1.数量庞大

和10个数字、26个英文字母相比较,汉字的数量可以说是一个天文数字。1994年出版的《中华字海》收录了87019个汉字,目前计算机上最全的字库,收录了91251个汉字。国标GB2312-80字符集有6763个汉字,其中一级汉字3755个,使用频度已经覆盖99.7%的使用范围,二级汉字3008个,两级汉字总使用频度达到了99.99%。所以,目前主要解决一级汉字的识别。即使这样,汉字识别也属于大类别数的模式识别问题。

2.结构复杂

汉字的结构性很强。汉字可以看作是部件的组合,称之为偏旁、部首或字根,是笔画的有意义的组合。笔画和部首的排列组合,构成了结构异常复杂的汉字。

3.相似字多

很多汉字之间差别很小,有些仅表现为某一个笔画位置或形态的微小变化。这些汉字即使由人来识别也容易出错,机器识别的难度可想而知。

正是由于这些原因,汉字的识别一直落后于西文。国际上最早展开对汉字识别的研究是在1966年,BIM公司发表了第一篇关于印刷体汉字识别的论文,利用简单的模板匹配法,能够识别1000个印刷体汉字。

1977年东芝综合研究所研制出可以识别2000个单体印刷汉字的识别系统;20世纪80年代初期,日本武藏野电气研究所研制出可以识别2300个多体汉字的印刷体汉字识别系统,识别率达到99.88%,识别速度大于100字/秒。

我国对汉字识别的研究主要分为三个阶段:①探索阶段(1979—1985年)。我国对汉字的识别研究是从20世纪90年代开始的,研制出了模拟识别软件和系统,发表了一些论文成果,为汉字的识别打下了坚实的基础。②研制阶段(1986—1988年)。这三年是汉字识别技术研究的高潮期,总共有11个单位进行了14次印刷体汉字识别的成果鉴定,识别率高达99.5%以上,识别速度达到10~14字/秒。由于印刷体文字形状发生了變化,软件的适应性和抗干扰性比较差,实际上识别率是比较差的,还达不到实用的效果。③实用阶段(1989年至今)。国家高技术研究发展计划(863计划)、国家重点科技攻关计划、国家自然科学基金和军事基础研究基金都对印刷体汉字识别这一研究课题给予了极大的重视和大力的支持。目前,印刷体汉字识别和联机手写汉字识别走向实用化,其技术水平和当前世界最高水平并驾齐驱。清华大学电子工程系研制由清华紫光集团推出的TH-OCR、汉王集团推出的汉王OCR、尚书OCR,是我国印刷体汉字识别领域的翘楚。

2016年,阿尔法狗与世界冠军李世石在围棋领域的惊世骇俗的一战,极大地推动了人工智能研究的热潮,以深度学习、卷积神经网络技术为代表的人工智能思想,在各个领域都得到了研究和应用。OCR技术在人工智能的推动下,进入了一个新的发展阶段。和传统OCR聚焦在印刷体汉字识别上不同,人工智能助推下的OCR对手写体的识别更上一层楼,在各种不同复杂背景环境下的文字识别也进入实用阶段。iOS15刚刚推出的图片识别文字(Live Text)功能,就是苹果公司人工智能研究的成果。我国互联网科技公司也扎堆人工智能跑道,百度、搜狗、腾讯、有道等都推出了OCR接口,可供我们使用或软件调用。可以预见,类似Live Text功能的软件将很快普及,各种复杂环境下的文字识别(场景文字识别)将不断提高识别率和识别速度,达到好用、易用的目的。

● 传统汉字OCR原理

目前现存大量传统汉字OCR软件的技术线路如下图所示。

1.文件管理

通过扫描仪、手机、相机等仪器采集需要识别的文字图片。

2.图像增强

图像增强即是对图像的成像进行修正,特别是手机、相机拍摄的图片,如果不进行修正,将极大地影响文字识别率。处理过程包括灰度化、二值化、几何变换(透视、扭曲、旋转等)、畸变校正、图像增强和光线校正、图像平滑、行字切分等。

(1)灰度化

我们得到的文字图片大多是彩色的,无疑会有很多干扰信息,对文字识别很不利。通过灰度化处理,将原本由三维描述的像素点映射为一维描述的像素点,可以排除多余的干扰。

(2)二值化

所谓二值化,就是把灰度值图像信号转化为只有黑和白的二值图像信号,将汉字从图像中分离出来。通常先确定像素的阈值,然后用像素的值和阈值比较,确定这个像素点为1或0。如果阈值太小,保留的信息过多,许多无用信息就会干扰以后的处理;如果阈值太大,则会丢失正常的信息,最终使得文字信息不完整,无法准确识别。

(3)行字切分

传统OCR主要采用模式匹配来进行汉字识别,所以要将图像中的文字首先切分成行(列),再将单个汉字抠出来,以和模式库中的文字进行比对。

3.汉字识别

汉字识别的关键是建立一个科学的特征库,通过图像预处理后,提取出汉字的特征,再和特征库进行比对,匹配上就完成了汉字的识别。汉字有哪些特征可供提取呢?

(1)结构特征

结构特征包括抽取笔画法和松弛匹配法。抽取笔画法是利用汉字的结构信息来进行汉字的联机识别;松弛匹配法是基于全局特征的匹配方法,抽取边界线段,将这些边界线段组成临近线段表,然后用松弛匹配操作,完成边与边的匹配。

(2)统计特征

①特征点:主要是利用字符点阵中一些有代表性的黑点、白点作为特征来区分不同的字符。特征点包括笔画骨架线的端点、折点、歧点和交点。这个方法能压缩特征库的容量,识别的适应性强、直观性好。

②笔段特征:汉字笔画由笔段组成,笔段可以看作是一定方向、长度和宽度的矩形段。利用笔段之间的关系组成特征对汉字进行识别,对多体汉字的识别效果较好。

当然,汉字的多样性和图像的不同特点决定了在汉字识别过程中,提取特征要根据实际情况来选择或者组合几个特征,以达到更好的效果。

4.编辑

目前的OCR都无法达到百分之百正确识别,通常识别完以后,都要提供一些方法对文字进行编辑修改。一般OCR软件都会提供对照修改或自动修改功能。对照修改就是观察识别错误的文字,将光标定位到错误处,界面会同时显示对应的图像位置,从而根据图像来修改文字。自动修改则是基于语义理解,结合上下文信息进行校正。语义理解是人工智能领域一个亟待突破的难点,目前的自动修改还只能作为一个参考来使用。

通过编辑的文字最终可以导出到文本文件(TXT)或RTF文档中。如果只需要文字进行排版,可以导出到文本文件中,如果想保留更多的格式信息,则RTF文档是一个不错的选择,从而可以在Word等软件中进一步编辑。

● PC机实用OCR软件指南

传统汉字OCR软件,大多是收费软件,或者随扫描仪随机提供。其中清华文通TH-OCR、汉王PDF OCR是国产扫描仪自带得最多的OCR软件。需要注意的是,对传统汉字OCR技术的研究从20世纪80年代末开始已经非常成熟,文字识别率已经非常高,所以,这些软件已经长期没有得到更新,但不影响它的实用性。在国际上声誉最高的是ABBYY FineReader,它是一款功能最强大的OCR软件,能将纸质文档、扫描件和PDF精确转换为Word、Excel。在处理PDF文档时,与数字方式生成的PDF文档相同,使用内嵌的OCR功能,可以无差别处理包含扫描件在内的任何PDF文档。它可以在同一工作流程中对各种文档进行数字化检索、编辑、保护,共享和协作变得更加容易,已经超出了普通OCR软件的范畴。

随着人工智能技术在OCR领域的普及,深度学习使得OCR从传统的印刷体光学字符识别走向了场景文字识别。一些开源小软件通过调用互联网大公司提供的接口提供OCR服务,能非常方便地解决某些领域的难题。

1.汉王PDF OCR

汉王集团除了OCR搭上了人工智能的快车,在手写识别、自然语言识别、人脸及生物特征识别等方面也得到了很大的发展。OCR方面,除了印刷体字符识别外,还在手写体字符识别、自然场景拍照识别、公式字符识别、复杂表格识别、卡片识别、票据识别等方面具有一定的优势。

如果我们需要把大量纸质文件数字化,汉王PDF OCR还是非常快捷方便的。

①输入:点击“文件”菜单,可以直接打开图像文件,或者选择联机的扫描仪扫描纸质文件。

②图像增强:如果扫描或拍照的文件有倾斜现象,可以在“编辑”菜单的“自动倾斜校正”中进行校正。如果效果不理想,“编辑”菜单下还提供“手工倾斜校正”。因为软件多年没有更新,图像增强方面提供的功能非常有限,特别是手机拍照产生的畸变无法校正,是这款软件的遗憾。

③版面分析:在“识别”菜单下有“版面分析”功能(快捷键F5),对图像中的文字进行切片。如果识别有错误,可以手工拖动红框进行修改。如果版面比较复杂,可以点击选中相应的板块,在“识别-修改栏属性”中设置相应的栏目为图像、表格、横排、竖排,为接下来的文字识别提供更好的识别率。

④文字识别:单击菜单“识别-开始识别”(快捷键F8),就会在中间栏显示识别结果,速度很快。

⑤文字编辑:在识别结果中,系统判定可能有错误的文字会用红色显示。点击识别错误的地方,相应文字的上面一行会用黄色显示扫描的这一行文字以作为对照,同时图像也会自动定位到相应的位置,并用红框框出正在修改的文字,以供修改时参考。同时,文本栏上方还会对光标所在文字提供修改意见,如果有正确的字,单击鼠标可以将文本修改过来,非常方便、直观。

⑥输出:点击“输出-到指定格式文件”,有TXT、RTF、HTML、XLS四种格式可以选。如果要保留原来的排版,输出成RTF格式,然后就可以用Word打开,继续完成排版工作。比较遗憾的是,虽然版式能大体保留下来,但每一行文字会作为一个段落。可以选中一个自然段,通过Word的“替换”功能(组合键Ctrl+H),在“查找内容”输入“^p”(或在下面的“特殊格式”中选中“段落标记”,会自动输入“^p”),让“替换为”留空,单击“全部替换”,就会把本段中多余的换行去掉。

汉王PDF OCR虽然较长时间没有更新,但还是能满足大量扫描文件识别的要求,如教材的数字化等。同时,软件还提供直接打开PDF文件,并能直接将文字化的PDF转化为RTF文件的功能,除了每行后会有一个段落标记外基本上能比较完美地复原PDF文档的版式。

2.天若OCR

天若OCR是一款开源软件,它本身并不具备OCR功能,而是通过调用各大OCR公司提供的接口来进行文字识别。因为要调用网络上提供的接口才能识别文字,所以它必须联网才能工作。它的最大用处是将计算机屏幕上能显示的文字识别出来,而不管这些文字是真正的文字(如各种网文、文库)还是图片、PDF文档,只要屏幕上能显示,都可以将其变为可编辑的文字。

天若OCR软件非常简洁,启动后只有一个浮动工具栏和一个类似空白记事本的界面。按“F4”键(或单击浮动工具栏的“T”),鼠标变成一个“十”字,右下将放大鼠标所在位置的图像。按下鼠标左键,拖动鼠标选中需要识别的文字,松开鼠标以后,识别结果就出现在主界面中,可以进一步修改。最后点击“docx”按钮,就能将文字导出到一个Word文档中,印刷体的识别率几乎达到百分之百。和汉王等传统OCR软件相比,天若能准确进行段落识别,再也不会在每行后面多出一个段落标记。它的缺点是对排版格式保留得不是很好,不适合于纸质文档数字化。

有了这款软件,我们可以解决几个主要问题:

①复制某些不方便复制的文档。我们在网上找到某些有用的文字时,经常被限制复制,需要注册会员、VIP等。有了这款软件,可以轻松完成复制文字任务。

②PDF转文字。微软Office 2013以后的版本都支持编辑PDF,可很多计算机还停留在Office 2007甚至Office 2003的版本。通過这款软件,不管是文字还是图片格式的PDF文档,都可以轻松转换成可编辑文本。

③图片文字识别。这个是OCR软件的基本功能,可以直接打开图片进行识别。

④表格、公式、竖排文本等复杂文本识别。复杂文本识别需调用收费接口或专用接口,需要下载天若专业版,收费使用。

随着人工智能技术的发展,深度学习和神经网络的研究与各行各业的结合,OCR也插上了飞翔的翅膀。从传统的汉字识别,到现在的图文混排和多语种混排的版面分析、版面理解和版面恢复,复杂场景下文字的识别等,都得到了极大的发展。多种多样专用识别系统的出现,标志着印刷体汉字识别技术的应用领域得到了广阔的扩展。

作者:刘宗凡

两级识别神经网络技术论文 篇2:

语音信号处理中的识别技术

摘要:随着机器学习领域深度学习研究,以及大数据语料的积累,语音识别技术得到突飞猛进的发展,开始从实验室走向市场。语音识别技术已经逐渐进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。本文主要分析和总结了当前几种具有代表性的语音识别方法,介绍了其中关键的语音信号处理和语言模型建立的方法,最后总结了目前语音识别技术领域的研究成果及进展。

关键词:语音识别;信号处理;机器学习;人工智能;概率统计

1研究背景

语音信号处理,主要包括三项技术,即语音识别、语音编码和语音合成。本文所研究的自动语音识别技术,就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高技术。70年代,语音识别技术有了重大突破,动态时间规整技术基本成熟,使语音变得可以等长,另外,矢量量化和隐马尔科夫模型理论也不断完善,为之后语音识别的发展做了铺垫;80年代对语音识别的研究更为彻底,各种语音识别算法被提出,其中的突出成就包括HMM模型人工神经网络;目前许多国内外知名研究机构,如微软、讯飞、Google、IBM都积极开展对深度学习的研究。现在,国内有不少语音识别系统已研制成功。这些系统的性能各具特色——在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统[4]  。

2语音识别技术

2.1  语音信号采集

语音信号采集是语音信号处理的前提。语音通常通过话筒输入计算机。话筒将声波转换为电压信号,然后通过A/D装置(如声卡)进行采样,从而将连续的电压信号转换为计算机能够处理的数字信号。目前多媒体计算机已经非常普及,声卡、音箱、话筒等已是个人计算机的基本设备。其中声卡是计算机对语音信号进行加工的重要部件,它具有对信号滤波、放大、A/D和D/A转换等功能。而且,现代操作系统都附带录音软件,通过它可以驱动声卡采集语音信号并保存为语音文件。

2.2  語音信号预处理

语音信号号在采集后首先要进行滤波、A/D变换,预加重和端点检测等预处理,然后才能进入识别、合成、增强等实际应用。滤波的目的有两个:一是抑制输入信号中频率超出FS/2的所有分量(FS为采样频率),以防止混叠干扰;二是抑制50Hz的电源工频干扰。因此,滤波器应该是一个带通滤波器。A/D变换是将语音模拟信号转换为数字信号。A/D变换中要对信号进行量化,量化后的信号值与原信号值之间的差值为量化误差,又称为量化噪声。预加重处理的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,便于频谱分析。

2.3  语音信号的特征参数提取

1、短时平均能量En和短时平均幅度

短时平均能量和的短时平均幅度主要用途如下:

(1)     可以作为区分清音和浊音的特征参数。

(2)     在信噪比较高的情况下,短时能量还可以作为区分有声和无声的依据。

(3)     可以作为辅助的特征参数用于语音识别中。

2、短时平均过零率

短时平均过零率的应用:可以作为区分清音和浊音的特征参数。清音过零率高,浊音过零率低。用两级判决法进行语音端点检测。

短时平均过零率的局限性:浊音和清音重叠区域只根据短时平均过零率不可能明确地判别清、浊音。

3、短时自相关分析

4、短时平均幅度差函数

5、基音周期估值

语音的浊音信号具有准周期性,其自相关函数在基音周期的整数倍处取最大值。计算两相邻最大峰值间的距离,就可以估计出基音周期。为了突出反映基音周期的信息,同时压缩其他无关信息,减小运算量,自相关计算之前需要对语音信号进行适当预处理。

6、线性预测系数

在语音识别中,常用线性预测编码技术抽取语音特征。线性预测编码的基本思想是:语音信号采样点之间存在相关性,可用过去的若干采样点的线性组合预测当前和将来的采样点值。线性预测系数是以通过使预测信号和实际信号之间的均方误差最小来唯一确定。语音线性预测系数作为语音信号的一种特征参数,已经广泛应用于语音处理各个领域。

2.4  语音识别的主要方法

语音识别所采用的方法一般有模板匹配法、随机模型法和概率语法分析法三种。这三种方法都是建立在最大似然决策贝叶斯(Bayes)判决的基础上的。

(1)模板(template)匹配法

在训练阶段,用户将词汇表中的每一个词依次说一遍,并且将其特征向量作为模板存入模板库。在识别阶段,将输入语音的特征向量序列,依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。

(2)   随机模型法

随机模型法是目前语音识别研究的主流。其突出的代表是隐马尔可夫模型。语音信号在足够短的时间段上的信号特征近似于稳定,而总的过程可看成是依次相对稳定的某一特性过渡到另一特性。隐马尔可夫模型则用概率统计的方法来描述这样一种时变的过程。

(3)   概率语法分析法

这种方法是用于大长度范围的连续语音识别。语音学家通过研究不同的语音语谱图及其变化发现,虽然不同的人说同一些语音时,相应的语谱及其变化有种种差异,但是总有一些共同的特点足以使他们区别于其他语音,也即语音学家提出的“区别性特征”。

除了上面的三种语音识别方法外,还有许多其他的语音识别方法。例如,基于人工神经网络的语音识别方法,是目前的一个研究热点。目前用于语音识别研究的神经网络有BP神经网络、Kohcmen特征映射神经网络等,特别是深度学习用于语音识别取得了长足的进步。

3结束语

本文简要介绍了语音识别的主要方法以及语音识别领域的发展与现状,将语音识别的各个过程进行了详细介绍和概括总结,分析了各种语音识别方法的特点和实现方式。语音识别是一门交叉学科,它涉及到信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等方面的知识,所以它的发展依赖于各个领域的技术创新进步。相信在不久的将来,语音识别技术一定会在语音交互、语音检索、命令控制、自动客户服务、机器自动翻译等领域得到广阔的应用。

参考文献:

[1]   赵力.语音信号处理[M].北京:机械工业出版社,2011.

[2]   George Dahl、俞栋等.基于预训练的上下文相关深层神经网络的大词汇语音识别.2012

作者:王雯婕

两级识别神经网络技术论文 篇3:

基于蚁群神经网络的泄漏特征融合算法研究

摘要:文章采用蚁群算法对神经网络的参数加以优化,提出了一种基于蚁群神经网络的特征参数融合模型。从理论分析的角度给出了优化的蚁群神经网络所体现的优势和特点,识别化工园区泄漏隐患,有效提高化工装置管道的泄漏识别的预测精度,为园区科学管理提供技术支撑。

关键词:蚁群神经网络;泄漏特征;融合算法

一、 前言

为提高园区化工园区管道泄漏识别的检测精度,针对传统BP神经网络网络收敛速度慢,管道泄漏识别误差偏大的缺点,本文结合管道泄漏监测的具体需求,建立化工园区管道泄漏特征参数的蚁群神经网络融合算法,提出基于蚁群算法优化BP神经网络,进行其结构以及参数的优化,从理论分析的角度给出了优化的蚁群神经网络所体现的优势和特点,识别化工园区泄漏隐患,有效提高化工园区管道泄漏的识别预测精度,为园区科学管理提供技术支撑。

二、 泄漏事故情景构建

对于化工装置管道泄漏监测报警系统而言,利用管道瞬态模型,根据管道的实际情况,检测泄漏对化工园区管道运行参数造成的影响,采用压力定位、流量报警,以及压力、流量综合分析的方法进行报警,确定管道是否发生泄漏情况。鉴于管道各进、出站都安装有流量计的情况,综合运用流量平衡法判断管道泄漏与否,当管道发生泄漏时,泄露處压力突然下降,可以利用瞬时流量来判断管道是否泄漏。如果管道正常,管道上(下)游端压力和流量同时上升或下降;如果管道发生泄漏情况,由于管道内外的压差,使得泄漏处的压力突然下降,管道瞬时流量下降。结合压力和流量的变化特征,可以判断管道泄漏是否发生。

构建化工装置管道泄漏事故情景结构图,如图1所示,该情景结构图包括情景、后果和任务三部分组成。

提取出泄漏特征参数以后,进一步综合分析、处理这些泄漏特征参数,判断管道是否发生泄漏以及泄漏的等级,如果在一定的时间内泄漏量超出了门槛值,将产生泄漏报警,给出四个级别:级别1(无泄漏),计算结果是小于门槛值;级别2(可能泄漏),计算结果超过门槛值,发出“可能的泄漏”警告;级别3(泄漏预警),泄漏计算结果已经超过门槛值一段时间或大于1倍~3倍门槛值,发出“泄漏预警”警告;级别4(泄漏报警),泄漏计算结果已经超过门槛值,从级别3起已经持续一个确定的时间,发出“泄漏报警”信号。

三、 BP神经网络和蚁群算法原理

1. BP神经网络。目前最广泛使用的定义是Kohonen于1988年提出的,神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织可以模拟生物神经系统与现实世界物体的交互反应。神经元是以生物研究及大脑的响应机制而建立的拓扑结构网络,模拟神经冲突的过程,多个树突的末端接受外部信号,并传输给神经元处理融合,最后通过轴突将神经传给其它神经元或者效应器。神经元的拓扑结构如图2所示,这个模型中,每个神经元都接受来自其它神经元的输入信号,每个信号都通过一个带有权重的连接传递,神经元把这些信号加起来得到一个总输入值,然后将总输入值与神经元的阈值进行对比(模拟阈值电位),然后通过一个“激活函数”处理得到最终的输出(模拟细胞的激活),这个输出又会作为之后神经元的输入一层一层传递下去。

θi表示该神经元的阈值,根据生物学中的知识,只有当神经元接收到的信息达到阈值是才会被激活。因此,我们将Netin和θj进行比较,然后通过激活函数处理以产生神经元的输出。如果输出值有一定的范围约束,比如用来分类,一般使用的激活函数是Sigmod函数,它可以把输入从负无穷大到正无穷大的信号变换成0到1之间输出。如果没有约束的话,可以使用线性激活函数(即权值相乘之和),得到的输出为:

yj=f(Netin-θj)

将公式化简一下,设第一个输入永远值为θ,权值为-1,可以得到公式:

其中w0=-1,x0=θj,其中f为选择的激活函数。

在BP神经网络中,单个样本有m个输入,有n个输出,在输入层和输出层之间通常还有隐含层,即这三层分别是输入层(I),隐含层(H),输出层(O)。如图3所示。

关于隐藏层的选择,在BP神经网路中,输入层和输出层的节点数目都是固定的,关键的就是在于隐藏层数目的选择,隐藏层数目的选择决定了神经网络工作的效果。一般而言,有一个关于隐藏层数目的经验公式。其中h为隐含层节点数目,m为输入层节点数目,n为输出层节点数目,α为1~10之间的调节常数。

作为应用最广泛的神经网络模型之一,BP神经网络理论不断地得到完善和发展,研究学者运用该神经网络解决了不少实际应用问题。但BP神经网络在广泛使用的过程中也暴露出了如下的一些不足:

(1)存在局部极小问题;

(2)学习收敛速度慢,且收敛速度与初始权值的选择有关;

(3)BP神经网络的网络结构设计,即隐藏层和接点数的选择至今尚无统一而完整的理论指导,一般由经验选定;

(4)新加入的样本会影响已经学习成功的网络。针对标准BP算法收敛速度慢、容易陷入局部极小值的问题,利用附加动量项来加以改进算法,常规BP算法的权值修正量为:Δωji(n)=ηδj(n)yj(n)。在BP算法中,步长η的选择很重要,η大则收敛快,但是过大则可能引起不稳定(η最大不能超过■,λmax为输入向量x的自相关阵的最大特征值)。η小可避免振荡,但收敛速度变慢,解决这一矛盾的最简单方法就是加入“动量项”,即令:Δωji(n)=ηδj(n)yj(n) +αΔωji(n-1),0<α<1。

与标准的最速下降BP法相比,更新权值时,上式多了一个因式αΔωji(n-1),称为动量项,其通过在权值更新中引入稳定性来提高标准反向传播的速度;α称为遗忘因子,通常在0,1之间取值。它表示,本次权值的更新方向和幅度不仅与本次计算的梯度有关,还与上次更新有关。加入这一因式使权值更新具有一定的惯性,并且具有了一定的抗震荡能力,加快了收敛速度。其作用分析如下:

当顺序加入训练样本时,公式可写成以t为变量的时间序列,因此上式可看做是Δωji的一阶差分方程,对Δωji(n)求解,可得:

标准的最速下降法采用固定大小的学习率,无法根据情况调整学习率的值。在动量BP法中,更容易找到最小值点,而不会陷入来回振荡。

2. 蚁群算法原理。1992年,意大利学者Dorigo.M,Maniezzo V,Colorni A首先提出蚁群算法,简称ACO(Ant Colony Optimization)。蚁群算法ACO是一种新型的模拟进化算法,该算法是由蚂蚁觅食得到启发而来的,采用蚁群在搜索食物源的过程中所体现出来的寻有能力来解决一些离散系统优化中的困难问题。应经用该方法求解了旅行商问题(TSP问题)、指派问题和调度问题等,取得了一系列较好的实验结果。

蚂蚁这类群居昆虫,虽然单个蚂蚁的行为非常简单,但是由单个蚂蚁组成的蚂蚁群体的行为却非常复杂,这个群体可以完成复杂的任务。究其原因是因为蚂蚁个体通过一种叫做信息素的物质传递信息,蚂蚁移动时,可以把信息素留在自己经过的路径上,这样它们就可以感知到这种物质的存在,同时感受到该物质的强度并朝着物质强度高的方向移动,从而指导它们的运动方向。如果蚂蚁群体在运动方向遇到障碍,由于蚂蚁群体是均匀分布的,所以剛开始无论路径的长短如何,蚂蚁总是按照相同的概率选择各种路径。由于蚂蚁能够在运动路径上留下信息素,信息素浓度越高,蚂蚁就会越多,相同的时间内较短路径中蚂蚁群体留下的信息素浓度较高。

因此,随后蚂蚁选择较短路径的概率也会随之增加,导致选择较长路径的蚂蚁越来越少,从而逐渐消失。通过这种信息素的交流,最终蚁群个体之间选择了寻找食物的最佳途径,这就是蚁群算法的生物学背景和基本原理,它用一个形象化的图示描述如下。如图4-a所示,假定蚂蚁从巢穴越过障碍物到达食物源有两条道路可走,各点之间的距离,如图4-a中的d所示。假定蚂蚁绕过障碍物周围的两条道路分别为:巢穴—ABC—食物和巢穴—ADC—食物,设每个单位时间有30只蚂蚁从巢穴点到达A点,有30只蚂蚁从食物点到达C点,蚂蚁过后留下的信息素为1。由于路径CB,CD,AB、AD在初始时刻均无信息素,位于A点和C点的蚂蚁以相同的概率随机选择路径CB,CD,AB、AD,如图4-b所示,即每条路径上分布15只蚂蚁。经过一个时间单位后,在路径CDA上的信息量会是路径CBA上信息量的两倍。如图4-c所示,随着时间推移,在信息素的指导下,蚂蚁群体选择路径CDA的概率会越来越大,最终所有蚂蚁都会放弃路径CBA,完全选择路径CDA,最终找到从巢穴搜索到食物的最优路径。

蚁群算法属于随机搜索算法的一种,众多研究已经表明,蚁群算法具有很强寻优能力,因为利用正反馈原理,该算法在一定程度上可以加快寻优的过程,蚁群算法具有以下优点:(1)具有很强的鲁棒性:只要对基本蚁群算法的模型稍加修改,便可以应用于其他问题;(2)并行性和全局收敛性:该算法是一种基于种群的进化算法,不同个体之间可以进行信息交互和相互协作,易于并行实现;(3)易于同其他启发式算法结合:蚁群算法很容易与多种智能算法结合,通过组合优化提高算法的性能。

四、 泄漏特征的蚁群神经网络融合模型

对于BP神经网络而言,其学习方法可以很好的调整系统参数,训练一个BP神经网络,实际上就是调整网络的权重和偏置这两个参数,参数的调整速度依赖于初始阶段状态选择,这可能会减慢收敛速度并影响收敛结果。蚁群算法是一种随机搜索的全局优化算法,通过选择合理的蚁群模型参数,进行网络的有效训练,使网络尽快收敛,同时避免陷入局部最优解,大大提高了网络的鲁棒性和自学能力。

将蚁群算法与神经网络算法融合的基本思想是假定神经网络中有m个参数将被优化,包括所有权值和阈值。首先,将这些参数排序形成一个集合Is,然后将蚂蚁的数量定义为k,这些蚂蚁从巢穴出发去搜索食物,蚁群中的每只蚂蚁根据集合Is中每个元素的信息素状态从集合中随机选择一个参数出发,不同蚂蚁选择的元素彼此独立,当蚂蚁选择完集合中所有元素后,它们到达食物源并按照原始路径返回巢穴,依照蚁群算法根据信息素调节规则调节集合中所选元素的信息素,重复正反馈过程,当所有的蚂蚁收敛到相同的路径时,就意味着找到网络参数的最优权值,搜索结束。蚁群神经网络融合算法具体步骤如下:(1)设置初始条件:在蚂蚁搜索的初始时间t=0时,将所有蚂蚁都放在巢穴中。最大迭代次数设置为Nmax,每个集合中的每个元素的信息素浓度初始化为常量;(2)遍历,启动蚂蚁,每只蚂蚁从集合Is开始,集合Is中的元素选择依次按照路径选择规则进行;(3)信息素更新,重复步骤(2),直到满足最大迭代次数或找到最佳权值;(4)网络的二次学习训练,用蚁群算法得到的最优解作为BP神经网络参数训练样本的初始权值,对网络进行二次训练,直至满足误差要求。

利用蚁群算法为一般的BP神经网络的初始权值和阈值寻优,经过合理选取蚁群模型参数,利用最佳的权值和阈值组合来优化BP神经网络性能,改进的网络可以利用蚁群算法优越的全局寻优特性加快算法收敛速度,其泄漏识别精度也高于传统神经网络优化算法,克服BP神经网络的常常不稳定、易发生震荡、易于陷入局部最优值等缺陷。

参考文献:

[1] 王全国,汤银才,管强.石化装置气体泄漏频率的贝叶斯分析[J].数理统计与管理,2016,35(4):594-602.

[2] 吕红芳,顾幸生.基于蚁群神经网络的两级信息融合算法[J].上海交通大学学报,2016,50(8).

[3] 程加堂,艾莉,熊伟.基于蚁群神经网络的滚动轴承故障诊断[J].轴承,2012,(2):34-36.

[4] 黄博,师奕兵,张伟,等.基于蚁群神经网络的油气套管裂缝缺陷检测[J].测控技术,2011,30(3):98-102.

[5] 章晓英.基于蚁群算法优化BP神经网络的数控机床热误差补偿[J].组合机床与自动化加工技术, 2013,(10):50-53.

作者:于秀丽 王旭坪

上一篇:法律适用问题分析管理论文下一篇:高职院校新生入学教育论文