特征码提取

2024-05-19

特征码提取(精选三篇)

特征码提取 篇1

随着同步卫星数量的增加,同步卫星之间的轨位最小间距已小于1.0°,卫星间距越来越小,接收系统在天线对星过程中很有可能发生目标卫星跟踪错误的情况。为了提高卫星接收系统的可靠性和跟踪精度,需要在移动载体卫星电视接收系统处于跟踪状态时,加入卫星识别信号,以确定跟踪的卫星是否为目标卫星。

同步卫星的可识别特征主要包括以下四个方面[1]:同步卫星的地理方位、信标信号、信号频谱以及解码后的数据流特征。依据卫星的可识别特征, 现有的卫星识别系统中大都采用卫星地理方位识别方案和频谱识别方案。卫星地理方位识别方案的精度和可靠性比较低。 频谱识别方案的精度高,但系统成本高,开发难度大。 通过分析数据流特征,提出了基于FPGA的卫星网络识别码(NID)提取方案,并应用于卫星识别系统中。

1 卫星网络识别码分析

卫星电视天线系统接收到的信号经下变频、调谐解调后输出符合MPEG-2标准的188Bytes传输码流(TS流)[2]。TS流中除了音频、视频以外,还加入了许多辅助数据信息,以实现对节目的服务功能。欧洲电信标准协会(ETSI)在ETSI EN 300468V1.10.1中规定了DVB中业务信息(SI)的规范。业务信息(SI)主要包括以下四部分[3]:程序关联表(PAT),条件接收表(CAT),节目映射表(PMT),网络信息表(NIT)。

NIT的作用主要是对多路传输流的识别,NIT提供多路传输流,物理网络及网络传输的一些相关信息。NIT中包括网络识别码(Network_ID,NID)及一些描述,它由ETSI300468定义,符合ISO/IEC13818-1标准。

TS流中的NIT提供有关物理网络的信息,每个网络都有唯一的识别符,NIT主要携带的信息包括网络识别码(NID),网络名称,传输系统参数,节目业务类型及节目业务识别(Service_ID)。由于网络信息表中的网络识别码具有唯一性,所以从TS流提取出的卫星网络识别码可以作为判断目标卫星的依据。因此应用网络识别码识别卫星的方案具有可行性和可靠性。部分卫星的参数[4]如表1所示。

TS流中NIT的PID为0x0010,Table_ID为0x40。基于网络识别码识别卫星的方案就是依据PID将NIT从TS流中分解出来,然后根据Table_ID将NID提取出来[5],经过判断产生卫星识别信号。

2 硬件电路设计

硬件电路核心功能是提取TS流中的NID。由一体化调谐解调器(TUNER),现场可编程逻辑门阵列(FPGA)和单片机控制系统组成。电路组成如图1所示。其工作原理为:室外高频头低噪声下变频后的第一中频信号(RF信号)送到TUNER,调谐解调出的TS流经FPGA判别提取出NID,通过I2C总线从FPGA将NID传递给单片机控制系统,经比较判断后得到卫星判别码(0x00,是目标卫星;0xFF,不是目标卫星), 单片机经UART串口将卫星判别码送到天线控制器作为天线跟踪的参考信号。其中TUNER选用夏普公司的BS2F7HZ0184,FPGA选用Xilinx的3S50AN,单片机选用PHILIPS的P89V51RD2。

3 软件设计

卫星识别电路的软件包括两部分:

(1)现场可编程门阵列FPGA程序

此部分采用硬件描述语言编程,可以用有限状态机表示从TS流中提取NID的过程[6]。如图2所示。FPGA启动后读取TS流中的字同步信号和数据流信息,首先找到包头字节0x47,然后判断是否包识别符PID为0x0010并且表识别符为0x40,是则包数据为网络信息表数据,再判断包数据中校验数据的正确性,如正确则提取出包数据中的NID,如果在过程中不符合上述条件则返回检测包头字节状态进行下一循环检测提取过程。应用Modelsim对卫星网络识别码提取程序进行仿真,仿真结果如图3所示。

(2)单片机控制程序

控制流程如图4所示。首先对单片机端口、寄存器、UART串口以及按键显示进行初始化。然后写调谐解调器控制字,读调谐解调器状态,读FPGA提取出的NID并比较分析得出卫星识别信号。然后接收天线控制器的控制信号,发送卫星识别信号到天线控制器;在进行按键扫描和刷新显示数据后进行下一次循环。

4 结束语

为了避免移动载体天线接收系统在自动跟星过程中跟错目标卫星的情况,需在天线跟踪系统中加入卫星识别信号。NID码可以作为卫星的识别信号,本文提出的基于FPGA的NID码提取方案可靠性高,成本低。依据方案原理,给出了方案实现的硬件组成和软件流程。并将其应用于船载卫星电视接收系统中,在相同外界条件下,提高了接收系统的性能。

参考文献

[1]张滨,张峰干,蔡国新,等.卫星信号检测[J].中国有线电视,2009(1):29-31.

[2]林智慧,李雷民.卫星通信的技术发展及应用[J].现代电子技术,2007(3):38-40.

[3]ETSI EN 300468 V1.10.1[J].2009,7:17-29.

[4]沈永明.卫星电视接收完全DIY[M].人民邮电出版社,2007:553-591.

[5]ETSI TS 101162 V1.3.1.[J].2010,12:14-16.

特征码提取 篇2

关键词:汉英语码转换 特征 类型 淘宝网

自2003年成立以来,淘宝网现如今的成功如实的反映了其卓越的推广策略。近年来,随着中国国际化程度的不断提高,汉英双语人数的海量提升,使用了汉英语码准换的淘宝网网页广告,就成了语言使用的动态化体现。作为语言接触的产物,语码转换是指在同一次对话,交谈或语篇中使用两种或两种以上语言或同一语言两种或两种以上的变体。汉英语码转换作为双语(或多语)者独有的语言现象,自20世纪70年代以来一直是语言学家关注的热点之一。

本研究随机选取了淘宝网网页上能够首先映入人们眼帘的广告语篇119条作为研究对象,综合运用定性和定量的方法,对其中的汉英语码转换现象的特点进行了归类,并以此为依据,分析了淘宝网含有汉英语码转换的广告主要有四种类型及其相对应所使用的语码转换策略。

一.含有汉英语码转换的广告呈现出三点特征:

(1)受众多带有女性消费者的消费特征

本文的语料收集来于淘宝网的不同板块,以期能够得到相对全面的综合性结果,但是,笔者发现此类广告都较为明确的以吸引女性消费者注意为目标。例如,许多广告都包含有“new”, “fashion”,“popular” 和 “beautiful”这类的英文单词,而相对而言,女性消费者对该类英文单词的敏感度明显高于男性消费者。此外,很多以推销女性专用产品的广告,如内衣,化妆品,饰品广告等都自然而然的体现出女性特征,但是另外一些包含男性消费者,甚至以男性为主要消费群体的产品广告,如电子产品等所使用的汉英语码转换,也都将女性的消费心理考虑在内。

例1:一起来YOGA 360°自由翻转平板笔记本

这是一款平板笔记本电脑广告,在汉语的广告语篇中插入了“YOGA”。普遍而言,女性消费者对于“YOGA”所对应的“瑜伽”的形象有更敏锐和更直观的感知,因而该广告对女性消费者的消费刺激作用较强;与此同时,男性消费者也会被带领进入想象的空间,将该笔记本电脑的形象与姿态柔美舒展的女性瑜伽联系起来,也不失为一种既贴切又有新意的广告宣传。

(2)该类广告的主要目的是推广某一特定的产品类别而非某一特定产品

整个淘宝网网站的运营者出于资源整合的考虑,会更愿意在主页上为某一类产品做推销,以期起到对同类产品所有卖家产品的宣传作用。这样做,不仅是考虑了降低各个商家的广告成本,是更加经济,并且是更加符合整合营销策略的。作为一个商业网站的整体,这样的安排使得整个网站的布局更加齐整,也更加方便买家分类浏览,准确找到目标商品所在的大类。

例2:双11来了!COMING SOON!

很显然,这个广告语篇是为现如今每年一度的“双十一”淘宝狂欢所做的预热宣传,插入了“COOMING SOON”这一英语表达。这一广告并不是某一特定的鞋类商户所发布的,而是对整个鞋类板块的宣传。由于本文所选择语料范围遵循醒目原则,选取在网页上显著位置出现的广告,即这类广告的位置在某种程度上决定了它们更倾向于为某一类产品做宣传。英文表达的插入不仅使得宣传更加醒目,也表达了其本身的含义,即增加了一种购物狂欢节即将到来的紧迫感。

(3)包含汉英语码转换的广告语篇的排版显示出特定的推销策略

作为一种可视的推销形式,包含汉英语码转换的广告语篇,其汉语与英语的排列是以达到最强的宣传效果为目的进行人为排列的。这种排列往往以彰显最主要的卖点为己任,将最重要最吸引眼球的信息排列在最显著的位置。

例3:THE WATCH OF CHINA 中国好手表 国货当自强

在这则广告中,“CHINA”以英文的形式和最大的字体被被放在最显著的位置上,而整体上的英文表述“THE WATCH OF CHINA” 被排列在最上方相对更醒目的位置,广告发布者似乎是在以这样的形式,用世界通用语---英语向全世界宣布,中国制造的手表一样好,甚至更好。英文字符的插入加上刻意的板式编排,将宣传的最大效果传递给买家。

二.含有汉英语码转换的广告主要有四种类型的构成方式

(1)直接插入

直接插入是指英文单词或表达被直接插入到中文广告语篇当中的现象。在本文所收集的研究对象当中,28个广告中出现了该现象,占总数的23.5%。

例4:(盘发)韩盘发小3岁DIY 秋扎发1分钟秒杀

(韩式)韩编发3分钟2步 编发+发饰显V脸

在中文的广告语篇中,英语 “Do It Yourself”的缩写“DIY”取代了对应的汉语表达“自己动手”,被插入到该广告语篇当中。此外,在第二行当中,英语大写字母“V”被插入。“V”并不是一个英语单词或英语表达,但是这一英语大写字母的形象以一种直观的形式代替了汉语中“瓜子脸”这一表达,从而使得这一广告的内容表达简单明了。

(2)重现

重现是指所出现的英语词汇或者表达,是广告语篇中汉语表达的翻译或部分翻译。重现是最常使用的插入方式,占所收集语料的40.3%。

例5:原创品牌 Original brand

例6: 情侣浪漫约会指南 ROMANTIC DATING

由重现的定义分析上面两个例子,例5中呈现的英语表达,是对汉语广告语篇内容“原创品牌”的全部翻译;与例5不同,例6中的英语表达“ROMANTIC DATING”则只是对汉语广告语篇“情侣 浪漫约会指南”当中“浪漫约会”的对应翻译,属于部分翻译。这样的英语翻译,都是对原广告语篇中重点信息的重复,具有强调作用。

(3)新信息插入

新信息插入是指广告语篇中出现的英语表达,是对汉语广告语篇信息内容的增加,且增加的新信息是由英语来进行表达的。这类广告占所收集语料的26.9%,比直接插入所占比例略高。

例7: 甜蜜约会 不一样的圣诞 全场包邮MERRY CHRISTMAS

该例中的英语表达“MERRY CHRISTMAS”对应的汉语意思“圣诞快乐”是在原来的汉语广告语篇中所缺失的信息。依据前面分析到的汉英语码转换的特征之一,广告的受众多为女性消费者,所以“约会”和“CHRISTMAS”等字眼,能够很好的满足她们对于欢度圣诞的渴求。如果原广告中的“MERRY CHRISTMAS”被替换为其对应的汉语表达“圣诞快乐”,该广告的内容虽然没有受到任何影响,但其中“CHRISTMAS”的“洋味”就被取消掉了。

(4)呼语式表达

呼语式表达是指通过使用具有号召性的英语表达来引起消费者的注意或引起他们的购买欲望的汉英语码转换策略。该类广告占比11.9%。

例8:千元降 万人GO

例9:创意生活 Lets购

这两个广告语篇中的“GO”和“购”是很有意思的一个现象,即英语表达与汉语表达同音异形,在语篇中出现了相互替换。在例8当中,“万人GO”应该是“万人购”,而在例9当中,“Lets 购”应该是“Lets go”。在英语中“Lets go”本来就是具有号召性的呼语式表达,这种汉英同音表达灵活的替换,不仅不影响广告语篇信息的传递,而且给使用了这一表达策略的广告语篇增加了吸引力和号召力。

三.结语

本文以定量的方式,以含有汉英语码转换的广告语篇为研究对象,进行了分析并取得了量化的分类。当然,本文的取材数量尚且有限,因而不可能完全涵盖所有,同时,越来越多购物网站的出现,不仅是一种商业竞争,也是在给我们语言生活领域提供更为宽广的研究空间与可以进行比较的研究对象。两者相辅相成,因而以此为基础的语言研究不仅对于完善语码转换的相关理论具有铺垫意义,也对语码转换在实际生活中的使用有指引价值。

参考文献

1.郭林花. 大学校园英汉语码转换的形态句法特征[J]. 现代外语,2006 (1).

2.何安平. 中英混合语码的语言特点及文化功能[J]. 现代外语, 1992 (1).

3.黄国文. 语篇分析的理论与实践—广告语篇研究[M]. 上海: 上海外语教育出版社.

人民币冠字号码的提取与识别 篇3

冠字号码是用以控制各种票券印制数量和防伪作用的冠字和号码。依靠纸币上的“冠字”与“号码”,再辅以银行和印钞厂的存档资料,可以追溯任何一张纸币的印刷时间、印刷地点、印刷人员、检查封装人员等等相关信息。在我国人民币一般实行“一票一号”,也是说冠字号码代表每张人民币独一无二的身份。另一方面,人民币印刷过程中可能出现错号、重号、缺号等情况。同时,自从2011年起,全国各地陆续发现了以“TJ55”,“AZ88”,“WL55”,“YX86”冠字号码开头的假人民币,仿真机高,破坏了社会的经济秩序和社会信用原则。因此,识别纸币的序列号具有十分重要的意义。

人民币原始的识别方法是人工识别方法,这种方法是人力物力浪费严重,且成本高、效率低,难以适应现代社会的发展要求。目前,在纸币号码识别方面,主要使用不等式技术、神经网络技术等识别技术和识别方法。差别不等式方法是根据已有的经验人为地选择特定的算法,同时,必须包括每一张人民币纸币的阈值和特征差别点,所以效率比较低下,神经网络算法识别率很高,但是其要求的数量是十分庞大的,需要采用大量的训练样本,耗费大量的时间,该算法的一个严重问题,就是不能满足设备实时性的要求。文献[1]中提出了采用随机掩膜来提取人民币纸币的特征,将其用神经网络进行识别。从而大幅缩减了训练样本的规模,取得了较好的识别结果和识别率,也解决实时性问题。本文根据纸币序列的特点提出了基于模板匹配的人民币序列号识别方法,能够快速的识别序列,同时还具有一定的稳定性。

1 人民币图像的预处理

图像的预处理是图像识别前的重要工作,通过一系列特定的操作,改变图像的像素,达到特定的目的。一般来说,它应该包含图像采集、灰度化、二值化、线性滤波、直方图调整等,经过预处理后,排除了许多干扰为后续的提取和识别工作提供了很多便利的前提条件。

1.1 图像的采集

将人民币的纸币放在固定的位置上,通过摄像装置进行多张拍摄。采集到的人民币纸币的彩色图像如图1所示。

1.2 彩色图像转化灰度二值图像

采集到的纸币图像是彩色图像,也就是RGB图像。RGB色彩模式是一种颜色标准,是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,RGB即是代表红、绿、蓝三个通道的颜色,这个标准几乎包括了人类视力所能感知的所有颜色。因为灰度图像只有强度信息,所以需要把彩色图像转化为灰度图像(见图2),它把图像用一个二维矩阵来表示,在RGB模型中,如果R=G=B时,则彩色表示一种灰度颜色,其中R=G=B的值叫灰度值,因此,灰度图像每个像素只需一个字节存放灰度值,灰度范围为0~255。矩阵中的每一个元素代表原图中每一个像素,灰度化不仅降低了内存的开销,而且提高了系统的执行速度。本设计用的灰度化公式如下:

在号码识别中,还需要将灰度图像转化为黑白二值图像再进行识别。二值图像就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果。在数字图像处理中,灰度大于或等于某阈值的像素被判定为属于特定物体,其灰度值为255表示,即白色像素,否则这些像素灰度值为0,即黑色像素。二值图像可以方便地获取目标区域的几何特征或其他特征。

1.3 线性滤波

对图像中的某一些噪声进行消除,可以用线性滤波的方法。均值滤波是典型的线性滤波算法。它对于消除图像中某些特定噪声有明显的效果。

均值滤波采用的主要方法是领域平均法,对待要处理的图像f(i,j)中的像素点(m,n),选择一个模板,该模板就是由领域若干的像素点组成,求模板中所有像素的均值,再把该均值赋予当前像素点(m,n)。也就是用一像素点领域内的像素灰度平均值来代替该像素原来的灰度。

设一个像素点的领域S,图像的特点决定了S的大小和形状。S的形状可以是正方形、矩形及十字形等,S的大小根据选择的模板大小来确定,S大小主要有3×3领域、5×5领域和9×9领域,点(m,n)一般要位于领域图形S的中心。假设S为3×3领域,则:

假设M为S领域的像素的个数,噪声n是加性噪声,在空间各点互不相关,且期望为0,方差为σ2,g是没有噪声的原始图像,含有噪声的图像f经过均值滤波后:

由上可知,经过均值滤波后,噪声的均值没有改变,噪声的方差变小了,说明噪声强度减弱了,也就是抑制了噪声。均值滤波同时也平滑了图像的信号,特别是能使图像目标局域的边界变得模糊。对图像的领域平均处理相当于图像信号通过一低通滤波器。滤波前后的对比如图3,图4所示。

1.4 直方图调整

在对图像进行处理的时候,通常要先了解图像整体或局部的灰度分布情况。灰度直方图是灰度级的函数,它表示图像中具有某一种灰度级的像素的个数,而且也反映图像中某一种灰度出现的频率,如图5所示。假设一幅数字图像的像素总数为N,在范围[0,G]内共有L个灰度级,其直方图定义为离散函数h(rk)=nk,其中,rk是区间[0,G]内的第K级亮度,nk是灰度级为rk的图像的像素数。对于uint8类的图像,G为255;对于uint16类的图像,G为65 535;对于double类的图像,G为1.0。

1.5 直方图均衡化

直方图均衡化是把原始图的直方图变换为均匀分布的形式,这样就增加了像素灰度值的动态范围从而可达到增强图像整体对比度的效果。设一幅图像总像元数为N,灰度级的个数为L,第K个灰度级rk出现的频率为nk,则第K灰度级出现的概率为:

此时的变换函数可表示为:

根据原图像的直方图统计值就可算出均衡化后各像元的灰度值。直方图上灰度分布较密的部分被拉伸;灰度分布较稀疏的部分被压缩,使图像对比度总体上得到增强,如图6所示。

2 人民币字符的定位与分割

2.1 人民币字符的初步定位

假设人民币纸币图像的长度为L,纸币图像的宽度为H。那么根据冠字号码在整个人民币图像中大体的位置,设图像的左边界和图像下边界作为坐标轴,左下角为原点,从(0,0)~(L/3,H/4)的区域作为要处理的缩小的区域。

定位主要包括行定位和列定位,定位完成后就可以确定人民币的冠字号码在人民币图像中具体的像素位置,然后通过分割后就可以得人民币纸币的冠字号码。

2.1.1 行定位

行定位就是从缩小的要处理的区域中计算出冠字号码像素的上下界,从而得到它所在的行的位置。具体的操作就是从上到下扫描图像的像素,依此循环,当遇到某一行有零比特,且后边的K行像素也为零比特时,则认为该行是冠字号码的起始行,满足下边的式子的i为行上界。

式中:F(i,j)是S区域的二值图像;L是行长;k,p1,p2,…,pk+1是大于零的常数。

同理,当i满足下式时为行下界:

如此循环,当扫描目标区扫描结束时,就完成了对冠字号码的行定位。

2.1.2 列定位

在目标区域,从左到右扫描,确定冠字号码的左右边界,扫描的方法与行的定位相同。

行定位和列定位完成,把定位的区域进行切割,就得到了独立的、完整的人民币纸币的冠字号码的区域图,如图7所示。

2.2 人民币字符的分割

字符分割就是把人民币图像中的字符独立地分割出来,这样对各个字符进行特征提取与识别。本文分割算法,主要采用垂直投影法,在垂直方向上对冠字号码的图像进行投影,由于字符与字符之间有一定的间隔空隙,所以间隔区域就在投影的区域上值为0。如图8所示。

首先对在垂直方向上对图像进行投影,得到投影的二维矩阵T。

然后依次扫描二维矩阵T中的值,扫描到第一处非零的投影值时记为t1A,继续扫描,扫描到零投影值时记为t1B,接下来在扫描到非投影值时记为t2A,扫描到零投影值是记为t2B,依此循环,直到循环结束时,每处非零投影的两侧都作有标记对:(t1A,t1B)…,(ti A,ti B),…,(tn A,tn B);逐一扫描,这样就得到这些字符的像素位置,最后确定像素的位置就可以把这些字符一一的切割出来。这10个字符如图9所示。

2.3 人民币字符图像的归一化

字符图像切割完成后通常要进行归一化处理,为了使字符有一致的标准,即具有相同的大小和形状,便于以后和模板字符的比较和识别,字符图像归一化包括大小归一化和位置归一化。

(1)根据各个字符图像的长和高,确定其图像的左上角(Xmin,Ymin)和右下角(Xmax,Ymax)。

(2)字符位置归一化。将(Xmin,Ymin)平移到(X0,Y0),其余各点(X,Y)平移到新位置(X′,Y′)。

(3)求X,Y方向上的缩放比Ratio X和Ratio Y,即字符标准大小(N×M)与切割好的字符之比例系数,如下式:

宽度比:Ratio X=N(Xmax-Xmin)

高度比:Ratio Y=M/(Ymax-Ymin)

(4)字符大小归一化:

其中Ratio=Min(Ratio X,Ratio Y)。

字符归一化后的图像如图10所示。

3 人民币冠字号码的识别

模板匹配法的基本思想是:将归一化的待识别的字符图像和已建立好的标准模板图像库每个模板字符图像一一进行比较,取一个相似度最高的模板字符作为识别的结果。因为纸币号码体中共有26个英文字母和10个阿拉伯字组成,建立36个模板字符库,然后再让归一化后的人民币字符与模板的字符逐一进行比较,找出相似度最高字符模板作为识别出的结果。模板匹配的基本原理就是对比输入字符和标准字符库的模板,找到最配的字符模板。用相关系数来计算他们的相似度。计算字符图像和模板之间的相似度用下式:

式中:S为待识别的单个字符归一化的人民币冠字号码的字符图像;T为模板;R是S和T的相似度。

4 实验结果

本实验选取了50份人民币的样本,模板样本有26个大写的英文字符,10个数字字符,每张纸币的序列号有10个,故50份样本里有500个字符,这500个字符有100个字母字符、400个数字字符,然后把这些字符和模板字符一一匹配,把和模板最相近的字符当作识别的结果,如表1所示。

在本文中,对每个待识别字符和标准的字符特征进行匹配,识别率很高,从而选出最佳的模板作为识别的结果。

5 结语

本文通过对图像处理中已有的算法研究,实现了模板匹配法的人民币序列号的识别。不仅可以运用到纸币识别系统中,其相关技术还可以应用到车牌号码、护照号、身份证号等其他基于印刷体字符的识别。由于本文只选择特定的区域进行检测,对于新旧区分区域很新,而对于有严重残缺或污损的人民币或者新旧区分区域有破损,都会影响到检测效果,因此下一步需要对这些方面进行改进。

摘要:为了验证人民币纸币的真伪,给出人民币冠字号码的一种提取与识别方法。提取过程包括针对纸币图像的采集、灰度化、二值化等预处理,以及使用投影法对人民币字符的位置确定。字符被一一提取出来后,先做归一化处理,再使用模版匹配法,将其与模版字符一一比较,并计算相似度,从而完成字符识别。通过对采集的50张人民币图像进行识别实验,所给方法的有效识别率为90%。

上一篇:灌区节水灌溉设计分析下一篇:原发性系统性血管炎