基于AISEC模型的自体库算法改进

2022-12-08

电子邮件是人们日常生活网络交流的重要途径。而垃圾邮件作为商业广告、病毒程序或敏感内容的载体, 占用信箱空间和网络带宽, 威胁系统安全, 给人们的生活带来诸多不便。反垃圾邮件问题已成为全球性的具有重大现实意义的课题。

Andrew Secker等人将AIS应用于邮件分类, 提出了AISEC算法模型[1]。人工免疫系统 (Artificial Immune System, AIS) 已经被成功运用于垃圾邮件的检测, 文献[2,3]采用正则表达式产生高质量的抗体来检测垃圾邮件。2006年王黎明教授等人在文[4]中使用虚拟基因库 (Virtual Gene Library, VGL) 技术, 对AISEC的抗体更新过程进行改进, 使抗体更新具有前后连贯性, 从而提高分类性能。2008年祝黄在文[5]中对AISEC模型进行改进, 提出了基于基因权重的检测器生成算法, 该算法在虚报率方面低于AISEC算法。2006年中国科技大学的王煦法教授等人在文[6]中提出了一种检测器长度可变的非选择算法, 并在文[7]中提出了人工免疫的多层垃圾邮件过滤算法。2016年, 蒋亚平等人又设计一种基于免疫多Agent垃圾邮件过滤模型SF-MA, 将疫苗概念引入模型, 有效地提取垃圾邮件的信息和变异特征, 降低了虚报率[8]。Forrest等人根据免疫系统的自体/非自体的区别原则, 研究了一种检测变化的否定选择算法[9], 并将它用于网络安全。人工免疫系统从本质上来说是利用计算机相关技术来模拟生物的免疫系统, 具有与免疫系统极其相似的功能, 同时具备发现和清除“非自体”的功能[10], 根据否定算法可知, 若自体集过于庞大, 自体库的生成效率将直接影响到整个系统性能。本文在AISEC模型基础上对于自体库进行改进。

一、文本的特征选择

自体集由正常邮件经过邮件预处理、中文分词、提取特征词、建立空间向量模型 (VSM) 后产生, 常用的文本特征选择方法有:文档频率 (DF) 、信息增益 (IG) 、互信息 (MI) 、X2统计量 (CHI) 、期望交叉熵等。基本思想都是对每一个中文特征词, 计算某种统计度量值, 然后设定一个阈值, 把度量值小于阈值的那些特征的过滤掉, 剩下的就是“有效特征”。

二、自体库中基因片段重组策略

考虑到每个单词对于邮件分类的贡献不一样, 有的单词贡献大;有的词属于中性词, 它的出现对于判断该邮件是否属于垃圾邮件的影响甚小。如果不采用某种统计度量提取特征, 随意地将这些特征项放入自体库中, 就会引起自体集合规模过于庞大。不设定匹配优先级, 每次对单词的匹配都是随机匹配, 将严重影响整个系统效率。此外, 当进行邮件检测的时候, 由于每个单词使用频率不同, 所以先匹配使用频率高的单词也会提高系统的效率。所以, 在统计单词信息的时候要包括互信息和词频。

统计单词信息的结构体定义如下:

自体库中基因片段重组时, 尽量采用“出现次数最多者优先”原则, 最近使用次数多的单词, 把它串联成基因片段和未成熟检测器进行耐受。自体库基因片段重组策略如下: (1) 正常邮件预处理、中文分词; (2) 读取单词W, 计算互信息; (3) 根据需要抽取单词的维数, 抽取一定数量的单词作为自体库的初始值; (4) 计算单词在自体库中出现次数num; (5) 将num排序; (6) 尽量使用num比较大的单词随机组成基因片段。

三、自体集消除冗余策略

自体集有特征单词随机串联而成, 当部分匹配时, 亲和力超过一定的阈值, 这两个自体集片段作用一样, 也就产生了冗余, 所以在自体集参与耐受前, 可以让自体集片段之间先进行匹配, 若亲和力大于阈值, 则删除相应的自体片段提高自体集的使用效率, 减少其冗余。

具体算法如下所示:

自体基因片段库形成流程图如下:

四、实验与结论

将邮件随机性的平均分成9份, 选取其中的7份邮件作为训练集, 2份作为测试集。交叉多次实验后取平均值, 系统各参数设置如下表1所示:

改进后的自体库生成算法实验结果, 如下表2所示:

从实验结果来看, 改进后的算法运行时间明显优于改进前的算法。

五、结束语

本文对于自体库中基因片段重组策略进行优化, 增加了单词在自体库中出现次数, 提出自体库消除冗余的方法, 实验证明通过此方法使得整个系统的效率得到了提高。

摘要:生物的免疫系统原理运用于垃圾邮件中, 能快速分辨出垃圾和非垃圾邮件。对每个自体库中的片段加权值, 在构成自体基因片段时, 优先考虑权值高的单词。让自体集片段之间先进行匹配, 消除自体库的冗余。实验表明, 整个系统的效率得到了提高。

关键词:人工免疫,垃圾邮件,自体库

参考文献

[1] Andrew Secker, Alex A.Freitas, Jon Timmis.AISEC:an Artificial Immune System for E-mail Classification.The 2003 congress on evolutionary computation, 2003 (1) :131-138.

[2] Terri Oda, Tony White.Increasing the accuracy of a spamdetecting artificial immune system[A].The 2003 Congress on Evolutionary Computation[C].California USA:IEEE Computer Society Press 2003.390-396.

[3] Terri Oda, Tony White.Developing an immunity to spam[A].Lecture Notes in Computer Science[C].Heidelberg Germany.Springer-Verlag Gmb H, 2003.231-242.

[4] 王小伟, 王黎明.动态人工免疫分类算法研究[J].计算机应用, 2006, 26 (10) :2463-2465.

[5] 祝黄.基于人工免疫的垃圾邮件过滤技术研究[D].南京:南京航空航天大学, 2008.

[6] 何申, 罗文坚, 王煦法.一种检测器长度可变的非选择算法[J].软件学报2007, 18 (6) :1361-1368.

[7] 张泽明, 罗文坚, 王煦法.一种基于人工免疫的多层垃圾邮件过滤算法[J].电子学报, 2006, 34 (9) :1616-1620.

[8] 蒋亚平.基于免疫多Agent的垃圾邮件过滤模型研究[J].计算机应用与软件2016, 33 (3) :294-298.

[9] Forrest S, Perelson A S, Alien L, etal.Self-Nonself discrimination in a computer[C].Proceedings of the 1994 IEEE Symposium on Research in Security and Privacy, Los Alamitos, CA:IEEE Computer Society Press, 1994.

[10] 梁刚, 刘晓洁, 李涛, 蒋亚平, 杨进, 龚勋.NSC:一种新型的垃圾邮件过滤器[J].小型微型计算机系统, 2008, 29 (1) :158-161.

上一篇:漠大原油管道清管效果研究下一篇:政府投资效率与PPP融资模式的探讨