一种基于主动学习的稀疏自编码算法

2022-09-22

本文的深度学习算法采用稀疏自编码, 主动学习算法采用nEQB算法, SVM分别采用POLY和RBF两种核函数, 为了提高稀疏自编码的遥感图像分类精度, 对稀疏自编码算法进行改进, 采用稀疏自编码与主动学习结合, SVM与主动学习结合, 并对SAE与主动学习与SVM与主动学习相结合的分类效果进行了综合比较。

一、主动学习的样本采样策略

主动学习的样本采样策略中常用的两种:一种是不确定性采样, 一种是委员会投票选择。不确定性样本的基本思想是选择分类器最不能确定其所属类别的样本交与专家标注, 再重新进行学习。对于多类别的分类问题, 查询具有最低置信度的样本是最常用的不确定性样本选择准则, 下面的式子是置信度定义:

此方法的不足是仅对样本最大可能所属的类别做了考虑, 对于剩余的低概率标签的分布信息而言, 分类模型将不予采用。为了改善上述问题, 提出基于多类的边缘的抽样。该方法的挑选标注被定义为:

这种方法的主要目标是通过引入样本第二的标签来克服不确定性策略的缺点, 但其不足是剩余类别的输出分布信息还是被忽略了。

二、基于主动学习的SVM算法流程设计

SVM的主动学习算法有四个过程:训练过程, 测试过程, 询问过程和分类过程。样本集有候选样本集和待测样本集。从候选样本集中随机选取少量样本进行标记, 从部分标注了类别信息的候选样本集中随机选择少量的训练样本, 其余作为待测样本, 候选样本集中剩下没有标签的为未标记候选样本集。基于以上知识设计了本文采用的基于主动学习的SVM算法:, 设X是标记样本, U是未标记样本, 输入:候选样本集, 由大量未标注样本组成, 每次从U中采样q个加入到训练样本集中。原始训练样本集XU, 输出fc:分类器。算法步骤如下:

(1) 从总样本集x中选每一类选择i个样本进行标注组成初始训练样本集Xc, 保证Xc中至少每个类的样本都有, 样本集中剩余的作为候选样本Uc。

(2) 根据训练集Xc构造SVM分类器fc。

(3) 对Uc中所有样本使用fc, 标注为 (Xic, Yic) , 其中Yic为分类器fc给矢量Xic预先贴上的标注。

(4) 对每个Xic按照公式 (1) 、 (2) 对未标注的样本的不确定值进行计算, 然后对Uc中样本进行降序排列。

(5) 将样本进行正确标注后加入训练集中Xc+1=XcUSc。

(6) 把标注样本从Uc中移除。

(7) 更新迭代次数c=c+1。

(8) 若检测精度达到设定的精度值或者规定的迭代次数时算法终止并返回否则重复第 (2) 步。

三、基于主动学习的稀疏自编码算法

跟自编码结构相比, 稀疏自编码比自编码多了稀疏性约束条件, 稀疏性约束条件是使输出z的大部分元素为0, 只有少数不为0, 本文的基于主动学习的稀疏自编码算法流程包括以下步骤:

(1) 从候选样本中选取一部分样本作为训练样本, 从训练样本中随机选取部分样本进行标记, 没有标记的就是无标签训练样本, 剩下的样本就是无标记样本。

(2) 将无标签训练集进行稀疏自编码获得网络结构参数W, b;

(3) 通W, b抽取所有训练样本的特征后加入分类器进行有监督学习获得分类器的分类参数;

(4) 将稀疏自编码和分类器级联再次对整个网络进行有监督学习, 微调整个网络参数;

(5) 运用 (2) 和 (3) 公式对未标记样本的不确定值进行计算, 然后对未标记样本进行降序排列从中选取前q个概率最大的样本B交由专家进行标记。

(6) 将样本进行正确标注后加入训练集中L=L+B;

(7) 把标注样本从未标记样本U中移除U=U-B;

(8) 更新迭代次数c=c+1;

(9) 如此反复 (2~9) 过程, 直到达到设定的分类精度或迭代次数, 算法停止, 输出分类器。

四、结论

针对提高稀疏自编码的精度问题, 本文主动学习算法引入到稀疏自编码算法。并对稀疏自编码与主动学习相结合的流程图进行了阐述, 两种算法结合比稀疏自编码结合随机在样本选择方面能够突出优势, 在同样的样本前提下能更快达到设定的分类精度。

摘要:本文提出了一种基于主动学习的稀疏自编码算法, 它事先对样本数据进行处理, 能够保证初始训练集包含所有的类, 不至于造成样本不平衡采样, 同时可以进一步提高分类准确度。该算法在训练稀疏自编码的分类器后运用主动学习算法在循环迭代中根据采样策略选取前面几个有价值的样本加入训练集, 之后查看分类效果来说明提出的分类算法。

关键词:主动学习,稀疏编码,SVM

参考文献

[1] Bischof H, Schneider W, Pinz A J. Multispectral Classification of Landsat-Images using NeuralNetworks[J].IEEE Transactions on Geoscience&Remote Sensing, 1992, 30 (3) :482-490.

[2] Roscher R, Waske B, Fo Rstner W. Incremental Import Vector Machines for ClassifyingHyperspectral Data[J].IEEE Transactions on Geoscience&Remote Sensing, 2012, 50 (50) :3463-3473.

[3] D. Marmanis, M. Datcu, T. Esch, et al. Deep Learning Earth Observation Classification UsingImage Net Pretrained Networks[J].IEEE Geoscience&Remote Sensing Letters, 2015, 13 (1) :1-5.

[4] 谭琨, 杜培军.基于支持矢量机的高光谱遥感图像分类[J].红外与毫米波学报, 2008, 27 (2) :123-128.

[5] ChenY, LinZ, ZhaoX, etal.DeepLearning-Based Classification of Hyperspectral Data[J].IEEEJournal of Selected Topics in Applied Earth Observations&Remote Sensing, 2014, 7 (6) :2094.

上一篇:新时代背景下对财政税收体制改革问题的探讨下一篇:浅谈公路施工企业的成本管理