基于KNN算法建模的法人银行机构不良资产分类研究

2022-09-12

一、引言

金融是现代经济的核心, 银行市现代金融的核心, 现代商业银行在经营和发展过程中, 因为筹集融通资金, 中间环节会积累大量不良资产。由于历史上和现实上的原因, 我国农信系统的地方法人金融机构累积了大量的不良资产, 虽然经过央行票据置换和农商行改革已经置换、清收了大量的不良资产, 但是由于地方法人银行机构信用风险管理能力较差, 人才队伍培养滞后, 故对不良资产的事前识别能力极弱[1]。目前国内银行业对不良资产信用风险评估方法主要是采用古典分析法和多元统计法。古典分析法是指银行经营者依赖一批训练有素的专家主观判断, 对信贷项目进行判断打分, 审贷会以此决策。多元统计分析的基本思路是根据历史积累的样本建立统计模型, 对新样本发生的某种事件的可能性进行预测的方法, 包括线性概率和判别分析法等[2]。以上所述方法虽然被广泛应用, 但是他们只是针对某一方面如财务进行分析和统计, 不能充分利用银行搜集的全面信息, 尤其是一些边缘信息。大量的数据挖掘研究结果表明, 很多边缘信息和侧面指标可以很好地补充单一财务指标的缺陷, 使借款项目的特征更加鲜明, 故本文引入K近邻算法建模, 试图用新办法解决信用风险识别、评估的旧问题[3]。

二、模型设计

K近邻 (K-Nearest Neighbors, KNN) 算法是一种基于实例的数据挖掘分类算法, 最初是由Cover和Hart于1968年提出, 是一种非参数的分类技术。通过计算每个训练样例到待分类样品的距离, 取和待分类样品距离最近的K个训练样例, K个样品中哪个类别的训练样例占多数, 则待分类元组就属于哪个类别。

KNN算法具体步骤如下:

(1) 初始化距离为最大值, 包涵全部样本。

(2) 计算每个位置样本和每个训练样本的距离dist。

(3) 得到目前K个近邻样本中的最大距离MD。

(4) 如果dist小于MD, 则将该训练样本作为K近邻样本。

(5) 重复步骤 (2) 、 (3) 、 (4) , 扫描样本库, 直到未知样本和所有训练样本的距离都计算完。

(6) 统计K个近邻样本中每个类别出现的次数。

(7) 选择出现频率最大的类别作为未知样本的类别。

(8) 利用前7步训练得出的模型进行预测。

KNN方法在类别决策时, 只与极少数的相邻样本相关, 因此采用该种方法可以较好地样本的不平衡的问题。

由此可见, KNN算法对K值即近邻种类的数量依赖较大, 如果K值较小, 预测目标容易产生变动性, K值太大, 模型的预测误差可能会过大。为防止样本密度差异过大, 故K值选取须反复验证, 根据前人研究经验推定K值的有效途径是通过有效参数数目这个概念, 有效参数数目是与K值相关的, 约等于n/K, 其中n是这个训练数据集中实例的数目[4]。

三、实证分析

本文选取湖南永州境内S农商行和B农商行全部信贷数据作为实证样本。首先对数据进行处理, 对缺损数据和重复数据进行了清洗, 选取12450个样本, 13个特征值作为有效数据。将数据库的英文字符和中文字符全部转化为双精度浮点型数据, 然后利用虚拟变量函数对双精度浮点型数据全部进行编码, 样本属性标签正常贷款和不良贷款分别用0和1表示。

在实证环节, 随机选取40%的样本作为测试样本, 共进行40次交叉验证。在交叉验证环节K值选取6时, 预测和训练效果最佳。40次交叉验证预测标签为1的不良贷款结果如下表。

K值为4时, 准确率为0.732;K值为5时, 准确率为0.772;K值为6时, 准确率为0.862;K值为7时, 准确率为0.753;K值为8时, 准确率为0.604。全部40次随机交叉验证的准确率均值为0.745, 标准误差为0.116。

透过该模型的实证结果, 我们还可以看到B农商行和S农商行存在如下几个现象:一是个别信贷经理不良贷款笔数奇高, 占到全部不良贷款的15.63%, 而贷款“三查”制度执行未见差错, 内部审计也未发现严重问题, 当是与该信贷经理能力和素质有关。二是存在不良贷款在某些区域集中分布的情况, 普遍存在居委会的不良贷款笔数超过以村为名的行政聚居区, 经过实地调查发现是纯农业地区 (村) 授信笔数少于工商业为主的聚居区 (居委会) 。

分属同一支行, 有别个行政聚居区 (村、居委会) 不良贷款笔数明显超过其他行政聚居区, 该个别居委会民风较为拖沓, 习惯性欠息[5]。三是贷款投向划分不准确, 导致该项聚类出现偏差, 在农商行的样本中, 95.4%的贷款投向均是农林牧渔业, 原因是为了获得再贷款、再贴现支持, 人民银行信贷考核需要涉农贷款比例达标, 实际导致信用风险识别不准确[6]。

四、结论和建议

利用KNN算法构建的不良资产分类模型的准确率较高, 稳定性较强, 在多次交叉验证后, 可以选择合适的K值, 获得较好的预测效果, 故模型实用价值很高。但法人银行机构的关联交易和流动性状况是该模型不能识别的, 股东的高额关联贷款给法人银行带来的信用风险是极大的, 极端情况的流动性短缺会让法人银行机构经营困难, 结合声誉风险, 可能会被处置当局警告、早纠甚至接管[7]。

摘要：商业银行信用风险管理一直是全面风险管理 (ERM) 的重要组成部分, 对于地方法人银行机构而言, 不良资产的识别和分类是信用风险管理的重点和难点。针对我国中小法人银行面临的不良贷款信用风险问题, 引入一种基于数据挖掘技术的KNN分类算法进行建模, 对不良资产信用风险进行识别分类, 并选取湖南S农商行和B农商行2017年末全部信贷数据进行实证。

关键词：KNN算法,风险管理,不良资产