证券类别分类研究论文

2022-04-20

【摘要】文章基于《会计之友》与其他会计类中文核心期刊2001~2008年的刊文数据,分析了《会计之友》的刊文特征及其刊文格局的变动情况,在此基础上对《会计之友》的未来发展提出了刊文上的一些建议。下面小编整理了一些《证券类别分类研究论文(精选3篇)》,欢迎大家借鉴与参考,希望对大家有所帮助!

证券类别分类研究论文 篇1:

基于SVM多分类模型的上市公司财务困境预测

[摘 要] 目前的财务困境预测模型大多局限于二分类研究,而公司陷入财务困境往往会经历一个逐步衰败的过程,简单的二分类有时会掩盖某些上市公司财务状况逐渐变差的事实。为了更准确地判断上市公司的财务状况,将其按照盈利能力分为财务健康公司、财务亚健康公司和财务困境公司3类,并运用t-1年和t-2年的面板数据,采用基于平均影响值的变量筛选方法构建了SVM多分类模型。实证结果表明,模型的预测能力较好,能够以较少的特征变量实现较高的分类精度,是切实有效的。

[关键词] 财务困境预测; SVM多分类模型; 平均影响值

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 04. 001

1 引言和文献综述

近些年来,国内外的专家学者对企业的财务困境预测进行了大量的研究,提出了许多有价值的预测方法。但大多数学者把研究样本分为困境公司和健康公司两类进行研究,而公司陷入财务困境往往会经历一个逐步衰败的过程,仅仅将公司分为困境公司和健康公司,往往会忽略健康公司面临的一些问题,有些公司虽然没有戴帽,但是财务状况并不理想,有的甚至亏损。因此,将上市公司仅仅分为困境公司和健康公司两类进行研究,难以判断健康公司财务状况的好坏程度及其是否处于财务困境的边缘,不能给投资者、公司管理层和债权人等相关各方提供更为明确的反映公司未来财务情况的信息。

Amy Hing-Ling Lau于1987年在“五状态财务困境预测模型”一文中首次将企业财务状况分为5个状态:财务稳定阶段、未支付股利或股利较上年减少达40%以上阶段、无法偿还贷款阶段、受破产法保护阶段、破产阶段。他认为从状态2到状态5,企业处于财务困境状态,并且严重程度逐步增加。我国学者吕长江、赵岩(2004)也突破将企业财务状况仅分为“好”和“坏”的简单分类,在理论上将公司财务状况分为5类:财务闲置、财务充盈、财务均衡、财务困境和财务破产,并且用实证分析证明了该理论假设。刘彦文、戴红军(2007)采用三分法,即在将公司分为财务困境公司和非财务困境公司两类的同时,又将非财务困境公司按一定标准分为财务状况不稳定公司和财务状况良好公司,构建了一个基于三元logistic的财务预警模型。结果显示,三元Logistic预警模型的判别能力优于二元logistic预警模型,误判成本也相对降低许多。本文在借鉴已有研究的基础上,结合我国实际情况,将非困境公司按照其盈利能力划分为健康公司和亚健康公司,进而将上市公司整体划分为3类:财务健康公司、财务亚健康公司和财务困境公司(以下分别简称为:健康公司、亚健康公司和困境公司)来进行实证研究,以获得更加精确的分类结果。

2 样本和变量的选取

2.1 分类标准

由于我国证券市场的退市制度建立较晚,退市的企业很少,因此,与国内众多学者一样,本文将公司因财务状况异常而被特别处理(ST)作为陷入财务困境的标志,即选择ST和*ST公司作为困境公司的样本。

一般来说,反映企业财务状况的指标主要有偿债能力指标、盈利能力指标、营运能力指标和成长能力指标等。在这些指标中,盈利能力指标是核心,因为利润是企业生存和发展的保障,是企业竞争力的集中体现,企业的盈利能力越强,抵御风险的能力也越强。从长远来看,企业的偿债能力、营运能力和成长能力最终都取决于企业的盈利能力; 另一方面,上市公司发行证券和被特别处理的标准都是盈利能力指标。我国规定当上市公司出现连续两个会计年度净利润均为负值或者最近一个会计年度每股净资产低于股票面值时,则会对该公司股票交易实行特别处理,即被宣布为ST。基于以上原因,本文采用盈利能力指标作为界定财务健康公司和亚健康公司的标准。

2.2 样本选取和数据来源

为了避免行业差异对预测结果的影响,增强指标的可比性,本文选择制造业中样本量较大的石油、化学、塑胶、塑料行业(以下简称化工行业)的上市公司作为研究对象(为了避免资产规模对预测结果的影响,剔除了中小板的上市公司)。考虑到资料的时效性和可获取性,本文选取了该行业2002-2012年被首次宣布为ST的24家上市公司作为困境公司样本,选取了近两年中至少有一年每股收益小于0.05元(0.05是正常标识公司每股收益的20%分位数)的32家上市公司作为亚健康公司样本,其余的67家正常标识公司为健康公司样本。本文没有遵循惯例进行样本的配对,因为配对抽样会造成样本中各类公司的比例和它们在总体中的比例严重不一致,从而高估模型的预测能力。

由于证监会是根据上市公司前一年的年报所公布的业绩判断其是否出现财务状况异常并决定是否要对其进行特别处理的,所以只采用上市公司前一年的年报数据预测其是否会被ST显然会夸大模型的预测能力。因此,本文选择困境公司被ST前两年的面板数据,健康公司和亚健康公司采用近两年(2011-2012)的数据来进行预测研究(在具体的实证研究中去掉了一些含有异常值的数据样本)。数据来源是Resset金融研究数据库,相关检验及模型估计是用SPSS 16.0和Matlab软件来完成的。

3 初始指标选取

在财务困境预测的实证研究中,财务指标的选取到目前还没有统一的结论。本文借鉴以往的经验,从公司的盈利能力、偿债能力、营运能力、成长能力、现金流量和每股指标6个方面选取了20个财务变量(见表1)作为备选指标。

(注:***表示在1%水平上显著, **表示在5%水平上显著)

从检验结果可以看出,在5%的置信水平上除了存货周转率接受原假设外,其余变量均拒绝原假设,即除了存货周转率以外,其余变量在各个类别之间均存在显著差异。所以将存货周转率剔除,其余19个指标进行变量筛选。

4.2 变量筛选

对于变量筛选,大量的实证研究采用统计方法,但统计方法往往有严格的假设条件限制,使得其有效应用受到制约。所以本文提出了一种基于平均影响值(Mean Impact Value,MIV)的SVM变量筛选方法,通过该方法可以筛选出对结果有重要影响的输入变量,从而提高模型的预测精度。

4.2.1 基于平均影响值MIV的SVM变量筛选方法

MIV是用于确定输入变量对输出变量影响大小的一个指标,其符号代表相关的方向,绝对值代表影响的大小。本文选择MIV作为评价各个自变量对因变量影响大小的指标。具体计算过程如下:

(1)用原始训练样本P对SVM进行训练,并对训练集P进行回归预测。

(2)将训练样本P中每一自变量在其原值的基础上分别加/减10%构成两个新的训练样本P1和P2,将P1和P2分别作为仿真样本利用已建成的模型进行仿真,得到两个仿真结果A1和A2,求出A1和A2的差值,即为变动该自变量后对输出产生的影响变化值(IV,Impact Value)。

(3)将IV按观测例数平均得出该自变量对因变量的平均影响值MIV。同理可算出各个自变量的MIV值。

(4)根据MIV绝对值的大小为各自变量排序,得到各自变量对因变量影响相对重要性的位次表,从而判断出输入变量对输出结果的影响程度,即实现了变量筛选。

4.2.2 变量筛选的Matlab实现

4.2.2.1 选定训练集和测试集

在原始数据的231个样本中,有145个健康公司样本(类别标签为1),38个亚健康公司样本(类别标签为2),48个困境公司样本(类别标签为3)。将每个类别分成两组,重新组合数据,最后本文选择了150个样本作为训练集,用于训练SVM模型,选择了81个样本作为测试集,用于测试模型分类的准确率。

4.2.2.2 数据归一化

在进行SVM模型训练之前一般需要对数据进行归一化预处理。本文采用的归一化映射为:

f:x→y=■

式中,x,y∈Rn,xmin=min(x),xmax=max(x),yi∈[0,1],i=1,2,…,n。

归一化的效果是将原始数据规整到[0,1]范围内。

4.2.2.3 参数寻优

用SVM进行预测时,为了得到比较理想的预测效果,需要调整两个主要的参数(惩罚参数c和核函数参数g)。本文选择K-CV方法来进行参数寻优,其基本思想是:将原始数据分成K组(一般是均分),将每个子集分别作一次验证集,同时其余的K-1组数据作为训练集,这样会得到K个模型,用这K个模型验证集的MSE(均方误差)的平均数作为此K-CV的性能指标。在此基础上让c和g在一定的范围内变化,对于取定的每一对c和g ,都将得到一个平均的MSE,最后选择使平均MSE最小的c和g。经过Matlab编程运算,最后得到的最优参数为:c=1,g=3.031 4 。

4.2.2.4 训练并对训练集回归预测

最优参数确定以后,利用这两个参数来训练模型,并对训练集进行回归预测。该模型的相关性能指标为:

MSE = 0.044 546 R2 = 0.729 932

式中,MSE为均方误差,R为相关系数。

4.2.2.5 变量筛选

对于训练集数据运用MIV方法分别求出各自变量的MIV值,结果如表3所示。考虑到指标的完整性和全面性,本文选取每个类别中MIV绝对值最大的指标作为输入变量,即成本费用利润率、资产负债率、总资产周转率、净利润增长率、总资产现金回收率和每股收益作为输入变量。

作者:张春华 卢永艳

证券类别分类研究论文 篇2:

《会计之友》刊文的特征及其建议

【摘要】 文章基于《会计之友》与其他会计类中文核心期刊2001~2008年的刊文数据,分析了《会计之友》的刊文特征及其刊文格局的变动情况,在此基础上对《会计之友》的未来发展提出了刊文上的一些建议。

【关键词】 会计之友;会计类核心期刊;刊文特征

一、引言

《会计之友》创办于1983年,已有28年的办刊历史,以研究探讨会计学理论,介绍财会工作经验和业务知识,开展学术交流,报道国内外会计学术的新动向、新成果和新的信息处理方法,反映财会人员的学习、工作和生活为宗旨①。目前是中国商业会计学会的会刊,多次经评审被列为全国会计类中文核心期刊,以其独特的办刊风格而在国内会计理论和实务工作者中产生广泛影响。本项研究以2008版北大13本会计类中文核心期刊②为刊文来源,通过《会计之友》以及其他会计类中文核心期刊2001年至2008年期间的刊文信息,分析并揭示《会计之友》刊文的一些重要特征,在此基础上对《会计之友》的未来发展提出一些建议。

二、研究设计

(一)刊文统计来源及筛选

本项研究刊文统计来源于《会计之友》2001~2008年期间刊载的所有文章,共刊文8 471篇,其中论文类7 915篇,非论文类556篇③。作为研究对比,同时统计了其他12本会计类中文核心期刊这一期间的刊文,共刊文40 309篇,其中论文类32 945篇,非论文类7 364篇。

(二)数据收集与整理

统计样刊全部来源于上海图书馆中文馆藏期刊,数据均为根据专业判断进行统计而成。

(三)统计分析的分类标准

本项研究根据论文类的刊文信息,从以下七个视角进行分类统计并展开分析:

1.按刊文所采用的研究方法,分为规范研究、经验研究、案例研究、调查研究、研究综述以及其他六类。其中将属于实证研究的刊文分为“经验研究”、“案例研究”、“调查研究”进行统计,但对于其他实证研究方法(如实验研究等)归于“其他”。

2.按刊文所属的研究方向,分为财务会计、成本会计、管理会计、税务会计、财务管理、审计、内控与治理结构、信息化、教育、职业道德、史学以及其他十二类。考虑到内部控制与治理结构相关研究本身的特殊性以及近年来的关注度,将其合并作为“内控与治理结构”单独列出;考虑到会计教育改革、会计职业道德建设的重要性以及会计史学研究的特殊性,将“教育”、“职业道德”、“史学”单独列出。

3.按刊文所属的研究领域,分为一般问题、行业问题、政府部门问题、非营利组织问题以及其他五类。一般问题是指通常的会计问题,而不是属于哪一个企业类别或者非营利组织等的会计问题;行业问题是指某一企业类别的会计问题,如制造企业、商品流通企业、交通运输企业等企业类别的会计问题。

4.按刊文的研究侧重,分为理论研究、实务研究、政策解析以及其他四类。

5.按刊文的作者任职单位④,分为高校、科研机构、企业、行政事业单位以及其他五类。为了统计上的方便,高校中包含了为数不多的中专及中学;学术研究型的事业单位(如财政部科研所)与企业研究机构(如证券公司的研发部门)并入“科研机构”类别中;行政事业单位是指政府部门以及除高校、科研机构以外的事业单位。

6.按刊文作者的署名,分为单一署名、两人署名、三人署名以及其他四类。其他类别中包括四人及以上署名与署名为课题组或单位的。

7.按期刊的特征,将其他12本会计类中文核心期刊划分为一般专业期刊与学术研究期刊两类,以进行《会计之友》与这12本期刊的分类比较。根据各期刊的办刊简介以及2008年的如表1所示的有关信息⑤,本项研究将《会计研究》、《审计研究》、《审计与经济研究》以及《上海立信会计学院学报》界定为会计学术研究期刊,而将其他8本期刊界定为会计一般专业期刊。

三、统计分析

(一) 刊文的分布情况

1.研究方法

《会计之友》刊文在采用的研究方法上,规范研究占了绝大部分,刊文比例达到了98.2%;经验研究、案例研究、调查研究以及研究综述的刊文比例非常之小,分别为0.8%、0.4%、0.3%与0.3%,合计仅为1.8%。

比较一般专业期刊,《会计之友》规范研究的刊文显著高于一般专业期刊92.9%的比例;但经验研究、案例研究、调查研究、研究综述以及其他研究的刊文均低于一般专业期刊1.8%、3.2%、0.4%、0.9%与0.8%的比例。

比较学术研究期刊,《会计之友》规范研究的刊文远高于学术研究期刊75.8%的比例;但经验研究、案例研究、调查研究、研究综述以及其他研究的刊文均明显低于学术研究期刊11.8%、1.9%、2.6%、4.5%与3.4%的比例。

《会计之友》刊文在采用研究方法上的分布及其与其他期刊的比较如表2所示。

2.研究方向

《会计之友》刊文在研究方向上,财务管理、其他以及财务会计研究方向分列前3位,刊文比例分别为22%、20.4%与16.9%,合计达到了59.3%;审计、内部控制与治理结构、会计教育、成本管理、税务会计、管理会计、会计信息化、会计职业道德以及会计史学研究方向的刊文比例依次为7.9%、6.3%、6.0%、5.6%、5.5%、4.7%、3.7%、0.7%与0.3%。

比较一般专业期刊,《会计之友》管理会计、成本管理、财务管理、会计信息化、会计教育、会计史学以及其他研究方向的刊文高于一般专业期刊2.6%、3.3%、17.6%、2.6%、1.8%、0.2%与17.1%的比例;但财务会计、税务会计、审计、内部控制与治理结构以及会计职业道德研究方向的刊文低于一般专业期刊28.4%、5.6%、13.6%、6.4%与0.8%的比例。

比较学术研究期刊,《会计之友》财务会计、管理会计、税务会计、成本管理、财务管理、会计信息化以及会计教育研究方向的刊文高于学术研究期刊10.3%、2.3%、0.4%、1.2%、10.7%、2.2%与1.6%的比例;但审计、内部控制与治理结构、会计职业道德、会计史学以及其他研究方向的刊文低于学术研究期刊32.2%、10.2%、0.8%、0.6%与27.5%的比例。

《会计之友》刊文在研究方向上的分布及其与其他期刊的比较如表3所示。

3.研究领域

《会计之友》刊文在研究领域上,较多地集中在具有普遍意义的一般会计问题,刊文比例达到了81.7%;非营利组织会计问题、行业会计问题、政府部门会计问题以及其它会计问题的刊文比例较小,依次仅为7.4%、7%、2.5%与1.4%。

比较一般专业期刊,《会计之友》一般会计问题以及其他会计问题的刊文高于一般专业期刊79.1%与0.4%的比例;但行业会计问题、政府部门会计问题以及非营利组织会计问题的刊文低于一般专业期刊9.8%、2.6%与8.1%的比例。

比较学术研究期刊,《会计之友》行业会计问题以及非营利组织会计问题的刊文高于学术研究期刊6.6%与0.9%的比例;但一般会计问题、政府部门会计问题以及其他会计问题的刊文则低于学术研究期刊82%、8.7%与1.8%的比例。

《会计之友》刊文在研究领域上的分布及其与其他期刊的比较如表4所示。

4.研究侧重

《会计之友》刊文在研究侧重上,实务研究多于理论研究,两者所占比例分别为54.6%与41.4%;政策解析以及其他研究的刊文比例为2.7%与1.3%。

比较一般专业期刊,《会计之友》实务研究、政策解析以及其他研究的刊文高于一般专业期刊42.2%、1.1%与0.2%的比例;但理论研究的刊文则低于一般专业期刊56.5%的比例。

比较学术研究期刊,《会计之友》实务研究以及政策解析的刊文显著高于学术研究期刊10.8%与1.1%的比例;但理论研究以及其他研究的刊文则低于学术研究期刊83.7%与4.4%的比例。

《会计之友》刊文在研究侧重上的分布及其与其他期刊的比较如表5所示。

5.作者任职单位

《会计之友》刊文在作者任职单位上,来自高校的刊文占了多数,达到了63.3%,而来自企业、行政事业单位、科研机构以及其他单位的刊文比例依次分别为24.1%、11%、1.4%与0.2%。

比较一般专业期刊,《会计之友》刊文作者来自企业的刊文显著高于一般专业期刊14.1%的比例;但作者来自高校、科研机构、行政事业单位以及其他单位的刊文则低于一般专业期刊63.7%、1.8%、14.6%与5.8%的比例。

比较学术研究期刊,《会计之友》刊文作者来自企业的刊文远高于学术研究期刊2.6%的比例;但作者来自高校、科研机构、行政事业单位以及其他单位的刊文则低于一般专业期刊83.8%、1.5%、11.3%与0.8%的比例。

《会计之友》刊文在作者任职单位上的分布及其与其他期刊的比较如表6所示。

6.署名方式

《会计之友》刊文在署名方式上,单一署名的刊文占了大多数,刊文比例达到了76.4%;两人署名、三人署名以及四人及以上署名或者采用课题组与单位署名的刊文比例依次为19.5%、3.4%与0.7%。

比较一般专业期刊,《会计之友》单一署名的刊文高于一般专业期刊68.7%的比例;但二人署名、三人署名以及四人及以上署名或者采用课题组与单位署名的刊文比例则分别低于一般专业期刊25.9%、4.3%与1.1%的比例。

比较学术研究期刊,《会计之友》单一署名的刊文高于学术研究期刊53%的比例;但两人署名、三人署名以及四人及以上署名或者采用课题组与单位署名的刊文比例则分别低于学术研究期刊33.4%、9.6%与4%的比例。

《会计之友》刊文在署名方式上的分布及其与其他期刊的比较如表7所示。

(二)刊文的变化轨迹

1.研究方法

从刊文所采用的研究方法观察,《会计之友》规范研究、调查研究、研究综述以及其他研究的刊文比例的变动趋势不甚明显,分别在97.1%~99.6%、0%~0.6%、0%~0.9%与0%~0.2%之间波动;经验研究、案例研究的刊文比例呈波动中上升的趋势,分别由2001年的0上升到2008年的1.1%与0.8%。

比较一般专业期刊与学术研究期刊,《会计之友》各年规范研究的刊文比例均高于一般专业期刊,显著高于学术研究期刊;经验研究、研究综述的刊文比例除2003年外均低于一般专业期刊,并均显著低于学术研究期刊;案例研究、其他研究的刊文比例均低于一般专业期刊与学术研究期刊;调查研究的刊文比例与一般专业期刊各有差异,但显著低于学术研究期刊。

《会计之友》刊文在采用研究方法上的变动及其与其他期刊的分类比较如表8所示。

2.研究方向

从刊文的研究方向观察,《会计之友》财务会计研究方向的刊文比例呈波动中下降的趋势,从2001年的22.7%下降到2008年的17.7%;管理会计、会计信息化、财务管理以及会计职业道德研究方向的刊文比例呈先上升后下降的趋势,其中管理会计、会计信息化研究方向的刊文比例分别由2001年的2.9%、2.1%先上升到2004年的5.7%、6.4%再下降到2008年的4.5%、2.3%,财务管理研究方向的刊文比例先从17.2%上升到2005年的24.1%再下降到2008年的18.3%,会计职业道德研究方向的刊文比例先从2001年的0上升到2003年的3.6%再下降到2008年的0.2%;税务会计、会计教育研究方向的刊文比例呈波动中上升的趋势,即分别由2001年的2.1%、4.2上升到2008年的6.1%、8.3%;审计、成本管理、内部控制与治理结构以及会计史学研究方向的刊文比例的变动趋势不甚明显,分别在5.8%~10.1%、4.4%~7.1%、4.2%~7.3%与0~0.8%之间波动;其他研究方向的刊文比例呈先下降后上升的趋势,即先从2001年的31.1%下降到2006年的16.9%再上升到2008年的20.3%。

比较一般专业期刊与学术研究期刊,《会计之友》各年财务会计研究方向的刊文比例均显著低于一般专业期刊,但均显著高于学术研究期刊;管理会计研究方向的刊文比例均高于一般专业期刊,除2008年外也均高于学术研究期刊;税务会计研究方向的刊文比例除2005年、2006年外均略低于一般专业期刊,但均显著高于学术研究期刊;审计研究方向的刊文比例均显著低于一般专业期刊与学术研究期刊;成本管理研究方向的刊文比例均略高于一般专业期刊,显著高于学术研究期刊;财务管理研究方向的刊文比例除2008年外均高于一般专业期刊,但均显著高于学术研究期刊;内部控制与治理结构的刊文比例与一般专业期刊各有差异,但均显著低于学术研究期刊;会计信息化研究方向的刊文比例除2001年、2008年外均高于一般专业期刊,除2001年外也高于学术研究期刊;会计教育研究方向的刊文比例均显著高于一般专业期刊与学术研究期刊;会计职业道德研究方向的刊文比例除2003年、2005年外均低于一般专业期刊,但与学术研究期刊各有差异;会计史学研究方向的刊文比例与一般专业期刊各有差异,但除2005年、2006年外均低于学术研究期刊;其他研究方向的刊文比例除2006年外均高于一般专业期刊,2005年前与学术研究期刊各有差异,但从2005年起低于学术研究期刊。

《会计之友》刊文在研究方向上的变动及其与其他期刊的分类比较如表9所示。

3.研究领域

从刊文的研究领域观察,《会计之友》一般会计问题与其他会计问题的刊文比例呈波动中下降的趋势,分别从2001年的89.5%与2.5%下降到2008年的78.4%与1%;与此同时行业会计问题、政府部门会计问题以及非营利组织会计问题的刊文比例呈波动中上升趋势,分别由2001年的5.5%、2.1%与0.4%上升到2008年的7.7%、3%与9.8%。

比较一般专业期刊与学术研究期刊,《会计之友》各年一般会计问题的刊文比例均高于一般专业期刊,除2002年、2007年外也均高于学术研究期刊;行业会计问题的刊文比例均显著低于一般专业期刊,与学术研究期刊比较各有差异;政府部门会计问题的刊文比例除2007年、2008年外均低于一般专业期刊,2007年与一般专业期刊持平,但均显著低于学术研究期刊;非营利组织会计问题的刊文比例除2008年外均低于一般专业期刊,但均显著高于学术研究期刊;其他会计问题的刊文比例均高于一般专业期刊,与学术研究期刊各有差异。

《会计之友》刊文在研究领域上的变动及其与其他期刊的分类比较如表10所示。

4.研究侧重

从刊文的研究侧重观察,《会计之友》理论研究的刊文比例呈波动中缓慢下降趋势,从2001年的61.3%下降到2008年的42.5%;实务研究的刊文比例呈先上升后下降的趋势,即先从2001年的34.5%上升到2005年的68.1%,又下降到2008年的52.4%;政策解析的刊文比例呈在波动中略有上升的趋势,从2001年的0.8%上升到2008年的2.7%;其他研究侧重的刊文比例的变动趋势不甚明显,在0.1%~3.4%之间波动。

比较一般专业期刊与学术研究期刊,《会计之友》各年理论研究的刊文比例2004年之前均高于一般专业期刊,2004年开始均显著低于一般专业期刊,各年均更显著低于学术研究期刊;与此相对应的,实务研究的刊文比例2004年之前均低于一般专业期刊,2004年开始均显著高于一般专业期刊,各年均更显著高于学术研究期刊;政策解析的刊文比例2003年之前均低于一般专业期刊,2003年开始均高于一般专业期刊,除2001年、2002年与2004年外均高于学术研究期刊;其他研究的刊文比例除2005年外均高于一般专业期刊,除2008年外均显著低于学术研究期刊。

《会计之友》刊文在研究侧重上的变动及其与其他期刊的分类比较如表11所示。

5.作者任职单位

从刊文的作者任职单位观察,《会计之友》作者来自于高校的刊文比例呈先下降后上升的趋势,即先从2001年的57.1%下降到2005年的53.4%,后迅速上升到2008年的73.3%;与此相对应的,作者来自于企业的刊文比例呈先上升后下降的趋势,即先从2001年的25.6%上升到2005年的30.2%,再下降到2008年的19.5%;作者来自于科研机构与来自于其他单位的刊文比例的变动趋势不甚明显,分别在0.7%~2.2%之间与0~0.8%之间波动;作者来自于行政事业单位的刊文比例呈波动中下降的趋势,即由2001年的15.1%下降到2008年的6.4%。

比较一般专业期刊与学术研究期刊,《会计之友》各年作者来自于高校的刊文比例除2005年、2006年与2007年外均高于一般专业期刊,但均显著低于学术研究期刊;作者来自于科研机构的刊文比例除2002年、2003年与2006年外均低于一般专业期刊,除2005年、2007年与2008年外均高于学术研究期刊;作者来自于企业的刊文比例均显著高于一般专业期刊与学术研究期刊;作者来自于行政事业单位的刊文比例除2005年外均低于一般专业期刊,除2008年外均高于学术研究期刊;作者来自于其他单位的刊文比例均显著低于一般专业期刊,除2003年、2004年与2007年外均低于学术研究期刊。

《会计之友》刊文在作者任职单位上的变动及其与其他期刊的分类比较如表12所示。

6.署名方式

从刊文的署名方式观察,《会计之友》单一署名、两人署名、三人署名以及四人及以上或者采用课题组与单位署名的刊文比例的变动趋势不甚明显,分别在73.7%~82.4%、14.7%~22.8%、0.9%~4.4%与0~1%之间波动。

比较一般专业期刊与学术研究期刊,《会计之友》各年单一署名的刊文比例均高于一般专业期刊,显著高于学术研究期刊;两人署名的刊文比例均显著低于学术研究期刊,除2003年外也均低于一般专业期刊;三人署名的刊文比例均显著低于学术研究期刊,除2003年、2004年外也均低于一般专业期刊;四人及以上或者采用课题组与单位署名的刊文比例均显著低于学术研究期刊,除2008年持平外,也均低于一般专业期刊。

《会计之友》刊文在署名方式上的变动及其与其他期刊的分类比较如表13所示。

四、研究结论与建议

(一)研究结论

基于2001~2008年《会计之友》以及其他会计类中文核心期刊的分类刊文数据,可以得出如下研究结论:

1.《会计之友》的刊文在研究方法上,规范研究所占比例极高,高出一般专业期刊5个百分点,更是高出学术研究期刊22个百分点;与此相应的,实证研究与研究综述所占比例极小。《会计之友》刊文研究方法上的这种格局的变动趋势不甚明显。

2.《会计之友》的刊文在研究方向上,财务管理、其他以及财务会计三个方向居前三位,合计达到了近六成,其他研究方向的刊文比例在0.3%~7.9%之间;管理会计、成本管理、财务管理、会计信息化以及会计教育几个研究方向的刊文比例高于一般专业期刊与学术研究期刊,审计以及内部控制与治理结构研究方向的刊文比例低于一般专业期刊。《会计之友》刊文研究方向的格局并没有显示出趋势性的变化。

3.《会计之友》刊文在研究领域上,主要集中在一般会计问题上,行业会计问题、政府部门会计问题、非营利组织会计问题以及其他会计问题的刊文比例不足二成,这与一般专业期刊、学术研究期刊刊文在研究领域上的分布差别不大。但《会计之友》刊文在研究领域上的格局在发生较大变化,一般会计问题与其他会计问题的刊文比例在持续下降,与此相应的,行业会计问题、政府部门会计问题与非营利组织会计问题的刊文比例在持续上升。

4.《会计之友》刊文在研究侧重上,实务研究多于理论研究,这与一般专业期刊、学术研究期刊理论研究多于实务研究的格局存在着差别;政策解析的刊文比例尽管不大,但高于一般专业期刊与学术研究期刊。《会计之友》刊文的研究侧重格局具有明显的变化趋势,即理论研究刊文的比例在下降、实务研究、政策解析刊文的比例在上升。

5.《会计之友》刊文在作者任职单位上,尽管高校占了六成多,但略低于一般专业期刊,更低于学术研究期刊,而企业占了近四分之一,高出一般专业期刊10个百分点,学术研究期刊20多个百分点。《会计之友》刊文在作者任职单位上的格局在发生一些变化,作者来自于高校的刊文比例呈上升趋势、作者来自于企业与行政事业单位的刊文比例则呈下降趋势。

6.《会计之友》刊文在署名方式上,单一署名的占了大多数,高出一般专业期刊近8个百分点、更是高出学术研究期刊23个百分点;与此相应的,二人署名、三人署名以及四人及以上署名或者采用课题组与单位署名的刊文比例就低于一般专业期刊、更低于学术研究期刊。《会计之友》刊文在署名方式上的格局未显示出明显的变化趋势。

(二)未来刊文建议

会计期刊不仅在传递会计信息、展现会计研究成果、交流会计学术思想、探讨会计疑难问题、解析会计政策等方面发挥着载体作用,而且在引导会计学术研究与会计实务发展方面发挥着导向作用。这里的载体作用与导向作用无疑同时通过刊文反映出来。根据本项研究显示的《会计之友》的刊文特征与变动趋势,我们建议:

1.《会计之友》应坚持业已形成的所期望的刊文格局。《会计之友》的刊文在研究侧重上,不同于目前一般专业期刊与学术研究期刊理论研究的刊文比例超过实务研究的格局,而是已形成实务研究的刊文比例超过理论研究的格局,并且在向实务研究刊文比例上升、理论研究刊文比例下降所期望的趋势发展。目前,我国会计期刊刊发空洞的、雷同的或者简单重复的所谓理论研究论文较多,而真正能够解决会计工作中的实际问题的论文较少。实质上,从会计学科以及会计工作来看,存在着较多的理论问题需要研究,但存在着更多的实务问题需要解决,会计期刊特别是会计的一般专业期刊应该是进行实务问题研究的刊文比例高于理论问题研究。此外,《会计之友》关于政策解析的刊文比例高于一般专业期刊与学术研究期刊,这也反映了《会计之友》注意刊发对会计实务工作者正确理解与有效执行相关的政策法规具有指导意义的文章。《会计之友》在刊文的作者任职单位上,作者来自于企业的刊文比例显著高于一般专业期刊与学术研究期刊,随着我国企业会计准则国际趋同以及新企业会计准则的实施,企业出现了大量的会计问题需要进行研究并予以解决,作者来自于企业的刊文通常以实务为基础,更富有现实意义。《会计之友》的刊文在研究方向上,不仅关注财务会计、管理会计、审计、成本管理、财务管理、会计信息化以及会计教育等传统研究方向相关论文的刊出,同时关注内部控制与治理结构、税务会计等目前受到普遍重视的研究方向的相关论文的刊出,各种研究方向的刊文比例是比较合适的。《会计之友》刊文目前在研究侧重、作者任职单位以及研究方向上形成的期望的格局应予以坚持。

2.《会计之友》应调整一些不合理的刊文格局。从2001~2008年的数据可以看出,《会计之友》的刊文在研究方法上规范研究的比例太高,而经验研究、案例研究、调查研究等实证研究的比例太低,并且这一格局并未显示发生变化的迹象。从目前会计期刊的实际刊文看,一般的规范研究容易出现同一问题的简单重复、内容空洞、缺乏应有见解的情况,而以会计实例或会计实务为基础的案例研究、调查研究更能提出新的见解、给予启示,富有现实意义。为此,《会计之友》目前刊文研究方法上的格局必须打破,应提升实证研究,特别是案例研究与调查研究的刊文比例。《会计之友》的刊文在研究领域上一般会计问题的比例过高、行业会计问题、政府部门会计问题以及非营利组织会计问题的比例过低。无论是会计规范还是内部控制等其他相关规范,通常是根据一般情况予以制定的,但在实际的实施中往往因行业的不同、应单位的性质不同而产生较多的现实问题,由此可以推论一般会计问题、行业会计问题、政府部门会计问题以及非营利组织会计问题的刊文均应占有一定比例。尽管《会计之友》的刊文在研究领域上出现了一般会计问题的比例在下降、行业会计问题、政府部门会计问题以及非营利组织会计问题的比例在上升的趋势,但这一变化趋势仍显得比较缓慢,特别是行业会计问题的刊文比例应得到进一步的提升。

3.《会计之友》在刊文上应打破定式思维,以形成鲜明的特色与风格。一是在刊文所采用的研究方法上,应该提倡规范研究与实证研究并重,不应偏废某一类研究方法。规范研究与实证研究各有所长,也各有所短,关键在于能否通过分析论证得出令人信服的结论,能否为丰富与证明业已形成的会计理论、解决会计的现实问题提供依据或答案。二是在刊文上应有明确的导向。目前在刊文所采用的研究方法上应鼓励案例研究与调查研究;在研究方向上应注意刊发与当前会计及其相关实务中亟待解决的理论与实务问题相关的管理会计、税务会计、审计、成本管理、内部控制与治理结构、会计职业道德以及人力资源会计、环境会计、社会责任会计、价值链会计、法务会计等新兴会计学科研究方向的论文;在研究领域上,一般会计问题的刊文比例应下降,但在行业会计问题,还是在政府部门会计问题,或是在非营利组织会计问题方面的刊文应有所差异,特别是《会计之友》作为中国商业会计学会的会刊,应注意商业会计领域的刊文,其刊文在商业会计问题的研究方面应具有广泛的影响力;在研究的侧重上,应继续降低理论研究刊文的比例、提升实务研究与政策解析刊文的比例,提高刊文的可读性与实效性;在刊文作者的任职单位上,应进一步降低作者来自于高校的刊文比例,大幅提升作者来自于企事业单位,特别是具体从事会计实务工作者的刊文比例。三是在刊文的篇幅上,应不拘一格,既有长文,也应有短文。目前会计的一般专业期刊,由于受篇幅的限制不能展示完整的学术研究成果,一些学术研究成果在刊出时不得不作大量的删略而变得缺乏研究的完整性与不可理解性。实质上,一些会计问题,特别是会计理论问题,需要较长的篇幅才能对所研究的问题作出全面深入的分析,才能通过充分的论据来论证所提出的观点。在采用经验研究方法的情况下,由于需要进行已有研究文献的回顾、研究设计、数据收集与处理、结论分析等工作,论文的篇幅就比较长。对于对会计理论发展与会计实务改进具有现实意义的论文,应不受刊文篇幅的限制应予以刊出。当然,对于通过较短的篇幅能够阐述清实务中的某一个问题,或解析清会计规范中的某一问题的,则应提倡短文。在刊文中应由所研究的问题及其内容来决定篇幅。四是应该注意刊出争鸣性、质疑性、商榷性的论文。对于会计理论问题与实务问题的研究,在客观上存在着不同的观点与见解,应该通过会计期刊这一载体来进行争鸣与商榷,从而达成共识,促进会计理论与实务的发展。但遗憾的是目前观点鲜明、直呈批评意见的刊文却十分少见,而人云亦云、缺乏见解的刊文却比比皆是。《会计之友》在刊文上鼓励进行观点的交锋、质疑与商榷,不仅可以避免同一问题的简单重复、内容空洞、缺乏应有见解的刊文,而且可以扎实提高《会计之友》的办刊质量,真正成为展现会计研究成果、交流会计学术思想、探讨会计疑难问题、解析会计政策的平台,逐渐形成自己的鲜明特色与风格。●

作者:邵瑞庆 俞俊利 陈春华 袁国栋

证券类别分类研究论文 篇3:

基于MD&A文本和深度学习模型的财务报告舞弊识别

【摘 要】 财务报告舞弊是企业舞弊的手段之一,不仅会导致会计信息失真,而且会危害经济的健康发展,因此,如何克服传统的人工检测和基于数值指标的浅层模型识别等方法的弊端,找到一种更为高效的智能化识别方法具有重要的现实意义。选取2015—2019年间存在舞弊行为的A股上市公司定期报告,以其中的管理层讨论与分析章节(Management Discussion and Analysis,MD&A)为样本,同时确定了规模相同的控制样本,通过实证研究对比了深度学习模型和以往常用的浅层模型在检测财务报告舞弊时的性能。结果表明,在规模对等的舞弊和非舞弊类财务报告组成的文本数据集上,深度学习模型表现出明显优于基准模型的分类性能。研究结果为利用MD&A文本数据和深度学习方法识别企业财务报告舞弊的有效性提供了直接的证据。

【关键词】 财务报告舞弊识别; 管理层讨论与分析; 文本数据; 深度学习; 卷积神经网络

一、引言

由于财务舞弊可能引发严重的经济和社会问题,有效识别舞弊成为会计和财务领域的研究热点。财务报告舞弊因其发生频率相对较低,且通常由行业内具有丰富知识和从业经验的人实施,企业很容易掩盖这类舞弊行为。

2021年《关于依法从严打击证券违法活动的意见》提出,要依法严厉查处证券违法犯罪案件,加强诚信约束惩戒,强化震慑效应。上市公司财务报告舞弊现象,严重削弱了财务报告本身的风险预警作用。相较于耗时且昂贵的人工检测方式,开展效率更高的自动化和智能化检测已成为财务报告舞弊识别研究的关键问题。早期关于财务报告舞弊智能化识别的研究大多利用各类会计和财务指标预测企业的舞弊行为,而现实的金融市场中充斥着各种复杂的模式,仅靠一些数值指标构建的识别模型,其预测性能是相对局限的。因此,之后的研究开始逐步重视文本信息对于识别财务舞弊的作用,相当数量的研究也已证实利用定期报告中的管理层讨论与分析章节(Management Discussion and Analysis,MD&A)能够发掘部分财务报告舞弊现象[1]。

在已有研究中,利用机器学习模型对文本数据进行分类预测的方法较为流行。但传统的机器学习模型,也称“浅层模型”,在处理文本信息时需要借助先验知识人工提取样本特征,这种方式对数据含义的表达能力较弱。为了充分利用文本数据的价值,对能够更高效地提取和利用文本信息算法的需求愈加强烈。深度学习模型作为机器学习的另一种范式,能够自动实现特征的多次提取和变换,以实现数据更高层次的抽象表示,从而弥补了浅层模型的不足[2]。

基于此,本文采用了一种字符级卷积神经网络[3]的深度学习算法,并结合上市公司定期报告中的MD&A文本,构建了识别财务报告舞弊的智能化模型。研究收集了2015—2019年的上市公司舞弊样本以及同样规模的控制样本,利用词嵌入层将MD&A中的文本转换为特征矩阵,以识别具有舞弊性质的财务报告。同时,为了比较不同模型的预测性能,研究还选取了部分统计学模型和浅层模型作为基准模型。结果表明,深度学习模型利用MD&A文本识别上市公司财务报告舞弊的性能明显优于基准模型。本文的贡献在于,不同于以往基于浅层模型的研究,本文引入了人工智能领域兴起的深度学习技术,以构建检测舞弊的智能化模型;此外,研究还证明了财务报告这种可得性和可靠性更强的文本数据同样具备识别企业舞弊行为的价值,可以为舞弊识别及相关研究提供新的数据支持。

二、文献综述

早期针对财务报告舞弊识别的研究集中在对舞弊影响因素和信号的识别上,并利用统计学模型发现违规披露行为[4],但这种方法取得的成果相当有限,可能和在选取与舞弊相关的财务指标时存在一定的主观性有关。之后,数据挖掘和机器学习等智能化模型的应用成为舞弊识别研究的一个新趋势。与统计学方法相比,智能化识别模型对数据的假设更少,且支持非线性决策,这些特征提高了模型的可塑性和分类性能,也使得此类模型很快得到了广泛的应用[5]。

起初的智能化模型普遍采用数值指标,其样本属性有限,且选取过程存在较强的主观性,严重限制了模型的预测性能。因此,研究人员开始更多地关注文本这类具有复杂性和隐藏性的非结构化数据,通过提取文本的特征以判断它们是否能够作为识别财务报告舞弊的信息来源[6]。由于财务报告的MD&A部分由企业的管理团队使用通用且正式的商业语言编辑而成,涵盖了对企业的财务状况、经营成果和前瞻性声明等内容的讨论,也被大多数研究用作识别财务报告舞弊的文本来源[7]。本章节之后的内容主要讨论基于数值和文本數据以及各类智能化模型识别财务报告舞弊的研究。

(一)基于数值数据的智能化财务报告舞弊识别

目前基于数值数据的智能化财务报告舞弊识别模型主要基于浅层模型和数据挖掘模型构建,包括神经网络、决策树、随机森林、进化算法、支持向量机和混合方法等。

神经网络主要涉及BP神经网络、概率神经网络、数据处理组合算法、径向基函数神经网络和生长分层自组织映射网络。决策树包括单个决策树和决策树的集合,如随机森林。尽管决策树和随机森林模型可以处理舞弊检测问题中的非线性特征,但训练过程中容易出现过拟合的问题,即识别模型的泛化性能普遍较差。进化算法(如遗传规划和萤火虫算法)也被用于辅助决策树模型的设计和训练。支持向量机能够通过线性分类的方式解决财务报告舞弊识别这一复杂的非线性问题,而不需要增加计算的复杂度。然而,在处理噪声较多的数据集时,支持向量机可能表现出性能不佳的问题。混合方法是利用多种模型的优势组合而成的新模型,在针对特定的问题域时能够表现出优于单个模型的分类性能。表1按照时间顺序总结了基于数值数据实现智能化财务报告舞弊识别的研究。

(二)基于文本数据的财务报告舞弊智能化识别

目前研究所采用的文本主要包括企业披露的定期报告、新闻、金融社交媒体平台的用户生成内容(User-Generated Content,UGC)以及各类利益相关者提出的关于企业经营情况以及公开披露信息的分析和讨论等。其中,新闻、社交媒体和各类利益相关者产生的数据包含较多噪音,而企业披露的定期报告则具有更易于处理的结构和更可靠的来源,且其中包含很多具有误导性陈述的语言变量可以作为识别企业舞弊的依据,因而被很多研究用作识别财务报告舞弊的直接证据[16]。

在利用文本识别舞弊性的财务报告时,需要对文本数据进行预处理。由于浅层模型不进行或只进行一次特征选择的局限,必须借助有效的文本表示方法单独提取文本特征,以保证下游模型的识别性能。目前研究中应用的文本表示方法大致可以分为两类:第一类是对某些关键词、关键词元组或词汇和句子特征等的统计描述。例如文本的情感分析,利用语言模型构建的文本分析框架和基于词汇多样性和句法复杂度等语言特征实现对文本数据的量化处理等。第二类是基于某类算法实现特定的文本格式。主要的算法类别有:(1)词袋模型,即一种预先定义的单词列表,能够表示财务报告的负面性、不确定性和诉讼性的单词列表通常与企业的舞弊行为之间存在关联;(2)主题模型,例如LDA(Latent Dirichlet Allocation)模型,在企业舞弊的研究中常被用来提取财务报告的语义主题;(3)TF-IDF(Term Frequency-Inverse Document Frequency)算法,该算法能够实现词语级的文本特征提取,并基于词语权重形成的词向量集合表示文本集合。表2按照时间顺序总结了基于文本数据实现智能化财务报告舞弊识别的研究。

(三)文献评述

在对已有文献的综述中,有三点内容值得关注。首先,大多数研究运用的智能化识别方法对数据的假设更小,且允许非线性决策边界,这些特性提高了模型的灵活性和分类性能;其次,单纯使用数值指标构建智能化预测模型的局限性愈发突出,更多的学者开始关注文本这类来源广泛且数据量庞大,同时包含更多样本属性的非结构化数据;最后,对于财务报告舞弊的检测,浅层模型和数据挖掘算法只能利用数据集中存在的显式属性,却很难发掘同样存在的其他形式的隐藏属性。而文本数据恰恰包含较多隐藏的属性和模式,需要进一步探求更为有效的智能化识别方法。

对比浅层模型,深度学习模型的结构更为复杂,能更好地发掘数据集中存在的特征。而目前,基于文本数据识别财务报告舞弊的研究则是由浅层模型和数据挖掘模型占据主导地位,鲜有基于深度学习模型的探索。因此,本文的研究基于文本数据和深度学习算法构建识别财务报告舞弊的智能化模型,试图探究人工智能技术是否能更有效地挖掘和利用MD&A文本中预示企业舞弊行为的潜在信号,以识别财务报告舞弊,进而检验深度学习方法在财务报告舞弊识别研究中的应用价值。

三、数据选取和样本来源

我国上市公司各级监管机构的公开披露是判定上市公司是否存在舞弊行为最客观和有效的依据之一。一方面,研究依据中国证监会、上海证券交易所、深圳证券交易所和地方证监局对上市公司的处罚报告和收录这些披露文件的CSMAR数据库,并按照CSMAR数据库对处罚公告的分类,选取其中涉及虚构利润、虚列资产、虚假记载、重大遗漏、披露不实和一般会计处理不当六类定期报告舞弊行为的公告确定为舞弊样本。另一方面,由于2015年之前的部分定期报告将MD&A合并在董事会报告一节中未单独披露,研究将2015年作为选取舞弊样本的时间起点。据此,本文选取了2015—2019年存在上述舞弊行为的上市公司定期报告(包含具有MD&A章节的年度报告和半年度报告)共计454份。同时,为了保证控制样本与舞弊样本具有相同的规模,研究还依据中国社会科学院金融研究所等在2015—2018年发布的《中国上市公司质量评价报告》和报告中的上市公司价值管理能力排名,以及恒大研究院发布的《中国上市公司质量报告:2019》中的合规质量,选取每年排名前45的上市公司作为控制样本,得到半年度报告和年度报告共计450份。

图1总结了研究的分析过程,包括文本数据的选取、文本预处理、样本特征提取、模型构建和结果评估5个部分。

四、模型构建

文本分类是自然语言处理(Natural Language Processing,NLP)领域的一个经典问题,具体指按照事先定义好的主题类别来划分数据集中每个文本的类别。研究参考Zhang et al.[3]提出的字符级卷积神经网络,利用上市公司财务报告中的MD&A文本,构建了一种通过文本分类方式识别舞弊性财务报告的智能化模型,并选取了部分统计学模型和浅层模型作为基准模型,以对比不同模型的分类性能。

对于输入深度学习模型和基准模型的MD&A文本,研究采用了不同的文本預处理流程,尤其是根据浅层模型和深度学习模型各自的特点选取了不同的文本表示方法,以尽可能提升下游模型的分类性能。后面将详细阐述深度学习模型和基准模型各自的文本预处理方法,以及深度学习模型的具体架构和实现。对于基准模型,本文只进行简要的介绍。

(一)深度学习模型

深度学习模型的设计过程主要分为两个阶段:一是文本的预处理;二是模型的构建。

1.文本预处理

深度学习模型的文本预处理主要包括两个步骤:一是数据集类别的划分;二是文本字符的初步量化。

大多数基于智能化模型的财务预测研究采用了二分法的方式,即将数据集划分为训练集和测试集,其中训练集通常占80%,测试集占20%。为了尽可能避免训练阶段产生的模型出现过拟合的问题,研究增加了验证集的划分。同时,为了保持数据划分的一致性,避免因数据划分过程中存在额外偏差而影响最终的结果,参照机器学习研究对小样本集(样本总数通常小于10 000)的划分惯例,本文按照 的比例将MD&A文本集划分训练集、验证集和测试集,且每类数据集都保持舞弊类和非舞弊类的样本数量对等。

样本在划分为不同类别的数据集后还需要经过进一步的预处理:首先,去除了MD&A文本中的数字、字母、标点符号和一些特殊符号。这种对文本信息的过滤也是NLP中常用的方法,有助于降低下游分类模型的维数。其次,字符的编码过程需要为输入模型的文本构建一个固定规模为m的词汇表,并采用整数对表中的每个字符进行量化,每个整数表示一个字符的ID。词汇表通常需要覆盖文本所包含的95%的词汇,考虑到研究所采用的文本的字符数量,本文将m的大小设置为3 000,词汇表会优先量化高频字符,在达到固定规模3 000后其余的字符将被作为低频字符过滤掉。最后,利用词汇表将文本表示为字符的ID列表。此时,每篇MD&A文本序列的长度需要固定为l。这是因为用于训练卷积神经网络的张量(即表示为多维数组的数据,由词汇表量化的文本序列再经过词嵌入层的处理得到)必须由相同维数的矩阵组成,而每篇文本的长度不同,因此需要截断较长的文本,同时向较短的文本添加零,这种操作也被称为填充。研究将文本的固定长度l设置为5 000。此外,不在词汇表中的字符也将被量化为零。

2.基于词嵌入的文本表示

文本表示是NLP中的一个核心任务,现有的表示方法主要有离散形式的符号表示和分布式表示两种形式。词嵌入属于词语的一种分布式表示形式,能够将词语映射到一个数十或数百维度的实值向量中,并尽可能保留原始数据的属性。这种方法能更好地衡量词语之间的距离(即语义的相似性,距离上更接近的词语便被赋予类似的表示),以便在显著降低文本和下游模型维度的同时更好地理解文本的底层语义。

研究以截取自MD&A部分的语句为例,详细说明基于词嵌入的文本表示方法,具体过程可以分为4个步骤,结果如图2所示。第一,根据研究构建的词汇表,“强化公司内部管理”被转换为8个整数ID构成的句向量,n1至n8分别表示字符在词汇表中对应的整数。第二,整数ID构成的句向量被进一步转换为独热编码表示的8×m的矩阵。独热编码使用稀疏的高维向量表示每个字符(维度等于词汇表的规模m),该向量除第ni列(i=1,2,…,8)为1外,其余列均为0。第三,词嵌入层需要训练一个m×d的系数矩阵,d为语句最终嵌入的向量空间的维度。系数矩阵的参数aij(i=1,2,…,m;j=1,2,…,d)由随机初始化生成,通过神经网络模型和反向传播算法进行训练与更新。第四,独热编码表示的语句矩阵输入词嵌入层后,经过系数矩阵的变换(矩阵相乘),最终被映射到一个8×d的向量空间中,表示为一个8×d的文本特征矩阵。通过词嵌入的处理,8个字符都被表示成维度为d的向量,每个维度θij(i=1,2,…,8;j=1,2,…,d)则表示由-1到1之间的具体数值构成的特征值。

研究在卷积神经网络的前端构建了词嵌入层,每个由整数ID表示的字符构成且长度为l的文本向量在输入词嵌入层后被映射到一个l×d的向量空间中。向量空间的维度d属于模型的参数,经过多次训练和优化,本文将这一参数设置为64。词嵌入层通过自训练的方式实现,更利于针对特定数据和分类任务。

3.字符级的卷积神经网络

本文采用了一种基于字符层面建模的卷积神经网络来提取文本的高层抽象概念,具体架构如图3所示,包括词嵌入层、卷积层、池化层、全连接层以及输出层。卷积神经网络的核心思想是训练多个卷积核通过卷积操作来检测样本的局部特征。在本文的研究中,这些局部特征可能是识别财务报告舞弊的关键。

经过词嵌入层处理得到的文本特征矩阵T∈Rt×d首先被输入卷积层(l为文本的固定长度,d为向量空间的维度)。卷积核C∈Rh×d的行数h(即长度)为5,列数d与文本特征矩阵的维度同为64。每个卷积核都会从上到下依次与5行64列的文本矩阵块做卷积操作,卷积核每次下移的幅度为步长1。每次卷积操作得到的特征可以表示为:

其中,Ti:i+h-1表示由第i个到第i+h-1个字符向量组成的文本矩阵块,b为偏置项,f(x)为ReLU激活函数。每个卷积核通过卷积计算共能得到l-h+1个特征,由此组成的特征图可以表示为:

研究共构建了256个卷积核,因此能够得到256张特征图。

卷积层提取的特征图依然具有较高的维度,需要经过池化层的处理,以进一步提取特征和过滤文本信息。研究采用全局最大池化的方法,以每张特征图为单位,通过选取其中最大的特征值并舍弃其他特征值的方式再一次实现局部特征的提取。

池化层从每张特征图中提取的局部特征会输入全连接层进行非线性组合。研究对全连接层的神经元进行了随机失活(Dropout)处理,即在每轮迭代的过程中随机使一部分神经元失活(比例设置为0.5),从而减少特征的冗余,防止模型出现过拟合问题。此外,研究还采用ReLU(Rectified Linear Unit)激活函数对全连接层神经元输出的结果进行非线性变换。

最终,由softmax分类器构成的输出层会根据全连接层输入的结果生成每个样本的分类标签(舞弊和非舞弊),从而完成文本分类的过程。

4.模型的具体实现

研究基于TensorFlow的架构构建深度学习模型,模型的权重使用高斯分布进行初始化。由于CNN是一种典型的前馈神经网络,需要利用反向传播算法完成模型的训练,损失函数则选择了交叉熵损失函数。由于完整的训练集规模较大,耗用的计算资源较多,不利于模型的训练。因此,研究采用批尺寸为64,且经过Adam算法优化的随机梯度下降方法(Stochastic Gradient Descent,SGD)进行参数调优,学习率设置为0.0001(过低会导致参数更新速度缓慢,过高则可能跳过局部最小值点)。SGD也是对标准BP算法的一种优化。由于目标函数可以分解在不同的子集上进行计算求和,通过将训练集划分为多个较小的子样本集,可以使SGD算法一次只在一個批次上更新参数(包括词嵌入层和卷积层的权重矩阵)。样本的训练采用10轮迭代的方式,并在模型性能无法改善的情况下使用提前停止方法终止训练过程。

(二)其他基准模型

研究选取了一些统计学模型和浅层机器学习模型,并以此为基础对深度学习模型进行了基准测试。统计学模型包括逻辑回归和朴素贝叶斯模型,浅层模型则包含支持向量机、随机森林和两类梯度提升决策树的变体模型(XGBoost和LightGBM)。基准模型基于scikit-learn机器学习库提供的方法构建。

1.文本预处理

研究基于同样的MD&A文本集训练基准模型,并利用五折交叉验证方法实现模型的训练和测试。数据集在进行文本表征和特征提取前依然需要先移除文本中的数字、字母、标点符号和一些特殊符号,保留纯文本内容,再完成去除停用词和分词处理。研究参照哈尔滨工业大学开发的中文停用词表去除文本的停用词,并选用jieba中文分词工具实现分词处理。

文本的表示形式和特征提取过程基于卡方检验和TF-IDF算法。卡方检验的核心思想是通过观测实际值与理论值的偏差衡量假设是否正确。基于这一原理,在对MD&A文本进行特征选择时,本文将“特征词与财务报告舞弊不相关”作为原假设,以提取文本的特征词汇。具体的计算方法如下:

其中,N表示文本总数,A和B分别表示特征词在舞弊类和非舞弊类文本中出现的频率,C和D则分别表示特征词在舞弊类和非舞弊类文本中不出现的频率。根据上述的计算方法,研究提取了文本集中的前1 000个词作为特征词。

考虑到这些特征词在文本分类中的重要性,利用词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法来赋予特征词不同的权重。基于TF-IDF算法,特征词的权重可以表示为:

其中,j表示文本,k和l表示文本类别,tfijk表示特征词i在k类j文本的词频,N表示文本总数,n表示包含特征词i的k类文本总数。由此,由卡方检验提取的特征词表示的MD&A文本被进一步转换为TF-IDF权重表示的文本向量。

2.统计学模型和浅层模型

逻辑回归是智能化舞弊识别研究中最常用的模型,它利用一系列输入向量、一个相关的响应变量以及自然对数来计算回归结果在特定类别内的概率。对于舞弊识别这种二元分类问题,响应变量可以表示为:

计算MD&A文本所属类别的公式为:

除了逻辑回归,本文还采用了另一种统计学中常用的数据分类模型,即朴素贝叶斯(Naive Bayesian,NB)模型。NB算法基于贝叶斯原理,假定MD&A文本的特征向量为,文本属于某一类别ci的概率为条件概率P(ci),模型的训练过程就是利用训练集统计先验概率P(ci)和特征dj(N为样本包含的特征数)在类别ci(i={0,1})中出现的概率。具体的计算方法可以表示为:

研究选取的浅层模型包括支持向量机、随机森林和决策树,这些模型都是财务预测的研究中最常用的智能化模型。支持向量机通过将样本空间映射到一个高维的特征空间中,使得很多复杂的非线性问题能够通过线性分类的方式解决。本文选择了RBF函数作为支持向量机模型的核函数;随机森林是一种包含多个决策树的分类模型,会随机选择特征集中的n个特征,每棵树都对样本集采用Bootstrap抽样的方法确定自身的训练集;此外,研究还构建了两种梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的变体模型:XGBoost和LightGBM。GBDT是一种集成学习模型,能基于决策树实现分类和回归。模型的训练过程由多轮迭代完成,每轮迭代产生一个弱学习器,并基于上一轮迭代的残差进行训练,通过不断减小残差来提高分类精度,直至达到最优。

五、实证结果

(一)模型评估

构建一个具有较好的样本外预测能力的财务报告舞弊识别模型对本文的研究至关重要。对于深度学习模型和基准模型,研究都采用精确率(Precision)、召回率(Recall)和F1分数(F1-score)三类评价指标衡量模型在测试集上的分类性能。

精确率表示模型预测出的舞弊类样本中被正确预测的比例,召回率则表示所有的舞弊类样本中被正确预测的比例。精确率和召回率可以分别表示为:

其中,TP(即真阳性(True Positive,TP))表示被模型预测为舞弊样本且本身也为舞弊样本的MD&A文本;FP(即假阳性(False Positive,FP))表示被模型预测为舞弊样本而本身为非舞弊样本的MD&A文本;FN(即假阴性(False Negative)),表示被模型预测为非舞弊样本而本身为舞弊样本的MD&A文本。F1分数是统计学中常用来衡量模型二分类性能的一种指标,可以表示模型的精确率和召回率的一种调和平均值,具体表示为:

这三类指标的值均介于0和1之间,越接近1表示模型的分类性能越好。然而,以上三类指标的计算过程均假定舞弊类文本为正样本,而非舞弊类文本为负样本。为了综合考察模型在不同类别上的分类性能,研究还引入了宏平均(Macro-Average)的方法,即对舞弊类和非舞弊类样本分别作为正样本时得到的评价指标值求算术平均值。

(二)实证结果及分析

表3和表4分别总结了利用上市公司定期报告中的MD&A文本训练的深度学习模型和基准模型在样本外数据集上的预测结果(评价指标采用宏平均后的数值),以及深度学习模型在不同类别上的预测性能。深度学习模型的架构基于词嵌入模型和一种字符级的卷积神经网络,基准模型则选取了两类统计学模型(逻辑回归和朴素贝叶斯模型)和三类浅层模型(支持向量机、随机森林和梯度提升决策树)。根据表3和表4列示的各项评价指标,研究的实证结果可以总结为以下四点:第一,研究所实现的模型,无论是深度学习模型还是其他基准模型,评价分类性能的指标值均大于0.7,表明模型能够有效利用MD&A中的文本信息进行财务报告舞弊识别;第二,深度学习的各项分类性能均显著高于其他基准模型,表明相较于传统智能化财务报告舞弊检测研究所采用的模型,本文构建的深度学习架构能更好地识别具有舞弊性质的财务报告;第三,逻辑回归、朴素贝叶斯和支持向量机模型的各项指标均在0.8左右,显著高于其他决策树类的模型,表明基于小样本(样本数小于1 000)的文本数据集进行财务报告舞弊识别时,逻辑回归、朴素贝叶斯和支持向量機模型具有更好的预测性能;第四,深度学习模型在两类MD&A文本集上的评价指标值均大于0.82,表明模型在不同类别的数据集上均表现出较好的舞弊识别能力。

六、结论与启示

财务报告作为公开披露的信息,直接反映了企业的运营状况,因此也成为了企业实施舞弊行为的重要媒介。有效识别财务报告舞弊成为规范金融市场运行秩序的重要手段之一。利用深度学习技术在NLP领域取得的各项突破,本文构建了用于识别上市公司财务报告舞弊的字符级卷积神经网络模型,该模型采用财务报告中的MD&A文本作为分析样本。结果表明,在浅层模型具有明显优势的小样本数据集上,不需要经过复杂的文本特征定向提取,字符级卷积神经网络模型依然能够表现出更优越的分类性能,这一结果也为利用深度学习技术改进现有的财务报告舞弊识别方法提供了直接的证据。此外,研究不仅证明了深度学习模型在识别财务报告舞弊上的优势,而且所构建的各类模型在MD&A文本上均表现出较好的预测性能,这体现了企业披露的公开文本所具有的效用和信息价值。同时,财务报告的文本披露作为一种可靠性强且易于获得的数据来源,可以为相关研究提供很好的数据支持。

本文涉及到的很多内容值得进一步探究。首先,深度学习模型和其他使用非结构化数据的人工智能系统类似,训练拟合出的卷积神经网络模型是一个黑箱。深入挖掘和分析模型训练过程中提取的文本局部特征,有利于揭示表明企业存在舞弊行为的财务报告文本的本质;其次,研究只采用了MD&A文本作为训练数据的唯一来源,而目前依然存在大量的非结构化数据源源不断地注入金融市场,利用更多不同来源的文本数据可能有助于提升深度学习模型在企业舞弊识别中的性能;最后,研究所涉及的词嵌入方法和字符级的CNN模型只是深度学习技术的冰山一角。仅就NLP而言,深度学习还存在大量的新兴技术值得深入研究,例如知识图谱、注意力机制、Transformer等文本表示方法,循环神经网络、自编码器、受限玻尔兹曼机、对抗生成网络和强化学习等深度学习的基础架构,以及基于这些架构及其变体模型组合而成的混合模型等。总之,本文发掘了基于文本数据的深度学习模型在财务和会计预测研究中的部分价值,更多的应用价值值得后续的研究进一步探索。

【参考文献】

[1] DONG W,LIAO S,LIANG L.Financial statement fraud detection using text mining:a systemic functional linguistics theory perspective[C].Proceedings of the Pacific Asia Conference on Information Systems (PACIS),2016.

[2] 胡越,罗东阳,花奎,等.关于深度学习的综述与讨论 [J].智能系统学报,2019,14(1):1-19.

[3] ZHANG X,ZHAO J,LECUN Y.Character-level convolutional networks for text classification[C].Proceedings of the Advances in Neural Information Processing Systems,2015.

[4] 张莉.基于国家治理的上市公司舞弊审计实证检验 [J].财会月刊,2018(6):20.

[5] MAI F,TIAN S,LEE C,et al.Deep learning models for bankruptcy prediction using textual disclosures[J].European Journal of Operational Research,2019,274(2):743-758.

[6] DONG W,LIAO S,ZHANG Z.Leveraging financial social media data for corporate fraud detection [J].Journal of Management Information Systems,2018,35(2):461-487.

[7] GLANCY F H,YADAV S B.A computational model for financial reporting fraud detection[J].Decision Support Systems,2011,50(3):595-601.

[8] 皇甫冬雪.基于Lib-SVM的損益调整类财务报告舞弊识别模型研究——来自中国证券市场的证据[J].会计之友,2011(25):75-79.

[9] RAVISANKAR P,RAVI V,RAO G R,et al.Detection of financial statement fraud and feature selection using data mining techniques[J].Decision Support Systems,2011,50(2):491-500.

[10] PAI P-F,HSU M-F,WANG M-C.A support vector machine-based model for detecting top management fraud[J].Knowledge-Based Systems,2011,24(2):314-321.

[11] HUANG S-Y,TSAIH R-H,YU F.Topological pattern discovery and feature extraction for fraudulent financial reporting[J].Expert Systems with Applications,2014,41(9):4360-4372.

[12] CHEN S,GOO YJ J,SHEN ZD.A hybrid approach of stepwise regression,logistic regression,support vector machine,and decision tree for forecasting fraudulent financial statements[J/OL].The Scientific World Journal,2014.

[13] PRADEEP G,RAVI V,NANDAN K,et al.Fraud detection in financial statements using evolutionary computation based rule miners[C].Proceedings of the International Conference on Swarm,Evolutionary,and Memetic Computing,2014.

[14] KIM Y J,BAIK B,CHO S.Detecting financial misstatements with fraud intention using multi-class cost-sensitive learning [J].Expert Systems with Applications,2016,62:32-43.

[15] 馮炳纯.基于数据挖掘技术的财务舞弊识别模型构建[J].财会通讯,2019,805(5):93-97.

[16] XING F Z,CAMBRIA E,WELSCH R E.Natural language based financial forecasting:a survey [J].Artificial Intelligence Review,2018,50(1):49-73.

[17] DYCK A,et al.The corporate governance role of the media[J].The Journal of Finance,2008,63(3):1093-1135.

[18] CECCHINI M,AYTUG H,KOEHLER G J,et al.Making words work:using financial text as a predictor of financial events[J].Decision Support Systems,2010,50(1):164-175.

[19] HUMPHERYS S L,MOFFITT K C,BURNS M B,et al.Identification of fraudulent financial statements using linguistic credibility analysis [J].Decision Support Systems,2011,50(3):585-594.

[20] GOEL S,UZUNER O.Do sentiments matter in fraud detection? Estimating semantic orientation of annual reports [J].Intelligent Systems in Accounting,Finance and Management,2016,23(3):215-239.

[21] MINHAS S,HUSSAIN A.From spin to swindle:identifying falsification in financial text [J].Cognitive computation,2016,8(4):729-745.

[22] HAJEK P,HENRIQUES R.Mining corporate annual reports for intelligent detection of financial statement fraud a comparative study of machine learning methods[J].Knowledge Based Systems,2017,128(6):139-152.

作者:赵纳晖 张天洋

上一篇:动态电源技术管理论文下一篇:农村学校初中物理论文