Logistic回归模型在税务稽查选案中实例应用

2022-09-11

税务稽查选案, 是税务机关根据纳税人的有关信息, 运用恰当方法, 选择税务稽查对象的一项工作。传统的稽查选案是以举报信息为主要依据的, 因此, 稽查选案具有较大的不确定性, 无法保证税务执法的公正性与透明度, 同时对市场经济下涌现出的日益高明的偷逃税手法, 也越来越无能为力。因此, 采用计算机工具, 采用现代的科学方法, 如统计方法、人工智能方法来完成稽查选案工作, 是税务稽查部门日益关注的课题。

与别的统计方法或人工智能方法相比, Logistic回归是更好的一种方法, 其优点是: (1) 从统计上讲, 判别分析依赖于严格的多元正态性和相等协差阵的假设, 这在很多情况下是达不到的, Logistic回归没有类似的假设, 而且这些假设不满足时, 结果非常稳定。 (2) 即使满足假定, 由于Logistic回归有直接的统计检验, 能包含非线性的效果和大范围的诊断, 在很多情况下更加适用。 (3) 作为自变量, 建立Logistic回归模型, 根据观测值就可以直接计算每一个纳税户诚实纳税的概率, 我们可以根据概率确定一个稽查的原则, 如若概率小于0.5, 即可认为是非诚实纳税户, 作为稽查对象。这样对小范围内选案的效率更高, 准确性也更高。

1 Logistic回归的基本理论

通常我们需要研究某一社会现象发生额概论p的大小, 但是直接处理可能性数值p存在困难, 一是0≤p≤1, 因此p与自变量的关系难以用线性模型来描述;二是当p接近0或1时, p值的微笑变化用普通的方法难以发现和处理好。这时, 不处理参数p, 而处理p的一个严格单调函数Q=Q (p) 就会方便得多。要求Q (p) 在p=0或者p=1的附近的微小变化要很敏感, 即比例, 于是令

将p换成Q, 这一变化就称为Logistic变换, 从Logistic变换可以看出, 当0→时, Q的值从-∞→∞, 因此Q的值在 (-∞, +∞) 上变化, 这一变换完全克服了一开始所提出的两点困难, 在数据处理上带来很多方便。如果自变量的关系式是线性的、二次的或多项式的, 通过普通的最下二乘法就可以处理, 然后从p与Q的反函数关系中求出p与自变量的关系。这就是Logistic变换所带来的方便。

根据上面的思想, 当因变量是一个二元变量时, 只取0与1两个值时, 因变量取1的概率p (y=1) 就是要研究的对象。如果有很多因素影响y的取值, 这些因素就是自变量记为x1, x2, …, xk, 这些xi中既有定性变量, 也有定量变量。最重要的一个条件是:

也即是x1, x2, …, xk的线性函数。满足上面条件的称为Logistic线性回归。

2 Logistic回归的方法及步骤

Logistic回归一般有以下几个步骤: (1) 选择自变量和因变量。这里因变量为分组变量, 自变量可以是定量变量和定性变量。Logistic回归对于资料数据有较强的稳健性, 无需各组自变量的协方差阵相等的假定。 (2) 将一部分样品用于估计Logistic函数, 另一部分样品用于检验模型的判别精度。 (3) 模型中假定自变量之间不存在高度相关, 因变量发生概率的模型服从于Logistic模型。这样我们可以进行Logistic回归估计。 (4) 估计模型参数, 评估拟合情况, 选择回归估计的方法对回归参数进行估计并检验回归参数的显著性, 对模型的拟合程度检验。 (5) 解释所得到的模型结构。通过参数的显著性和符号、大小来解释自变量对因变量的意义。 (6) 通过保留样本验证模型的判别精度。

分组数据的Logistic回归首先要对频率做Logit变换, 变换公式为, 这个变换要求pi=mi/ni≠0或1, 即要求mi≠0, ni≠mi

当存在mi=0或mi=ni时, 可以用如下的修正公式计算频率:Pi= (3)

分组数据的Logistic回归存在异方差性, 需要采用加权最小二乘估计。除了式子 (3) 给出权函数wi=nipi (1-pi) 之外, 也可以通过二阶段最小二乘法确定权函数。

第一阶段是用普通最小二乘拟合回归模型。

第二阶段是从第一阶段的结果估计出组比例, 用权数wi=nipi (1-pi) 做加权最小二乘。

3 Logistic回归的过程及结果

Logistic回归用于税务稽查识别的思路是:假定已将一部分纳税户划分为诚实纳税户和非诚实纳税户, 进一步将诚实纳税户赋值为0, 非诚实纳税户赋值为1, 纳税户取0的概率作p为因变量, 影响因变量取值的其他因素x1, x2, …, xk作为自变量, 建立Logistic回归模型:

根据观测值就可以直接计算每一个纳税户诚实纳税的概率, 我们可以根据概率确定一个稽查的原则, 如若概率小于0.5, 即可认为是非诚实纳税户, 作为稽查对象。

3.1 建立Logistic回归模型

经过对14家企业的有关报表的分析, 以及与稽查人员的座谈和反复研讨, 我们把众多财务指标划分为4大类:1、财务结构指标。例如负债率、资产负债率等。2、偿债能力指标, 例如流动比率、所有者权益比率等。3、经营能力指标, 例如流动资产周转率、自有资本周转率等。4、盈利能力指标, 例如销售利润率, 成本费用利润率等。

我们从中选取20个指标进行Logistic回归, 采用SAS编程 (见附表1) 建立Logistic回归模型。

从表1我们可以看出对于20个指标, 利用Logistic回归, 进入方程的变量只有上表1所述的y3, y4, …。共10个变量。这10个变量所建立的Logistic回归方程为:

P=exp (-27.4746+5.7585*y3-4.0912*y4-0.8295*y6-0.2879*y9+26.5613*y10+0.1513*y11+5.0955*y14+13.0248*y15+718.4*y16-423.4*y18) /1+e x p (-2 7.4 7 4 6+5.7 5 8 5*y 3-4.0912*y4-0.8295*y6-0.2879*y9+26.5613*y10+0.1513*y11+5.0955*y14+13.0248*y15+718.4*y16-423.4*y18) (5)