数据挖掘技术在社保审计中的运用

2023-01-27

1 引言

随着金保工程的建设, 社保信息系统越来越复杂, 社保统筹级次存在多种级次, 部分险种的社保统筹级次已经实现省级统筹, 且数据为集中存储, 致使数据量越来越多, 这给审计人员带来了新的困难和挑战, 在海量数据中, 如何挖掘出对审计有用的信息, 如何发现审计线索和疑点, 迫切需要将审计模式拓展到业务数据审计模式或财务业务相结合的审计模式, 而这又需要新的技术手段和相应的系统才能解决。

2 数据挖掘技术在社保审计中的应用过程

2.1 数据的预处理

由于数据输入错误、重复记录、丢失值、不一致的编码等原因, 容易造成脏数据, 数据挖掘的预处理是生成事务模式和有效审计的基础。首先, 是审计过程中初始的数据采集, 涉及的技术主要有:一是审计数据一次性采集, 二是增量数据提取。在联网审计方式下, 考虑到审计部门与被审计单位之间数据传输网络的速率、费用、质量等因素, 一般初次使用历史数据的全备份对审计数据库进行初始化, 以后只要按周期提取被审计单位业务系统中产生的增量数据就可以满足审计需求。其次, 运用具体数据预处理的方法来消除冗余与错误。一般来说, 数据挖掘预处理过程包括:数据提取、数据清理、数据集成转换和归约、数据加载。

2.2 采用合适的计算机数据挖掘技术方法

数据挖掘是一门交叉性学科, 涉及人工智能、数据库、统计学等多个领域。数据挖掘的主要方法包括关联分析、分类与预测、聚类分析、异类分析等。下面介绍本次研究的主要方法:

第一, 基于可视化分析的数据挖掘应用。可视化分析技术将数据的整个处理过程和业务流程及审计思路以可视化 (图形或图像等) 的方式呈现出来, 方便理解和记忆。例如:数字化审计平台中的可视化分析功能就是基于这一技术来设计的, 实际审计时, 可以通过该功能将不够年龄违规领取待遇的情况以图表的方式展现, 同时也将加工过程可视化。

第二, 基于关联规则的数据挖掘应用。关联规则是描述事物之间同时出现的规律的知识, 关联分析就是给定一组对象和一个记录集合, 通过分析记录集合, 推导出对象间的相关性, 目的是为了挖掘出隐藏在数据间的相互关系。审计人员在审计时, 有时候是从数据入手, 通过数据倒推出业务场景, 从而判断是否合法、合规, 数据可能在多张表存储, 表间的业务关系是很难发现的, 利用关联分析, 我们能快速找出数据间的关系。

第三, 基于划分聚类检测孤立点的数据挖掘应用。所谓划分聚类是指利用算法构造一个簇集, 其中簇的数目是由用户指定或系统指定。虽然在各种算法中, 可以在算法内部产生几个不同的簇, 但划分聚类的结果只产生一个簇集。例如:医院系统收费项目繁多, 在审计调查中我们重点审查乱收费、重复收费等情况。可以将同类型的收费项目细化定义为相互独立的几个聚类, 通过算法, 若某一个病人在某一天同时被划分到两个聚类中, 则此条记录存在重复收费的异常。

3 数据挖掘的审计案例

下面主要以sql server 2008 R2中进行的某地市社会保险资金审计案例介绍挖掘过程。

3.1 业务问题定义

第一, 企业职工养老保险基金征缴记录中, 需要对缴费类型进行分类, 一般被分为五类, 1正常, 2补缴, 3退费, 4预交, 5缓缴, 审计中需要审查缴费类型是否正确。为此, 需要通过数据挖掘分析掌握不同缴费类型的一些特征, 从而为审查缴费类型是否正确提供一些线索。

第二, 一个地区的养老保险基金缴费比例是一定的, 这样针对每一个参保人员来说, 其单位缴费金额和个人缴费金额应该是成固定比例的, 通过数据挖掘, 分析单位缴费金额和个人缴费金额之间的关联关系, 以期发现一些异常线索。

3.2 数据准备

根据以上问题的定义, 首先取得了地市企业职工养老保险基金的征缴记录和公共信息, 然后进行了一定的整理和转换。整理后形成了一张企业养老保险应缴实缴明细表。包括险种名称、行政区划代码、人员身份、费款所属期、个人应缴金额、单位应缴金额等等字段。

3.3 数据分析并生成分析表

打开SQL Server数据库, 在Audit Project Manager数据中分别运行社保审计报告所需数据查询语句.sql、社保审计报告所需数据查询语句.sql和社保报告图表数据查询语句。部分类SQL语句:

select险种_F, 年度_E, cast (cast (sum (合计_H) as decimal (10, 2) /10000 as decimal (10, 2) as总人数into各项社会保险参保人数from[全国社会保障资金审计实施方案附表_Sheet表03-社会保险参保和发放基本情况表_Data]where险种_F not like'%其他%'group by险种_F, 年度_Eorder by险种_F, 年度_E。

虽然目前社保资金审计中数据挖掘技术的运用还处于摸索阶段, 但我们坚信随着科技和审计事业的不断发展前进, 它的使用将成为一种趋势并将实现常态化, 从而为我们蓬勃发展的审计事业注入新的动力。

摘要:社保资金审计是关系国计民生的大事, 在社会保险资金审计中运用数据挖掘技术开展研究, 是实现审计目标的有效途径。针对目前各种社保数据库系统应用过程中积累的海量数据, 本文较详细地阐述了数据挖掘技术辅助手段在社保审计中的应用情况。

关键词:数据挖掘,审计,社保资金

参考文献

[1] 宗勇, 王博.数据挖掘技术在社保审计中的运用研究[J].理财:学术版, 2014 (1) .

[2] 陈丹萍.数据挖掘技术在现代审计中的运用研究[J].南京审计学院学报, 2009 (6) .

上一篇:VAV末端在房间温度及CO2控制应用的探讨下一篇:多媒体教学的应用