客户信用数据挖掘论文

2022-04-21

一、前言本文就客户信用评估中如何应用分布式数据挖掘技术进行探讨。企业客户信用评估在市场经济中具有重要的作用,作为市场经济社会监督力量的主力军,其对经济的影响是不言而喻的。今天小编为大家精心挑选了关于《客户信用数据挖掘论文(精选3篇)》相关资料,欢迎阅读!

客户信用数据挖掘论文 篇1:

基于单位BP神经网络算法的数据挖掘技术在电力客户信用等级评价中的应用研究

[收稿日期]2008-12-23

[作者简介]黄文杰(1945-),男,华北电力大学工商管理学院教授、博士生导师,硕士,主要研究方向:项目管理与工程管理,风险分析与决策。

[摘 要]电力客户信用管理和信用评价,已经成为电力企业的一种经营工具和手段。本文结合数据挖掘技术在信用评价中的应用优势,以数据挖掘的通用模型CRISP-DM为基础,建立了电力客户信用评价的过程标准,构建了电力客户信用评价指标体系,应用单位BP神经网络算法构造了电力客户信用模型,并对该模型进行了实例分析,从而将电力客户信用分为5个等级。

[关键词]电力客户;信用评价;数据挖掘;单位BP神经网络;CRISP-DM

doi:10.3969/j.issn.1673-0194.2009.13.028

1 引言

按期回收电费是电力企业经营成果的货币表现,是电力企业的一项重要经济指标,为电力企业上缴税金和提供资金,从而保证国家的财政收入,还可为维持电力企业再生产过程补偿生产资料耗费资金,以促进电力企业的安全生产不断进行,更好地完成发电任务,满足国民经济发展和人民生活对电能的需要。但是目前我国电力用户恶意拖欠、逃避电费和偷电漏电等现象屡屡发生,这给电力公司带来了极大的损失。鉴于此,国家电网公司印发的《关于加强电力营销工作的若干规定》([2003]490号文件)中明确指出:加强电费风险管理与研究,建立信用风险分析制度。

目前,很多学者对此做了大量的研究,主要是一些信用评价方法的运用和信用指标体系的建立。如刘新才 等提出运用层次分析法对电力客户信用风险进行评价[1];张素芳 等提出采用熵权法建立评价模型[2];牛东晓对GRA方法进行了改进,并将其运用到电力客户信用风险评价中[3];

周晖 等依据电力公司客户的户务资料,参照电费管理人员的经验,建立了客户的缴费状况、偿还电费能力、资金变现能力、担保水平和经营环境等5个指标[4];李江、卢毅勤综合考虑电力客户信用评价的特点,建立了18项信用等级评价指标[5]。以上每种评价方法都有其一定的可行性,但是又有一定的局限性。针对传统信用评价方法的不足,近年来在研究中引入了新的方法——数据挖掘技术,如严环、廖志高就把数据挖掘技术运用到企业信用评价中[6];刘高军,朱嬿则把数据挖掘技术具体应用到建筑企业信用评价中去[7];张居彦、张林通过研究数据挖掘技术以及神经网络算法,评价客户信用[8];莫礼平、樊晓平则讨论了在数据挖掘领域中利用BP网络进行数据分类的实现过程,并用该算法建立了一个分类模型,实现了对客户信用等级的分类[9]。由此可见,数据挖掘技术是一种有效而准确的信用评价方法。因此,本文将应用数据挖掘技术,引进神经网络理论,建立决策支持模型,根据选取的评价指标,对电力用户进行信用评估,及时发现用户的信用变化情况,为供电企业的管理提供决策基础。

2 数据挖掘

20世纪90年代,美国信息工程领域的研究专家做了大量的尝试与研究,并对数据挖掘概念做了详细的论述。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,也被称为数据库中的知识发现(KDD)过程和知识提取等。数据挖掘能够对将来的趋势和行为进行预测,所以把它运用到客户关系管理中,就能在数据庞大的客户数据库中,对看似无关的数据进行处理、净化、提取出有价值的客户信用预测,从而采取相应的措施。数据挖掘技术应用于信用评价的优势在于:①能处理和修正实际数据问题,算法模型具有自检验能力,能更准确地描述信用要素和信用水平之间的关系特征;②不先验地建立信用规则,而是从实例数据中通过学习去发现信用规则,然后用这些规则去预测用户未来的信用风险,更符合解决问题的科学步骤。

3 单位BP神经网络算法

3.1 标准BP网络

BP网络和它的变化形式是目前应用最广、基本思想最直接的多层次误差反向传播神经网络(Error Back-Propagation NN),它是多層前馈神经网络的核心部分,具有三层或三层以上的层次神经模型(如图1所示)。

BP网络虽然是目前应用最为广泛的网络,但它仍然存在许多问题,其中最大的问题就是收敛速度问题,它的训练很难掌握,尤其是当网络的训练达到一定的程度后。为了克服上述问题,本文特引进了单位BP算法。算法的基本思想是:用梯度法确定搜索方向,以该方向上多维空间中的单位向量作为基本修正量进行权值调整,并引入了基量函数的概念。基量函数的定义公式如下:

作者:黄文杰 冯新红 郭晓鹏

客户信用数据挖掘论文 篇2:

客户信用评估中如何应用分布式数据挖掘

一、前言

本文就客户信用评估中如何应用分布式数据挖掘技术进行探讨。企业客户信用评估在市场经济中具有重要的作用,作为市场经济社会监督力量的主力军,其对经济的影响是不言而喻的。企业客户信用评估可以为投资者提供公正、客观的信息,以优化投资选择,实现投资安全性,取得可靠收益,从而起到保护投资者利益的作用;企业客户信用评估作为商业银行确定贷款风险程度的依据和信贷资产风险管理的基础,在一定程度上可为降低金融风险服务;企业客户信用评估是政府主管部门审核债券发行的前提条件,也有助于银行等金融监管部门的监管,有利于金融市场的稳定;同时企业客户信用评估也降低了整个社会的信息搜集成本等等。

作者:吴昌钱

客户信用数据挖掘论文 篇3:

基于粗糙集及AC聚类算法的用电客户信用知识挖掘

【摘 要】用电客户信用关系是供电企业客户关系管理的重要内容。在分析对用电客户的信用评价指标体系的基础上,提出基于粗糙集及AC聚类算法的用电客户信用评价模型。首先借助粗糙集理论,对指标进行属性约简,并运用自组织数据挖掘中的Knowledge Miner软件,采用AC聚类算法对用电客户进行聚类分析,从而得到各个用电客户的信用等级。最后结合聚类结果,利用ID3算法,建立决策规则,得出具有一般指导意义的用电客户信用评价的规则知识。

【关键词】粗糙集 属性简约;AC聚类;ID3算法;用电客户

1. 引言

(1)随着电力体制改革的推进和电力市场化进程的加快,供电企业在电力市场上面临着越来越激烈竞争。一方面,用电客户逐渐成为竞争的焦点,提高用电客户满意度与供电企业自身的经济效益紧密相关;另一方面,供电企业先消费后付款的特殊交易方式,造成有些用电客户拖欠电费。因此,供电企业需要对用电客户进行有效的信用评价,对不同信用等级的客户采用不同的营销策略,建立信用激励机制,提高供电企业用电营销辅助决策水平。

(2)目前,随着用电客户信用评价成为供电企业客户关系管理的重要内容,有关用电客户信用评价方面的研究成果也在不断的增多。目前常用的方法主要有综合评估法[3]、模糊多属性方法[4]、主客观评价的方法[5]、模糊偏序方法[6]等。这些研究从不同角度,为解决用电客户信用评价问题提供了一些值得借鉴的思路和方法。上述方法在进行用电客户信用评价时各有特点,但其评价指标较多,精炼性稍显不足。随着信用评价体系指标不断增多,指标之间不可避免的存在一定的关联性、交叉性,其重要性也不尽相同,从复杂的指标体系中筛选出重要的指标也是进行用电客户信用评价的一个重要方面,因而本文把在指标属性约简方面具有强大优势的粗糙集理论引入用电客户的信用评价中。

(3)粗糙集是一种处理不精确、不相容和不完全数据的数学工具,这一理论主要的应用是对含有大量冗余信息的知识系统进行约简,它不仅具有模拟人类逻辑思维的能力,而且能有效地分析和处理不精确、不一致、不完整的信息[9]。该方法的主要优点在于它不需要预先给定某些特征或属性的数量描述和模型假定,但单纯地使用粗糙集理论不一定总能有效地解决不精确或不确定的实际问题。因此本文在粗糙集基础上,采用AC聚类的方法,实现对用电客户的信用评价。最后结合ID3算法,得到用电客户信用评价的决策规则,具有一般性的指导意义。

2. 基本原理

2.1 粗糙集理论[1,12]。

2.1.1 定义1 某个属性子集PA,x,y∈U 为两个数据实体,如果有a ∈B,f(x,a)=f(y,a)这时称x ,y 在属性集 A上是不可分辨的,也称为等价关系。在信息系统中,不可分辨关系可以定义为:IND(P)={(x,y)∈U×U|a ∈P,f(x,a)=f(y,a)}

由这种等价关系导出的对 U的划分记为 U/IND(P)。

2.1.2 定义2 粗糙集理论的不确定性是建立在上、下近似的概念上的。令XU 是一个集合, IND(P)是 U上的等价关系,则:上近似集 IND(P)-(X)=∪{Y∈U/IND(P),YX},下近似集 IND(P)-(X)=∪{Y∈U/IND(P),Y∩X≠}

设T=(U,A,C,D) 是决策表,如果去掉属性 a,得到的表 T1=(U,A-{a},c-{a},D)与表 T=(U,A,C,D) 相比,有PosC(D)=PosC- {a}(D),则称属性 a是关于 D可省的。其中, PosC(D)=UX∈U/IND(D)P-(X)是D 关于 P的正域。

相对于决策属性集合,如果有无条件属性Ci 对决策属性集合的影响不大,则可认为 Ci 的重要程度不大。属性集中Ci 的重要度可表示为[9]:

μ(i) =card(PosC(D)-PosC-|Ci|(D))/card(U) (1)

其中,card 为元素个数属性。

根据所求得属性的重要度,可以获得其在属性集合中的相对权重。对求得的属性重要度进行权值化处理可得[9]:

wi = μ(i) /∑n i=1 μ(i) (2)

其中, wi 是第i 项属性的权重, μ(i) 为第i 项属性的属性重要度, n为属性的个数。

2.2 AC算法的原理。

(1)由Laurence发展起来的相似体合成算法AC (Analog Complexion)首先成功地应用于气象的预测,经过不断的发展与改进,在理论和应用方面取得了不少突破性的进展,已经能够取得很好的预测效果。后来乌克兰的A.G.Ivakheneko院士把它应用于聚类,并且把AC算法和GMDH结合起来,将GMDH的核心思想应用到AC聚类算法中。国内对AC算法的研究主要是建立在四川大学贺昌政教授研究的基础之上。

(2)AC算法可以看作是对复杂对象的预测、聚类和分类的一种序列模式识别方法[14]。AC聚类算法,假设每个样本(或者变量)作为一个模式,通过计算其他模式与该模式的相似程度,从而把较为相似的模式归为一类,不相似的模式归为不同的类。AC聚类算法中两个模式的差异用两个模式的距离表示,通常用欧式距离或海明距离表示。

(3)由于不同时期的相似模式可能具有不同的平均值和标准方差。为了下面将进行的模式间相似性的度量,必须寻找待选模式到参照模式的变换,来描述这些差异,即将模式变换到同一基准点上,从而使其具备可比性。一般取线性变换:

(4)AC聚类算法把所有的样本组成的数据集和看作一个状态空间,对每一个样本的聚类,把他们看作是一个状态空间的聚类。状态空间以变量 x1,x2,…xm为轴,对象 Oi是空间待分类的点。每个对象Oi 或多或少与其他对象有所不同。这种差别能由 sikh算得,k=1,2, …,N;hi=1,2, …,N 。因此,聚类的基础是对称的相似性矩阵

siNN =|sikh|。聚类的任务是将状态空间再分成个相似对象的类。

(5)近年来,AC算法由于结合归纳自组织数据挖掘方法和先进的选择程序而增强了应用能力[13],通常,AC算法包含3个步骤:一是待选模式的产生;二是待选模式的变换;三是相似模式的选取。

3. 粗糙集及AC聚类算法的应用

3.1 粗糙集对信用评价指标的约简。

(1)信用评价根据评价对象的不同,可选取不同的评价指标。基于我国用电客户的一些基本情况,确定本文信用评价的指标[4~5](见图1):

以上指标属于条件属性C ,决策属性 D=最后总得分(由专家打分得到)。

本文以某供电企业的12家客户的数据为例,进行信用评价。首先采用等距离法对样本数据进行离散化处理,STEP=(MAX-MIN)/3,MAX表示每一列的最大值,MIN表示每一列最小值,把每一列的属性值分为3个等级,高(MIN+2*STEP,MAX)用3表示,中(MIN+ STEP,MIN+2*STEP)用2表示,低(MIN,MIN+ STEP)用1表示,得出个指标值转换成Rough Set的数据格式。

由于条件属性C1 的子指标资产负债率(C1 4 )为逆指标,即比率越低则客户偿债能力越强,反之偿债能力越弱。本文采用阈值法[2]对该指标进行了无量纲化处理,将其转化为正指标。决策表1表示的是离散后的条件属性 C1 的相关数据。

根据二级指标的权重,分别加权得到一级指标C1 的相关数据,结合其它指标的相关数据,汇总得到表2。其中D 表示各个客户价值类型,即最终信用等级,将通过下文的AC聚类算法得到。

3.2 AC聚类算法的应用。

利用AC聚类法,运用Knowledge Miner软件处理,按照90%相似度进行聚类,分为3类,按照从高到低的顺序排列,具体分类如下:

根据AC聚类的Class Membership,我们设这三类的Y 值为3,2,1,分别表示高、 中、低。整理后可得表2。

该供电企业的12个用电客户可以分为三类,信用较好;信用一般;信用较差。

根据评价的结果,该供电企业可以针对不同信用等级客户实行差异化的营销策略。

4. 规则知识挖掘

根据以上计算分析结果,本文采用数据挖掘技术中的ID3算法对用电客户的信用信息进行知识挖掘,从中得出可以对其他用电客户进行信用评价的一般性规则知识。

利用ID3算法,得到以下信用评价的决策树:

(1)首先,商业信用在用电客户信用评价中占有最大的信息增益,在决策中决定作用。

商业信用较好的客户,其信用也较好;商业信用较差的客户,其信用也较差。商业信用一般的客户需要结合其他三个方面的内容才能确定其信用等级。

(2)其次,法律信用的信息含量也很高,即使商业信用一般,如果法律信用较好,该客户的信用等级仍属于“高”。

(3)最后,当商业信用、法律信用及安全信用都处于“一般”的情况下,合作信用,无论是一般,还是较差,其信用等级都处在“低”的水平上。

5. 结论

本文运用粗糙集理论和AC聚类算法对用电客户进行信用评价,结合了粗糙集在属性简约方面的强大功能,克服了冗余属性对运算量的影响,从而简化了信用评价的指标体系,提高了评估的效率。并利用AC聚类算法进行聚类分析,结合ID3算法挖掘出具有一般意义的用电客户信用评价得规则知识。为用电客户的信用评价以及供电企业的客户关系管理提供了一种较为有效的决策支持方式。

参考文献

[1] Pawlak Z.Rough set theoretical aspects of reasoning about date[M].Poland:Warsaw,1991.

[2] 胡永宏,贺思辉.综合评价方法[M].北京:科学出版社,2000.

[3] 伍萱.客户信用管理体系的建立[J].中国电力企业管理,2002 (11):33~35.

[4] 李翔,杨淑霞,黄陈锋.基于模糊多属性决策法的用电客户信用评价[J].电网技术,2004 ,28(21):55~59.

[5] 杨淑霞,吕世森,乔艳芬.用电客户信用的主客观评价及分析[J].中国电力,2005,38(6):1~4.

[6] 吴为涛.电力客户信用等级分析[D].北京:华北电力大学学士学位论文,2004.

[7] 钟波,肖智,周家启.组合预测中基于粗糙集理论的权重的确定方法[J].重庆大学学报,2002.

[8] 杨振峰,郭景峰,常峰.一种基于粗集的简约方法[J].计算机工程,2003(6):15~16.

[9] 雷绍兰,孙才新,周濠,张晓星.模糊粗糙集理论在空间电力负荷预测中的应用[J].电网技术,2005,29(9):26~30.

[10] 杨纶标,高英仪编著.模糊数学原理及应用[M].3版.广州:华南理工大学出版社,2001.3.

[11] 张文修,吴伟志,梁吉业等. 粗糙集理论与方法[M].北京:科学出版社, 2001.

[12] Lemke F, Mueller J A. Self-organizing Data

Mining for a Portfolio Trading System. Journal for Computational Intelligence in Finance. 1997, 5(3): 12~26.

[13] 贺昌政.自组织数据挖掘与经济预测[M].北京:科学出版社,2005.

[14] 廖斌,何跃.基于AC聚类方法和GMDH的品牌竞争力分析[J].科技情报开发与经济,2005, 15(15): 135~137.

[15] 张智勇,贺昌政。AC聚类方法与层次聚类方法的比较研究[J].科技情报开发与经济,2005,15(19):168~169.

[16] 朱迪茨.实用数据挖掘[M].北京:电子工业出版社,2004.

作者:任国庆闫生

上一篇:情感因素教育教学论文下一篇:发展现代生态农业论文