博斯腾湖水质评价的属性识别模型

2024-04-23

博斯腾湖水质评价的属性识别模型(通用11篇)

篇1:博斯腾湖水质评价的属性识别模型

博斯腾湖水质评价的属性识别模型

根据博斯腾湖水质资料,应用属性识别模型进行博斯腾湖的水质评价,结果表明博斯腾湖水质基本良好,影响湖泊水质的.主要原因是农田排水,有排水口的区域水质较差,没有排水口的湖区水质均为良好.

作 者:胡安焱 HU An-yan  作者单位:长安大学环境科学与工程学院,陕西,西安,710054 刊 名:水资源保护  ISTIC PKU英文刊名:WATER RESOURCES PROTECTION 年,卷(期): 22(6) 分类号:X824 关键词:博斯腾湖   水质评价   熵权   属性识别  

篇2:博斯腾湖水质评价的属性识别模型

近年来提出的属性识别理论模型已在环境质量评价中有所应用.现将该模型引用到湖泊水质富营养化评价中来,并用此模型对福州市山仔水库的水质进行评价,其评价结果与运用模糊隶属函数法得到的结果进行比较,其结果令人满意.此模型为湖泊水质的`富营养化评价提供一种简便实用的评价方法.

作 者:孔健健 张江山  作者单位:福建师范大学环境科学研究所,福州,350007 刊 名:环境工程  ISTIC PKU英文刊名:ENVIRONMENTAL ENGINEERING 年,卷(期): 22(5) 分类号: 关键词:属性识别理论   湖泊水库   富营养化   评价模型  

篇3:博斯腾湖水质评价的属性识别模型

关键词:属性识别,熵权,路堑边坡,稳定性

0引言

路堑边坡的稳定性是公路工程修建过程中常见的岩土工程问题。传统的评价方法分为定性分析法和定量计算法两大类[1]。20世纪70年代以前,边坡稳定性的评价以定性分析为主,以工程地质积累和施工经验为基础,大多存在不确定性因素,而且很难给出一种统一评价标准。定量计算评价方法大多以极限平衡理论为基础,通过计算边坡的安全系数来评价边坡的稳定性,这种方法简单实用,但是由于影响边坡稳定性的因素很多,且定量计算所需指标具有复杂多变性、随机性和时效性[2~4],所以定量方法不能全面反映边坡稳定性,难以给出准确的评价结果。为了将定性与定量方法结合起来,因此相继提出了灰色聚类法、模糊评判法等。这些方法各有其优缺点,灰色聚类法一般精度较低,模糊评判法强调极值的作用,容易造成信息损失过多。路堑边坡稳定性评价中的稳定级别都是对边坡属性的一种描述,对边坡稳定性的评价实质是对边坡属性进行确定和识别的过程。另一方面,边坡稳定状况则受控于各种边坡指标,各个指标对边坡属性影响程度需要给出合理的定量表达,用以确定各个指标在评价中的权重系数。常用的定权方法在一定程度上都有主观偏向性,本文用熵值法确定指标权重,尽量消除权重的主观性。并与属性识别理论结合,应用于路堑边坡稳定性评价[5]。

1属性识别模型的建立

1.1属性空间矩阵

在评价对象空间X取n个样本x1,x2,…,xn,对于每一个样本要测量m个评价指标V,,V2,…,Vm,第j个样本第i个指标的测量值为xij,因此,每一个样本都可以表示为一个向量xj=(x1j,x2j,…,xmj),(j=1,2,…,n),n个样本构成了m×n的样本空间矩阵:

设F为X上某类属性空间,(C1,C2,…,Ck)为属性空间F的有序分割[5],而且满足C1>C2>…>Ck,由于属性集之间是可以“比较”的,可以认为指标程度越高越“强”,因此,可以建立“强”序来进行综合评价,每一个评价指标的属性分类已知,可以写成属性分级标准矩阵:

其中amk为第m个指标在属性空间F上的第K个分割值;且ajk满足aj1<aj2<…ajk或者aj1>aj2>…>ajko

1.2方案的属性测度计算

第个样本第i个指标的测度值具有属性Ck的属性测度。假设,则

计算得到第j个样本的各指标测量值的属性测度值,然后计算第j个样本的属性测度μjk=μ(xj∈Ck)。m个指标的重要性可能相同,也可能不相同,因此必须考虑各个评价指标的权重影响,计算各指标的权重W(ω1,ω2,…,ωm),ωj≥0,∑ωi=1。由指标权重可计算得到属性测度μik:

1.3熵权法确定权系数

确定评价指标权重时,往往采取主观确定权重的方法,如AHP法等。这样易造成由于主观因素而形成的偏差。信息熵反映了信息无序化程度,信息熵越小,系统无序度越小,信息熵越大,系统无序度越高。对于讨论的n个样本m个评价指标的初始矩阵,可采用Shannon熵理论,充分利用数据自身的信息,客观地确定出权重。其计算步骤如下[6][7]:

建立n个样本m个目标的判断矩阵R=(xij)mn(i=1,2,…,m;j=1,2,…,n)。根据不同属性,指标分为效益型和成本型,因此计算之前,必须先对每个样本进行归一化处理,具体方法如下:x'ij=xij/maxxij,效益型指标;x'ij=minxij/xij,成本型指标。

从而得到新的评价样本矩阵:

再设第i个评价指标下第j个评价点评价指标值比重为,则第i个评价指标的熵为,计算评价指标的权重为:,且满足:。

1.4属性识别模型

通过上述方法,计算得出各评价指标权重系数和各样本属性测度,在此基础上,就可以进行待测样本的属性识别。按照置信度准则[5],对置信度λ(一般情况下取λ=0.65或λ=0.7),识别模型为:

当满足(6)式时,则认为xi属于Ckj类,即对样本做出了评价。

2工程实例

2.1样本空间矩阵与属性分类标准矩阵的确定

黄土路堑边坡稳定性受多种因素影响,边坡稳定性评价指标集V=(v1,v2,v3,v4,v56,v7),7个评价指标为:边坡高、边坡坡角、天然容重、土的内摩擦角、土的内聚力、地震烈度及孔隙水压力比。根据黄土物理力学特性,将黄土边坡稳定性评价分为4个级别:(Ⅰ)稳定;(Ⅱ)较稳定;(Ⅲ)一般;(Ⅳ)不稳定;属性分类标准见表1。

2.2熵权的确定

各评价指标进行归一化处理得到判断矩阵,计算出评价指标的熵权系数Wi,Wi=(0.009,0.0012,0.014,0.3799,0.0735,0,0.5233)

2.3属性测度的计算与属性识别

利用公式(3)和(4)计算出各样本的属性测度,结果见表2。

取置信度λ=0.7,进行属性识别,得出路堑边坡稳定性评价结果:Ⅰ点为(Ⅱ)较稳定,Ⅱ点为(Ⅲ)一般。圆弧法计算的稳定系数分别为1.73和1.25。两种方法结论一致,从而证明了该方法在边坡稳定性评价中的有效性。

3结论

利用评价样本信息所确定的熵权,避免了确定权重的主观偏向性,有助于提高评价方法的可靠度,熵权系数法与属性识别理论模型结合,构成基于熵权的属性识别评价模型,评价结果合理,计算简单。通过在路堑边坡稳定性评价中的应用,如实地反映了边坡稳定性的实际情况,表明该方法是切实可行的,对其它工程评价也具有一定的借鉴意义。

参考文献

[1]崔政权,李宁.边坡工程——理论与实践最新发展[M].北京:中国水利水电出版社,1999.

[2]谢全敏,夏元友.岩体边坡稳定性的可拓聚类预测方法研究[J].岩石力学与工程学报,2003,22(3):438-441.

[3]莫勇刚,丁德馨,肖猛.改进的BP神经网络在边坡稳定性评价中的应用[J].矿冶,2006,15(2)9-12.

[4]杨营,林红.混和遗传神经网络在边坡稳定性评价中的应用研究[J].中国农村水利水电,2006,7:75-79.

[5]程乾生.属性识别理论模型及其应用[J].北京大学学报(自然科学版), 1997,1:12-20.

[6]闰文周.基于综合属性度的项目投资决策模型及应用[J].西安建筑科技大学学报(自然科学版),2004,36(4).498-500.

篇4:企业绩效评价的属性识别模型构建

【关键词】 绩效评价; 利益相关者; 属性数学; 属性集; 属性测度

【中图分类号】 F270.7 【文献标识码】 A 【文章编号】 1004-5937(2016)16-0069-03

一、引言

本文基于属性数学中的属性识别模型和利益相关者理论研究企业绩效评价。作为管理控制系统的重要内容,如何选择评价指标进而确定评价指标体系一直是企业绩效评价研究的热门话题。企业在进行综合绩效评价体系设计时,往往侧重财务指标(ROA、ROE等),然而这些指标数据容易受到操纵,使企业绩效评价不合理。基于此,为了避免财务指标的缺陷,经济增加值指标(EVA)[1]和平衡计分卡(BSC)[2]等绩效评价体系应运而生。此外,构建企业绩效评价体系的另一中心问题便是如何确定所选指标的权重。已有研究中定性指标的采用以及基于不同利益相关者视角确定指标权重也得到越来越多学者的认同[3-5],但确定评价指标后如何合理量化的相关指标研究不够,属性数学可以提供很好的解决思路。

属性指对事物的定性描述,而属性数学就是研究这种定性描述的。本文通过利益相关者理论确定评价指标以构建评价指标体系,运用属性数学理论建立企业绩效评价的属性识别模型[6-7],进一步确定不同指标的属性测度以及综合属性测度,并根据综合属性测度按照置信度准则确定企业综合绩效评级。

二、企业绩效评价的属性识别模型

(一)基于利益相关者理论的企业绩效评价指标体系

利益相关者理论代表人物弗里曼认为企业经营是为了平衡不同利益相关者的利益要求[8]。不同于股东至上的传统思想,利益相关者理论认为任何企业追求的都应该是所有利益相关者的整体利益,而不单单是股东等某些主体的利益,这是因为企业的成长与发展均离不开各利益相关者的参与[9]。该理论认为企业的利益相关者不仅包括交易伙伴,如股东、债权人、雇员、消费者、供应商等,而且包括其经营活动直接或间接影响的客体,如政府部门、本地居民、媒体、自然环境等,这些利益相关者不仅参与企业经营活动,而且会对企业经营进行监督,均与企业生存与发展密切相关。因此,企业经营决策必须要考虑他们的利益或接受他们的约束。基于该视角,弗里曼认为企业的生存和发展不仅仅取决于股东,而且依赖于其他的利益相关者,从理论上阐述了企业绩效评价和管理的中心,为其后的绩效评价理论奠定了基础。基于该思想并结合我国企业具体状况,本文确定企业利益相关者及其对应的评价指标,见表1。

(二)属性识别模型

1.基本定义

(1)定义“属性测度”

设x为元素,A为属性集,用“x∈A”表示“x元素具有A属性”,“x元素具有A属性”的程度记为U(x∈A)或者Ux(A),称它为x元素具有A属性的属性测度,属性测度取值在0到1之间。

(2)定义“属性判别方法”

属性判别的目的是基于综合属性测度Uxj(1≤j≤k),判断X属于哪一个属性集。既然要进行判断,则必然要给出某项判断准则,属性判别的准则有好多种,如最小代价准则、最大属性测度准则、置信度准则等。本文选择置信度准则作为判别的标准,其原因为置信度准则比较适合于属性集有序分割的属性判别。

(3)定义“有序分割”

对于属性空间F上的属性集,如果有属性集R{C1< C2C2>C3>…>Ck},则称属性集R为属性空间F上的有序分割。

四、结语

本文在属性数学理论和利益相关者理论的基础上,给出了企业绩效评价的属性识别模型。该模型将企业绩效评价指标体系分为K(C1,…,Cj,…,Ck)个属性集,使企业绩效评价指标评级更加合理;引入属性测度告别了传统概率统计遵循的“一次一票”原则,不仅使得定性指标更加合理地量化在各个属性集中,定量指标的属性分布也更加合理,从而使企业的绩效评价结果更加科学清晰。在案例研究中,本文采用电力行业上市公司为样本,对其进行企业绩效评价分析以及排序,可以看出将属性识别理论模型应用于绩效评价,具有广阔的应用前景。

【参考文献】

[1] ROGERSON W P. Intertemporal cost allocation and managerial investment incentives: A theory explaining the use of economic value added as a performance measure[J]. Journal of Political Economy,1997,105(4): 770-795.

[2] KAPLAN R S,Norton D P. The balanced scorecard: translating strategy into action [M]. Boston: Harvard Business School Press, 1996: 12-96.

[3] 温素彬.管理会计[M].北京:机械工业出版社,2008:201-256.

[4] 贾生华,陈宏辉. 利益相关者的界定方法述评[J]. 外国经济与管理,2002(5):13-18.

[5] 张茜,李靖宇,饶佳艺,等. 基于利益相关者分析“女神的新衣”:如何构建TV+商业模式[J]. 管理评论,2015,27(8):234-241.

[6] 程乾生. 属性识别理论模型及其应用[J]. 北京大学学报(自然科学版),1997,33(1):14-22.

[7] 张长,于鲁冀. 属性识别法在郑州市空气质量评价中的应用研究[J]. 环境科学与管理,2015,40(4):179-181.

[8] JEFF F. Stakeholder Influence Strategies [J].Academy of Management Review, 1999, 24(2):191-205.

篇5:博斯腾湖水质评价的属性识别模型

基于属性区间识别理论的地下水开采评价模型

从属性区间识别理论的角度,探讨了地下水开采安全评价方法.并通过对哈尔滨市地下水开采的安全评价验证了此方法的.可行性,为地下水开采的安全评价提供了一种科学、实用的评价方法.

作 者:阮万清 RUAN Wan-qing  作者单位:黑龙江科技学院,哈尔滨,150027 刊 名:煤炭技术  PKU英文刊名:COAL TECHNOLOGY 年,卷(期): 27(2) 分类号:P641.2 关键词:地下水开采   安全评价体系   属性区间识别理论  

篇6:博斯腾湖水质评价的属性识别模型

建筑物是人们生产生活的场所,也是财产极为集中的地方,建筑物火灾造成的损失极为严重,直接威胁到人们的生命财产。随着我国经济的快速发展,建筑业以惊人的速度发展,建筑物的数量大大增加,同时建筑物的功能和使用的建筑材料也发生了很大的变化,建筑物内使用的各种设施大大增加,从而使火灾危险性发生了很大变化[1]。据统计,从1991-2000 年10年间,我国的城市数量上升48.7%,建制镇数量上升83.7%,城镇总人口上升53.3%。与此同时,城市火灾起数上升82%,死、伤人数分别上升59%和13%,直接财产损失上升58% [2]。

为了评价建筑物火灾危险性,学者们提出了将定性与定量方法相结合的建筑物火灾危险性的评价方法,如模糊数学方法,物元可拓方法,神经网络方法,灰色理论方法等,但这些方法各有其优缺点,如模糊数学法难以区分相邻两类的差异;物元可拓法在计算关联度时常以区间中点为最优,从而遗漏了重要的约束条件,导致结果与实际情况存在差异;神经网络法在应用中受知识瓶颈的限制。而属性识别理论[3]是20世纪90年代由中国学者程乾生教授提出的一种属性数学模型,是在模糊理论的基础上发展起来的,如今已被成功地运用于评价领域[4,5]。该理论是在有序分割类和属性识别准则的基础上,可对事物分割类进行有效识别,从而较好地克服了其它识别方法的某些不足。因此,本文应用属性识别理论建立建筑物火灾危险性的评价模型,并利用层次分析法来确定指标权重,提出了一种适合于建筑物火灾危险性评价的层次-属性识别理论模型。

1 属性识别理论模型简介

1.1 属性空间矩阵及分类标准矩阵的建立

在某一研究对象空间X上取n个样本,构成一个样本空间:X={x1,x2,…xn},xi表示第i个评价对象;每个对象有m个评价指标,评价指标空间为I={I1,I2,…In},Ij表示第j个评价指标;对每个评价指标取值有k个评价等级,构成评价对象X的评价空间j,若第i个评价对象的第j个评价指标Ij的数量值为Xij,那么对于第i个样品,对m个指标测量后,以得到一个向量:Xi={xi1,xi2,…xim},1≤in[6,7,8,9]。

FX上某类属性空间,(c1,c2,,ck)为属性空间F的有序分割类,代表有k个属性级别,满足c1>c2>…>ck,每一个评价指标的属性分类已知,写成属性分类标准矩阵如下[10,11,12]:

[c1c2ckΙ1a11a12a1kΙ2a21a22a2kΙmam1am2amk]

其中,ajh满足aj1<aj2<…<ajkaj1>aj2>…>ajk,1≤jm ,1≤hk

1.2 属性测度的计算

计算第i个评价样品的第j个指标实际测量值xij属于cl类的单指标属性测度uijl(1≤lk),可假定aj1<aj2<…<ajk或(aj1>aj2>…>ajk)[4]。

xijaj1或xijaj1时,取uij1=1,uij2=uij3=…=uijk=0; (1)

xijajk或(xijajk)时,取uijk=1,uij1=uij2=…=uijk-1=0; (2)

ajl<xij<ajl+1或(ajl+1<xij<ajl)时,取uijl=|ajl+1-xij||ajl+1-ajl|uijl+1=|xij-ajl||ajl+1-ajl|uijk=0k<lk>l+1[13]。 (3)

已知第i个样品各指标测量值的属性测度,现计算第i个样品xi的属性测度uik。设指标权向量为(w1,w2,,wm)wj0j=1mwj=1。由指标权重可得到属性测度,即:

uik=u(xick)=j=1mwjuijk1in1kΚ。 (4)

设置信度λ(0.5≤λ≤1,一般取0.6 - 0.7),计算:

k0=min{k:lkuxi(cl)λ,1kΚ} (5)

则认为xi属于ck0级别。

如果需要对评价对象进行比较分析,则需按照评分准则进行评分计算:

qxi=l=1knluxi(cl) (6)

其中,q为属性集的强弱,用分数来表示;qxi为第i个评价对象评价分数;l为第i个评价对象的第j个评价因子所属的级别。

则可根据qxi的大小对xi进行比较和排序。 通常,对c1>c2>…>ck的情形,取ni=K+1-i,它表示有序分割类(c1,c2,…,ck)中类别的重要性是等间隔下降的;对c1<c2<…<ck的情形,取ni=1,它表示有序分割类(c1,c2,…,ck)中类别的重要性是等间隔上升的[14]。

1.3 层次分析法确定权重

本文使用层次分析法确定权重,层次分析法使用简单,易于操作,适用性强,可以根据实际问题,合理地确定各指标权重系数之间的排序,不至于出现指标系数与指标实际重要程序相悖的情况。 运用层次分析法确定权重的步骤[15]。

(1)构造判断矩阵

判断矩阵元素的值反映了人们对各因素相对重要性的认识,一般采用1-9比较尺度构造成比较矩阵(表1)。

(2)求特征向量和特征根

求特征向量即找出同一层次中每个元素的重度,其方法一般采用方根法或和积法。其步骤为:

①判断矩阵B中的元素按行相乘

uij=j=1nbij (7)

②所得的乘积分别开n次方

ui=uijn (8)

③将方根向量正规化,即得特征向量W

Wi=uii=1nui (9)

④计算判断矩阵最大特征根λmax

λmax=i=1n(AW)inWi (10)

式中,(AW)i同样表示向量AW的第i个分量。

(3)由判断矩阵计算被比较元素对于该准则的相对权重,并进行判断矩阵的一致性检验;衡量判断矩阵的不一致程度的数量指标为一致性指标为CI,满足:

CΙ=λmax-nn-1 (11)

则判断矩阵的一致性准则为:

CR=CΙRΙ (12)

其中RI可通过查一致性指标RI值表得到。

CR<0.1时,认为判断矩阵的一致性是可以接受的,CR>0.1时,认为判断矩阵不符合一致性要求,需要对该判断矩阵进行重新修正,直到一致性检验通过为止。

2 属性识别理论模型在建筑物火灾危险性评价中的应用

2.1 评价等级及评价指标体系的确定

建立建筑物火灾危险性评价等级表,见表2。

使用本文提出的模型对某学校3#教学楼的火灾危险性进行评价。遵循科学性、动态性、全面性、导向性、可比性等评价指标设计原则,构造出建筑物火灾危险性评价指标体系。

聘请10位专家对24个指标进行评价,考虑到专家的学历、工作经验、职称、专业、职务的不同,因此,可通过文献[16]计算各专家自身的权重,由于篇幅所限,本文仅列出各专家权重的计算结果,各专家权重分别为0.134,0.092,0.079,0.081,0.112,0.126,0.095,0.121,0.086,0.074。对于某一指标而言,10位专家分别给出其评价值,然后再分别乘以专家各自的权重得到该指标的综合评价值。同理,可得到建筑物火灾危险性各评价指标的评价值,结果见表3。

2.2 计算指标评价值的属性测度

利用公式(1)-(3)计算属性测度,从而得到属性测度矩阵分别为:

[0.83330.16670000.14670.85330000.49330.50670000.67330.3267000000.48500.515000.60000.400000000.47330.5267000.74000.260000000.34000.66000000.14670.8533000.06000.940000000.92000.0800000.79330.20670000000.72000.28000.46670.53330000.72000.28000000000.34000.6600000.75000.2500000.72000.280000000.29000.710000000.37000.63000.81330.1867000000.79000.210000000.29330.7067]

2.3 计算24个评价指标的权重

根据公式(7)-(12),得到24个评价指标的权重W:W =(0.0152,0.0592,0.0066,0.1808,0.0363,0.0754,0.0316,0.0199,0.0299,0.0599,0.1067,0.1327,0.0449,0.0314,0.0486,0.0136,0.0167,0.0559,0.0071,0.0020,0.0092,0.0041,0.0111,0.0012)。

2.4 计算综合属性测度

按式(4)得到属性综合测度分布矩阵为:

u=[0.2841,0.4520,0.1690,0.0684,0.0265]

2.5 建筑物火灾危险性评价结果

采用置信度准则的方法评判建筑物火灾危险性的等级,取置信度λ=0.65,根据式(5)计算: 0.2841+0.4520=0.7361>0.65 。通过判断可知某大学3#教学楼的火灾危险性等级为危险性较小、安全性较好。

3 结论

(1)利用层次分析法确定各评价指标的权重,并结合属性识别理论,提出了建筑物火灾危险性评价的层次-属性识别模型,为建筑物火灾危险性评价提供了一条新的思路和手段。

(2)在采用层次分析法确定各评价因子的权重的过程中,通过数学手段对打分结果进行处理后得出的权重更具科学性和客观性。

(3)建立的建筑物火灾危险性评价指标体系,既方便了对具体评价对象的实地调研,同时也为以后的评价提供了依据。

(4)本文对某大学3#教学楼的火灾危险性进行评价,评价结果为危险性较小、安全性较好,通过分析可知该教学楼在防火门/防火卷帘、安全出口、广播疏导系统、定期检修情况、义务消防队伍方面存在严重的问题,应制定相应的整改措施。

篇7:博斯腾湖水质评价的属性识别模型

关键词:水质等级样本;优化估计;水体的水质等级

中图分类号:G632 文献标识码:B 文章编号:1002-7661(2016)09-008-01

一、问题提出

众所周知,水是万物赖以生存的基础。尤其对人类,饮用水的卫生和安全,直接关系到人们的身体健康状况,随着工农业生产的迅猛发展,对天然水质造成的污染日趋严重。因此水中污染物净化问题越来越受到人们的重视。为了有针对性的处理天然水体和饮用水中低浓度、高毒性、难降解污染物 (如多溴联苯醚、全氟辛酸(磺酸)、消毒副产物、内分泌干扰物、PPCPs(抗生素)等),我们建立了水质评价数学模型进行分析研究和模拟。从而对天然水体和应用水体中的物质进行检验,能够考察一些突发性环境污染事故的影响,有效预测几种污染物在各个环境介质中的动态变化和受污染环境的恢复情况。为决策部门提供相应的科学依据。

二、水质评价数学模型建立

建立水质评价数学模型的步骤可归纳为如下3步(以Shepard插值法为例):

1、根据水质评价标准表随机生成水质等级样本系列x( i, j) 及y( i) , i = 1, 2,…, n, j = 1, 2,…, m,

设根据水质评价标准表产生某次水样的标准水质等级及其水质指标分别为y( i) 及{x*( i, j ) |i = 1, 2, , n, j = 1, 2, , m}。 其中, n, m分别为样本容量和水质指标数目。污染越严重, 水质等级就越高, 最低水质等级设为1, 最高水质等级设为N。 为消除各水质指标的量纲效应, 使建模具有一般性, 对水质指标进行标准化处理。

三、模型评价

研究结果表明: 用SP模型进行水质评价属于非函数模式类的评价方法, 其评价过程直接由样本系列驱动, 方法直观、简便, SP模型的评价结果是实数值, 精度高。但该评价方法如何合理构造评价指标集与评价等级之间函数关系有一定困难;该方法可在具有评价标准表或具有评价样本时采用。

参考文献:

[1] 金菊良.杨晓华.金保明.水环境质量综合评价的新模型[J],中国环境监测.2000.16(4):42-47

[2] 党连文.松花江干流水质模型的系统原理[J],中国水利,2009.(5):39-40

篇8:博斯腾湖水质评价的属性识别模型

关键词:电能质量,贝叶斯算法,权重,属性识别模型,电能评估

0 引言

电能作为优质的二次能源,在国民经济建设中发挥了巨大作用,然而,受技术与经济利益的约束,很多用户只关心用电的可靠性,而忽略了电能的使用质量。实际上,电能质量的高低不仅关系到电力部门的按质定价[1],而且对提升电能的使用效率,实现节能减排有重要作用。因此如何合理的评估电能,及时掌握用户的用电质量与水平,提高电能的使用效率,是建设节约型社会的重要举措之一。

在电能质量综合评估中,各项电能指标的权重确定是电能综合评估的核心内容之一[2]。因为权重的合理性直接影响评估结果的准确性与可靠性,因而受到人们的普遍关注。如文献[3]提出了基于层次分析法(AHP)的模糊综合评判。但由于AHP方法确定的权重为主观权重[3],客观性较差,不随实际指标值的大小变化,因此,不利于电能质量的客观评价。文献[2]在层次分析法得到主观权重基础上,利用熵权法获取客观权重,然后对两种权重进行线性组合得到综合权重,实现权重的主客观结合。但由于客观世界的复杂性,使得线性组合方法显的简单和粗糙。文献[4]提出通过遗传算法优化投影方向,根据最佳投影值与对应等级的关系建立评估模型,此方法客观性强,可信度高,但在计算小样本问题时易产生误差。文献[5]通过训练神经网络自动获取权重,输出评估结果,客观地反映评估指标之间的内在联系,但计算复杂,且整个过程需要大量的训练样本。

为提高电能评估的准确性与客观性,本文提出了一种基于贝叶斯赋权法和属性识别模型的电能质量综合评估方法。该方法首先利用贝叶斯方法在每一等级下修正主观权重,并以带约束的优化算法得到各指标的权重优化值,实现指标的二阶段赋权,使指标的赋权既兼顾人为因素又具有一定的客观性;再借助于属性识别模型,对监测点的各项电能指标进行分级评估,从而克服传统模糊决策中出现分类不清[5],结果不合理等问题;最后,结合权重优化值,计算得到电能质量的综合评价等级,从而完成对电能质量的定性与定量评估。

1 权重的确定

1.1 目标矩阵的标准化处理

设某待评估的监测点有m项指标,每项指标有c个评估等级,则在每个等级区间内取其标准指标值[6]构建目标矩阵Y:

式中,由于各评价指标的量纲不同,不宜直接比较差异,为此需要对目标矩阵Y标准化[7],亦即

式中,R为“成本型”指标,即属性值愈小愈好的指标;A为“效益型”指标,即属性值愈大愈好的指标。

1.2 各等级下指标权重的确定

确定电能质量标准体系之后,需要确定各指标的权重,常用方法是利用迭代算法修正主观权重。从统计论的观点看,主观权重可以理解为先验概率,某等级下各指标的权重可以理解为结合试验而发生的概率(即为后验概率),因此,可采用贝叶斯方法修正主观权重。原有的贝叶斯修正法是用各监测点的实测值修正主观权重[8],但由于监测点测量值会有测量误差或不确定等因素,因此算出的权重值可信度较低。而本文采用在各等级下用标准指标值对主观权重进行修正,以避免此不足,详述如下。

设电能质量各指标的主观权重为u1,u2,,um,即指标Ij的概率为p(I j)=uj

在指标Ij下,等级iG发生的概率为

式中:i=1,2,,c;j=1,2,,m。

利用贝叶斯方法,在等级Gi下,第j个指标的权重(后验概率)为

因此,等级Gi下各指标的权重向量为W(i)=(w1(i),w2(i),,wm(i))。由式(5)可知,对每项指标来说,对它有利的指标被强化,对它不利的指标被弱化。

1.3 电能质量整体权重的确定

设整体权重向量为W={w j}mj=1,wj∈(0,1),为能充分利用在电能各等级下获得的权重值,使整体权重向量无限的逼近原权重向量W(i),引入离差函数有

式中,di表示第i等级下的决策值与电能整体决策值的离差。显然,为得到合理的权重,应使总的离差和最小,即构造如下目标优化模型:

求解带约束的优化问题[4],可得最终的权重优化值W=(w 1,w2,,wm)。

2 基于属性识别模型的电能质量综合评估方法

设某监测点的m项指标数据为为X的某类属性空间的有序分割,且满足q1>q2>>qc,由每个指标的分类界限可写出分类标准矩阵为

式中,{ai,1

设ui,j可表示为ix属于属性qj的定量描述(即:xi∈qj)的属性测度,则监测点X的属性测度[9]为U={ui,j},i=1,2,…,m;j=1,2,…,c:

(1)当xi≤ai,1时

(2)当xi>ai,4时

(3)当ai,j

则X的综合指标属于各类属性的属性测度为V。

式中,vj表示X属于属性qj的属性测度j=1,2,…,c。

最终的电能质量等级为

即认为监测点样本属于第k0级别。此准则是要求“强”的级别占相当大的比例。式中λ为置信度,取值范围通常为0.5<λ≤1,一般取λ=0.6~0.7。

3 实例分析

本文以0.38 kV配电网为例,将电能质量各指标(电压偏差、电压波动、三相不平衡、频率偏差、谐波含量、停电时间,(j=6))按照国家标准规定的限值进行划分,评出优(Ⅰ级)、良(Ⅱ级)、中(Ⅲ级)、合格(Ⅳ级)、不合格(Ⅴ级)五个等级(c=5),如表1[10]所示。

某地区5个监测点的实测数值如表2[10]所示。

3.1 权重计算

根据表1,得目标矩阵Y

按成本型指标归一化目标矩阵Y,得:

取文献[10]中的主观权重,得:

利用式(5),计算各等级下的电能质量指标权重:

据式(7)计算整体权重(用Matlab优化工具箱求解),得:

而利用文献[8]中的贝叶斯修正法计算的权重结果如表3所示。

由表3可知,与本文算法相比较,文献[8]算法所获得各监测点的同一指标的权重值范围较大。例如:电压波动指标,文献[8]的权重范围为0.1120-0.1634,而本文为0.1225-0.13881;谐波含量指标,文献[8]的权重范围为0.0848-0.1647,而本文则为0.15202-0.1748,由此可见,文献[8]中各监测点下获得的权重范围跨度较大,不利于最终权重的求取。这是由于监测点实测数值的不确定性及测量误差所致。而本文提出的贝叶斯修正法能更好的获得最终权重值,可信度较高。

3.2 计算电能质量各指标的属性测度矩阵(以监测

点1为例)

由表1可知,等级界限矩阵f

由式(9)~式(11)得监测点1的属性测度矩阵

3.3 电能质量等级评定

根据公式(12)电能质量综合属性测度向量为

由该属性测度向量,可以进行质量等级评定。按照置信度准则,取λ=0.7,由于0.2287+0.6560>0.7,可得k0=2,即监测点1应属于等级Ⅱ。

同理可得其它监测点的评估值,评估结果如表4所示,为进一步说明本文算法的有效性,将本文结果与文献[1,10]方法作对比,结果如表5所示。

由表5可知,本文的评估结果与文献[1,10]的评估结果基本一致。在文献[1]中,监测点2的评价等级较高,而文献[10]和本文给出的结果较低。原因是监测点2的电压偏差较大,影响电能的整体质量。因此,本文和文献[7]给出的结果更符合实际情况。与文献[10]相比,本文提供的方法可以更简单直观的给出各个级别的电能质量的具体评价。如,监测点3、4、5虽同属于等级Ⅲ,但究竟哪个监测点的质量更好,可由本文提供的方法得知。由表5可知,监测点3、4、5分别属于等级Ⅲ的综合属性测度为0.8792,0.8983,0.7903,利用置信度准则进行判别(λ=0.7),监测点5超过Ⅲ级标准的程度较轻,质量相比较差,而监测点4的质量最好。相比于文献[11]中给出的具体等级度[11],本文提出的方法能更好的区分处于同一等级的不同监测点的电能质量的好坏,更好地满足用户需求,可行性较强。

4 结语

为克服现有电能质量评估方法的局限性,本文首先提出用贝叶斯赋权法修正主观权重,进而得到电能质量各等级下的权重值,并利用带约束的优化算法,得到权重的优化值,实现权重的主客观统一,避免了权重确定时受人为因素影响过大,从而使得评估结果客观、可信。最后,借助于属性识别模型,实现了最终的电能质量等级评定。实例证明该模型能更好的区分同一等级的电能质量的好坏程度,实现电能的合理、有效评估。

参考文献

[1]王鹤,曾鸣,陈珊,等.基于模糊层次分析法的供电服务质量综合评价模型[J].电网技术,2006,30(17):92-96.WANG He,ZENG Ming,CHEN Shan,et al.Comprehensive evaluation model for power supply service quality based on fuzzy Analytic Hierarchy Process[J].Power System Technology,2006,30(17):92-96.

[2]王睿,方洁,张可,等.基于熵权和AHP的电能质量模糊综合评估[J].电测与仪表,2007,44(503):21-25.WANG Rui,FANG Jie,ZHANG Ke,et al.Fuzzy synthetic evaluation of power quality based on entropy and AHP[J].Electrical Measurement&Instrumentation,2007,44(503):21-25.

[3]熊以旺,程浩忠,王海群,等.基于改进AHP和概率统计的电能质量综合评估[J].电力系统保护与控制,2009,37(13):48-52,71.XIONG Yi-wang,CHENG Hao-zhong,WANG Han-qun,et al.Synthetic evaluation of power quality based on improved AHP and probability statistics[J].Power System Protection and Control,2009,37(13):48-52,71.

[4]李娜娜,何正友.组合赋权法在电能质量综合评估中的应用[J].电力系统保护与控制,2009,37(16):128-134.LI Na-na,HE Zheng-you.Combinatorial weighting method for comprehensive evaluation of power quality[J].Power System Protection and Control,2009,37(16):128-134.

[5]谭家茂,黄少先.基于模糊理论的电能质量综合评价方法研究[J].继电器,2006,34(3):55-59.TAN Jia-mao,HUANG Shao-xian.Research on synthetic evaluation method of power quality based on fuzzy theory[J].Relay,2006,34(3):55-59.

[6]周林,栗秋华,刘华勇,等.用模糊神经网络模型评估电能质量[J].高电压技术,2007,33(9):66-69.ZHOU Lin,LI Qiu-hua,LIU Hua-yong,et al.Evaluation of power quality by fuzzy artificial neural network[J].High Voltage Engineering,2007,33(9):66-69.

[7]王宗耀,范莉,苏浩益.基于区间数理论的电能质量综合评估模型[J].电力系统保护与控制,2012,40(3):41-45,50.WANG Zong-yao,FAN Li,SU Hao-yi.A comprehensive power quality evaluation model based on interval number theory[J].Power System Protection and Control,2012,40(3):41-45,50.

[8]李国栋.现代电能质量综合评估方法的研究[D].北京:华北电力大学,2010.LI Guo-dong.Study of comprehensive evaluation method of modern power quality[D].Beijing:North China Electric Power University,2010.

[9]陈伟,郝晓弘,林洁.基于属性识别理论和AHP的电能质量综合评价体系和方法[J].电气技术,2006,7(5):26-30.CHEN Wei,HAO Xiao-hong,LIN Jie.Comprehensive evaluation system and method about electrical energy quality based on attribute recognition theory and AHP[J].Electrical Engineering,2006,7(5):26-30.

[10]康世崴,彭建春,何禹清.模糊层次分析与多目标决策相结合的电能质量综合评估[J].电网技术,2009,33(19):113-118.KANG Shi-wei,PENG Jian-chun,HE Yu-qing.Comprehensive evaluation of power quality based on the integration of fuzzy analytic hierarchy process with multi-objective decision-making[J].Power System Technology,2009,33(19):113-118.

篇9:博斯腾湖水质评价的属性识别模型

【摘 要】图像中所蕴含的属性对于图像识别有着重要作用,以往的传统分类方法往往忽略了这些特征。视觉属性能够展现人们识别事物时所定义的语义概念,更符合人类识别图像的过程。因此,本文主要研究基于属性学习的图像识别,提出一种将属性和对象类别同时用于构建分类器的方法。通过提取图像底层的基本特征,构建属性分类器和类别分类器。属性分类器采用了直接预测模型。类别分类器SVM是一种线性化和升维的方法,在SVM方法中使用了核函數,通过核函数把低维空间的非线性映射到高维空间的线性,经过这个转化,大大提高了学习机器的非线性处理能力。同时,建立SVM模型所需要的先验干预较少。将这两种分类器运用到图像识别过程中,获得了较好的效果。

【关键词】属性学习; 属性分类器;类别分类器; 多目标分类

1.引言

一直以来,目标对象识别是计算机视觉领域的研究热点之一,由于采用机器学习技术和概率或然表示使得这一问题的解决取得了长足的发展。对于一幅图像,简单地识别如车、熊猫或夹克衫等这样的对象类别有许多行之有效的方法。但是通常的方法都是提取图像底层特征,通过训练分类器,达到识别图像类别的目的。然而,一个视觉对象除了它所属的类别还有许多其他的属性。比如,汽车是灰色的,熊猫是黑白相间的,夹克衫是带条纹的等。这些视觉属性对于理解和描述视觉对象十分重要,视觉属性能够展现人们识别事物时所定义的语义概念,搭建了低层特征到高层语义之间的桥梁。

2.属性

属性被定义为一种描述一个对象的特征或性质的量,其具体取值既可以是离散值,也可以是连续值,属性通常具有明确的值。属性不同于如灰度值图像梯度方向方向直方图等这样的低维度特征,它是建立在这些特征之上的一种对对象的中间级表示。各种属性描述可以相互组合,在描述能力上具有比低层特征更强的灵活性和更高的描述效率。不同的对象类别有许多公共属性,对这些属性进行建模刻画有助于将以往学习到的关于某种属性的知识迁移到新的对象或类别上,从而减少对训练数据的需求。通常属性特征在语义级别描述对象,从而有利于人类知识的继承,有利于人机交互,比如可以用长期以来人们约定的描述某种对象的方式来定义属性,从而使图像检索查找等工作更方便。

3.直接属性预测模型属性分类器

在直接属性预测模型中,类别-属性关系是固定的,通过蕴含了对属性值训练的样本与类别之间的训练,获得了相应的参数,这些参数都是关于分类器的参数。在测试阶段,可以通过获取测试样本的属性值,然后作为输入,来推测出样本的所属类别在直接属性预测模型分类器中,样本类别为 ,未见样本的目标类别为 ,以及属它们的属性 之间通过一个二值矩阵给出相应的关系,其中 , 形成的编码表示对于给定的y或者z,属性 对于分类的有效性,而这个二值矩阵编码是由人工监督给出的。

属性分类器训练的是可见样本x和类别标号y。在测试阶段,图像的有效属性 可以通过之前训练的分类器给出的后验概率 表征,而且这些属性可以和待测试的类别z的后验概率联系起来,如公式(1)所示。

(1)

在识别阶段,可以利用来获得最大似然的输出类,这个类别可能来自Y类别空间,也可能来自Z类别空间。

4.类别分类器

4.1类别分类器SVM

SVM的方法就是线性化和升维的方法。首先,升维就是把样本向高维空间作映射,在高维空间中可以通过一个线性超平面实现线性划分。然后,线性化就是在变换后的高维空间中应用解线性问题的方法来进行计算。SVM由于应用了核函数展开和计算理论,而核函数解决的正是非线性问题,关于核函数的非线性映射在下文中提到。这样就使得计算的复杂性取决于支持向量的数目,而不是样本空间的维数,可以避免了“维数灾难”。 另外,SVM方法具有较为严格的统计学理论作为保证,应用SVM方法建立的模型具有较好的推广能力的确定的上界,这是目前其它任何学习方法所不具备的。在建立数据模型时,人为的干预越少越好,而与其它方法计较时,建立SVM模型所需要的先验干预较少。

4.2核函数

SVM支持向量机是通过核函数进行低维空间的非线性映射到高维空间的线性,通过这个转化,能大大的提高学习机器的非线性处理能力。在高维空间中,原空间的核函数参与了所有向量的内积运算,升维后,核函数仅仅改变了内积运算,并没有增加算法的复杂度。

在对应非线性变换的决策函数公式中,是样本经过核函数的非线性变换后得出的内积函数。在新的空间中只需要进行内积运算,并不需要知道变换 的具体形式,可以直接用原空间中的函数实现。根据泛函的有关理论,只要一种核函数K(,) 满足Mercer条件,它就对应某一变换空间中的内积。

目前研究最多的核函数主要有三类,多项式类核函数,高斯径向基(RBF)核函数和双曲正切(S形)核函数。各种实验的观察结果的确表明,某些核函数处理某些问题时效果不错,但用另外一些就效果很差,通常,径向基核函数是不会出太大偏差的一种核函数。除此之外,还可以根据Mercer条件构造混合核函数。

5.结束语

本课题主要研究基于属性学习的图像识别,提出一种将属性和对象类别同时用于构建分类器的方法。通过提取图像底层的基本特征,构建多个属性分类器,利用训练集对属性分类器进行属性学习,对测试集进行属性的分类,完成测试集的属性分类。利用得到的属性训练集对类别分类器进行学习,属性作为输入,对测试集进行图像类别分类。基于属性学习的图像识别应用领域广泛,一般应用在目标识别,图像检索,人的身份识别,商品推荐等。

参考文献

[1] 张志涌.精通MATLAB R2011a[M]. 北京:北京航空航天大学出版社,2011.

[2] 周建兴,岂兴明,矫津毅,张延伟. MATLAB从入门到精通[M].2版. 北京:人民邮电出版社,2012.

[3] (美)穆尔 著,高会生,刘童娜,李聪聪 译. MATLAB实用教程[M].2版. 北京:电子工业出版社,2010.

[4] (美) 刚萨雷斯,(美)伍兹 著,阮秋琦 等译. 数字图像处理[M].3版。 北京:电子工业出版社,2011.

[5] (美) 利昂 著,张文博,张丽静 译. 线性代数[M].8版. 北京:机械工业出版社,2010.

课题项目:

篇10:博斯腾湖水质评价的属性识别模型

随着我国经济的发展, 人民生活水平的不断提高, 我国已经进入私人购车消费时代, 对于车辆的需求越来越大, 由于私车数量的飞速增长而日益凸现的停车问题, 已逐渐成为城市交通发展和小汽车消费的“瓶颈”。交通事故频繁发生, 交通问题也就成了人们关注的问题, 而且成为影响人们出行时间的主要因素, 因此有必要加强对车辆的管理。本文以属性数学为基础, 建立了停车政策、法规综合评价的AHM模型, 目的在于对城市的停车管理提供参考性意见。

1997年北京大学程乾生教授在属性测度基础上提出了属性层次模型[1,2]。为解决复杂的无结构决策问题找到了一种易于操作的解决办法。

1 用于停车政策、法规综合评价的AHM

1.1 建立递阶层次结构

结构分为三层:最高层为目标层即停车政策、法规综合影响度;中间层为准则层, 包含为实现目标所涉及的中间环节, 这些环节作为决策分析准则, 共有3个准则:

(1) 交通;

(2) 经济;

(3) 城市可持续发展;最低层为方案层, 共6项指标[3] (详见图1) 。

1.2 构造属性判断矩阵并计算相对属性权重

设有n个元素u1, u2, …, un。对准则C比较两个不同元素ui和uj (i≠j) , ui和uj的对准则C的重要性分别记为μij和μji。按属性测度的要求, μij和μji应该满足:

元素ui和自身的比较是没有意义的, 规定:

定义1[1]满足 (1) 和 (2) 的μij称为相对属性测度, 由μij组成的矩阵 (μij) 1燮i, j燮n称为属性判断矩阵。

定义2[1]若μij>μji, 则称ui比uj相对强, 认为ui>uj。

定义3[1]属性判断矩阵 (μij) 称为具有一致性, 如果对任何i, j, k有ui>uj, uj>uk, 则ui>uk。

在层次分析法中, 元素ui和uj的比较由相对比例标度bij给出 (见表1) 。可由bij确定μij, 规定

注:2, 4, 6, 8分别为介于相应两相邻判断的中间值.语义相反的描述, 对应的量值为相对量值的倒数.

在准则下所计算的相对属性测度和属性权可表示为:

利用公式 (1) 、 (2) 、 (3) 、 (4) 、 (5) 可得属性判断矩阵及相对属性权重如下:

上面的各属性判断矩阵由参考文献[3]中相应的判断矩阵转换而来。经检验上述属性判断矩阵 (μij) 皆具有一致性。

1.3 计算合成权重

Cj相对于A的合成权重=Cj相对于Bi的权重×Bi相对于A的权重

可见在方案层总排序中停车收费费率政策 (0.2019) 及自备车位政策 (0.2096) 对于停车政策、法规的综合影响程度的权重是较大的, 依据此结果做出相应的方案。

2 结束语

属性层次模型法的实质就是根据对研究对象整体认识的原理性知识, 通过对非严格数学逻辑的信息 (数据) 的主流化处理和层次化权重处理, 找到接近研究对象的实质的一种方法。它符合我们在分析、评价较为复杂的事物时所使用的“透过现象看本质”、“全面看问题”、“一分为二分析问题”的观点和原则[4]。本文运用属性层次模型对停车政策、法规进行了综合评价, 得出方案层的各指标的权重, 对城市停车管理具有一定的指导意义。

参考文献

[1]程乾生.属性层次模型AHM——一种新的无结构决策方法[J].北京大学学报 (自然科学版) , 1998, 34 (1) :10-14.

[2]程乾生.层次分析法AHP和属性层次模型AHM[J].系统工程理论与实践, 1997, 17 (11) :25-28.

[3]安实, 王健, 周雪梅.停车政策、法规综合评价AHP模型的建立与应用[J].哈尔滨工业大学学报, 1999, 31 (3) :90-93.

[4]王其冬, 武佩珍, 胡旸.属性层次模型在国家自然科学基金项目评审中的应用[J].系统工程理论与实践, 2002 (11) :111-116.

篇11:博斯腾湖水质评价的属性识别模型

摘 要:当今社会,社交网络越来越普遍,Web用户常常会在多个社交网络进行注册,从而留下大量的个人信息,这就出现了Web应用的个性化领域问题。为了充分利用分布于网络上大量的用户信息集,首先我们考虑的是用户识别的问题,解决了用户识别的问题,我们才能整合并利用这些用户信息。然而用户识别的重点又在于多属性权重的判定,同一属性权重的不同,其相似性的判断结果也会有很大差异。文章通过引入熵值确定用户档案多个公共属性的权重,然后经过相似性度量方法获得最终结果。

关键词:多属性权重判定;用户识别;熵值;相似性度量

中图分类号:TP391 文献标识码:A 文章编号:1006-8937(2015)20-0080-03

1 背景概述

社交网络的迅速普及已经改变了人们的交流方式。目前网络提供可能的方式有很多,例如微博上发布的信息,在天猫,京东上的购买物品,同时这些行为也会在网络上留下大量的用户个人数据信息。一个用户可能会注册多个社交网络或应用的账户进行不同的活动,这些注册信息扩展了该用户的不同的个性化特征。

对于一个单独的商业应用而言,就是尽最大努力收集客户的个人信息来满足客户相应的需求,为了获取用户更多的信息首先面对的问题就是跨应用的用户识别。只有同一用户被识别后才能完成用户信息的整合。本文分析了用户识别的关键问题并给出了基于多属性判定的解决方法。提出了熵值确定公共属性权重,并通过相应的相似性度量寻找相同用户。

2 相关研究

目前用于跨应用用户识别领域的主要思想是比较不同应用的用户档案,每个注册用户有一个用户档案描述自己的个人信息,如果两个用户档案相同或在一定程度上类似,就可看作同一用户。

用户档案是由Vosecky等人提出[1],通过由多个属性字段组成的向量来表示,两个用户的相似性是比较向量里不同字段表示的属性值来计算。但这种方法设计的属性和领域是紧耦合的,从而导致每一次领域的变化或个性化应用的改变都会产生权重的重计算。

Radd等[2]人提出了一种框架,通过判定算法计算两个档案的相似度。如果他们的档案相似度高于预定阀值,则认为是表示同一用户。

这种方法的主要问题是,一般默认所使用的代表用户唯一标识符IFP(Inverse Functional Property)是用户的电子邮件地址,该信息是用户私人的不能被其他人访问获取,因此作者也承认该方法并没有解决用户隐私的问题。

国内关于多属性决策问题也多用于统计学研究上,樊治平等人[3]通过建立主观和客观两个模型,为保证决策权重的最优,线性集成两个模型,并构造相应的模型函数,通过求解该函数最值得出最优权重。但该方法主观模型部分依赖专家权重,在跨应用用户识别上还存在难度。叶娜等人[4]提出的模式无关的用户识别算法则完全舍弃属性权重,实现了无需属性权重依然可以进行用户识别的目的。

3 多属性的相似性度量

用户识别的目的是推断出两个来自不同应用的两个用户档案是否是同一真实世界的实体。我们将用户档案定义为属性值对的向量,如下所示:

其中:

A是用户所有的属性集;

P是属性集对应的属性;

R是属性P的值域。

我们认为用户识别是在一个应用的用户集中找到一个可以匹配另一应用用户Us的用户Ud,在选取比较属性的时候,我们将用户模型分为公共属性部分和个性化属性部分,在比较属性相似度时我们选取公共属性部分进行比较。

但因为不同应用的异构性和语义的差异,例如不同的社交网络有不同的数据表示形式,即使是同一个属性,以生日为例,一些应用程序使用的形式DDMMYY而其他应用使用MMDDYY,所以属性相似度度量之前,用户数据应先进行标准化。此外由于属性值中可能存在近义词或相同意思不同表述的情况,所以在比较之前应该进行统一的语义映射。

两个用户的相似性是由公共属性的相似性决定的,其公式如公式1,式中,分别表示源用户与目标用户的第i个属性,表示该属性的权重。

3.1 属性相似性度量方法

目前用于属性相似性度量的方法多种多样,如Cosin,Euc-

lidean Distance,TF-IDF,simEditDistance,Dice[5]等。对于不同的属性的数据类型必须选择合适的度量方法才能大大增加运算结果的效率和准确率。

如何根据不同的属性数据动态的变换属性相似性度量方法目前依旧没有确定的结果。本文中我们选取Dice系数作为公共属性相似性的度量方法。

3.2 待选用户的筛选

在进行用户识别时,我们要做的是比较源应用的某个用户与目标应用的所有候选用户,但众所周知的是很多大型社交网站注册用户数都是非常庞大的,如Facebook拥有超过7.5亿的活跃用户,逐一比较是不现实的。根据观察,社交网络上用户经常使用相同的昵称或全名以方便互相联系。所以我们在筛选候选用户集时以昵称或全名作为关键字进行。

3.3 多属性用户相似性度量

对于相似性度量我们依据并扩展了Dice系数,Dice系数法的计算方式:两个候选集合X,Y的交集信息的2倍除以X,Y的元素的总和。公式如下:

对于本文中属性值都是字符串的相似性的计算,(2)式可扩展为如下表示:

对于单值属性,我们定义N为一组字符形式的双字母组,他们是字符串S中相邻的双字符。因此公式计算两个单值字符串S1和S2的相似性:共同的双字母组字符个数的2倍除以两个字符串双字母组字符集的总和,而对于多值属性,N是字符串S中的词集,两个多值字符串S1和S2的相似性可以通过两个字符串共同单词数的2倍除以两个字符串单词数的总和。

例如对于单值的字符串Tom和Tomy的相似性,Tom相邻的字母对是{‘To,‘om},而Tomy是{‘To,‘om,‘my}。这两集合共同的字符对是2,所以这两个字符串相似性就是2×2/5=0.8。两个多值属性”red green white”和”blue yellow red”共同词的数目是1,所以相似性是2×1/6=0.33。

4 熵值确定属性权重

多属性权重的确定大致可分为两类:一类是主观赋权法,评价人员根据主观上对各属性的重视程度来决定权系数;另一类是客观赋权法,即根据各属性间的相关关系或各值的变异程度来确定权数。刘业政等人[6]提出的自适应方法结合主客观赋权法,在专家决策的前提下,根据熵权系数计算属性权重,并根据该权重计算新的决策结果与之前结果比较,重复多次后得出最优值。

传统的系统论中的熵越大说明系统越混乱,携带的信息越少,熵越小说明系统越有序,携带的信息越多,当系统可能处于几种不同状态,每种状态出现的概率为Pi(i=1,…,n)时,则系统的熵为:

其中:

Ej表示第j个事件。

本文中我们要根据待选用户各属性的相似度确定该属性的权重,所以熵值越大,信息越混乱,该属性对用户识别的判断就越模糊,其权重应该越小,所以在这里我们对公式(4)做了扩展,将Pi替换成属性相似度指标概率。那么扩展后的公式就变成式(5)。其中表示第i个用户第j个属性的相似度。

(5)

通过扩展后的公式我们计算出待选用户每种属性的熵值,为了确保熵值最小,我们构建扩展熵值Ij:

Ij=1/Ej(6)

通过构建扩展熵值我们确定待选用户的每个公共属性结果,最后我们根据该扩展熵值构建最终权重?棕:

具体过程如下:

构建属性相似度矩阵A,其中A中的元素aij代表候选用户Xi与源用户之间公共属性的相似度。

拆分矩阵A,组成单属性相似度矩阵B,其中B中元素代表候选用户Xi与源用户之间单个公共属性的相似度。

根据矩阵B计算出每种属性熵值Ej,最终得到变种最小熵值Ij。

确定相似性权重?棕j。

带入公式(1),并确定最相似用户。

5 算 例

本节中我们提供了一个来说明如何根据上述方法进行权重判定及用户识别,源用户数据见表1。

根据源用户数据进行标准化后的待选用户数据见表2。

我们先计算待选用户属性相似度矩阵A,以U1为例,通过式(3)我们求得Nickname的相似度:2×3/(4+3)=0.8571,interest属性相似度:2×2/(3+2)=0.8。

完成用户相似度矩阵并拆分后可得四组单属性相似度矩阵:

将单属性相似矩阵中的值带入式(5),求得每一组属性的熵值Ej,其结果为:

E1=0.7722,E2=0.7067,E3=0.5786,E4=0.5749。

再根据式(6)求得:

I1=1.2950,I2=1.4150,I3=1.7283,I4=1.7394。

最后我们根据公式7,求得每一种属性的权重分别是:

得出各属性权重后,依据公式1,得用户相似度矩阵:

通过比较U1的相似度最大,所以我们认定在待选y用户中,与Us成功匹配的是U1,也就是说,U1与Us是同一用户。

6 结 语

本文提出了一种解决用户识别中多属性权重判定的方法,并给出了具体算例。通过相似值计算熵值,通过熵值求得属性权重并得出最终的用户识别结果。

这里需要单纯的使用Dice系数在复杂的多个社交网络中进行用户属性相似度的计算并不是特别准确,所以我们下一步工作的重点就是研究如何动态调整不同类型属性的相似性度量。

参考文献:

[1] Vosecky J,hong D,shen V Y.User Identification Across Multiple Social Networks[A].Proceedings of the 1st International Conference on Networked Digital Technologies:July 28-31,2009. Ostrava,Czech Republic[C].2009.[2]RAAD E,CHBEIR R,DIPANDA A.User Profile Matching in Social Networks[A].Proceedings of the 13th International Conference on Network-Based Information Systems:September 14-16,2010[C].Takayama, Gifu,Japan.IEEE Press,2010.

[3] 樊治平,张全,马建.多属性决策中权重确定的一种集成方法[J].管理科学学报,1998,(3).

[4] 叶娜,赵银亮,边根庆,等.模式无关的社交网络用户识别算法[J].西安交通大学学报,2013,(12).

[5] 张宇,刘宇东,计钊.向量相似度测度方法[J].声学技术,2009,(4):.

本文来自 360文秘网(www.360wenmi.com),转载请保留网址和出处

【博斯腾湖水质评价的属性识别模型】相关文章:

博斯腾湖之冬作文04-22

游博斯腾湖小学作文750字04-25

澳博斯小学作文04-17

博斯腾湖景区成功创建国家4A级旅游景区(2012.1.4)04-27

博斯盾医院信息系统设计原则05-04

去波斯腾湖玩初一作文04-10

上一篇:2018天津大学金融硕士考研考试经验和真题(回忆版)分享下一篇:浅谈外协件质量问题的控制

本站热搜

    相关推荐