隐私计算理论

2024-05-04

隐私计算理论(精选四篇)

隐私计算理论 篇1

关键词:搜查,计算机搜查,隐私权,期待隐私权

0前言

搜查是一种侵入,它从多个方面影响被搜查人及其家庭成员的合法权利。至少在两个方面影响被搜查人及其家庭成员的隐私权。其一,现在的安宁生活环境将被破坏。这一安宁的生活环境中可能有的人或者有的物品、信息与案件有关,也有可能其中的部分人乃至全部人与案件毫无联系。其二,私生活的秘密材料将会被泄露。搜查涉及的材料、信息可能与案件有关,也可能与案件完全无关。无论是否有关,都可能因为搜查活动而被披露。

1搜查中隐私权的保护理念

隐私权属于抗世权(rights against the world),本文提到的隐私利益是指关于控制与自己生活密切相关的事项的权利,即个人在家里的私语不受公开宣扬的自由和生活不受干扰的权利,称之为“让我独处的一种权利,让我独善其身的一种权利,不受别人打扰的一种权利。”将隐私抽象概括为“独处”、“不受别人打扰”的个人生活状态,也即“Right to be let alone”。

搜查中隐私权的保护理念的发展经历了两个阶段:

(1)财产侵入和物理侵入(人身和财产)

强调保护个人财产安全的重要性,认为政府在搜查过程中有保障社会成员的财产安全的义务,禁止对公民的财产进行有形侵犯。

(2)期待隐私权

虽然没有实际的侵入比如进入公民的住宅进行搜查,但是对其人身自由和隐私权造成了侵犯,比如进行了窃听,这样就侵犯了公民正常的期待得到隐私保护的通信、通话自由,这是对隐私权的无形侵犯行为,也是不合法的搜查。

我国宪法第三十七条规定“中华人民共和国公民的人身自由不受侵犯……禁止非法搜查公民的身体”。

第三十九条规定“中华人民共和国公民的住宅不受侵犯。禁止非法搜查或者非法侵入公民的住宅”。

第四十条规定“中华人民共和国公民的通信自由和通信秘密受法律的保护……不得以任何理由侵犯公民的通信自由和通信秘密”。

由此可见,我国对公民的人身、住宅、通信自由都有隐私权的保护,但需要基本法、部门法和法律解释进行具体的规范,而且从最新的刑诉法来看,这一规定比较欠缺。但公民如何对自己的隐私权享有合理的期待,这是一个非常现实的问题。

在计算机系统中,是存在隐私权的合理期待的,例如计算机的主人将文件放在电脑桌面上,这就意味着这个文件是允许外来者看到的,但能否允许外来者点击观看甚至编辑,这是值得探讨的;而存储于其他桌面看不到的目录中的文件,笔者认为外来者是不可以进入目录中浏览的,因为计算机的所有者对这些文件是存在合理的隐私权期待的。

2目前我国实务部计算机搜查中隐私权保护的欠缺

目前我国实务部计算机搜查中隐私权保护的欠缺主要体现在:

(1)搜查条件的宽泛性

现行的1996年《刑事诉讼法》109条中规定:“为了收集证据,查获犯罪人,侦查人员可以对犯罪嫌疑人以及可能隐藏罪犯或者犯罪证据的人的身体、物品、住处、和其他有关的地方进行搜查”。

在没有足够证据之前,任何人都可能是嫌疑人,也可能是隐藏罪犯或犯罪证据的人,在不要求具体说明要搜查的地点和对象,并有“可能的理由”的情况下,那么侦查人员只要是为了收集证据,为了查获犯罪人,就可要求对他怀疑的任何一个人的计算机、电子设备进行搜查。因此,计算机搜查的启动是无需相当的理由了。搜查是为收集证据打击犯罪这一目的服务的,也即是以搜查的目的代替搜查启动的理由。在这种目的观的影响下,只要有利于收集证据,哪怕一点理由没有也可以进行搜查了。这种搜查启动模式虽然有利于高效地打击犯罪,但是它的便宜性必然会导致搜查权的滥用,公民的隐私权也因此在强大的搜查权面前处于不确定的状态。

(2)搜查对象、范围不具体

我国刑事诉讼法定的搜查对象包括:犯罪嫌疑人以及可能隐藏罪犯或者犯罪证据的人的身体、物品、住处、工作地点和其他有关的地方。这一规定不加区分地适用于所有与收集证据、查获犯罪人有关的场所和领域。

法律未要求在提请搜查证时须有相对具体的搜查地点、对象和要扣押的人或物,搜查证没有指定搜查的空间和物品范围,搜查的范围不作明确的界定,这种模糊的规定为搜查的实施提供了较大的弹性。公民的隐私权保护无疑存在着潜在的隐患。

在填写搜查证上的搜查范围时,往往填写的是:“×××的住宅及有关地方”,在该范围内发现的任何物品,只要是认为与案件有关,就可以扣押。搜查、扣押的范围过大就容易导致“抄家式”搜查。

国外先进经验来看,搜查证上必须写明被搜查的地点和将要扣押的人或物品,警察在搜查过程中,搜查和扣押的范围不得超过搜查证上指定的空间范围和物品范围。

根据与隐私联系的紧密程度,将场所划分为三个层次,第一层次是住宅;次之是住所例如露营的帐篷或睡袋、出租屋等;最后是其他场所例如办公场所或营业地、汽车等。“通常说来,家庭住宅的隐私期待利益居于最高等级,其他住所次之,办公场所或营业地及汽车再次之”。所以,住宅、住所原则上只能进行有证搜查,其他场所基于公共利益的需要,允许存在一些无证搜查的例外。但是,对场所的搜查应当尽可能在搜查证上细化到居住人、街道和门牌号甚至于具体到房间号。

而计算机的搜查如何划分,是以计算机所处的场所划分,还是以计算机的用途划分(个人、工作、还是服务器),笔者认为应该按用途划分,毕竟计算机不同于其他物品,(1)它所涉及的内容往往十分丰富,存储的信息量很大,我们不能单纯以计算机出现的地点来进行简单的定位和划分。(2)计算机的网络功能使得计算机所涉及的内容可以无限扩展和不确定,因此我们也应当按照它内部存储的内容来确定,但这样以来,似乎进入了一个无限循环,不能确定分类,因此需要查看内容,但一旦查看了内容,却又违背了合法搜查本意,因此应当按照计算机的用途划分,这样我们这在搜查范围的确定时,搜查机关可以有个大致的范围上的掌握。

(3)司法审查的欠缺

《关于执行<中华人民共和国刑事诉讼法>若干问题的解释》、《人民检察院刑事诉讼规则》程序:对被搜查者而言缺乏实体补偿和司法救济途径。根据我国《国家赔偿法》第十五条的规定,对于侦查、检察、审判、监狱管理人员在行使职权中有侵犯人身权利的情形时,受害人有获得赔偿的权利,但是在该条规定的各种侵犯人身权利的情形中,并没有包括非法搜查这一项。

根据我国《最高人民法院关于执行<中华人民共和国行政诉讼法>若干问题的解释》第一条规定:“公民、法人或者其他组织对公安、国家安全等机关依照刑事诉讼法的明确授权实施的行为不服提起诉讼的,不属于人民法院行政诉讼的受案范围”。可见,作为刑事诉讼法明确授权的行为,搜查不属于行政诉讼的受案范围,受害人不能以侦查机关为被告提起行政诉讼,无法通过法院寻求救济。

这就意味着一旦公民计算机中的隐私在搜查过程中被侵犯,公民是无法找到有效途径获得赔偿的。

参考文献

[1]崔敏,郭玺.论搜查程序[J].中国刑事法杂志.2004.

[2]张新宝.隐私权的法律保护(第二版)[M].群众出版社.2004.

[3]刘品新.论计算机搜查的法律规制[J].法学家.2008.

隐私计算理论 篇2

云计算服务模式下 , 用户将自己的数据托管给可信的第三方 :云服务提供商。在云计算中 , 必须有一种措施来保护我们的数据 , 防止数据外泄或破坏 , 确保数据安全。通过对数据进行加密的方式 , 可有效阻断非法途径获得明文数据。目前 , 这方面的研究主要有 :IBM研究员Craig Gentary提出了一种基于“理想格”的同态加密算法 , 使人们可以充分地操作加密状态的数据 , 服务提供商也可以受用户的委托来充分分析数据。Google没有采用数据加密技术 , 而是通过数据的分割和虚拟化来保证数据的私密性 , 同时通过第三方认证的方法 , 或者遵守规范如HIPPA, FISMA的方式 , 保证用户的数据不被泄露。

本文将采用一种分布式数据托管方式 :用户首先将数据分解 , 然后将分解之后的数据托管给多个不同的服务提供商 , 利用不同服务提供商之间的隔离性保证原数据的机密性 , 利用不同服务提供商之间的交叉验证保证原数据的可信性。

1 (n+1, t+1) 门

定义1设秘密s被分成n个部分信息 , 每一部分信息称为一个子密钥或影子 , 由一个参与者持有 , 使得 :(1) 由不少于k个参与者所持有的信息重构s ;(2) 由少于k个参与者所持有的信息则无法重构s。

称这种方案为 (k, n) 一秘密分割门限方案 , k称为方案的门限值。

定义2设A、B为两个参与者的集合 , A∩B=Φ( 空集 ), |A|=m, |B|=n, t是不超过m的正整数 , 即为门限值。共享密钥为K, 如果在A中的m个参与者中每人分得一个秘密数ki(i=1,2,…,m),B中的n个参与者每人分得一个秘密数kj(j=1,2,…,n),A中任何个人 ( 或t个以上 ) 和B中的一个人在一起可恢复共享密钥K, 而仅仅由A中的任意多个人 , 或者A中的t-1个人 ( 或t-1个以下 ) 与B中的人在一起都不能计算出共享密钥K, 则称这种秘密共享方案为(m+n, t+1) 门限方案。

我们将这一问题应用到云计算中来 , 下面给出一新的密钥分割门限方案。

定义3设n个云服务提供商P1,P2,…,Pn, 其集合为P, 数据所有者A1, t为不超过n的正整数。共享密钥为K, 如果云服务提供商Pi分得的秘密数ki(i=1,2, …, n), 数据所有者A1分得的秘密数为k1′ ,P中的任何t个人(或t个人以上)和A1一起可恢共享密钥K, 而仅仅由P中的t-1个人 ( 或t-1个以下 ) 与A1在一起都不能计算出共享密钥K, 则称这种秘密共享方案为 (n+1, t+1) 门限方案。

2 (n+1, t+1) 门限秘密共享方案

2.1 基本参数

2.2 秘密分发

2.3 秘密恢复

因此任意t个云服务提供商和数据所有者一起可把密钥重构出来 , 所计算出的密钥矩阵即为原始的共享密钥k。

3 安全性分析

密钥矩阵G的秩为t+1, 向量组α1, α2, …, αn中线性无关的向量的个数是t。因为矩阵的秩为t+1, 且向量组α1, α2, …, αn中线性无关的向量的个数是t, 所以任意少于t个云服务提供商和数据所有者一起或任意个云服务提供商合作都不能恢复数据。进行数据恢复时云服务提供商和数据所有者的参与情况分为以下三类 :

(1) 参与数据恢复的云服务提供商少于t个 :t-1个云服务提供商提供密钥α1′′ , α2′′ , …, αt-1′′ , 数据所有者提供密钥α1′ , 因为向量α1′′ , α2′′ , …, αt-1′′ , α1′中线性无关的向量的个数不会超过t, 而密钥矩阵的秩为t+1, 因此α1′′ , α2′′ , …, αt-1′′ , α1′不能把构成密钥矩阵的所有向量都线性表示出来。

(2) 没有数据所有者参与 :n个云服务提供商提供的密钥为α1, α2, …, αn, 而向量组α1, α2, …, αn中线性无关的向量的个数是t, 密钥矩阵的秩为t+1, 因此α1, α2, …, αn也不能把构成密钥矩阵的所有向量都线性表示出来 , 即不能重构密钥矩阵G。

(3) 数据所有者参与且参与数据恢复的云服务提供商大于等于t个 :任意t个云服务提供商和数据所有者一起可把密钥重构出来 , 所计算出的密钥矩阵即为原始的共享密钥k。显然当云服务提供商的参与者大于t时 , 密钥矩阵同样可以恢复。

此方案保证了数据所有者对数据的可控性 , 在没有其允许的情况下任何人包括云服务商都不能够对数据进行恢复 , 这样大大加强了用户数据的安全性。此外 , 如果有某个云服务提供商受到攻击或其他情况导致数据丢失时 , 不会影响到整个数据的恢复。

4结束语

隐私计算理论 篇3

云计算服务是我国近些年来兴起的一种服务模式,经过近几年的发展已被我国业界普遍认定为是我国信息产业进步的发展方向之一,我国信息产业在其领导下将迎来一轮新的技术革命。但在云计算服务的相关发展中,存在着一些因素制约着其发展,大数据安全隐私问题就是其中较为严重的因素之一,为了保证我国云计算服务的顺利发展,对云计算的大数据安全隐私保护进行相关研究,就显得很有必要。

1 云计算与大数据概述

1.1 云计算定义

所谓云计算,是一种基于互联网区别于传统计算模式的新型计算模式,在云计算的使用中,其能够通过自身的云计算平台,将相关的软硬件资源与信息提供给需要的计算机与其他网络设备,因此云计算服务的应用能够大大提高我国相关行业的运行效率,是我国当下计算机信息技术中较为先进的技术形式之一[1]。

1.2 大数据定义

所谓大数据,是指数据拥有者所涉及的数据量非常巨大,通过现有的数据库管理工具和传统数据处理应用很难处理,所以我国相关业界也常将大数据称之为巨量资料与海量资料。

2 基于云计算的大数据安全隐私问题

2.1 基于云计算的数据隐私

在云计算的大环境下,其本身的隐私也变得日渐复杂。不同于传统意义上的隐私,在云计算的大环境下,其本身的隐私包含着相关数据的结构、用户访问模式、访问历史、内容本身等多方面,而在不同的云计算中,相关服务需要对用户隐私保护的侧重点也有着很多不同之处。例如,对在云计算中提供搜索的相关服务来说,其需要对相关使用者搜索内容的隐私性进行保护;而对于云计算中提供存储服务的项目来说,其则需要对相关用户的数据的隐私性进行重点保护;对于云计算中的相关计算服务来说,其需要对相关计算结果与计算内容进行隐私保护,总之对于云计算的法务来说,不同的服务内容使得其需要侧重不同方面的隐私保护[2]。

2.2 云计算平台数据的安全隐私服务

为了我国云计算平台数据的安全,相关云计算平台的服务商会为用户提供相关安全隐私服务,以此保证其安全使用相关云计算服务。而在我国云计算服务中常用的安全隐私服务存在着两种模式。第一种模式是相关云计算服务的使用者将相关数据资料存储在云计算平台中,而只有通过相关使用者的授权方可对相关数据进行下载,以此保证相关数据的安全性;第二种模式是相关云计算平台服务商通过自身计算资源,对相关数据进行计算,以此保证相关数据安全性的一种服务模式。这两种云计算平台数据的安全隐私服务,在我国当下民众的生产与生活中,发挥着极为重要的作用,推动着我国经济与社会的相关发展,值得我国相关研究人员对其进行进一步研究[3]。

2.3 常见的基于云计算的大数据安全隐私问题

虽然云计算平台对我国民众的生产生活带来了很大的便利,但其在具体使用中也存在着一些安全问题,这些安全问题影响着相关用户数据信息的安全,对我国云计算平台服务的发展很是不利,笔者结合自身工作经验,对相关安全隐私问题进行了具体的分析与总结,结果如下:

(1)远程数据完整性

在云计算平台的具体使用中,相关用户在云计算平台上传数据后,往往没有办法对相关数据的完整性进行较好的检验,而如果相关数据的完整性受到危机,就很容易对相关使用者带来极大的麻烦,导致其对云计算平台的服务丧失信心,所以我们说远程数据完整性切实关系着云计算平台的相关发展[4]。

(2)用户加密

在一些用户使用云计算平台的相关存储服务时,为了保证自身信息的安全性,往往会通过计算机对其进行具体的加密处理,而对于相关加密信息来说,云计算平台很容易出现数据分析方法失败的问题,因此我们必须对这一问题进行格外重视。

(3)云计算结果的正确性

在云计算平台中,云计算是其较为重要的服务模式之一,保证相关数据的计算结果的正确及安全,是我国云计算平台必须做到的服务,这一问题需要引起我们警惕。

(4)数据计算的隐私保护

除了上文中提到的数据计算的信息及计算结果,在具体的数据计算中,访问模式、访问历史等信息也需要云计算平台进行安全保护,以此避免一切可能对使用者造成损失的漏洞出现[5]。

2.4 常见的影响大数据数据隐私的安全问题

在大数据下的云计算平台中,大数据的使用要点在于其自身的使用及存储,在这两方面的功能发挥中,就不可避免的会遇到相关安全信息隐私保护的问题,这点需要我们予以重视。在云计算平台中,由于大数据具有生命周期长、多次访问、频繁使用的特点,所以在具体的云计算平台各项服务中,云服务提供商、数据厂商、外部入侵者的增加都会对大数据本身的安全隐私性造成威胁,并最终有可能对企业、个人、政府都造成极其严重的影响,所以我们必须对威胁大数据自身信息安全的相关因素进行具体研究,在下文中笔者结合自身工作实际对相关因素进行了分析与总结,希望能够以此推动我国大数据安全的发展。

(1)个人无法控制

在云计算平台运用的大数据中,数据的拥有者很容易对用户的隐私造成侵害,而在这一侵害过程中,由于拥有者无法对数据进行有效控制,这也就使得这种侵害处理起来较为困难。

(2)相关服务的不可靠

除了个人无法控制外,在具体的大数据处理中,加密措施的不完善、云服务提供商的不可靠等问题,都会对云计算平台中的大数据信息的安全隐私性造成影响,这一问题需要我们予以注意。

(3)环境的复杂性

除了上文中提到的两点外,在云计算平台的大数据信息运用中,大数据与云计算使得相关信息的运用环境较为复杂,而在这种复杂、开发以及较为多元化的环境中,大数据信息的运用就很容易出现安全问题,这点需要我们予以重视[6]。

3 基于云计算的大数据安全隐私保护

上文中我们详细了解了云计算与大数据的概念以及基于云计算的大数据安全隐私问题,在下文中笔者将结合自身实际工作经验,对基于云计算的大数据安全隐私保护进行具体论述,希望能够以此推动我国云计算平台服务的发展。

为了进行云计算下的大数据安全隐私保护,云计算平台服务商可以通过运用隐式机制进行相关信息的安全隐私保护。在隐式机制的使用中,如果不法分子想要窃取云计算平台的相关信息,起就必须了解矩阵中的每一个元素的信息,这就在极大程度上提高了我国云计算平台服务的安全性。在具体的隐式机制云计算平台的安全隐私保护中,其具体分为存储服务的保护与计算服务的保护。而在运用隐式机制的云计算平台计算服务保护中,其通过对云计算平台计算方案的扩展,实现相关计算方案在四个云服务器环境中的应用,最终起到提高云计算平台计算安全性的作用。

4 结论

本文基于云计算的大数据安全隐私保护进行了具体研究,详细论述了云计算与大数据的定义、基于云计算的大数据安全问题以及基于云计算的大数据安全隐私保护,希望能够通过这些信息,推动我国云计算平台与大数据的安全发展,最终提高我国经济与社会的总体发展水平。

摘要:随着我国经济与社会的快速发展,资源共享与社会分工是我国必经的发展阶段之一,为了满足这一发展,云计算的运用就显得很有必要。在我国当下云计算的运用中,云计算相关的大数据安全隐私保护是制约其发展的重要因素之一,针对这种情况,本文就云计算的大数据安全隐私保护进行相关研究,希望能够以此推动我国云计算平台服务的相关发展。

关键词:云计算,大数据,安全隐私保护

参考文献

[1]戚建国.基于云计算的大数据安全隐私保护的研究[D].北京邮电大学,2015.

[2]陈科有.混合云计算数据安全与隐私保护问题研究[D].江西师范大学,2013.

[3]张文科,刘桂芬.云计算数据安全和隐私保护研究[J].信息安全与通信保密,2012.

[4]贾哲.分布式环境中信息挖掘与隐私保护相关技术研究[D].北京邮电大学,2012.

[5]黄勤龙.云计算平台下数据安全与版权保护技术研究[D].北京邮电大学,2014.

隐私计算理论 篇4

随着计算机技术和互联网技术的进一步发展和应用, 网络信息的共享加快了全球化的进程。然而, 随着网络信息技术的发展, 个人数据泄漏的问题, 吸引越来越多的关注。为数据分析员, 个人信息是非常重要的。发布的隐私和保持的重要内容秘密之间的平衡的追求已成为许多科学家和分析师的焦点。近年来, 基于粒度计算的新概念和新的计算模型一直重视在保护隐私和出版方面[1]。私人数据的粒度计算中的应用, 本文将简要讨论。

2.粒度计算综述

1、粒计算的起源与发展

在1997年粒度计算的概念首次提出后, 就被视为涉及多个学科的一个全新的领域。随着粒计算研究的深入, 学者们将粒计算的理论观点应用到不同的学科领域, 在语言学, 临床医学, 数学等多个领域取得了丰硕成果。

l.a.zedeh提出的广义的粒度计算总框架, 即采用广义约束来构建和定义粒度。这种方法被称为粒计算;y.y.yao等将粒度计算应用在数据挖掘, 知识发现, 机器学习等方面。这些研究主要通过网络信息获得的数据, 其具有以下特点:1。用逻辑判定语言来描述聚集粒度;2。邻域系统、区间分析, 粗糙集理论与粒度计算进行合成, 对信息计算进行深入研究;3。使用网格结构解决一致的分类问题。t.y.lin在粒计算表达和应用, 二元关系的粒模型等方面进行深入研究。此外, 在粒度商空间理论和可拓集合等方面的也进行了深入的讨论。

2、粒计算的概念

粒计算是解决信息处理中不同粒度层问题的一个新概念和新模式。粒计算理论包含了各种计算机理论, 比如粗糙集, 模糊集, 人工智能等, 它可被视为一个的数据隐私保护领域的新突破。l.a zedeh曾指出人的认知有三个基本概念, 即造粒, 组成和因果关系。造粒是指将整体分解为部分;组合指将部分合并成整体;因果关系是指原因与结果之间的关系。在此基础上他进一步提出了粒计算这一理论, 指出粒度计算是对模糊信息造粒, 是粗糙集理论和区间计算的超集, 也是粒度数学的子集。造粒就是对问题进行不同层次的详细研究, 是将一个大的研究对象有效分裂成小粒度集的过程。

2.1数据安全

用粒计算方法进行安全策略的冲突分析和博弈模式的研究, 主要是竞争公司之间建立坚不可摧的数据集防火墙。其基本思想是, 在防御过程中, 没有冲突的数据应该放在“墙”的一边, 同时, 建立与其冲突的关系, 并记录为CIR。然而, 冲突关系既不是自反和也不能传递, 所以当所有数据通过CIR分类后就不可能取得独立的CIR类。从而, 这种方法不能成功地应用。林枣阳在粒度计算理论的基础上对该方法做了改进, 被称为中国长城安全防护墙。尽管国外研究数据的安全性相对较早, 但粗糙集理论粒度计算是很少见的。

2.2图形与图像处理

利用粗糙集的粒度计算理论适当降低精度, 解决和处理图像分析系统。这个理论框架是最初由zedeh提出的。之后, 许多学者也加入了讨论如何对内部图像信息造粒的问题, 以及基于模糊关系的图像压缩方法。在这些研究的基础上, 成功的设计了基于粒度合成原理图像分割和基于模糊粒状的图像结构的插值方法[2]。

2.3复杂问题

面对复杂的问题, 为了避免复杂的计算过程, 并获得一个更好的解决方案, 分析的粒度由粗粒度向细粒度是其主要的分析方法。总之, 粒度计算理论已被广泛应用于各个领域, 将继续深入讨论。

3.隐私保护研究现状

随着计算机网络技术的深入发展, 数据共享, 隐私保护, 维护私人数据和其他等多种需求引起了国内外大学和科研机构的重视, 这也成为数据发现和信息安全领域的研究热点。这主要私人数据保护和数据挖掘两方面的内容:首先是对如姓名, 身份证号码, 年龄, 性别等初始数据的处理和保护, 从而避免泄漏私人数据。其次, 在不涉及个人隐私的前提下, 通过数据挖掘如何获取所需的数据。基于这两点, 目前的数据隐私保护的数据挖掘主要包括集中式数据挖掘的隐私保护和分布式数据挖掘的隐私保护。

集中式数据挖掘的隐私保护主要包括数据转换, 数据阻塞, 数据扰动, K-匿名等方法。根据数据分块, 分布式数据挖掘的隐私保护技术主要包含垂直数据分块的隐私保护技术, 该技术可以划分为基于双方安全性的隐私保护和基于多方安全的隐私保护技术。

4.基于粒度计算的数据挖掘和私人数据保护中的应用

如果要从具有大量数据信息的数据库或数据仓库中发现有用的信息知识, 肯定将花费时间和精力。利用相关的数据挖掘技术虽能取得了一定的效果, 但当面对复杂和庞大的数据库以及并不断涌现新的数据库系统时, 任何单一的工具、模块或方法都将无法快速而有效的处理这些数据信息, 更不用提数据信息的隐私保护了。

在信息处理过程中, 用户使用SQL查询系统查询数据库中的相关信息, 并获得不完整的信息系统;然后, 通过基于粒度计算的信息匿名方法处理不完整的系统, 最后, 通过匿名信息, 以查询结果的形式显示这个不完整的系统 (无决策属性) 。过程如下图所示:

与传统的数据挖掘方法相比, 这种方法具有以下优点:

首先, 当纳入分析的数据是不完整的, 不确定或是模糊的, 可以通过粒度计算获得近似解[3]。第二, 基于粒度计算的数据挖掘可以以较低的代价获得得到近似的知识和相对准确的信息;第三, 它能够将问题进行抽象和简化, 从而提高数据挖掘的效率;第四, 高维的数据可以转化为多项式时间的解决方案;最后, 它有助于做出合理的判定。

4.1数据预处理模块

数据预处理是指通过使用新的模块来管理现有的业务数据, 它主要体现在以下三个方面:

1、对不能直接进行挖掘的初始数据集确定特定的需求条件。

2、处理的工作量大于纯粹的挖掘。

3、可能会导致严重干扰或误导的结果等重大影响的挖掘算法。

数据预处理主要包括数据筛选、整合、抽象的转换、减少等等, 这是一项复杂的系统工程, 需要将数据转换成适合挖掘的形式。对于挖掘算法, 如神经网络, 可以只有对规范化的数据才能实现挖掘的准确性。常用的数据的规范化的方法包括最大和最小的规范化, 零均值规范化, 十基数转换规范化等。此外, 数据仓库中的转换, 旋转和投影也可以被用于数据转换和知识基础的产生。而对于不确定属性值的只需分配一个离散值和最终的粒度值。

4.2约减模块

通过聚类或删除冗余特征消除冗余数据, 从而获得简化数据集。主要途径有:1.属性约简。通过消除与数据挖掘任务无关或冗余的属性来减少数据, 使新的数据子集的概率分布可以尽可能的与原始数据的概率分布相近似。2。数据块约减。用较小的数据表示替换原始资料。主要有参数化方法和无参数化方法。参数化方法通过数据模型而非存储的实际数据来评价数据。3.离散化和概念层次。使用更高一层的概念替代初始数据或较低层的概念。将属性域值划分成若干区间以实现连续属性的离散化。

4.3基于关联规则的挖掘模块

将挖掘规则设定为关联规则, 从而为描述数据项之间建立起关联, 而一般对象是事物数据库。关联规则是指确定事物之间的关联。一般可以分为两个子问题, 即发现支持阈值大于或等于最小阈值的所有的频繁项子集, 并产生满足信誉阈值的频繁模式的关联规则。

关联规则需要从用户那里获得支持和可信度因素, 以便找出满足所有要求的支持和肯定因素的规则, 即规则自动生成。决策的要求或条件也可根据用户的需要来定义以找出满足要求的最小规则, 即习惯判定式挖掘和自定义条件挖掘。最后, 用属性的最初意义来解释规则。经典的关联规则挖掘算法是Aprior算法, 即获得频繁项集。用产生较小的频繁项集的方法, 再以迭代产生较大的频繁项目集。通过不断的查询交易数据库来判定项集是否为频繁项, 直到不在产生候选集, 这就意味着对数据进行了完全挖掘。

5.结论

总之, 可以结合粒度计算对每个数据挖掘模块的实现功能进行分析, 建立新的数据挖掘模块。同时, 可以对数据挖掘中的关联规则进行计算, 为分析数据提供最佳的信息, 为决策与控制提供数据支持。

参考文献

[1]Zhi Hai, Lin Youfang.数据仓库技术[M]。北京:中国机械工业出版社。2003 (28) 。

[2]徐峰, 张铃.一个基于商空间的非均匀粒度聚类分析[J]。计算机工程。2005 (3) 。

上一篇:土木工程认识下一篇:现代企业档案管理工作