数据挖掘技术论文

2022-05-13

小编精心整理了《数据挖掘技术论文(精选3篇)》,欢迎阅读,希望大家能够喜欢。摘要:随着时代的发展,人们对有价值的数据需求越来越迫切,因此,需要一种新的技术来处理大量的数据数据,并从中抽取我们需要的信息。数据挖掘技术是一门涉及面很广的学科,综合了统计学的方法,同时又超越了传统意义上的统计分析。数据挖掘就是从海量的数据当中,通过运用技术手段,提炼出我们所需要的有用的数据的过程。

第一篇:数据挖掘技术论文

数据挖掘技术的计算机网络病毒防御技术探索

摘要:在网络技术的高速发展过程中,网络信息以及数据安全的重要性不言而喻,其直接关系到广播大学网络隐私的安全性。而数据挖掘技术就是一种可以提升网络信息安全的技术手段,在实践中可以有效地提升广播大学的安全性。对此,文章通过对现阶段广播大学网络环境的分析,对数据挖掘技术的计算机网络病毒防御技术进行了简单的研究分析,希望可以通过研究提升广播大学网络病毒防御能力。

关键词:数据挖掘技术;计算机网络病毒;防御技术;

在网络技术的发展过程中其涉及的领域越来越广泛,而在网络技术手段的普遍应用中却存在的安全隐患以及威胁,广播大学作为基于计算机网络开展远程教育的教学系统,如果出现网络病毒的威胁与影响,会导致较为严重的后果。对此,必须要加强对计算机网络病毒防御技术的探究分析,而通过对数据挖掘技术进行研究,可以有效地缓解病毒威胁问题,提升广播大学网络环境的安全性。

1 数据挖掘技术概述

数据挖掘技术就是通过对大型的、海量的数据信息中进行深入的挖掘,了解不同信息数据潜在的信息。在传统的数据挖掘技术中多数都是基于同类属性的角度开展,具有一定的局限性。在网络技术手段的发展过程中,各种网络大数据分析技术手段的成熟与发展,将传统模式的初级挖掘技术与互联网进行了充分的融合,这种网络模式之下的数据挖掘技术可以对于各种潜在的、具有一定价值的信息进行深入的挖掘,可以及时发现隐藏在一些网络活动以及档案信息中的信息内容。

1.1数据挖掘过程以及方式

在数据挖掘过程中,主要就是先进行数据收集处理,在对数据进行预处理以及数据清洗、数据挖掘、构建模型,最后进行数据模型的评价。

在整个流程中,数据收集以及数据的预处理、数据的清洗就是数据挖掘技术应用的准备过程,在整个过程中其主要的工作任务就是收集整理相关价值信息,对其进行数据编碼处理。而在数据挖掘过程中主要就是通过统计学法、数据库法、机器学习法、神经网络法等挖掘技术利用不同的算法获得高精度的预测模型,模型的构建以及模型的评价就是最终的分析结果与显示的过程,在这个流程中其主要的目的就是剔除一些冗余的信息内容,通过对各种数据挖掘算法反复应用,对数据优化处理以及信息反馈。

1.2数据挖掘技术在广播大学中应用优势与不足

数据挖掘技术在制造业、金融、通信以及教育行业均有较为广泛的应用,对于网络的安全保护有着积极的作用,其基于自身的高效性、精准性以及可预见性的优势,通过对海量信息的数据分析、通过病毒监测以及信息提取等方式,可以有效地预测广播大学中各种网络风险问题,可以在根本上提升网络安全性。

虽然,在整体上来说数据挖掘技术在实践中应用效果显著,但是仍存在一定的问题与不足,在数据挖掘技术中存在数据源形式多样化以及数据缺失的问题;在进行网络以及分布式环境数据挖掘、海量数据挖掘也稍有不足;而数据挖掘系统也具有交互性的问题,在应用数据挖掘算法的过程中存在着一定的伸缩性以及效率问题,这些问题的在短期无法解决,对此必须要对数据挖掘技术进行深入的研究,进而实现改进与发展。

2 计算机网络病毒防御技术与手段

2.1计算机网络病毒分类与特点

计算机病毒就是可以对计算机程序、功能、数据文件产生破坏性影响的代码以及数据指令。基于相关病毒传播形式的不同,在整体上来说,计算机病毒可以分为蠕虫、后门、恶意软件病毒、特洛伊木马以及间谍软件等病毒,而作为常见的病毒就是后门病毒。这些病毒的主要攻击方式就是通过在海量复杂的数据中,利用进程枚举以及盗取机密信息的方式获得相关权限,对于计算机中的信息数据进行清除、盗窃,下载一些垃圾文件,其具有一定的感染性,具有隐蔽性、不可预见性、破坏性、潜伏性以及非授权性的特征。如果在广播大学中出现病毒问题,就会导致整个网络教学平台出现各种安全隐患问题,无法保障其正常的远程教学活动的开展,带来的后果是无法估量的。

2.2计算机病毒变形技术以及方式

在计算机病毒中最为常见的变形方式就是加密、重定位以及程序演化三种模式。其中加密技术就是一种为病毒提供隐藏以及抗分析提供安全区域的一种技术形式,其主要的作用就是避免一些病毒分析软件对其进行检测分析。而程序演化就是利用等价指令交换、指令重排序、插入垃圾指令、增加以及删除指令等方式演化出来的各种变异程序。

在对计算机病毒进行防御过程中主要应用的技术手段就是病毒监测防治技术。现阶段主要应用的技术就是特征码监测技术、启发式查毒技术、行为查毒技术以及主动内核技术等。特征码监测技术就是利用对病毒特征码的方式强化检测;而虚拟机技术则是通过虚拟环境执行程序命令的方式对相关病毒进行检测分析;主动内核技术就是将一些防毒系统在操作系统中嵌入,在系统的内核中对其进行主动的防御处理;启发式查毒技术就是通过对病毒指令集数据库进行系统的检测,了解病毒信息的方式处理;而行为查杀病毒技术则是通过特定的行为规则加强对各种病毒的判断与分析。

2.3 计算机网络病毒防御系统

计算机网络病毒防御系统就是一种可以为计算机内部危险以及存在的威胁进行防御的一个安全技术手段。计算机网络病毒入侵监测系统就是对计算机中各个系统、网络环境中会出现的各种状况进行监测与分析,加强对各种信息以及信号的分析,了解其安全状况,在出现威胁的时候发送相关警告,通知系统,进而采取相关措施与手段,从而保障整个网络环境以及计算机系统的安全性,降低其整体的危险系数。

3 数据挖掘技术的计算机网络病毒防御技术设计与实现

在广播大学中,要想有效地提升其病毒的抵御能力,充分凸显数据挖掘技术的价值与优势,必须要综合广播大学的实际状况,设置完善的数据挖掘技术的计算机网络病毒防御平台,因此,笔者通过对数据挖掘技术手段以及计算机网络病毒防御技术的分析,提出了一种基于数据挖掘技术的病毒主动防御系统。

3.1DMAV系统的体系结构

此系统的主要防御系统原理就是,将一些疑似病毒的文件进行压缩或者加壳处理,对其进行剖析之后,将数据文件信息内容导入到Win API函数之中,在通过API数据信息库对收集到的特征数据进行优化处理,综合数据挖掘算法形成一个关联性的规则;通过对可疑的文件进行扫描,利用规则库对整个Win API函数进行系统的对比分析,对其进行系统的判断。

3.2PE文件剖析器

PE病毒就是现阶段较为常见的一种病毒形式,其存在的数量最多,影响也最大。因此,在进行广播电大的病毒防御平台设计过程中,必须要加强对PE病毒的分析与研究。PE就是在Win32环境中一种可执行的文件格式,可以在任意的Win32平台中有效运行以及识别。PE文件就是通过对DOS MZ header的偏移量、PE header有效性Impnrt Tahle逻辑等进行检验,实现计算机装载作业。要想充分實现PE文件的各项功能,在实践中,要先检验PE文件的有效性;通过对PE header的定位,继而获得数据文件的目录地址,在对其进行VirtualAddres数值的提取,通过对IMAGE结构的系统定位,加强对Original First Thunk数值的检验,对其进行判断分析,了解不同数组元素的元素值;然后再通过DLL引人函数对其进行反复的、循环计算处理。

3.3OOA规则生成器

OOA规则生成器就是一种利用Apriori算法实现的功能,通过FP树挖掘频繁模式把SignatureDT在DMAV-DB特征数据库中输入,在输出频繁模式的完全集;进行获得FP-数,在对其开展数据挖掘。在此系统中OOA-FP-growh、OOA-DMAV-FPgrowh以及OOA-Apriori算法规则生成器的效率对比信息,具体如下表。

3.4数据挖掘技术的计算机网络病毒防御技术平台实验结果及分析

通过综合广播电大的实际状况,利用样本实验对其进行分析可以发现,数据挖掘技术的计算机网络病毒防御系统在实践中可以有效地控制各种常见的网络病毒。

要想提升广播大学网络环境的安全性,必须要了解数据挖掘技术,综合计算机网络病毒的类型、特征以及变形病毒等因素。通过对基于数据挖掘技术以及计算机病毒技术的整合,构建一个主动的防御系统,通过对不同的变形病毒的对比分析,加强对病毒的检测,进而在根本上避免各种病毒的入侵,这样才可以在根本上提升广播大学网络信息平台的安全性,为远程教学活动的开展提供有效支持。

参考文献:

[1]陈鼎.数据挖掘技术的计算机网络病毒防御技术探析[J]电子技术与软件工程, 2015(18).

[2]于丽.基于数据挖掘技术的计算机网络病毒防御技术探索[J].现代电子技术, 2016, 39(21).

[3]张燕.数据挖掘技术在计算机网络病毒防御中的应用探究[J].太原城市职业技术学院学报, 2016(4).

作者:孙禹

第二篇:数据挖掘技术分析

摘要:随着时代的发展,人们对有价值的数据需求越来越迫切,因此,需要一种新的技术来处理大量的数据数据,并从中抽取我们需要的信息。数据挖掘技术是一门涉及面很广的学科,综合了统计学的方法,同时又超越了传统意义上的统计分析。数据挖掘就是从海量的数据当中,通过运用技术手段,提炼出我们所需要的有用的数据的过程。该文介绍了数据挖掘技术的基本概念、数据挖掘的功能以及数据挖掘的常用的技术。

关键词:数据挖掘;决策树;OLAP

1 什么是數据挖掘

数据挖掘就是通过一定的技术来分析大量的数据,从中找出对我们有用的数据的过程,即从存放在数据库中的数据中获取有效的、有价值、最终能被我们所利用的数据。若我们在一个网站买书,系统会根据我们近期所购买的书的记录进行分析,然后在我们下次登录该网站时,自行向我们推荐其他类型的书籍,这里就是用到了数据挖掘的理论和方法。

2 数据挖掘的功能

1) 分类

所谓分类就是按照分析对象的特征,建立类组。也就是说分类就是它所预测的结果是一个类别而不是一个具体的数。比如:我猜你是四川人,这个就是分类问题。在商业案例中分类问题很多,再比如通过银行的一个客户信息,可以预测一下他是否会购买基金,大概的数额;他是否会办信用卡等等。

2) 聚类

面对海量的数据,首先分类,然后是聚类,属性接近的划归为一类,合理归类以后,每一类有自己的特征。聚类问题主要解决把一定范围内的对象划分为若干个组。它的特点是根据所选的目标来进行划分。比如:银行的客户,我们首先选定几个指标:年收入、年龄、性别等,然后对他们进行划分,特征相似的为一类,特征不同的分属不同的类。

3) 估计与预测

估计就是根据已有的长期积累的数据来推测未知的信息,例如银行根据信用卡申请人的单位性质、年龄、性别等信息推算他的消费水平。所使用的技术有统计方法中的相关分析、回归分析等等。所谓预测就是根据对象属性的过去值预测他的未来值。比如:通过查看一个持卡人以往的消费值来预测他今后的消费,使用的技术包括回归分析、时间序列分析等。

4) 关联

就是找出在一个事件中同时出现的事情,确定那些相关的对象应该放在一起。

5) 描述

描述的就是对复杂的数据库提供简单明了的说明,描述的主要目的是对数据先有个了解,这样有助于怎样去建模。

3 数据挖掘的主要方法

1) 决策树法

决策树是一种对实例进行分类的树形结构,由节点和有向边组成。节点的类型有2种:内部节点和叶子节点。内部节点一般表示一个特征或属性的测试条件,叶子节点则表示一个分类。

当我们构造了一个决策树模型,以它为基础来进行分类是很容易的。具体就是:从根节点开始,按照实例的某一特征进行测试,根据测试结构将实例分配到子节点,当沿着该分支可能到达叶子节点或到达另一个内部节点时,就使用新的测试条件递归执行下去,直到到达一个叶子节点。当到达叶子节点时,就得到了最终的分类结果。

决策树它是一种建立在信息论基础之上的对数据分类的一种方法。具体就是:通过已知的一批样本数据建立一棵决策树,然后利用已经建好的决策树来对数据进行预测。决策树的建立过程我们可以看做是数据规则的生成过程。决策树方法精确度高,效率也高,比较常用。

决策树法是目前应用非常广泛的一种逻辑方法,生成决策树一个著名的算法是C4.5算法。

2) 神经网络法

神经网络它是建立在数学模型之上的,我们通过对大量的、复杂的数据进行分析研究,可以完成非常复杂的趋势分析。神经网络系统它是由一系列类似于人脑神经元的处理单元构成的,我们称之为节点。这些节点可以通过网络进行互联。如果有数据输入,就可以确定数据模式的工作。

3) 关联规则法

关联规则是数据挖掘技术中的一种技术,它是一种非常简单但很实用的一种规则,描述了一个事物如果某些属性同时出现的规律。关联规则分析就是根据一定的可信度、支持度等建立相关规则,可以帮助很多商务决策的制定。

4) 聚类分析法

聚类分析就是把一组信息按照相似度归成若干类别。聚类方法包括统计方法、神经网络法和面向数据库法等方法。聚类分析具体说就是依据样本或变量之间关联的量度标准将其自动分为几个组,并且同一个群内样本相似,而不同组之间的样本相异。

5) 遗传算法

遗传算法它是一种基于生物进化论和分子遗传学的算法,第一步,将问题的所有可能解按照某种方式进行编码;第二步,从中随机地选取M个染色体作为初始种群;第三步,根据预定的评价函数对每个染色体计算适应值,然后选择适应值较高的染色体进行复制;最后通过遗传算子生成新的能够更好适应环境的染色体,从而生成新的种群,直到最后成为一个最适应环境的个体,得到问题的最优解。

6) 联机分析处理(OLAP)法

联机分析处理就是通过多维的方式对数据进行分析、查询和报表。它主要用来完成用户的事物处理,比如银行储蓄等。需要进行大量的更新操作,对响应时间要求高。

联机分析处理它的核心概念是“维”,它支持数据分析人员和决策人员从不同的角度、不同的级别对数据仓库中的数据进行复杂查询和多维分析处理,以直观形象的方式将查询和分析的结果反馈给决策人员。OLAP使用的模型是多维数据模型,主要用于分析大量的历史数据,提供汇总和聚集机制,访问多是只读操作。

随着计算机计算能力的发展,数据的类型越来越多,越来越复杂,尤其在商业方面,需要对大量的数据分析,需要精确定位潜在的价值所在,数据挖掘技术可以自动探测以前未发现的模式。随着数据挖掘技术的不断成熟和完善,它将在各行各业的各个领域发挥其越来越大的作用。

总之,数据挖掘技术的前景是非常好的,我们要充分利用它来为我们今后的生活提供更多的有用的信息。

参考文献:

[1] 李航.统计学习方法[M].清华大学出版社,2017.

[2] 陈志泊.数据仓库与数据挖掘[M].2版.清华大学出版社,2017.

[3] [美]Daniel T. Larose,Chantal D. Larose.数据挖掘与预测分析[M].2版,清华大学出版社,2017.

[4] 李春葆.数据仓库与数据挖掘应用教程[M].清华大学出版社,2016.

[5] 毛国君.数据挖掘原理与算法[M].3版.清华大学出版社,2016.

作者:孔洁 刘杨

第三篇:利用数据挖掘技术破案

在侦破过程中,刑侦人员会对来源不同的各种证据和线索进行梳理,找出对侦破最有用的证据和线索。这些对已有资料的梳理、统计、分析工作,就是数据挖掘技術。在司法领域,数据挖掘是一项比较古老的方法。在一百多年前,多国司法机构就知道建立违法犯罪档案。一旦某地出现新的违法犯罪活动时,侦破人员会搜索已有的档案,从中发现破案的线索。而犯罪学专家则研究这些档案,总结违法犯罪的动机、方式、工具等特征,为预防犯罪和侦破提供依据。这些都是较为古老的人工数据挖掘方法。到了信息科技时代,数据挖掘则以计算机挖掘为主。

数据挖掘的英语名称是Data Mining,又译为资料探勘、数据采矿。所谓数据挖掘,是指从大量不完全、有噪声、模糊、随机的数据中,通过设置一定的学习算法,提取那些隐含在其中的,然而人们事先不知道却有潜在用途信息的过程。它是根据数据的微观特征,发现其表征的、带有普遍性的、较高层次概念的知识,是信息优势成为知识优势的基础工程。数据挖掘萌芽于“情报深加工”,其实质就是发现情报背后的情报。在大数据时代,数据挖掘就是从海量数据中寻找到自己需要的信息,我们常用的百度、谷歌等搜索引擎完成的工作也属于数据挖掘的范畴。

随着计算机和互联网技术的迅速崛起与普及,人们(当然包括犯罪分子和恐怖分子)已经离不开手机、电脑、智能电视等智能终端设备,不少日常活动基本上都可以数字化地表示。几点几分从家出门,坐什么车花了多长时间到了工作地点。这期间,无论是谁,每发一次微博和打一次电话,包括经纬度在内的精确地理位置信息都被记录在案,而通话记录在许多年之后仍可以被调阅查询。总之,在通信技术无孔不入的时代,人们的一举一动都产生了大量的数据。而在很多时候,这些原始数据就会成为司法部门破案时所需要分析的材料。

数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以可理解的方式(如可视化)将找出的规律表示出来。由于人类从来没有像今天这样如此依赖网络和电子设备,因此,信息时代众多的电子踪迹让研究每个人、每个群体,甚至整个人类的习惯成为了可能。

目前,美国安全局已经开始利用数据挖掘技术追踪恐怖分子和监控社会情绪。比如,美国安全局和交通安全局曾经基于数据挖掘技术,开发出计算机辅助乘客筛选系统。该系统为美国本土各个机场提供接口,当乘客购买机票时,系统利用乘客提供的信息确定乘客是否是需要额外安全筛选的人员。该系统将乘客购买机票时提供的信息输入到商用数据提供商提供的数据库,这些信息包括全名、地址、电话号码以及出生日期。商用数据库然后将隐含特殊危险等级的数字分值传送给交通安全局。带有“绿色”分值的乘客将接受“正常筛选”,带有“黄色”分值的乘客将接受“额外筛选”,而带有“红色”分值的乘客将被禁止登机而且还将接受“法律强制性的关照”。在利用商用数据库信息时,交通安全局声称工作人员不会看到用于计算分值的实际信息,也不会保留乘客的信息,以此保障乘客的隐私。

目前,数据挖掘技术已经被用在刑事侦破领域,为破获一些疑难杂案、保障老百姓的人身和财产安全提供了新的技术支持。比如,寻找犯罪嫌疑人的人脸识别方法就需要用到数据挖掘技术。警方先通过计算机对嫌疑人进行画像,然后自动在目标人员数据库中搜索犯罪嫌疑人。不过,人脸识别技术要高效发挥破案的作用,前提就是要建立有大级别的人像数据库系统。也就是说,人脸识别的数据挖掘是需要建立在大数据的基础之上的。同样,指纹识别、虹膜识别、掌纹识别、步态识别等生物识别技术,也需要逐步完善的数据库给予支撑。

在司法领域,数据挖掘技术分析的对象一般分为两大类:一类是基于监控对象的系统,它能够帮助分析专家跟踪某个犯罪嫌疑人;另一类是基于行为模式的系统,它可以在多种活动方式中搜寻可疑的可能涉及犯罪的行为,或者可能是犯罪分子才会产生的行为。基于监控对象的数据挖掘技术又称作关联分析法,是司法机构重点开发的技术。这种方法能利用相关数据,在表面上没有关系的人或事件之间建立关联。比如,如果某人是犯罪嫌疑人,那么就可以使用关联软件发现嫌疑人可能正在影响的其他人,从相关人那里获取破案线索。

上一篇:地铁消防安全论文下一篇:数学高效课堂论文