数据挖掘心得体会

2024-05-02

数据挖掘心得体会(共14篇)

篇1:数据挖掘心得体会

心得体会

这次数据挖掘实验结束了,期间我们小组明确分工并积极去完成,虽然有点辛苦,但我感觉充实而有收获感!

根据老师给的一些资料,我们决定采用SQL Server 2000中的Northwind数据库里的数据作为我们的实验数据。根据表Order Details中的数据,我们分别根据ProductID和OrderID字段,并结合我们规定的最小支持度阀值对数据进行筛选。依次筛选出1项频繁集、2项频繁集和3项频繁集,其中还会使用游标的方式来遍历2项集与3项集的候选集,分别选出2项频繁集和3项频繁集。

由于数据较多,因此过程比较复杂,要编写很多的查询语句,建立许多数据表,包括临时表。开始不知道则操作,但经过我们各自多次重复的建表与查询,逐渐的理解和有了自己的思路。尤其是在运用游标的方法进行遍历这块,因为我们比较陌生而不理解,操作时一时无法实现结果,但经过我们在网上查询了解相关知识,最终得以解决。

经过该次实验,使我对数据库的操作更加熟练,而且还使我对课本上的“挖掘频繁模式”这块知识有了很好的掌握,今后我会多做实验,使我在实际操作过程中学得更好!

篇2:数据挖掘心得体会

今年的数据仓库与数据挖掘课程,任课老师布置每人讲一章,并课中研讨的授课方式,我非常赞同这种自己备课,自己上去讲课并课中和同学研讨、最终老师点评的做法,因为他能让自己更好理解文章,同时又可以锻炼自己的表达能力。

我主讲《数据仓库与数据挖掘技术》中的第二章“知识发现过程与应用结构”,在整个备课和讲课当中,存在很多不足,备课时参考的书目太少,使得在讲课时关于概念和文章出现的例子不能进行相关扩展和补充,也不能用生活中通熟易懂的例子来阐述书本中的抽象概念;讲课时更多的按着PPT所写进行概略性的讲述,没有形成自己的逻辑思维体系,我也知道,讲课是门艺术,不是几次就能掌握的,要经过不断的实践积累经验,不断的研读相关书目,形成自己的“知识树”的基础上,才能对所讲的知识融会贯通。台湾有位教育家曾说:如果你要讲一门,至少要对该门课的五至六本经典教材研读几遍,形成相应的知识树之后才好授课,这是题外话。

关于数据挖掘每一章算法的授课,我认为在有限的时间里先把一个核心算法解释清楚,对其他算法可以简略带过(最后一次课XXX对PageRank的讲解就很到位),因为,后面算法一般是前面所讲算法的一种改进。算法讲解时,除了要对该算法的原理和概念讲述清楚之外,要对该算法的实例最好用板书的形式解释清楚,并演算每一步,而不是拘泥于PPT进行讲解。板书字体可大可小,速度可快可慢,可以写写停停,也可以一气呵成,可以边写边讲,也可以只写不讲。而PPT是则是死的东西,参考的内容也是书上的步骤,而不是授课人自己的理解,在讲解过程中,不利于学生的理解和认识。讲解的过程中,语速要适当放慢,语速太快是所有人刚开始讲课的通病,我也不例外,讲课讲得很快,自己的思维被打乱不说,主要下面的同学不能理解,毕竟讲课不是演讲。

对于上学期的一页纸开卷,我非常赞同这种考试方式,毕竟对于理工类课程,公式很长,又特别难记,我们在理解其思想的基础上,完全没必要再记很长的公式,在考试的过程中,可以相应的记录些公式带入考场。

篇3:数据库技术教学心得点滴

1 前期课程

数据库技术课程的先修课程为计算机应用基础、C语言以及数据结构。因为数据库系统是一个复杂的而且综合的系统,涉及到信息的处理、数据的管理、语言的编译、网络通信甚至与用户操作界面的接口。其除了自身的管理系统之外,需要一个软件支持环境,例如操作系统、网络软件、应用系统开发工具、宿主语言及实用程序等。数据库管理系统是在操作系统的文件系统基础上发展起来的,一般需要在操作系统的支持下才能工作。学生们只有在掌握了操作系统、数据结构、编译原理、网络通信技术等知识之后,才能更好地理解数据库技术的原理,进而将数据库技术应用于实际工作。

2 教学方法

首先应该让学生了解什么是信息,什么是数据,它们之间存在的区别和联系。进而介绍数据管理技术的发展从而引入数据库系统。在介绍数据库系统的过程中,告诉学生数据库的定义、功能并选择某款数据库产品让学生进行上机实验。作者所在学校采用的是著名数据库软件公司Oracle所开发的Oracle数据库系统。让学生去创作一个简单的、接近于社会生活中所遇到的实际问题的应用管理系统。学生们通过实验,在编写和调试程序的过程中领会和加深对数据库原理的理解,用学到的数据库技术,最终实现数据库应用系统的设计。

3 重点和难点

作为关系数据库的代表,Oracle数据库是一项应用性的技术,关系数据理论为设计该类数据库奠定了坚实的理论基础。随着开发技术的不断发展,数据库与用户交流界面的设计交由Delphi等软件负责,Oracle数据库技术更多的是倾向于对数据库的设计。要使得设计出来的系统简单易用而且效率高,在开发数据库应用系统时,一定要做好前期的需求分析、概念结构设计和逻辑结构设计,所以流程图、E-R图和关系模式是这门课的重点内容。

定义表的完整性约束是另一个重点,在设计数据库时,不但要设计数据库的逻辑结构和物理结构,而且还要仔细考虑完整性约束定义,因为它决定了建表的先后顺序。例如创建学生和系这样两张表,其中学生表包含系代号这个属性,那么在创建的时候应该是先创建系表,然后再创建学生表,并且对学生表中的系代号属性添加引用完整性约束。

光标是数据库技术的难点,光标又称为游标,是解决程序中处理查询返回多行的问题。学生在使用光标时经常出现各种各样的错误,例如在程序的说明部分将光标定义为cursor c1 is select觹from course for update;其中course是课程表的表名,该表包含五个属性,然后在程序的主体部分写的是fetch c1 into e_eno,e_sal;其中e_eno和e_sal是两个变量。五个属性的属性值是无法赋予两个变量的,因此要给学生强调,如果用于光标定义的查询语句采用觹号,那么将光标的内容赋予的最好是记录型变量,而不要用变量。

当然,理论只是原则和指导思想,应该告诉学生在千变万化的实际应用中,必须根据实际情况决定创建什么样的数据库,数据库中包括什么数据,数据之间如何联系等。

4 结束语

要达到灵活应用数据库技术,从而能够开发出满足用户要求,操作简便而功能齐全并且运行效率高的数据库应用系统,学生们必须深刻领会数据库原理的本质,还要善于从管理的对象中,抽取出有用信息,并建立数据模型。而此能力不能靠背诵程序来取得,应该要做到能够熟练的综合的应用知识。

参考文献

[1]王行言,汤荷美,黄维通.数据库技术及应用[M].第二版.北京:高等教育出版社,2004.

[2]杨正洪,郑齐健,孙延辉,等.中文SQL Server 2000关系数据库系统管理和开发指南[M].北京:机械工业出版社,2002.

篇4:挖掘教材内涵体会教学乐趣

课前的准备工作要充分。认真钻研教材、设计教学预案、制作需用课件等,这是教者必做之事。从正反两个方面强化:一是拓展百分数与分数的联系与区别;二是课题的引入创设、问题情境的铺排与收缩。教师只有认真钻研教材,挖掘教材的内涵,做到了然于胸,执教的时候才能体会教的乐趣,也让学生在教学中感受学的乐趣。

讲解到百分数与分数的区别和联系时,教材上提到“像上面这样表示一个数是另一个数的百分之几的数叫做百分数。”有学生马上就说:“老师,上面这些都是分母是100的分数,那么我们能不能说,分母是100的分数就是百分数呢?”有的学生说:可以;当然也有学生说:不可以。为了让学生辨析二者的联系与区别,正确地把握百分数的概念,笔者没有简单地做出直接判断,而是借此契机,激活学生的探究性思维,紧接着提出了两个问题有意识地引起大家的思考:百分数可以看作分母是100的分数,那么它和分母是100的分数之间有什么联系和区别呢?分母是100的分数就是百分数吗?为什么?问题提在点子上,进入了学生的“最近发展区”,学生感觉有话可说,纷纷发表意见,课堂进入了一个思维的高峰时期。通过组织学生的讨论,教者适时作了归纳,形成如下的共识:百分数和分母是100的分数具有的相同点是:百分数和分母是100的分数都可以表示两个数之间的关系;但两者之间不同点更为明显,读法不同:百分数读作百分之几,一般不读作一百分之几;写法不同:百分数要用专用的符号“%”;意义不同:百分数不可以表示实际数量,只表示两个数量间的关系,分母是100的分数既可以表示两个数量间的比较关系,还可以表示实际的数量;分子不同:百分数的分子可以是整数也可以是小数,而分母是100的分数的分子只能是整数……

课堂的讨论挖掘了教材所没有明确介绍的“四点不同”,使得学生意识到,百分数是从分母是100的分数中演化出来,专门用于表示两个数量间比较关系的常用概念,它在符号和分子的表达上比分母是100的分数有了进一步的拓展性变化,从而理解更加深刻了。教者再适时进行补充说明:百分数在日常生活中的运用非常广泛,它源于分数,又有别于一般的分数或者分母是100的分数。大家的讨论验证了这种对百分数的理解。学生也从实际生活中找出了大量百分数的使用实例,进一步确认了这些新认识。不难看出,很多学生收获充实,产生了探究学习成功的喜悦。深入的备课和恰当的引导让人感受到教学成功的喜悦。

在试教中,我曾经对教材的例题引入作了改变。我将例题的三人比较投中情况,改成四人比较,将教材表格所列投中数、投篮数、投中比率数和分母是100的分数几项,逐一呈现。这样拉长探究过程,使得新例教学形成步步深入的课堂氛围。但是,这样一来,开头显得精彩了,引入课题耗时多了许多,接触到对百分数的探讨性认识时间不够充分,其后的练习更是来不及安排了。经过伙伴的帮助,我也感到这是做了一个“不合算的交易”。步步深入的引入效果花费了过多的课堂精力,而使得学生接触重点推迟,课的中期和后期攻克难点分配时间不足,练习讨论不够充分。由此,课堂教学设计不应只顾开头的精彩。引入环节毕竟不是课堂教学的重头戏。要从全课的整个进程统筹各个环节的教学。我体会到这里教材编排简洁的意图,后来的试教则改变了原先的铺排做法,采用了教材的既有安排,直接由分数的比较进入百分数,也取消了所增加的分析对象。

调整设计的前后对比,从反面告诉我们,深入钻研教材是上好课的前提;而钻研教材不但要善于开发和挖掘教材的潜在要素,还要善于认可和遵从教材的合理要素。在学生的学习过程中,教者依据教材思路和题材,力求让学生经历生动的、富有现实意义的学习过程,力求使数学知识生活化、生活知识数学化,做到教材思路、课堂教学思路和学生的认知思路尽可能地统一起来。要放手让学生活动,增强他们收集、统计、分析、处理信息的意识和能力,使学生感受到数学就在自己的身边,体会数学的价值,从而让学生充分享受数学给自己带来的乐趣。

(作者单位:江苏南京信息工程大学附属实验小学)

篇5:2年数据挖掘服务工作心得体会

1.数据挖掘为什么这么火?(关键词:高薪、行业前景)

1.社会进步,竞争加剧,如何运用数据资产提高生产效率、优化管理流程和拓展营销市场是制胜的关键;决策支撑、营销建议

2.涉及多行业、多专业技能;对人才的要求很高,需要具备跨专业整合能力,不断学习、不断积累、不断进步。

3.2.缺少能对数据进行有效应用人才

对数据挖掘从业人员的要求?

1.懂业务

1.精通所在行业的行业状况,包括所在行业生态系统、所在企业经营状况包括企业产品优劣、市场营销策略、企业管理流程、与行业内其他企业的利益链、用户需求等;

2.良好的沟通表达能力:准确的接受讯息、清晰的传达信息,涉及到与客户、上级和同事之间的高效沟通;

3.优秀的文档编写能力:全面、高效、简洁的通过书面的方式将自己的思想表达出来。

2.懂管理

1.了解营销、管理学的基础知识,提供数据分析思路,为决策者或管理人员、一线营销人员提供贴近业务的建议;

2.当需要带领一个临时团队解决一个问题的时候,需要能够尽可能的安排好每个成员的工作、分解项目内容、掌握项目的进度;

3.懂分析

1.懂得基本的分析思想和方法,如对比分析、综合分析、相关分析等,利于从已有数据中得到需要的事实依据;

4.懂工具

1.精通数据处理,运用SQL或者其他语言; 2.精通一种数据分析工具,如excel(适合小数据集)、SPSS(较大数据集);

3.4.5.精通一种数据挖掘工具,如MODELER、R、PYTHON等; 精通一门语言:R、Python。

懂技术(涉及的技术非常多)

1.2.3.4.5.机器学习:掌握挖掘算法的基本原理和实现方式; 统计学:加深对挖掘算法的掌握和分析原理的掌握; 线性代数:加深对挖掘算法的掌握; 概率论:加深对挖掘算法的掌握; 信息论:加深对挖掘算法的掌握。

6.懂设计

1.2.3.数据可视化需要懂些美学设计; 汇报文档的编写需要设计。

产品原型设计需要懂得产品的设计流程和方式。

比咨询师更懂分析挖掘技术 比产品经理更懂分析挖掘技术

3.我们要怎么做达到这些要求?

1.多看

1.多看书

《麦肯锡原理》、《谁说菜鸟不会数据分析》、《机器学习实战》等

2.网上资料学习

1.2.微博大V学习微信公众号

3.多看前辈做事

1.2.3.前辈的文档 前辈的沟通风格 前辈的思路

2.多思 1.2.3.3.理解透彻定义 明白原理和流程 提出优化建议

多动手

1.2.动手写写报告

动手实践分析/挖掘流程

4.其他要说的话

 个人内在修养很重要:无论在哪里工作,想要在岗位上不断提升自己的能力,针对性的看一些提升修养的书、培养一些提升内在的爱好有助于提升自己的个人魅力,与客户、领导或同事沟通更顺畅,绝对有利于自身职场发展。1.看书:思维训练、哲学素养、艺术相关的书籍; 2.爱好:音乐、绘画等。

 个人外在形象很重要:相对与IT程序员,数据挖掘工程师往往需要去到现场与客户沟通或者说服领导投资、又或是说服顽固的开发测试优先开发,这些都需要注意个人形象、同事注意口头表达能力的培养。这不是虚的,因为我曾在一个挖掘项目中担任小leader的角色,从我的角度出发,我根本不愿意找一个不注重自身形象的人去与客户沟通。

备注:本人工作经验两年,在一家为国内运营商提供IT解决方案的公司工作,任职大数据部门的数据挖掘偏业务咨询岗位。

篇6:数据挖掘心得体会

1、自由搭配字段,像小时候玩积木一样简单

精心准备了十余种字段,用户可按照自己的需求自由搭配,几分钟就能建好一份精致的表单,剩下的就是等着数据滚滚而来了。

2、想让谁填,就让谁填

这份表单是公开给任何人、凭密码填写还是只有管理员自己能填,您可以随意控制。无论是分享到社交平台、还是嵌入自己的网页,在金数据,只需轻轻一点。

3、想用手机填表单?

在移动互联网时代,您一定希望用户在手机上就能填写问卷调查、下订单。金数据为表单定制了精致的手机浏览样式,缩减了填写时的流量损耗。考虑周到,只为能让您无忧无虑。

4、不喜欢单调的外观,没关系

金数据提供了几十种主题样式,肯定能找到最适合的那一款。让自己的表单以夺目的方式出现在填写者面前。

5、你辛苦收集的数据,就真的全是你的 在金数据,用户收集来的所有数据都可以自由地进行编辑、删除、筛选,想全部导出到Excel也只是点下按钮的事儿,最大化地方便您对数据进行后续处理。

6、想看报表?何必再圈、拖、选、调

想更直观地浏览下数据?不必再自己费神在Excel里折腾啦。金数据已经为这些数据自动生成了报表,您需要做的只是端杯茶过来,坐下来慢慢看。

7、不知怎么建表单?模板中心里,现成的

想做个订单收集系统、顾客满意度调查之类,但又不知道该怎么设计?到模板中心去逛逛吧,那里有精心准备的大量模板。

8、控制字段显示/隐藏,在这里你就是魔法师

你希望填写者做出特定选择后才出现某些字段?没问题!金数据提供了非常简单的“规则”编辑工具,所有规则一目了然。挥动你的魔棒吧,让字段活起来。

9、方便、好用,还免费噢

篇7:大数据心得体会

一、平台搭建

描述小组在完成平台安装时候遇到的问题以及如何解决这些问题的,要求截图加文字描述。

问题一:在决定选择网站绑定时,当时未找到网站绑定的地方。解决办法:之后小组讨论后,最终找到网站绑定的地方,点击后解决了这个问题。

问题二:当时未找到TCP/IP属性这一栏

解决办法:当时未找到TCP/IP属性这一栏,通过老师的帮助和指导,顺利的点击找到了该属性途径,启用了这一属性,完成了这一步的安装步骤。

问题三:在数据库这一栏中,当时未找到“foodmartsaleDW”这个文件

解决办法:在数据库这一栏中,当时未找到“foodmartsaleDW”这个文件,后来询问老师后,得知该文件在第三周的文件里,所以很快的找到了该文件,顺利的进行了下一步

问题四:在此处的SQL server的导入和导出向导,这个过程非常的长。

解决办法:在此处的SQL server的导入和导出向导,这个过程非常的长,当时一直延迟到了下课的时间,小组成员经讨论,怀疑是否是电脑不兼容或其他问题,后来经问老师,老师说此处的加载这样长的时间是正常的,直到下课后,我们将电脑一直开着到寝室直到软件安装完为止。

问题五:问题二:.不知道维度等概念,不知道怎么设置表间关系的数据源。关系方向不对

解决办法:百度维度概念,设置好维度表和事实表之间的关系,关系有时候是反的——点击反向,最后成功得到设置好表间关系后的数据源视图。(如图所示)

这个大图当时完全不知道怎么做,后来问的老师,老师边讲边帮我们操作完成的。

问题六:由于发生以下连接问题,无法将项目部署到“localhost”服务器:无法建立连接。请确保该服务器正在运行。若要验证或更新目标服务器的名称,请在解决方案资源管理器中右键单击相应的项目、选择“项目属性”、单击“部署”选项卡,然后输入服务器的名称。”因为我在配置数据源的时候就无法识别“localhost”,所以我就打开数据库属性页面:图1-图2 图一:

图二:

解决办法:解决办法: 图2步骤1:从图1到图2后,将目标下的“服务器” 成自己的SQL SERVER服务器名称行SQL ServerManagement Studio可以)步骤2:点确定后,选择“处理”,就可以成功部署了。

问题七:无法登陆界面如图:

解决方法:尝试了其他用户登陆,就好了

二、心得体会

(1)在几周的学习中,通过老师课堂上耐心细致的讲解,耐心的指导我们如何一步一步的安装软件,以及老师那些简单清晰明了的课件,是我了解了SQL的基础知识,学会了如何创建数据库,以及一些基本的数据应用。陌生到熟悉的过程,从中经历了也体会到了很多感受,面临不同的知识组织,我们也遇到不同困难。

数据隐藏着有价值的模式和信息,在以往的时间才能提取这些信息。如今的各种资源,如硬件、云结构和开源软件使得大数据的处理方法更为方便和廉价。大数据的规模是传统IT架构所面临的直接挑战。要求可扩展的储存和分布方式来完成查询。传统的关系数据库无法处

理大数据的规模。大数据进修学习内容模板:

LINUX安装,文件系统,系统性能分析 HAdoop学习原理

大数据飞速发展时代,做一个合格的大数据开发工程师,只有不断完善自己,不断提高自己技术水平,这是一门神奇的课程。

2、在学习SQL的过程中,让我们明白了原来自己的电脑可以成为一个数据库,也可以做很多意想不到的事。以及在学习的过程中让我的动手能力增强了,也让我更加懂得了原来电脑的世界是如此的博大精深,如此的神秘。通过这次的学习锻炼了我们的动手能力,上网查阅的能力。改善了我只会用电脑上网的尴尬处境,是电脑的用处更大。让我们的小组更加的团结,每个人对自己的分工更加的明确,也锻炼了我们的团结协作,互帮互助的能力。

3、如果再有机会进行平台搭建,会比这一次的安装更加顺手。而在导入数据库和报表等方面也可以避免再犯相同的错误,在安装lls时可以做的更好。相信报表分析也会做的更加简单明了有条理。

总结,大数据时代是信息化社会发展必然趋势,在大学的最后一学期里学习了这门课程是我们受益匪浅。让我们知道了大数据大量的存在于现代社会生活中,随着新兴技术的发展与互联网底层技术的革新,数据正在呈指数级增长,所有数据的产生形式,都是数字化。如何收集、管理和分析海量数据对于企业从事的一切商业活动都显得尤为重要。

大数据时代是信息化社会发展必然趋势,我们只有紧紧跟随时代的发展才能在以后的工作生活中中获得更多的知识和经验。

三、结语

篇8:数据挖掘心得体会

关键词:《数据结构》课程,教学方法,体会

《数据结构》课程主要的教学任务是使学生了解和掌握数据结构中线性、树型和图形三种结构的相关知识, 以及算法设计中常用到的几种排序算法和查找算法。它是处于程序设计初级阶段的一门学科, 同时, 也是计算机专业学生公认难学的课程之一。大部分的研究生入学考试都选择《数据结构》作为专业考试课程之一。而《数据结构》作为计算机专业的一门核心课程, 计算机科学各个领域的软件都要用到它, 可以说, 数据结构是开发高质量软件的必要条件。只有具备了《数据结构》的知识才能编制出符合要求的程序。但该课程教学枯燥, 学时少, 并且需要一定的程序设计能力及相应的实践经验。因而采用好的教学方法会对提高该课程教学质量起到积极作用, 为此, 我在《数据结构》教学改革方面进行了初步探索和实践, 现将自己的体会总结如下。

一、根据课程内容选择教学方法, 激发学生兴趣

《数据结构》课程教材中包含了数据结构相关的基础知识和算法知识。对于基础理论知识部分可以采取在教室集体讲授的教学方式。在讲授时可以通过举例或借用实物的方式对内容进行描述, 利用引导教学的方式让学生发挥自己的想象去解答问题。例如, 教师在说明了栈和队列的结构及特点之后, 引导学生自己考虑现实生活中的在超市排队结账、火车进站等一系列类似结构。同时, 在刚接触本课程时, 不要急于介绍理论, 而是强调应用, 通过介绍数据结构在一些典型软件中的应用来激发学生的学习兴趣, 如:语言编译要使用栈;操作系统中要用队列;数据库系统则使用线性表、链表等进行数据管理。从而使得学生一下子就产生了兴趣, 也为教学开了一个良好的头。

二、奠定基础, 突出重点难点

在具体的教学过程中, 首先, 力求让学生了解每一种数据结构的特点及表现形式;其次, 关键是让学生理解怎样把该数据结构存储到计算机中, 有哪些存储方式和优缺点, 并且存储结构能反映出该数据结构的逻辑特性。例如:对线性表的内容, 先解释线性表的定义, 明确线性表的三个特性———数据在逻辑位置上有先后顺序;数据个数可变;数据类型相同。在此基础上, 再讨论线性表的存储结构, 一是将线性表中的数据按逻辑顺序存储在计算机中一段地址连续的存储空间中;二是存储在计算机中离散的存储区中。在顺序存储方式中, 借助高级语言的数组来存储线性表中的数据, 它可以反映线性表中的两个要素———类型相同并且按逻辑先后次序存储。但由于利用数组实现必须先确定数组元素个数而线性表却可动态伸缩 (即表中元素个数可变) , 为此还必须反映出线性表数据的个数, 因此, 应定义线性表顺序存储方式为一结构体类型:用数组成员存储线性表的数据;用长度指示器成员指示线性表中当前数据个数, 分析并确定存储结构后, 下一步即是本课程的难点———算法设计与分析。

三、让学生参与到讲课的过程中, 变被动学习为主动学习

传统的教学方式让学生只是被动地接受知识, 其实在适当的时候可以让学生参与到讲课中来, 充分发挥学生的主动性和积极性, 将培养学生的创新精神和自学能力放在首位, 在教学过程中对一些稍微简单的课程内容, 让学生有机会也站在讲台上讲解。这样做的目的, 一是提高学生的学习能力;二是通过该过程让学生互相讨论, 互相启发。最后由教师指出学生未注意到的问题或理解不透彻的问题, 使学生加深对课程内容的正确理解, 从而逐步提高自学能力和解决问题的能力。

四、强化上机实践, 提高学生动手能力

《数据结构》是实践性很强的一门课, 培养学生的实践能力是教学的首要目的。《数据结构》理论知识的传授是为应用服务的。因此, 在授课的同时, 如何引导学生利用上机加强实践也是教学中的一个重要问题。另外, 也可鼓励学生组成课外活动小组, 参与一些简单程序的开发工作, 一方面锻炼了学生的动手能力, 树立了交流与团结协作的精神。另一方面将理论与实践相结合, 从而大大激发了学生的学习热情, 为其今后的学习和工作打下了良好的基础。

五、努力提高教师素质, 改进教学方法

要想教好学生, 教师必须努力提高自身的综合素质。首先, 教师必须有强烈的责任心、严谨的治学态度和无私的奉献精神;其次, 教师要不断提高自己的专业水平, 教学与科研实践相结合;再次, 要因材施教和采用启发式教学法;最后, 要经常与学生就课程的教学情况进行沟通, 及时了解学生对课程的掌握情况, 调整教学内容和教学方法。

以上所谈是我对《数据结构》教学的一些体会。总之, 在教学时探讨教学方法, 摸索规律是形势所趋。相信, 只要我们积极大胆地改革教法, 努力实践, 勇于探索, 就一定能找到更好的教学方法, 从而使教学效果得到进一步增强。

参考文献

[1]严蔚敏, 吴伟民.数据结构 (C语言版) [M].北京:清华大学出版社, 1997.

篇9:浅谈数据结构教学实践与体会

关键词:数据结构 教学实践 心得体会

数据结构课程是计算机及相关学科的一门重要的专业基础课,也是一门锻炼程序设计能力的实践课程。它相对于其他应用性课程来说抽象、枯燥,学生学习起来有一定的难度,教师讲起来也比较难讲。那么如何降低理论性程度,增强直观性,提高学生的学习兴趣呢?在三年的教学过程中,我有一些心得体会,本文主要针对如下几方面内容加以阐述。

一、化抽象为具体,提高学生的学习兴趣

学生在开始学习时,往往不理解数据的三种抽象结构形式——线性结构、树型结构和图形结构的来龙去脉。可以通过介绍数据结构在实际中的应用来激发学生的学习兴趣。如图书馆的书目检索系统,如何组织图书的登录号、书名、分类号等数据,才能快速实现查找、插入、删除操作;旅游线路设计问题,如想去北京、上海、杭州等地旅游,怎样安排线路以求花费最少;在楼房工程建设中,如何施工以求工期最短;再如九七年轰动一时的国际象棋“人机”大战,由国际象棋大师与IBM公司的计算机进行国际象棋比赛,为什么最终计算机能够取得胜利等等。以上应用贴近生活,学生都比较熟悉,兴趣就能够被激发起来,形成想学好这门课的愿望。同时在这些具体的问题中也就反映出了数据的三种抽象结构形式。

二、在教学中巩固C语言的知识

C语言程序设计是数据结构的前导课程之一,学生对它的熟悉掌握程度,直接关系到数据结构课程的教学效果。C语言本身的灵活性,对于刚刚学完C语言程序设计的学生而言,运用不一定很自如。另外,C语言难点就是指针、函数、数组作为函数参数以及结构体类型等,而数据结构课程教学过程中主要运用这些知识点来分析和解决问题。为了达到好的教学效果,可以利用一、两次课的时间来复习C语言的相关知识,即数组、指针、函数和结构体等。这样既可以复习以前的知识,加深印象,强化理解,又可以为数据结构课程的教学做铺垫。

三、教学内容的归纳提炼

在教学中,很多学生反映这门课不好学,这是因为“数据结构”不但有很强的理论性,而且具有一定的抽象性。同时“数据结构”课程又有较强的实践性,要求学生能够使用一种语言,对算法进行程序设计,并且能够进行上机调试,对于基础薄弱的学生这就好似“雪上加霜”。作为教师要熟悉教材、精通教材,把握本课程的重点和难点,在教学过程中将前后内容联系起来分析思考,尽量从中寻找共性的、规律性的东西进行归纳与提炼,并将其系统化、具体化。例如从数据结构的定义出发包含三方面的内容:逻辑结构、存储结构和算法。在讲到每种数据结构(线性表、栈、队列、树、图)都会涉及到它的逻辑结构、存储结构和算法。在讲授的过程中可以用数据结构包含的三方面内容作为一条主线贯穿整本书,每讲到一种新的数据结构时都可以拿出这条主线来阐明其上的三方面内容,这样,学生学起来就会觉得有系统性,容易把握。综观全书不论是线性表、树还是图,最基本的、典型的存储结构就是两类:顺序存储结构、链式存储结构,只要把它们掌握得好,整个课程学习的难度就不大。

四、在教学过程中加强实践环节

为使学生真正学好“数据结构”, 除了在课堂上要采用行之有效的教学方法外,还要让学生勤动手,多实践。只有通过实践才能发现“教”与“学”中存在的问题。实践的首要环节首先是要多做习题。要学好“数据结构”,只“看”不“练”肯定是不行的,习题的作用是极其重要的,数据结构课本没有课后题,每章讲完后我都会在网上找习题让学生去做,对出现的问题要及时进行总结、归纳、讲评。这对巩固学生的知识是很重要的。

其次要上机实验。上机实验不仅能进一步巩固对有关内容的理解,同时还能提高学生灵活运用数据结构和算法的能力,使学生在编程、上机操作、程序调试与正确性验证等基本技能方面受到严格的训练。每学期我都会安排学生上机进行实践,上机结束后要求学生完成实习报告,写出自己调试过程中遇到的问题是如何解决的以及对设计与实现的回顾讨论和分析,算法的时空分析,测试结果,以及经验体会,并附上原程序代码,从而写出完整的实习报告。批改学生实习报告后,对学生的上机实习情况做及时总结,指出成功之处和不足之处。实验表明,这个过程起到了很好的教学效果。

总之,数据结构课程在整个计算机学科的知识体系中具有非常重要的地位和作用,而数据结构的理论性、实践性、逻辑性都很强。只有在教学过程中结合学生的实际情况,优化教学内容和方式,采用直观形象、形式多样的教学方法和手段,充分重视实践教学的重要性,理论联系实际充分调动学生学习的积极性,使学生较好地掌握各种数据结构和算法并提高分析解决实际问题的能力,切实提高教学的质量,才能发挥数据结构在计算机学科知识体系中应有的作用。

参考文献:

严蔚敏,吴伟民.数据结构教程(C语言版)[M].北京:清华大学出版社,1997

篇10:阅读大数据心得体会

首先是大数据代表着数据的样本=全体,这是一个与传统统计学的显著区别。大数据有能力获得全体数据并对其进行分析。

第二就是相关性与因果性同样重要。相关性说明了什么事情与什么什么事情有关系,如商场周围车流量的增多与商场销售额的相关性,因果性说明什么是什么的原因,如睡10个小时是有精神的原因。在大数据中,相关性要比因果性容易获得,而且相关性已经能为客户带来较大的收益。

第三就是大数据允许存在不精确性、混杂性,由于数据量巨大,存在少量的异变不会对结果产生任何影响,如收益是1个亿与1亿零1元的差别可能决策者不关心。

篇11:数据结构心得体会

数据结构是一门纯属于设计的科目,它需用把理论变为上机调试。在学习科目的第一节课起,鲁老师就为我们阐述了它的重要性。它对我们来说具有一定的难度。它是其它编程语言的一门基本学科。很多同学都说,数据结构不好学,这我深有体会。刚开始学的时候确实有很多地方我很不理解,每次上课时老师都会给我们出不同的设计题目,对于我们一个初学者来说,无疑是一个具大的挑战。

我记得有节课上遍历二叉树的内容,先序遍历、中序遍历、后序遍历。鲁老师说:这节课的内容很重要,不管你以前听懂没有,现在认真听。说实在的,以前上的内容确实没大听懂,不过听了老师的话,我听得很认真。先序遍历很简单,是三个遍历中,最简单的。而中序遍历听得有点模糊,后序遍历也半懂半懂,我心想如果老师再讲一遍,我肯定能听懂。后来老师画了一个二叉树,抽了同学到黑板上去排序,这个二叉树看似复杂,不过用先序遍历来排,并不难。于是我在下面排好了先序,先序遍历很简单,我有点得意,老师到位置上点了我上去排中序,上去之后排得一塌糊涂。后来老师又讲了一遍,我这才听懂了,鲁老师又安慰我们说,这个二叉树有点难,中序和后序都不好排,要学懂的确要花点功夫才行。我听了老师的话,认真做了笔记,回去再看了当天学的内容。第二堂课,老师还是先讲的先前的内容,画了一个简单的二叉树,让我们排序,又叫同学上去分别排出来,老师又点了我的名,叫我起来辨别排中序那两个同学的答案哪个排正确了,我毫不犹豫的答对了。因为这次的内容,先序遍历二叉树、中序遍历二叉树、后序遍历二叉树,我的确真的懂了,第一次上这个课这么有成就感。渐渐的对这门课有了兴趣。我以为永远都听不懂这个课,现在,我明白了,只要认真听,肯下功夫,这个课也没有什么难的。而数据结构学习的难易程度很大程度上决定于个人的兴趣,把一件事情当做任务去做会很痛苦,当做兴趣去做会很快乐。也希望老师能看到我的改变,在此也感谢老师的辛勤教导。老师没有放弃我,几次点我的名上去,老师一定看得到我的进步。

后来,我每节课都认真听课,老师虽然没有点名,但我还是很认真的听。双亲表示法孩子表示法和孩子兄弟表示法,这些内容我都听得很明白,差不多每节课都认真听课。有时我也会在上课空余时间看看以前的内容,所以,第一遍看课本的时候要将概念熟记于心,然后构建知识框架。数据结构包括线性结构、树形结构、图状结构或网状结构。线性结构包括线性表、栈、队列、串、数组、广义表等,栈和队列是操作受限的线性表,串的数据对象约束为字符集,数组和广义表是对线性表的扩展:表中的数据元素本身也是一个数据结构。除了线性表以外,栈是重点,因为栈和递归紧密相连,递归是程序设计中很重要的一种工具。

其中我了解到:栈(Stack)是只能在某一端插入和删除的特殊线性表。它按照后进先出的原则存储数据,先进入的数据被压入栈底,最后的数据在栈顶,需要读数据的时候从栈顶开始弹出数据;队列一种特殊的线性表,它只允许在表的前端(front)进行删除操作,而在表的后端(rear)进行插入操作。进行插入的操作端称为队尾,进行删除的操作端称为队头。队列中没有元素时,称为空队列;链表是一种物理存储单元上非连续、非顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的。链表由一系列结点组成,结点可以在运行时动态生成。每个结点包括两个部分:一个是存储数据元素的数据域,另一个是存储下一个结点地址的指针域。

篇12:大数据时代心得体会

信息时代的到来,我们感受到的是技术变化日新月异,随之而来的是生活方式的转变,我们这样评论着的信息时代已经变为曾经。如今,大数据时代成为炙手可热的话题。

信息和数据的定义。维基百科解释:信息,又称资讯,是一个高度概括抽象概念,是一个发展中的动态范畴,是进行互相交换的内容和名称,信息的界定没有统一的定义,但是信息具备客观、动态、传递、共享、经济等特性却是大家的共识。数据:或称资料,指描述事物的符号记录,是可定义为意义的实体,它涉及到事物的存在形式。它是关于事件之一组离散且客观的事实描述,是构成信息和知识的原始材料。数据可分为模拟数据和数字数据两大类。数据指计算机加工的“原料”,如图形、声音、文字、数、字符和符号等。从定义看来,数据是原始的处女地,需要耕耘。信息则是已经处理过的可以传播的资讯。信息时代依赖于数据的爆发,只是当数据爆发到无法驾驭的状态,大数据时代应运而生。

在大数据时代,大数据时代区别与转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。数据的更多、更杂,导致应用主意只能尽量观察,而不是倾其所有进行推理。小数据停留在说明过去,大数据用驱动过去来预测未来。数据的用途意在何为,与数据本身无关,而与数据的解读者有关,而相关关系更有利于预测未来。大数据更多的体现在海量非结构化数据本身与处理方法的整合。大数据更像是理论与现实齐头并进,理论来创立处理非结构化数据的方法,处理结果与未来进行验证。大数据是在互联网背景下数据从量变到质变的过程。小数据时代也即是信息时代,是大数据时代的前提,大数据时代是升华和进化,本质是相辅相成,而并非相离互斥。

篇13:新一代数据中心建设的体会

关键词:虚拟化数据中心,服务器虚拟化,桌面虚拟化,网络虚拟化,私有云

0 引言

数据中心的建设, 经历了从计算中心到信息中心到服务中心三代的发展, 数据中心已经发生了翻天覆地的变化。随着Web2.0、云计算、大数据等新技术新概念的出现, 对数据中心在可用性、安全性、扩展性等方面提出了新的要求。在这种背景下, 以虚拟化云计算为基础的整合、高可用、绿色的新一代数据中心逐步成为人们关心的重点。从云计算的角度出发, 关键的一步就是虚拟化, 构建私有云基础设施最好的方法是, 在继续利用企业现有IT资源的同时, 随着时间的发展, 逐步向完全虚拟化的数据中心迁移[1]。

虚拟化在数据中心发展中占据越来越重要的地位, 它的概念已经从服务器和网络的虚拟化延伸到桌面、统一通信等领域, 包括IO虚拟化、桌面虚拟化、统一通信虚拟化等。由于虚拟化云计算中心具有降低总拥有成本 (TCO) 、高可用性、高伸缩性、按需部署服务、绿色节能等优势, 逐步成为各单位数据中心建设的方向。

1 医院信息化建设的状况和国标

我院为提升管理水平, 准备从单一的HIS系统升级到以EMR、HIS、LIS、PACS四大系统为核心, 包括体检管理系统、合理用药系统及0A办公平台等, 覆盖整个医院运行流程的数字化医院信息系统。而医院原来硬件系统仅是一台塔式服务器加PC机的原始模式, 已无法适应新的需求。因此, 制定全新的硬件系统集成方案也刻不容缓。

2 医院新数据中心及集成方案建设的要求

为了实现上述目标, 结合医院的实际情况, 分析近年来医院在信息化实施中遇到的问题, 我们认为医院新的数据中心及系统集成方案包含全新数据中心、新增及更换200 个左右的工站、网络设备升级。同时, 要解决以下问题:

(1) 高可用 (HA) :这是数据中心的核心职责, 通过尽量缩短因日常维护操作 (计划) 和突发的系统崩溃 (非计划) 所导致的停机时间, 以提高系统和应用的可用性。

(2) 控制采购成本:医院要求新方案在保证系统高可用的情况下, 尽可能降低成本。

(3) 降低使用成本:由于新数据中心要增加大量服务器等设备, 另外还要增加约200 个左右的工作站, 其能源日常消耗相比以往会大幅上升, 所以节能降耗也是院领导关注的重点。

(4) 方便部署:由于新的软件系统涵盖了医疗流程的每一个环节, 在200 个新工作站中, 信息中心要为不同的用户提供不同的操作系统、软件、外设等, 管理人员希望能优化部署方案。

(5) 降低日常维护工作量:信息中心在以往的工作中, 80%的时间是在处理客户端PC故障问题, 比如内存松动、操作系统崩溃、主板风扇停转等。这些简单的重复劳动占用的了大量的精力, 工作人员没有时间接受新的知识, 没有成就感, 这种情况也亟待改善。

(6) 尽可能延长设备使用周期:一般来说, 5 年是系统更新的一个周期。届时, 随着软件系统、操作系统的升级, 医院可能需要采购功能更强大的服务器来替换现有的服务器;需要新的PC来替换现有的PC。否则要么功能受限速度变慢, 要么维修费用大幅上升。因此这也是医院关注的一个重点。

3 传统医院数据中心的模式及优缺点

为了满足医院信息化建设的要求, 信息中心对医院系统集成模式进行了全面的调研。传统的医院数据中心主要有两种模式:

(1) 小型机数据库服务器+X86 架构中间件服务器+PC工作站模式。

(2) X86 架构服务器构建双机或集群+PC工作站模式。

这两种模式都是成熟的数据中心解决方案, 但随着技术的进步, 也都显露出一些缺点:

(1) 以小型机为核心的数据中心具有稳定、性能好、安全性强的特点。但现在小型机来源单一, 并采用较为复杂的UNIX等系统, 导致其采购费用高、维护费用高、技术要求高。

(2) 以X86 构架服务器构建双机的数据中心最为常见, 但其大量资源处于备用状态, 使用效率低;每个核心业务都需要新增两台服务器, 扩展新差;服务器数量呈几何性增长, 能耗大。

(3) 客户机全部采用PC机, 维护部署工作量大, 能耗大。

4 从传统数据中心 (IDC) 架构迈向虚拟化数据中心 (VDC) 架构

传统模式的数据中心 (IDC) 架构无法完全满足医院新数据中心建设的要求, 而虚拟化数据中心 (VDC) 是将云计算概念运用于数据中心的一种新型的数据中心形态。VDC可以通过虚拟化技术将物理资源抽象整合, 动态进行资源分配和调度, 实现数据中心的自动化部署, 并将大大降低数据中心的运营成本。当前, 虚拟化在数据中心发展中占据越来越重要的地位, 虚拟化概念已经延伸到桌面、统一通信等领域, 不仅包括传统的服务器和网络的虚拟化。还囊括IO虚拟化、桌面虚拟化、统一通信虚拟化等等。

本文采用VMware公司的服务器虚拟化+桌面虚拟化为核心, 配合网络虚拟化及存储虚拟化方案, 来搭建全新的下一代数据中心。

(1) 在服务器虚拟化方面:利用戴尔PE M910 刀片服务器和VMware虚拟软件组成的虚拟化平台, 虚拟出20 多台虚拟主机, 使物理服务器实现了l0:1 的高效精简。虚拟主机分别承担了门诊管理、住院管理、药品管理、物资管理、人事管理、财务管理、0A管理系统、医嘱处理、病房护士站、医生工作站等多个重要医疗系统的运行任务, 满足了各个部门的业务信息处理和信息共享上的需求。首先, 服务器虚拟化提高了系统的稳定性和灵活性。服务器虚拟化大大提升了数据中心物理服务器的利用率, 让数据中心将所有服务器作为一个资源池统一进行管理, 并按需自动进行资源调配, 提高了服务的稳定性和灵活性。其次, 在故障修复方面, 服务器虚拟化实现了虚拟机在故障发生时的自动化迁移, 即某台物理服务器出现故障后, 无需技术人员的人为干预, 物理服务器上的虚拟系统就可以完成快速迁移, 实现应用级的故障修复, 从而保证信息服务的连续性。

(2) 桌面虚拟化提高医护人员工作效率:体现在以下几个方面:1在桌面虚拟化方面, 所有工作站均采用瘦客户机 (thin client) , 由于其采用嵌入式低功耗CPU, 整机功率只有30W左右, 仅为传统PC的1/8 到1/10, 按200 个工作站计算, 一年可为医院节约数十万元电费, 降低了功耗, 落实了节能环保的理念;2所有桌面虚拟机均在数据中心被托管, 并由管理员统一调配。桌面虚拟化在提高IT资源利用率的同时, 给一线医务人员带来了方便、快捷、安全、灵活的应用体验, 同时最大限度的节省了空间, 避免了传统PC的噪音污染;3虚拟终端即医生工作站, 囡其本身没有各种可拆卸部件, IT技术人员在进行日常维护时, 只需对机房的终端主机进行维护即可, 即便是重装系统、程序升级、软件安装等工作也只需对终端服务器主机进行部署即可, 维护效率比传统方式提高了5-8 倍, 减少了大量的客户端维护时间及售后维护成本。同时终端虚拟化的实施降低了产品的损坏率, 避免了由于未来的应用扩展、产品更新换代快等问题导致的大面积产品更换。

5 新数据中心建设的优势

从IT方面来看, 服务器虚拟化使得医院IT物理设备总规模缩减80%, 而IT资源利用率却提升5 倍有余;终端虚拟化使得医院医生工作站的投入成本缩减80%, 而IT人员的维护工作效率却提升500%;技术人员的IT维护工作量减轻80%, 机房空间节省80%, 仅一年电力消耗成本就可节约数十万元。

参考文献

篇14:数据仓库与数据挖掘技术

关键词:数据仓库;数据挖掘

中图分类号:TP392文献标识码:A文章编号:1009-3044(2007)15-30631-02

On Data Warehouse and Data Mine

SHENG Wei-xiang1,LONG Jia-li2

(1.Department of Science & Law,Jiangxi Vocational College of Politics and Law,Nanchang 330013,China;2.College of Automation, Nanchang Hangkong University,Nanchang 330036,China)

Abstract:The Data Mine is a burgeoning technology,the research about it is developing flourishly.In this paper,it expatiates and analyses the concepts of Data Warehouse andData Mine.Together,discussing the connections of how to expand the two technologies,and combining the two technologies with prospect.

Key words:Data Warehouse;Data Mine

随着信息时代的不断进步,社会正处于数据技术飞速发展的良好状态。但是,在数据信息极度膨胀的同时,并非所有的数据都可被利用,大量的数据浪费,造成各种损失,所以有必要将这些数据转化为有用的信息。而传统的数据处理方法越来越不能满足使用要求,迫切需要一种从大量数据中搜索集中并去伪存真的技术。20世纪80年代后期至今,高级数据分析——数据挖掘(Data Mining,简称DM)发展起来,是开发信息资源的一套科学方法、算法以及软件工具和环境,是集统计学、人工智能、模式识别、并行运算、机器学习、数据库等技术为一体的一个交叉性的研究领域[1]。

1 数据挖掘

1.1数据挖掘定义及实现过程

数据挖掘就是用来发现隐含的、事先未知的、潜在的有用知识,提取的知识可以表示成概念、规律、模式等形式。其挖掘对象不仅可以是数据库,也可以是文件系统或组织在一起的数据集合,更主要的是数据仓库[2]。简单的说,数据挖掘是提取或“挖掘”知识。目前,数据挖掘是可以从统计学、数据库和机器学习等三个方面进行定义。从统计学的角度,数据挖掘是指分析所观察的数据集以发现可信的数据间的未知关系并提供给数据拥有者可理解的、新颖的和有用的归纳数据[1]。从数据库的角度来看,数据挖掘是指从存储在数据库、数据仓库或其他信息仓库中的大量数据中发现有趣的知识的过程[1]。从机器学习的角度,数据挖掘定义为从数据中抽取隐含的、明显未知的和潜在的有用的信息[1]。可以理解为,数据挖掘是一个从已知数据集合中发现各种模型、概要和导出值的过程。图1表示的是典型的数据挖掘系统的结构。

过程表述如下:从数据库或数据仓库等资源库中收集数据,并进行信息的初步筛选;根据用户对数据信息的要求,由服务器提取并传输有用的数据;为了对已经采集到的数据进行更有效的分配,数据挖掘引擎对数据进行特征化、关联、分类等操作;然后将精确划分的数据信息进行模式评估,从而使搜索仅限制在感兴趣的模式上,通过图形用户界面,用户可以方便的与数据挖掘系统之间通信,实现对数据的使用。

1.2数据挖掘分类

数据挖掘是一个交叉性的学科领域,涉及数据库技术、统计学理论、机器学习技术、模式识别技术、克视化理论和技术等。由于所用的数据挖掘方法不同、所挖掘的数据类型与知识类型不同、数据挖掘应用的不同,从而产生了大量的、各种不同类型的数据挖掘系统。掌握数据挖掘系统的不同非类,可以帮助用户确定最适合的数据挖掘系统[1]。

图1 典型的数据挖掘系统的结构

(1)根据所挖掘数据库类型的不同来分类:有关系型数据挖掘系统、对象型数据挖掘系统、对象-关系型数据挖掘系统、事务型数据挖掘系统、数据仓库的数据挖掘系统,等等。

(2)根据所挖掘的知识类型来分类:分为特征化、区分、关联、分类、聚类、孤立点分析(异常数据)和演变分析、偏差分析、相似性分析等分类。

(3)根据所采用技术的分类:有自动数据挖掘系统、证实驱动挖掘系统、发现挖掘系统和交互式数据挖掘系统。

(4)根据数据挖掘方法来分类:如面向数据库的方法、面向数据仓库的方法、机器学习方法、统计学方法、模式识别方法、神经网络方法等。

(5)根据数据挖掘应用的分类:有金融数据的数据挖掘系统、电信行业的数据挖掘系统、DNA序列数据挖掘系统、股票市场数据挖掘系统、WWW数据挖掘系统等等,不同的应用通常需要集成对于该应用特别有效果的方法。因此,普通的、全功能的数据挖掘系统并不一定适合特定领域的数据挖掘任务。

1.3数据挖掘任务

数据挖掘任务有6项:关联分析、时序模式、聚类、分类、偏差检测、预测[3]。

关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值之间重复出现并且概率很高的时候,就存在某种管理,可以建立起这些数据项的关联准则。

通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。

数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之间的距离较小,而不同类别的个体之间的距离偏大。聚类增强了人们对客观现实的认识,即通过聚类建立宏观概念。

分类是数据挖掘中应用最多的任务。分类是找出一个类别的概念描述,它代表了这类信息的整体,即该类的内涵描述。一般用规则或决策树模式表示。该模式能把数据库中的元组影射到给定类别中的某一个。

数据库中的数据存在很多异常情况。从数据分析中发现这些异常情况也是很重要的,应该引起足够的重视。偏差检测的基本方法是寻找观察结果与参照之间的差别。观察常常是某一个领域的值或多个域值的总汇。参照是给定模型的预测、外界提供的标准或另一个观察。

预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。近年来,发展起来的神经网络方法,如BP模型,实现了非线性样本的学习,能进行非线性函数的判别。分类也能进行预测,但是分类一般用于离散数值;回归预测用于连续数值;神经网络方法预测两者都可用。

2 数据仓库概述

数据仓库对不同的使用者、不同的操作范围,它有不同的意义。被誉为数据仓库之父的W.H.Inmom将数据仓库(Data Warehouse)定义为[4]:是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。对于数据仓库的概念可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

数据仓库具有以下特征:

(1)数据是面向主题的

传统的数据仓库只是单纯的数据的集中,在处理不同事务时执行不同的操作。而现今的数据仓库是有较强主题组织性的,高层次地将数据归类,去除无用的数据。

(2)数据的集成性

因为数据的来源是多方面的,必须根据一定的规则将所有的数据进行重新构造,即数据的集成。

(3)数据的相对稳定性

数据仓库中的数据是历史数据,具有一定的借鉴性,不会有大的变动。

(4)数据的不易失性(长期性)

数据仓库只是物理式的、筛选式的存放数据,不会改变数据本身的性质,那么其数据结构必定包含有时间效果,这样才能更好的体现历史数据的趋势预测性。

3 数据仓库与数据挖掘的关系

既然数据仓库的唯一功能是向终端用户提供信息以支持决策者,数据挖掘体现了数据仓库的一个最重要的应用。与其他查询工具和应用系统不同,数据挖掘过程向终端用户提供提取隐藏的、非同等常的信息的能力。这种信息虽然很难提取,但能提供更大的商业和科学利益,也能使对“数据仓库和数据挖掘”的投资产出更高的利润[5]。

从数据仓库的观点,数据挖掘可以看作是联机分析处理的高级阶段。但是作为更高级的数据分析技术,数据挖掘比数据仓库的汇总分析要详细和深入的多。数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘越来越热门的原因之一。但是,数据挖掘并不一定要有数据仓库的支持,即数据仓库并不是数据挖掘的必要条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息,同时,数据挖掘仍然经常被看做是数据仓库的后期市场产品,因为那些努力建立起来的数据仓库有最丰富的数据资源可供挖掘。显然,数据仓库被更为广泛地接受将使人们对数据挖掘更感兴趣。

从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,很可能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一致的问题都已经得到解决了。

数据挖掘库可能是数据仓库的一个逻辑子集,而不一定非得是物理上单独的数据库。但如果数据仓库的集中资源已经很紧张,那最好还是建立一个单独的数据挖掘库。

为了数据挖掘库,也不是一定要建立一个数据库。因为建立一个巨大的数据仓库,要把各个不同资源的数据集中在一起,并解决所有的数据冲突问题,然后把所有的数据导入一个数据仓库内,是一项非常巨大的工程,比较麻烦,需要时间和金钱的花费。如果只是为了数据挖掘,可以把一个或几个数据库导到一个只读的数据库中,就把它当作数据集合,然后在这上面进行数据挖掘。其中如何抽取、集成、筛选并准备数据以解决其最为紧迫的业务问题,将是分析人员在进行数据挖掘时所面临的最大挑战。解决这些问题,不仅是数据挖掘过程中的一个艰巨任务,而且需要耗费大量的时间。尽管在数据挖掘中并非一定要有数据仓库的支持,但数据仓库的确为数据集成和准备提供了一个好办法。

4 总结

构造在数据仓库平台的数据挖掘具有很强的实用性,效率很高,节省资源。目前,数据仓库和数据挖掘技术在科学研究、市场流通、企业管理等应用方面已经达到了一定的水平。随着信息化的加强,数据仓库的多维化和数据挖掘的效率化将更有效的结合起来,促进整个信息产业的发展。

参考文献:

[1]焦李成.等.智能数据挖掘与知识发现[M].西安:西安电子科技大学出版社.2006.8:1-7.

[2]Dustin R Callaway.精通Servlets[M].北京:清华大学出版社.2002:20-45.

[3]陈文伟.等.数据挖掘技术[M].北京:北京工业大学出版社.2002.12:1-6.

[4]钟飙等.数据仓库与数据挖掘技术概述[J].计算机与网络.2003.2:11-15.

[5]夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社.2004.:26-29.

上一篇:领航思想的力量开辟新时代下一篇:哈克里中学(Hackley School)5则范文