大数据环境下机器学习在数据挖掘中的应用研究

2022-11-03

当前社会生产活动越发丰富, 企业规模逐渐扩大, 数据信息也由单一化朝着多样化的方向发展, 使得数据结构更加复杂, 在此种状况下就对数据挖掘提出了更高的要求, 必须根据大数据的特点优化传统的算法, 促使提取、检索及分析等各项性能更加完善, 进而促使各领域根据数据处理结果制定出科学合理的决策。本文就对此问题进行了具体分析。

一、基本内容

(一) 大数据

大数据类型较多, 传输时多以毫秒计数, 速度极快并且内容极其丰富, 但过于丰富的数据信息也提高了分类的难度, 为了提炼出具有价值的信息, 必须排除具有干扰作用的数据信息。

(二) 数据挖掘

数据挖掘指的是在完成数据的分析处理后总结规律, 其在电力、农业等多个领域作用十分关键, 能够提高社会各领域的生产效率, 推动社会的发展。为了提高挖掘效率, 并确保挖掘出的信息价值性更高, 机器学习的应用至关重要的, 只有机器学习才能够满足内容及类型都在不断扩展的数据处理要求。

(三) 机器学习

机器学习涉及学科较多, 包括概率、算法等, 目前其所应用的技术也越发复杂, 例如AI技术就在其中得到了应用, 可从海量数据中获得所需的知识, 实现高效整合, 并通过其他算法实现数据的分类。

为了适应大数据的要求, 机器学习必须从多源异构的数据信息中总结规律, 寻找某种联系, 高效挖掘数据价值[1]。在处理过程中, 重点包括以下几个方面。第一是速度, 包括训练和预测两种速度, 前者指最优模型的获得速度, 后者指信息处理速度, 需要在这两个方面不断进行研究。第二是泛化能力, 主要指将实例泛化推广, 快速响应新数据。第三是数据利用能力, 大量的数据未被标识, 如果直接丢弃, 则会严重浪费资源, 因此需要高效利用各种类型的数据。第四是代价敏感, 即对因错误所造成的损失是否能够准确检测, 这就要考虑模型本身的偏差, 也应重点关注因模型偏差最终所造成的各个方面的影响。第五是可解释性, 即用户通常仅能获得模型所给出的结果, 无法获知其中的原因, 因此当前还需要在此方面加以研究, 促使模型的可解释性能更加优越。

二、机器学习任务

第一是分类。通过建立模型分类各项标签数据, 学习数据集是建立模型的关键因素。在具体分类的过程中需要运用人工神经网络、决策树等多种算法。第二是回归分析, 用于分析和总结不同变量, 最终整合为表达式。在具体分析的过程中, 主要采用统计学方法, 在表达式确定之后可用于估测数据, 能够有效提高数据挖掘的效率[2]。第三, 在回归分析的过程中同样需要构建模型, 可采用回归树、人工神经网络等多种方法。第三是关联规则, 主要用于事务型数据中, 最终可建立频繁项目集, 用于预测某种事务发生的可能性, 得出的概率预算结果与真实情况十分接近, 准确率较高。该任务在执行过程中所用的算法主要为Aprioria。第四是聚类, 用于聚集不同簇中的数据。这类数据十分相似, 并且没有专门的类别标号对其加以区分, 但其之间又存在明显的相异性, 即聚类特点。在具体处理的过程中主演采用挖掘算法。除此之外, 也可使用SVM、ANN等算法。

三、应用优势

较长时间以来所采用的算法都必须基于内存, 但当前数据已升级为TB和PB, 这类数据的特点在于无法存储于计算机内存中, 因此传统的算法已经不适用于当前的大数据处理要求。在此种状况下, 为了高效挖掘数据信息, 必须改进算法, 这也是当前在研究过程中的主要任务。另外, 基于大数据环境这一基本前提, 在设计并检验算法的可行性时需要运用数据流、云计算等多种当下最为先进的技术, 并与算法进行结合, 在原有基础上不断扩展处理对象范围, 并在处理过程中构建出模型, 获取社会各领域发展所需的极具价值性的知识[3]。结合当前的实际情况来看, 搜索引擎、推荐系统等在企业发展中不可或缺的组成部分已经开始使用机器学习技术, 并且应用范围还在逐步扩大。目前还需要根据大数据发展的特点及方向不断研究新的机器学习方法, 以满足数据处理和评定的基本要求, 这也对研究领域提出了更高的要求, 其必须积极应对挑战, 实现机器学习的更新处理。

人工神经网络属于一项十分先进的算法, 描述能力极高, 并且能够在精度方面达到相应的处理要求, 当前需要不断完善此种算法, 促使其性能更加优越。此外, 机器学习有助于完善分类器, 实现稠密样本的高效处理, 目前还在逐步朝着更加复杂的处理方向发展, 对于提高数据挖掘效率及优化挖掘方法具有十分重要的作用。

四、具体应用

数据挖掘属于迭代过程且处理的任务极其繁杂, 必须采取循环处理的方式, 最终获得相应的模式。为了满足处理要求, 需要高效利用计算机及存储设备。

机器学习的主要目的是改善计算机性能, 这就需要计算机程序不断累积经验, 在量变达到一定程度时实现质变, 高效处理数据信息。机器学习算法则是获得智能的重要方式, 需要反复进行训练, 主要可分为四个组成部分。

第一是环境, 指数据所处的运行环境, 用于存储数据集。第二是学习元, 必须与环境建立联系, 而后从中获取所要处理的数据, 最终完成知识库的更新。这样的处理方式又会影响执行元, 实现其性能的改善[4]。第三是执行元, 用于检验执行效果, 在检验过程中的主要参考物是知识库, 并根据得出的检验结果了解数据库内容是否完整或具有局限性, 如果存在这两种问题, 则需要修改并加以扩展, 实现知识库内容的更新处理, 促使其更加完善, 这样就可给之后的迭代学习以更加精确的指导建议。这几个操作环节需要持续循环, 促使知识库中的内容更加丰富、充实, 使得计算机的智能化特点更加突出, 确保其能够高效执行各项业务。

系统最为核心的内容是知识库, 因此必须确保其中存储的知识涉及各个方面, 具有丰富多样的特点, 同时还应将其中的内容与计算机建立联系, 确保计算机能够快速理解, 缩短处理时间。此外, 在知识库足够完善的同时仍然必须确保其能够随时根据处理要求进行扩展和修改, 这样才能根据数据处理及社会发展的要求不断进行完善, 避免处于停滞状态。此外, 系统的知识储备量十分关键, 在最初阶段也必须输入大量的知识信息, 这样才能确保其准确检验一些假设内容。

五、结语

总而言之, 大数据的存储形式远远超出MB和GB, 高效处理此类信息有助于完善决策系统, 但为了达到这样的目标, 需要在处理模式上进行调整, 优化机器学习算法, 在优化过程中可基于大数据的特点, 即易构、动态等, 本文就对此问题进行了深入探究。

摘要：社会的高速发展加快了信息化时代到来的步伐, 各领域的生产效率明显提高, 由此导致数据信息量也越来越大, 且数据信息内容也越发复杂, 只有对数据进行高效整合, 提炼高价值信息, 才能为各领域的发展做出科学合理的指导。此外, 长期以来, 数据的处理以机器学习为主, 但当下以往所采用的机器学习算法已经暴露出了许多缺点, 因此需要对其进行优化, 并融合大数据技术, 促使数据挖掘效率不断提高, 本文就对此问题进行了详细探讨。

关键词：大数据环境,机器学习,数据挖掘,应用