初探大数据及其机器学习

2022-11-17

一、大数据

(一) 大数据现象

全球数据量增长过快, 导致大数据现象的形成。数据增长过快的原因有很多, 一方面, 人类的日常生活已经趋于数据信息化, 全球使用互联网的人数在不断地增多, 每个人不仅是信息的接受者, 同时也是信息的产生者。科学研究也进入了“数据科学”时代, 收集到的数据量极大。各行各业也越来越依赖大数据手段来开展工作, 使用大量的传感器、智能设备、摄像头等, 每分每秒都会产生极其海量的数据。另一方面, 数据的产生方式发生了改变, 数据的产生越来越自动化, 当数据量, 数据的复杂程度, 还有处理数据的任务已经无法用传统方法处理时, 就会产生“大数据现象”[1]。

(二) 大数据特征

业界普遍认为大数据具有5大特征, 分别是海量数据 (Volume) 、模态多样 (Variety) 、时效性 (Velocity) 、难以辨别 (Veracity) 、价值密度低 (Value) 。海量数据:存储的数据量极大, 数据达PB量级为常态, 正在向EB量级转变 (1PB=1024TB, IEB=1024PB) , 分析数据的难度加大[2]。模态多样:数据的模式及格式多种多样, 数据的表现形式可能呈现出多种模态, 有音频、视频、文本等, 数据格式除了传统的结构化数据外, 还包括半结构化数据或非结构化数据[3]。时效性:数据的增长速度极快, 需要对数据及时处理、提取信息、发现价值, 时间就是利益, 如处理不及时, 数据就会失去它所具有价值。

难以辨别:数据具有不确定性, 难以辨别所获取数据的真实性, 难以消除数据固有的不可预测性。这是大数据面临的巨大挑战之一。价值密度低:大数据蕴含巨大价值, 但是价值密度低, 需要从大量的数据中挖掘其潜在的价值。

二、大数据处理

(一) 批量数据处理

批量数据一般是从应用中日积月累留下的数据, 精确度高, 数据量极大。数据以静态的方式存储在硬盘当中, 由于数据量大不易移动和备份, 存储时间长很少更新, 可以重复利用。批量数据处理适合大型的相对比较成熟的企业, 如新浪微博、Google等大型互联网搜索引擎等。

(二) 在线数据实时处理

在线数据的实时处理分为两种, 流式数据处理和交互式数据处理。流式数据是一组来源各异、样式复杂的数据序列, 流式数据在不同的场景下会有不同的特征, 如流速大小、数据格式等。它可以随时间延续无限增长动态数据集合, 而且数据来源众多、格式复杂物理顺序不一致, 对其处理系统性能的要求很高。交互式数据处理就是由系统与操作人员以人机对话的方式, 操作人员的请求数据以对话的形式输入, 系统进行相应处理提示相应的数据信息或者引导操作人员进行一些操作。这个过程所产生的数据就是交互式数据, 交互式数据处理灵活、直观且易控制。

(三) 图数据处理

图能够很好表示多个事物之间的关系, 在很多学科研究中使用极其广泛, 在分析图中点及边的强关联性时, 自然就需要处理系统对图数据进行一系列的处理。图数据结构较复杂, 需要处理系统选取合适的计算模型。

三、大数据分析

大数据分析需要借助机器学习、知识计算等大数据分析技术, 下面仅对机器学习加以说明。

(一) 机器学习

机器学习简单来说就是计算机对输入的数据信息进行学习, 获取新的知识和技能。计算机的学习数据的过程是需要设计的, 具体是通过各种算法, 去从数据中学习相应的任务, 并用已经学习到的规律、规则和模型对事件作出决策和预测。

机器学习可大致分为监督学习、无监督学习和强化学习。监督学习的目的是学习最优模型, 用学到的模型来预测新样例。模型包括决策树、逻辑回归、神经网络、支持向量机、贝叶斯分类器。无监督学习的任务是寻找数据的“最佳”表示, “最佳”在不同问题中的含义不同。无监督学习常见的表现形式是聚类分析, 即“物以聚类”根据自身特性合理地对样例进行划分。强化学习是通过智能系统与环境交互获取知识, 学习最终结果是一个最优策略。

(二) 大数据机器学习

大数据下的机器学习, 机器学习的样例数量大大增加, 使得很多样例类型身后有大量的数据样例来支撑, 同时也产生了很多的挑战。除了研究传统意义上的算法优化问题, 还有在大数据环境下特有的技术问题, 大数据复杂分析时的计算性能问题和系统的可编程性和易用性。数据集较小时, 传统串行化机器算法可以有效地进行工作, 大量的机器学习训练样例使得现有的串行算法在很多场景中失效, 导致面向大数据处理的算法需要被重写, 因此需要研究使用分布式和并行化设计来保证系统可以在一定的时间内完成大数据学习任务, 这对程序员的技术要求就更高, 目前国内这方面数据分析技术人才并不多, 大部分机器学习的研究者也是刚刚起步, 这就要求大数据机器学习系统易于使用, 以供他们节省大量底层复杂并行化和分布式编程和调试的时间, 尽可能使用常规程序设计方法完成数据的复杂分析处理。

四、总结

在大数据时代背景下, 各行各业对大数据蕴含的巨大价值的渴求, 推动着机器学习技术的发展。大数据机器学习主要分为三个研究方向, 一是在巨量数据下探索研究机器学习的学习机制, 二是在海量的数据中及时有效地完成学习任务获取有价值的知识。三是大数据机器学习系统的可编程性和易用性。大数据机器学习有很大的发展潜力和研究价值, 初学者可选择一个研究方向深入学习。

摘要：本文就当今热门大数据进行了学习概括, 对大数据现象的形成、大数据特征、大数据处理、大数据分析进行解释说明, 有关大数据分析只对机器学习技术进行了详细介绍, 供初学者对大数据及其机器学习有一个初步认识。

关键词：大数据处理,大数据分析,大数据机器学习