GPU加速数据挖掘论文

2022-04-20

摘要:CPU与GPU各有所长。CPU的资源多用于缓存,而GPU的资源多用于数据计算。将CPU技术就进行比较,希望创造具有高性能处理器与独立显卡的处理性能,从而提高了电脑的运行效率,提高更好的性价比,使其为我们带来更好的选择。今天小编为大家推荐《GPU加速数据挖掘论文(精选3篇)》的相关内容,希望能给你带来帮助!

GPU加速数据挖掘论文 篇1:

曙光:以通用产品推动GPU计算普及

“2008年开始,曙光就提出了GPU服务器的概念。”在高性能计算机中,GPU的应用已经较为广泛。但是,更广泛的应用领域中,GPU计算尚未普及开来。曙光高性能产品总监戴荣表示,GPU服务器走向通用计算领域需要厂商“向用户提供一揽子的解决方案”,而曙光GPU服务器系列产品的推出是基于曙光在GPU计算方面累积的经验,是为GPU计算普及奠定基础。

“现在,GPU计算的应用范围已经大大拓展。除生物、石油等、流体模拟等传统高性能计算领域都采用GPU做应用研究之外,在航空航天装备研制、卫星遥感数据处理、气象预报、海洋环境数值模拟、石油勘探数据处理、生物医药研究、金融工程数据分析、新材料开发和设计、计算结构力学、生命科学计算、流体动力学、计算机视觉、数据挖掘、数值分析等应用中都可以使用GPU。”戴荣表示:“GPU服务器需要在设计和用户需求两方面寻求突破。设计方面,GPU服务器需要通过接入尽量多的GPU来提高计算密度,同时控制好整机能耗,解决散热问题;用户角度来看,服务器的稳定、应用的加速效果和性价比是最受关注的。”

曙光此次推出的GPU服务器有三款。其中,基于曙光TC4600刀片服务器平台的TC4600 CB60-G15-TG可在5U空间中插入4个GPU刀片和2个普通刀片,集成8颗GPU加速单元和12个英特尔Romley-EP处理器的计算能力,满足对计算能力要求较高的用户的需求;天阔I620-G15机架式服务器为双路服务器增加了GPU加速卡,性能、扩展性突出;天阔W580I-G10工作站则提供了一款性能卓越的双路GPU工作站。

“以前的GPU服务器大都是针对用户需求定制的,主要面向高性能计算领域。现在的GPU服务器则更加通用。这是由于,在过去的几年内,各种应用不断地被移植到GPU平台上。同时,曙光也投入了大量的工程师来研究适用于GPU的应用软件,帮助用户尽可能高效的使用GPU,并推出了基于GPU的管理软件 Gridview集群监控管理软件。”戴荣介绍,曙光已经可以向用户提供从硬件到应用的一揽子解决方案,这是曙光推出GPU服务器的前提。

“与曙光合作推出GPU服务器,就是希望和曙光在应用方面做出更多合作,更好地帮更多领域的用户解决问题。”NVIDIA公司全球副总裁潘迪表示。

谈及在云计算中GPU计算的应用,戴荣说:“随着云计算技术的的发展,越来越多的应用已经迁移到云端运行。现在的市场有很多的‘云’需求,例如,设计院需要将所有的数据都放在远端。要在云端应用,就需要GPU更好地支持虚拟化的技术。在未来的GPU服务器,和GPU解决方案中,‘虚拟化’会有很好的市场前景。”

“在互联网领域,GPU计算也有很大的发展空间。例如,在字符匹配方面,利用GPU可得到40以上的加速比,这种算法非常适合搜索引擎。随着更多算法的改进和移植,GPU适合的领域一定会越来越多。”NVIDIA CUDA及HPC高级项目经理邓培智表示,在数据挖掘等方面,GPU也大有用武之地。

作者:霍光

GPU加速数据挖掘论文 篇2:

CPU与GPU的技术比较

摘要:CPU与GPU各有所长。CPU的资源多用于缓存,而GPU的资源多用于数据计算。将CPU技术就进行比较,希望创造具有高性能处理器与独立显卡的处理性能,从而提高了电脑的运行效率,提高更好的性价比,使其为我们带来更好的选择。

关键词:CPU;GPU;图像处理

1 前言

GPU是显示卡的“心脏”,也就相当于CPU在电脑中的作用,它决定了该显卡的档次和大部分性能。目前,虽然CPU处理能力不断强大,但是,当进入3D时代以后,对图形计算需求不断在增多,大量的3D图像处理数据计算使CPU越来越不堪重荷了,并且远远的超出其计算能力,问题需要解决。目前,作为计算机的显示芯片飞速发展。显示芯片的计算能力无法满足快速增长的图形计算需求时,图形,图像计算等计算的功能被脱离出来,成为单独的芯片设计,即GPU。CPU与GPU各有所长。CPU的资源多用于缓存,而GPU的资源多用于数据计算。将二者进行比较,希望创造具有高性能处理器与独立显卡的处理性能,从而提高了电脑的运行效率,提高更好的性价比,使其为我们带来更好的选择。

2 CPU的作用

CPU是计算机的核心组织,是计算机的中央处理单元,处理器的作用和大脑更相似,因为它负责处理、运算计算机内部的所有数据,而主板芯片组则更像是心脏,它控制着数据的交换。CPU的种类决定了你使用的操作系统和相应的软件。CPU主要由运算器、控制器、寄存器组和内部总线等构成,是PC的核心,再配上储存器、输入/输出接口和系统总线组成为完整的PC。CPU具有通用性的特点:它集成了数以百万计,千万计,甚至是数亿计晶体管的CPU芯片。CPU主要由运算器、控制器、寄存器组和内部总线等构成。寄存器组用于在指令执行过后存放操作数和中间数据,由运算器完成指令所规定的运算及操作。除了具有计算能力的电路和结构外,CPU还拥有着控制和指挥其他硬件电路相配合的中央控制器,可以进行逻辑判断,预测执行,推测执行等诸多功能。CPU擅长处理:不规则的数据结构,不可预测的存取模式,递归算法、和单线程程序以及分支密集型代码。这种程序的任务拥有着复杂的指令调度、循环、分支、逻辑判断以及执行等诸多步骤。

3 GPU的作用

GPU具有强大的计算能力,其架构从一开始就是专为大量并行运算核心优化设计的。在绘制图像时,GPU首先接收宿主系统以三角顶点形式发送的几何数据,这些数据由一个可编程的顶点处理器进行处理,该处理器进行几何变换、亮度计算等三角形计算。在现代的计算机中,图形的处理变得越来越重要,我们需要一个专门的图形的核心处理器来替CPU分流,负担。GPU的前身就是显示卡的主芯片。它是连接主机和显示器的接口卡,最早的显示卡功能是非常的简单。现在市面现有的的显卡基本都是3D图形加速卡,主芯片也都被冠上了GPU的名字。GPU计算习惯上采用Brook编译,Brook支持所有带附加流数据的C句法,流数据存储于GPU的存储器中,而核函数也在GPU上执行。GPU的通用性也远远好于CPU,目前用于科学计算的大型计算机都是使用基于GPU架构的处理器。如nVidia开发的通用计算机就是基于G80的架构,它的计算精度远远高于目前桌面CPU。由于GPU具有高效的并行性和灵活的可编程性等特点,越来越多的研究人员和商业组织正在利用GPU完成一些非图形绘制方面的计算,并开创了新的研究领域。现在GPU已经突破了很多技术上的屏障,在信息检索、数据挖掘计算机病毒码匹配和生物基因技术领域中都有应用。

4 CPU与GPU未来的发展道路

CPU关系到计算机的整体性能,而GPU只关系到图像处理方面,但是GPU并不单单的局限于图像领域里面,GPU希望在更多领域里面发挥出作用,从而实现减少CPU的负担。对于一台计算机来说,CPU和GPU之间的关系是相辅相成的,越是在高分辨率下这样的效果就越加明显。

CPU和GPU在设计目标晶体管分配;Cache的作用上;内存控制器等方面有本质区别。CPU的资源多用于缓存,而GPU的资源则多用于数据计算。CPU和GPU的区别正在逐渐缩小,因为GPU也在处理不规则任务和线程间通信方面有了长足的进步。如果能够将二者组合起来,相互取长补短,将融合得最佳情况来提高电脑的运行效率,提高更好的性价比是我们努力的方向。现在,在笔记本和桌面处理器中已经全面融合了CPU与GPU。处理器中集成图形核心,这成为了目前业界的一个发展方向。AMD是最早提出处理器融合图形核心的厂商,而在独立显卡融合处理器方面,AMDFusion的硅芯片上有两个独立的核心,一个负责处理器,另一个负责绘图核心,两个核心而不是融合在一起。处理器有自己独立的缓冲存储器,绘图核心部分也是同样如此。两个核心会互相连接。许多厂商也正谋划着在独立显卡中集成处理器,因此,PC核心硬件的再次融合已经离指日可待。

5 结束语

CPU作为PC的核心组件之一,它是必不可少的,也是无法被代替的。CPU和GPU虽然在电脑中都担负着非常重要的作用,但是两者的侧重点是不同的,在两个方面。对于GPU来说,它注重图像处理方面,而对于CPU来说则是担负着整个电脑协调的工作。所以,CPU和GPU之间是分工协作的关系。CPU和GPU各有所长。CPU的资源多用于缓存,GPU的资源多用于数据计算。如果将二者组合,相互取长补短,将融合得最佳情况来提高电脑的运行效率,提高更好的性价比,为我们带来了新的选择。CPU在GPU的影响下也逐渐找回自己的优势。未来算法执行的架构会越来越倾向CPU/GPU集群的协作模式。整合后的模式较于传统的CPU会有更为突出的优势。以后我们会更加努力,提高具有高性能处理器与最新独立显卡的处理的性能,从而提高了电脑的运行效率与性价比,使未来的发展之路更为宽广。

参考文献:

[1]吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504.

[2]MacedoniaM.TheGPUEntersComputing’sMainstream[C].IEEEComputer.MichaelMacedonia,2003,36(10):106-108.

[3]NadathurSatis.DesigningEf?cientSortingAlgorithmsforManycoreGPU[J].IEEEInternationalParallelandDistributedProcessingSymposium,May2009,23(2)655-660.

[4]李建明,万单领,何荣盛.一种基于GPU加速的图像顏色传递算法[J].大连理工大学学报,2008,2.

[5]A.Grama,V.Kumar.State-of-the-ArtinParallelSearchTechniquesforDiscreteOptimizationProblems[J].IEEETransactionsonKnowledgeandDataEngineering,1999,11(1):28-35.

[6]盖素丽.基于GPU的数字图像并行处理方法[J].电子产品世界,2009,2.

[作者简介]杨柳(1979-),女,长春市,吉林工商学院讲师,硕士,主要从事算法研究。

作者:杨柳

GPU加速数据挖掘论文 篇3:

GPU时空大数据分析平台研究

[摘 要]近年来,随着互联网技术的广泛应用,时空数据成为大数据分析的一个重要研究领域。OmniSci作为时空大数据分析平台,主要借助GPU大规模线程和高速计算力,承载亿万级时空数据分析和数据可视化的任务,并结合了地理信息系统GIS、商业数据分析BI系统和基于位置服务LBS三者的优点,为共享出行、O2O上门服务、快递物流、智慧交通、商业地理等互联网LBS应用提供强有力的基础设施服务。基于此,本文主要介绍了时空大数据分析平台OmniSci(MapD)的核心技术和系统架构。

[关键词]GPU;时空数据;数据库

doi:10.3969/j.issn.1673 - 0194.2019.08.075

1 研究背景

移动互联网的飞速发展和智能手机GPS模块的广泛应用,使基于位置的服务(LBS)呈爆炸式增长。共享出行、O2O上门服务、快递物流、智慧交通乃至商业地理等新一代LBS应用,对空间数据的存储、计算、管理和分析都提出了更高的要求。空间数据具有数据规模庞大(Volume)、数据查询频繁(Velocity)、数据类型多样(Variety)和数据价值巨大(Value)的特点,因此,有必要结合地理空间信息系统(GIS)、LBS兼具商业智能分析(BI)系统的优点,着手构建新一代时空数据分析平台。

传统的GIS平台在国土、水利、地质、气象、水文、交通和市政等领域应用广泛,但受限于传统的C/S模式,在B/S模式的WebGIS应用上与主流互联网技术发展脱节,服务范围受限于局域网之内。以Esri公司的ArcGIS系统为例,该系统将空间数据以矢量的形式存储在文件中,并附带时间信息,可以精确表述空间数据的变化,也可以使用空间数据转换中间件,将空间数据存储在DBMS中进行管理。ArcGIS面临数据扩展性问题,在数据操作和服务性能上都面临很大的局限性,同时,处理空间数据量只有百万级,在性能上无法满足互联网LBS的应用需求。

同时,传统的BI软件对空间数据的支持度不够,缺乏空间聚类、空间运筹、路径规划、地理热图、时空数据挖掘等方面的功能。基于此,LBS互联网公司往往要根据自身业务需要构建空间数据处理系统,比如百度地图、滴滴打车、美团外卖等。商家基于商业竞争方面的考虑,在对外接口上限制了操作类型和数据速率。此外,信息壁垒造成了空间数据信息孤岛效应,大量的空间数据由于没有充分利用相关信息,导致其无法催生出新的商业机会,是一种极大的资源浪费。近年来,以OmniSci(前MapD)、H2O.ai为代表的GPU加速数据分析平台发展迅速,在结合GIS、BI和LBS优点的基础上,可能成为新型时空数据分析平台的首选。

2 核心技术

2.1 GPU时空数据库

OmniSci时空数据库采用GPU数据库技术进行查询,通过即时编译技术将用户的查询语句编译为可执行代码,并驻留在GPU中。由于GPU长于计算而弱于逻辑控制,基于迭代的Volcano查询执行模式不适应GPU运行,因此,OmniSci采用向量化查询执行引擎,在利用GPU大规模并发线程能力的基础上,采用多级缓存,进一步提升查询性能。OmniSci将点、线、面等空间数据类型作为数据库的原生类型,省去了传统数据库解决方案中的GIS中间件,让应用层可以直接获取时空数据库的高速处理能力。此外,OmniSci集成了高速数据可视化模块,采用数据驱动协同过滤的方式,让用户可以毫不费力地进行数据分析和可视化。

2.2 时空云计算平台

以OmniSci云平台为基础,可以充分利用云计算的分布式、数据持久化、异步操作、无状态微服务(RESTful)的优点,构建稳定可靠、弹性伸缩、易于管理的新一代WEB GIS及商业智能数据分析平台,为智能交通、智能物流等智慧城市应用提供强大的存储和计算能力。用户不再考虑购置昂贵的服务器、显卡等基础设施,也无须聘请专业运维团队,就可以在OmniSci云平台上按计算量购买云服务。

2.3 数据驱动可视化技术

OmniSci时空计算平台采用先进的数据驱动图表的前端库,依托于Vega和D3.js开源框架,极大地简化了数据可视化流程,非专业人士也可以定制出生动的数据可视化面板。传统的数据可视化方案需要专业人士使用Javascript语言操作网页中的绘图元素,但由于工作量巨大、可重用性差,割裂了数据分析和可视化处理流程。OmniSci Immerse可视化模块使数据展示与后端数据查询紧密结合,用户只需在网页中点击拖动相应功能按钮就可以驱动上亿行空间数据的查询、分析。

3 系统架构

3.1 核心层

OmniSci核心层(OmniSciCoreDatabase)是GPU加速的时空数据库,由数据连接模块、查询编译器、查詢执行引擎3大模块组成。在数据连接模块中,OmniSci提供多种语言及标准数据库接口(JDBC\ODBC),也可以导入Hadoop/Spark分布式大数据,或Kafka导入流式数据。传统数据库的性能瓶颈是磁盘访问IO,这是以磁盘为中心的DBMS系统所不可避免的问题。OmniSci时空数据库大量使用内存计算技术,将数据尽可能地存储在多块显卡组成的共享显存阵列中,并利用数据划分和替换技术提供超过显存容量的数据处理能力,这种采用显存-内存-硬盘3级缓存的技术,可以在根本上避免磁盘IO对性能的制约,从而取得几千倍的速度提升。同时,查询编译器采用LLVM即时编译技术,并在查询执行引擎中采用适合GPU大规模并发线程的向量化查询处理模式,使单块显卡获得匹敌多个CPU服务器的计算能力,避免了分布式计算的不稳定性。以统一GPU数据帧(GDF)为中介,OmniSci提供与Numpy、H2O.ai的python接口,方便进行机器学习和人工智能建模,为进一步分析数据提供了可能。

3.2 渲染层

OmniSci渲染引擎(Renderingengine)是连接用户复杂查询和高速GPU时空数据库的桥梁,将时空数据库查询结果直接在GPU上进行渲染,生成各类商业智能BI交互式图表和空间数据可视化图表。渲染引擎可以直接利用核心时空数据库,通过在GPU上缓存进行空间查询,避免了大量不必要的数据传输,并通过使用GPU图形处理指令渲染动态图片,解放了CPU计算力。渲染引擎使用Vega可视化语言来控制渲染效果,并通过数据驱动图表的可视化。渲染引擎允许多用户同时以数据可视化的方式操作数据,极大简化了数据查询分析的复杂度。

3.3 表示层

在表现层,OmniSci采用与D3.js兼容的轻量级Immerse前端框架,通过在浏览器中嵌入Javascript代码的方式形成交互式协同过滤数据面板。用户根据需要,添加不同类型的交互式商业分析图表,同时支持将空间数据映射到地图底图上,生成地理热图、等高线图、地理散点图等。在大数据应用场景下,数据科学家和分析人员的工作效率直接取决于数据可视化的速度。Immerse允许用户在地图上圈出感兴趣的位置区域,设置交互式图表的过滤条件以及输入SQL查询语句的方式,以“所见即所得”的方式操作分析亿万行空间数据,同时,数据面板上的图表可以绑定成组,通过协同过滤(Cross-filter)的方式统一更新结果,快速流畅地更新过程。比如,用户可以在地理热图上圈出兴趣区域,一旦圈定,相关图表立即根据兴趣区域内的统计结果更新相关图表,实时展示数据分析结果。OmniSci同时支持上百个并发查询链接,支持多用户协同工作,团队成员只需在浏览器上登录,就可以根据自己的理解从不同角度探索大规模空间数据,进行数据挖掘、机器学习乃至人工智能建模,挖掘数据背后的价值。

4 应用案例

4.1 智慧交通

目前,百度地图、高德地图已经提供API接口,提供定位、地图、导航、实时路况、搜索等功能,通过数据爬虫和数据抓取技术,实时将数据导入OmniSci时空数据库中,建立交通大数据平台,对交通数据进行时空维度建模和持久化存储。在时空数据库和交通数据可视化的帮助下,用户可以查询特定路线、特定区域的拥堵程度,可以发现交通流量的时间模式,从而制订出行计划,估计预计时间。

4.2 智能物流

近年来,随着淘宝、天猫、京东等电子商务公司的快速发展,网上购物已经成为人们生活中不可分割的部分。同时,快递、送餐以及各种便民服务也对物流行业提出了新要求。在物流智能化过程中,供应链跟踪、路径选择、配送的“最后一公里”等问题都取决于对位置数据的分析和实时决策上。使用OmniSci作为数据分析平台,实时为决策者提供车辆位置更新信息、指定范围内信息汇总、供应链线图、系统监控和管理等服务,用数据驱动决策,以达到数字化、智能化的要求。

5 结 语

OmniSci时空大数据分析及可视化平台作为信息基础设施,必将成为云计算及人工智能信息化體系的重要组成部分,因此,研究人员必须高度重视其基础性建设工作,并不断融入智慧中国时空数据基础设施框架建设的主流中,充分发挥强大的计算能力,简化空间数据分析,推动信息化事业实现可持续发展。

主要参考文献

[1]韩剑.时空数据模型概述及研究[J].科技传播,2012(12).

[2]刘锋.Webgis架构下的地理信息系统构建研究[J].计算机测量与控制,2017(6).

[3]赵光辉.互联网+背景下我国智能物流研究[J].物流工程与管理,2016(5).

作者:裴威

上一篇:紫砂壶喜庆艺术风格论文下一篇:外部审计与内部审计论文

本站热搜