海战场态势可视化数据挖掘论文

2022-04-29

摘要:随着现代科学技术的发展,源源不断的数据开始出现,为了合理利用这些数据,大数据科学应用而生,并逐渐开始服务于一些产业。并且世界各国各公司也制定了相关的大数据发展战略。下面小编整理了一些《海战场态势可视化数据挖掘论文(精选3篇)》相关资料,欢迎阅读!

海战场态势可视化数据挖掘论文 篇1:

让战场数据“开口说话”

信息化战争的突出特点,就是战场数据的数量剧增。早在阿富汗战争期间,美军为打击恐怖分子动用的全方位情报侦察监视系统,24小时就产生了高达53TB的数据,致使美军情报人员和一线部队陷入数据的汪洋大海中无所适从。未来的信息化战争,作战优势集中体现为信息优势,信息优势的本质就是数据优势。只有让战场数据主动“开口说话”,才能牢牢掌握信息化战场的战略资源,在激烈的数据博弈中立于不败之地。

无论是美国国防部为打通战车、舰艇、飞机以及空间卫星数据共享“任督二脉”的军事物联网和云作战平台,还是专门针对海量数据已经投入使用的数据挖掘和人工智能算法,包括日新月异的战场可视化技术和智能作战终端,无不是突破战场“数据迷雾”、通过战场数据牢牢掌握战争主动权的“解题手法”。

战场上别吃数据的哑巴亏

在信息化战争风靡全球之前,人们从未对战场数据如此倚重。近年来得益于信息化技术手段的提升和网络融合趋势的加快,看不见摸不着的数据呈现出“爆炸”态势。尤其是无人机、摄像头等新兴技术的发展,正源源不断地传送着大量图像和视频信息。了解把握战场态势,通过战场数据牢牢掌握战争主动权,成为了各军事大国竞相追逐的技术新高地。

未来战场上,各类观测手段、物联网设备和高速计算机都会产生海量数据,如果得不到及时处理,我们将会被“数据致盲”。说起打赢信息化条件下的现代战争,连美军都曾吃过数据的哑巴亏。伊拉克战争爆发当日,美军驻卡塔尔和科威特的前进指挥所由于无法处理保障机构提供的海量数据,不得不自行关闭设备,直接造成了指挥所与部分突击方向的通信联系中断。阿富汗战争期间一次小型反恐行动带来的海量数据,更令美军作战人员措手不及。美军耗费巨资研制的先进隐身战斗机,竟然不能直接与其他作战平台进行信息交换,虽然同样是美军,它们之间的“对话”也得需要“数据翻译”才行。

一方面猜不透数据,另一方面也有人对数据“做起了文章”。从古至今,战场上的攻守双方无不想方设法制造战场迷雾,企图让对手看不清战场态势,最终达到出其不意、攻其不备的战术效果。即便是信息化战争加速到来的今天,给各类战场数据施加障眼法,依旧是行之有效的作战策略。

知己知彼,方能百战不殆。现代战争中各类作战要素不断增多,能否全盘掌握战场信息将成为决定战争胜负的关键因素。数据承载信息,能否消除“数据迷雾”,关键在于如何从战场大数据中挖掘出精准信息。美国国防部近几年来不断开展战场数据挖掘、人工智能数据分析等项目研究,无不是在为赢得战争培育数据分析师。换句话说,能把战争中持续几个小时的视频数据凝练到最关键的30秒,这本身就是一场胜利。

提升部队实际战斗力,必须高度重视数据这一现代战争的重要组成,实现各平台之间基于共同目标的信息共享与数据支援,形成高度一体化的通信指挥和作战体系,依托技术手段填补战场大数据应用的“最后一千米”。

神经网络能否联通未来战场

伊拉克战争中,美國带到战场上的最尖端武器,并非是那些隐形战机、精确制导炸弹等高精尖武器,而是数据链。数据链这种信息网络系统,将美军的作战飞机、指挥所、坦克和作战人员紧紧连在了一起,美军的空中打击力量和地面作战部队才得以在第一时间获取战场情报信息,实施近乎实时的火力打击。

现代战场,如果把作战指挥系统比作大脑、武器装备比作肌肉,那么数据链就是遍布全身的“战场神经”。数据链以通信网络为纽带,以信息处理为核心,将遍布陆、海、空、天的战场态势感知系统、指挥自动化系统、火力打击系统和网络战武器等作战要素有机相连,实现战场数据的全维感知、实时传输和智能处理。

美国空军为实现在阿富汗作战的不同装备互联互通,就紧急开发出战场机载通信节点载荷。波音公司专门为第五代战斗机和第四代战斗机“通话”而设计的飞行吊舱,能借助LINK-16数据链把F-22战斗机飞行编队内部数据传送给美国空军的其他作战机群。近年来,美军对战场区域内的各种作战场景进行研究表明,传感器平台必须能同时跟踪包括敌我双方的战机、水面舰艇、潜艇、民用飞机、船只、车辆和其他关键设施等3000个目标,并实现相关信息的有效传输。因此,美军正在加紧研发传输速率更高、抗干扰性更强的高性能数据链,美国海军也正在加紧生产Link-22数据链的新一代加密装置。

早在伊拉克战争期间,军事物联网的雏形就已经初步显现。美军规定任何进入其所辖战区的物资必须贴有射频标签,这样就可毫不费力地得到一张战场动态物流全景图。按照这张全景图调配部署,后勤补给可更快、更精确,大大缩短了美军的平均后勤补给时间,后勤物资保障效率也大幅提升。

目前,美军正加速全球战场资产的联网部署,这种将各种作战要素接入同一网络,实现各军种在空中、陆地、海洋、太空和网络等作战域协同、快速遂行作战任务的网络就是军事物联网。美国空军正在广泛投资数据共享能力,除购买用于搜集战场信息的先进设备外,也在积极部署诸如手持式安卓战术攻击套件等新型联网设备。此外,美国空军正在研究将空军作战平台接入其他军种武器平台,将组建可使武器平台变成网络节点、实时共享信息的军事物联网。美国陆军也在加速建设战场物联网,通过部署大量的自主传感器和机器人部件来自我感知、持续学习,实现上述设备与网络、人类和战场环境的相互作用。

伴随着云计算和物联网技术的快速发展,行走在战场上空的“云”,为打破各类作战平台所面临的“信息孤岛”提供了新的技术思路。所谓作战云,就是基于“云端”的联合作战信息网络,从体系层面实现战场资源的动态高效管控和快速分布式处理。基于作战云开展的云作战,势必构建起跨战场维度、跨军兵种的网络化“云杀伤”作战能力。

早已嗅到数据火药味的美国空军率先提出了作战云理念,通过战术通信网络快速交换C4ISRK体系内作战单元的战场数据,实现信息资源的高度整合。美国海军针对远征作战、反潜战、一体化防空反导等作战样式提出“战术云”概念,通过可发布数据应用的平台确保实时战场感知。此外,战术基础设施企业服务、战术薄云等项目的实践,重点解决了云计算等前沿技术在战场上的“接地气”问题,为云作战探索了战术应用的技术核心。目前,美国国防部已计划在10年内投入100亿美元,用于企业-防务联合基础设施云作战项目的研发。预计投入使用的云作战平台,将最大限度地发挥隐身装备、精确打击武器、先进指挥控制系统和有人-无人系统的技术优势,成为应对信息化战争的制胜方略。

事实上,美军早就开始了在战场上对云作战的实战检验。2014年9月,美国空军F-22战斗机首次率领联合空袭机群,对叙利亚境内的“伊斯兰国”极端组织目标实施空袭作战,标志着美国空军云作战实战检验的开始。美军另一款先进战机F-35更是网络中心战的概念产物。F-35战斗机拥有突出的战场态势感知能力,甚至能在无线电静默情况下与E-3预警机组成空战机群,在超视距接敌中实现“A机+B弹”的完美配合,事实上就是云作战的“小试牛刀”。

在数据的海洋中尽情遨游

在尝试解决数据通联问题的同时,还必须对战场数据“动刀子”。目前较为热门的战争算法,就是源自实战中美军遇到的棘手数据难题。从无人机源源不断传来的海量视频资料,让数千名美军情报分析员忙得焦头烂额。借助人工智能算法,美军算法战跨职能小组正在研制可将无人机收集的海量视频数据快速分类的软件,以实现对目标的探测、分类和预警计算,从而提供更多具有实际价值的情报。

近年来,美国国防部已经在人工智能、大数据和云计算领域愈发“上心”,人工智能与人机合作早已进入美国武器库及其情报机构。人工智能恰好可以为可用资源和紧迫需求之间搭起了一座弥补差距的“算法之桥”。借助算法在海量数据中“泅渡”,情报分析自动化程度大幅度提升,人们再也不用耗费大量时间找寻坦克在哪里。他们可以花更多的时间考虑坦克为什么在那里、下一步坦克要做什么。

目前,美国国防部正加紧研发可辅助情报人员识别恐怖袭击的人工智能技术,并计划借助人工智能算法分析整理极端组织情报数据。无独有偶,美国中央情报局正在开发用来获取社交媒体数据的人工智能,法国军事情报部门也在积极寻求借助人工智能筛选大量原始战场数据,以便有效支援一线部队作战。美国中央情报局此前就曾公开透露,目前正依托硅谷的开发商开展137个人工智能情报处理项目。这些项目的涉猎范围也相当广泛,大到通过对比数据变化来预测未来重大事件的发生可能,小到让计算机自动标记出能引起情报分析员注意的人或物。

统计数据显示,单凭现有的人工智能技术,已经实现了75%工作量的自动化。2017年底,美军就在中东地区开展了人工智能情报分析试验。加载有特殊算法的计算机被用来辅助分析无人机采集的视频信息,从中自动识别出人、汽车以及各类建筑物。经过不断学习和算法更新,人工智能在复杂环境下自动识别率已经超过80%。此外,美国军方也正花费数十亿美元建立地理空间情报系统,这些涉及到“人文地理”的网页、电子邮件、即时消息和社交媒体等离散化数据,恰好可以通过人工智能和机器学习实现收集处理自动化。

除借助人工智能算法对数据大动干戈,更加轻松地在数据海洋中遨游外,美国军方也在积极投入数据挖掘技术研究。美国特种作战司令部就在开发一个数据挖掘程序,能在各种网站和数据库中自动进行关键字搜索,从而使作战人员尽可能实时地了解他们所处的作战环境。

给你一双洞察数据的“慧眼”

有了对数据的快速处理过程,更需要一双洞察海量数据的“慧眼”,战场数据的可视化已经成为军事领域的研究热点。通过综合运用计算机图形学、多媒体、人工智能等,可视化技术能将战场数据以图像形式呈现给指挥员,将在军事训练、战场指挥决策、装备研发和后勤保障等领域发挥重要作用,成为看透战场数据的“火眼金睛”。

为布局可视化技术发展,美国国防部高级研究计划局已经开始研制可实时显示大规模数据的可视化情报系统。这种可视化系统不仅能增强美军对战场威胁的实时分析能力,还能根据海量数据发现态势变化的“蛛丝马迹”。美国海军研究中心支持研制的“龙”战场可视化系统,利用虚拟现实技术,搭建起战场数据获取传输、作战态势显示与指挥控制的综合作战平台,提升了指挥员对战场数据的认知和分析能力。

未来通过战场可视化技术,能根据战场数据实时构建战场态势详图,甚至还能通过三维视图和虚拟现实技术建立逼真的“虚拟战场”。在这种决策环境下,各类信息化装备早已织成一体化数据网,战场指挥员不仅能快速准确获取战场信息,甚至还能进一步由战术数据激发出作战方式的“无尽联想”。

对战场数据的“精打细算”最终要服务于作战。美军已经开始列装的“内特武士”单兵移动云通信指挥系统,通过一个酷似智能手機的触屏面板和无线电装置,就能实时发送短信和语音通话,还能显示周围地形、友军和目标位置。美国雷神公司还曾研发过一款名为“雷神智能战术系统”的智能手机,能通过向士兵传输图片和视频的方式,获取周围2千米范围内所有卫星图像及空中、地面侦察情报,甚至还能与战友实时共享态势,有力提升单兵从信息枢纽中获取战场态势的能力。美国陆军即将配发的“第三代增强型夜视镜”和单兵武器瞄准具系统,除能把夜视仪所“看到”的画面实时传回眼前的“第三代增强型夜视镜”外,还可通过WiFi方式将单兵的态势感知信息在战场上与战友分享,战场“直播”如在眼前。

未来,手握这些智能终端的信息化士兵,配合先进的数据传输和分析系统,不仅能实现战场态势的快速感知,甚至还能配合卫星导航进行“战场直播”,远在千里之外的指挥部可以据此完成要打击目标的匹配制导,势必开启信息化作战的新模式。

作者:许妍敏

海战场态势可视化数据挖掘论文 篇2:

大数据科学综述

摘 要:随着现代科学技术的发展,源源不断的数据开始出现,为了合理利用这些数据,大数据科学应用而生,并逐渐开始服务于一些产业。并且世界各国各公司也制定了相关的大数据发展战略。本文介绍了大数据分析常用的方法与应用,诸如统计分析、数据挖掘、数据可视化,也介绍了大数据处理中批量式处理数据系统、流式数据处理系统两种常用处理系统,并简单介绍了大数据处理流程,最终也总结了大数据发展过程中所面临的机遇与挑战。

关键词:大数据 大数据分析方法 大数据系统 机遇与挑战

1 大數据的介绍

现在社会处于高速发展时期,科学技术日益发达,人们之间的交流日益密切,而这一系列过程往往包含着海量数据的产生,并伴随着如下特征[1-3]:(1)数据量大,大数据单位至少是P;(2)类型繁多,包括各种类型数据;(3)价值密度低,因此需要深入研究大数据,从中提取有用信息;(4)速度快,时效高。并且大数据中也隐藏着巨大的价值,诸如XO Communications通过使用IBM SPSS预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM新的Netezza网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策;2013年,英国华威商学院和美国波士顿大学物理系的研究发现,用户通过谷歌搜索的金融关键词或许可以把脉金融市场的走向,相应的投资战略收益高达326%。而此前,也有专家尝试通过Twitter博文情绪来预测股市波动。从预测的原理上来看,稳定发展的美国股市是比较适合大数据预测发挥其作用的。对国内而言,百度推出的中小企业景气指数预测,应用百度海量的搜索数据来刻画我国中小企业运行发展的景气状态,以期能够及时、有效地反映中小企业运行状况,提高经济监测的全面性和及时性;以及专业篮球队会通过搜集大量数据分析赛事情况,然后在其基础上分析赛事情况,找到两三个制胜法宝等。正如麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,人民对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”大数据已经成为新世纪的石油。而世界各个国家、公司也频繁开启了大数据战略。

2 大数据的分析方法

对于网络中的大数据应用,一个重要问题是如何用统一的数学模型表示数据从而进一步挖掘和分析任务,不同的表示形式可以纠缠和隐藏或多或少地使变化数据背后的解释性因素不同。因此,有必要对大数据的可行性和实用性进行检查。

2.1 统计分析

在大数据时代,随着计算方法的进步和数据仓库的出现,应该对数据进行挖掘处理,这样会使分析结果比抽样统计更加可靠。统计学领域也应更新传统观念,学习新生事物,适应大数据环境,扩展统计学的应用领域,创造出适合大数据的新的统计方法。大数据时代的统计特点对传统的抽样分析提出挑战,对抽样分析结果的代表性及可靠性提出质疑。

大数据时代统计分析应转变思路,统计方法应与时俱进。在计算机技术飞速发展的今天,我们如何使用已经储备的大量资料进行全样本分析,应该是大数据时代统计分析的新特征。

大数据分析的经济价值,已经开始撼动社会的方方面面。同时,大数据时代也向包括统计在内的传统领域提出了挑战,医院管理者、临床专家需要做好充足的准备,以迎接大数据时代所带来的变化与挑战。

2.2 数据挖掘

随着信息网络的普及和移动互联网的广泛应用,全世界联网设备呈爆发式增长,根据赛门铁克公司的调研报告, 全球企业数据存储总量已达到2.2ZB(1ZB等于10ZB),并且以每年近70%速率增长。如何有效地挖掘“大数据”的潜在价值,是人类目前面临的重大问题。

2.2.1 数据挖掘的定义

从技术的角度对数据挖掘(Data mining)定义:是指从大量、不完全、有噪声、模糊、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。从商业的角度定义数据挖掘:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据的过程。不管是技术角度还是商业角度,数据挖掘的实质是从海量数据中提取出对人类有价值的或有潜在价值的最终被人类利用而产生生产力的信息。

2.2.2 大数据存储技术

随着联网设备呈指数方式增长,导致数据量激增,这种趋势改变了长期以来以“计算”为中心的模式,进而颠覆性改变到以“数据存储”为中心的模式。大数据挖掘必须首先解决大数据的存储问题。将现有的存储技术RAID并行存储、NAS附网存储、SAN存储区域网等网络存储体系进行有机融合,采取集群网络模式将成千上万的商业网络存储系统连接起来,并应用到大数据存储中,这是解决大数据存储的关键问题。同时在这种集群化的网络存储系统中采取创新性的数据存储机制完成存储操作和创新性的查询机制完成查询操作。由于采用集群联网的方式将世界各地的商业化网络存储系统连接起来,就形成了多层次、多维度数据存储体系,对大数据的存储机制,很多文献都给出了解决方案,如基于GHT的传感器网络数据中心存储机制就是一种有成效的大数据存储机制。各存储系统如何协同工作、大数据存储位置表示等诸多方面还需要继续研究。

2.2.3 大数据挖掘技术

大数据里隐藏着无穷的价值,但从里面挖掘有用的信息,却是不容易的。主要是因为数据太大,难以消化;信息种类繁多,难以识别;信息表示不统一,难以处理等。因此,人类拥有海量数据,但却觉得知识缺乏。数据挖掘技术经历了多个阶段,也产生了很多数据挖掘算法。关联规则挖掘已经成为数据挖掘领域里举足轻重的研究,关联规则挖掘算法可以从大数据存储系统中挖掘出隐藏的关联规则。遗传算法(GA)是数据挖掘算法中最常用的算法,是通過模拟自然进化全局搜索大数据的算法。采用GA算法,对存储体系中的大数据进行搜索,对随机产生的规则进行进化处理,直到大数据存储系统中的隐含规则被挖掘出来,从而发现隐含在数据中的规则。在主流数据挖掘技术的基础上,基于遗传算法的关联规则自动挖掘算法也被设计出来,促进了数据挖掘技术的发展。

2.3 数据可视化

传统的科学可视化技术已成功应用于各学科领域,但如果将其直接应用于大数据,将面临实用性和有效性问题,这说明需要对科学可视化技术重新审视与深入研究。

2.3.1 分布式并行可视化算法

可扩展性是构造分布式并行算法的一项重要指标。传统的科学可视化算法应用在小规模的计算机集群中,最多可以包括几百个计算节点,而实际应用是要在数千甚至上万个计算节点上运行。随着数据规模的逐渐增大,算法的效率逐渐成为数据分析流程的瓶颈,设计新的分布并行可视化算法已经成为一个研究热点。

2.3.2 信息可视化

信息可视化是跨学科领域的大规模非数值型信息资源的视觉展现,能够帮助人们理解和分析数据。信息可视化中的交互方法能够实现用户与数据的快速交互,更好地验证假设和发现内在联系。信息可视化技术提供了理解高维度、多层次、时空、动态、关系等复杂数据的手段,与科学可视化相比,信息可视化更侧重于抽象数据集,如对非结构化文本或者高维空间中不具有固有的二维或三维几何结构的点的视觉展现。信息可视化适用于大规模非数字型信息资源的可视化表达。

2.3.3 可视化分析算法

大数据的可视化算法不仅要考虑数据规模,而且要考虑视觉感知的高效算法。需要引入创新的视觉表现方法和用户交互手段。更重要的是用户的偏好必须与自动学习算法有机结合起来,这样可视化的输出具有高度适应性。可视化算法应拥有巨大的控制参数搜索空间,减少数据分析与探索的成本及降低难度,可以组织数据并且减少搜索空间。

3 大数据处理方式

大数据科学中需要寻找特定数据处理方式对数据进行分析,进而提高处理效率、处理精度。其中常用的处理方式包括批量式处理、流式处理、交互式处理。

3.1 批量式处理方式

批量处理方式主要是针对体量巨大、精确度高且价值密度较低数据的处理方式。这种方式适用于先存储后分析,对实时性要求不高,但数据需要很高准确性和全面性的场景。MapReduce是批处理方式中非常重要的模型之一。其核心思想为,首先将海量数据分为若干数据块,然后将这些数据块进行并行处理并以分布方式得到中间结果,最后将各中间结果合并得到最终结果。然而这种批处理方式往往比较耗时,且不提供用户与系统的交互手段,所以这种处理方式无法与预期或与以往结果相吻合时,比较难以修正。因此,批处理方式多用于相对比较成熟的领域。

目前,批量处理方式主要应用于互联网、公共服务等领域。在互联网领域中,批处理方式的典型应用包括:(1)社交网络:Facebook等社交软件通过用户浏览的文档、图片、视频等信息,利用批处理方式分析后得到用户间的隐含关系,并推荐朋友或相关主题,提升用户体验。(2)电子商务:电商平台可以根据用户购买商品的记录,浏览商品页面的次数及停留时间,利用批处理方式准确定位用户所需产品,从而提高销量。在公共服务领域中,批处理方式的典型应用包括:(1)医疗卫生:通过对患者既往病史及生活方式信息进行批量处理,对病人的病情进行分析,并提供相应的治疗措施,节约了患者的就医时间。(2)能源方面:通过对区域内用户的地理位置、历史信息,及个人的能源使用情况等信息进行批处理,优化电力、水利等部门的能源分配方案,既能提升服务质量,也能节约资源。随着人们对数据中蕴含价值的提升,大数据批处理会有更多应用的领域。

一个GFS集群由一个主服务器和多个块服务器构成,可以由多个客户端访问,如图1所示,每一个块服务器都是典型的Linux机器,运行用户级服务器进程。

Map Reduce是一种采用全局最优化方法来解决大规模群组中的海量数据处理问题的分布式编程模型。该模型首先使用Bloom filter来减少返回null的查询的数量;其次使用本地内存来缓存从存储系统返回的记录,使用的LRU(Least Recently Used)缓存方式能够良好地近似出词频,从而增加缓存效率;继Bigtable之后使用了开源系统建模的分布式存储系统HBase,降低了通信成本。Map Reduce的三层结构如图2所示。

3.2 流式处理方式

针对批处理性能的问题,科学家们又提出了实时数据处理,实时数据处理可以分为流式处理方式和交互式处理方式两种。

流式数据是一个无穷的数据序列,每个数据没有固定的格式,但往往包含有序的标签(如时间)。流式数据一般情况下是被按序处理,然而数据的到达时间不可预知,这将会导致数据的逻辑顺序与物理顺序不一致,并且数据的流速会产生较大的波动,因此系统需要有很强的异构数据处理能力,并且还需要很好的可伸缩性,以应对复杂且不稳定的数据流。并且由于流式数据是活动的,这与批处理方式(先存储后查询)的方式不同,需要系统能保留数据的活动性。流式处理针对这种特性,需要提供相应的能实时返回当前结果的查询接口。

目前,流式数据处理主要应用于数据采集和金融方面。在数据采集方面,通过主动的数据采集实时数据,即时进行分析,挖掘其中的价值。通过传感器,采集日志中的海量信息,实时分析并提供动态显示,可以用于环境监测、灾害预警等场景中。在金融方面,对银行日常运营中的短时效性的数据进行流式处理,发现其内在的特征与规律,可以帮助银行更有效地进行实时决策。如股票期货市场,批处理方式不能针对当前情况及时响应,就需要流式处理方式的帮助。总之,流式处理主要针对的是来源复杂、结构不固定、物理顺序不一,且价值密度低的数据。而相应的处理工具则要求具有高性能、实时、可扩展等特性。

Storm高速事件处理系统由Twitter支持并开发,雅虎、Spotify还有The Weather Channel等也在使用该系统,其特点是允许增量计算(见图3)。

Spark Streaming特点是能够进行图形操作、机器学习以及访问SQL。同时Apache Spark的Stack可将library与数据流(Spark SQL,Mllib,GraphX等)相结合,并提供一体化编程模型(见图4)。

Samza系统是将存储与处理在同一机器上进行,能够在不额外载入内存情况下保持高效处理,适于处理大量状态的情况(见图5)。

3.3 交互式处理方式

交互式处理是一种灵活、直观、便于控制的大数据处理方式。对于操作人员的请求,数据以对话方式输入,系统通过提供相应的数据或提示信息,引导操作人员进行下一步操作,直至得到最终结果。交互式数据处理方式的结果可以立刻被使用,同时系统中的数据文件也可以被及时修改,这些特性保证了输入信息可以被及时处理。

交互式数据处理在许多领域已经有了广泛的应用,其中最典型的两个应用场景是信息处理领域和互联网领域。在信息处理领域中,传统的交互式处理主要以关系型数据管理系统为主,面向联机事务管理和联机分析处理。联机事务处理多用于政府、医疗及对操作顺序有严格要求的工业控制领域。联机分析处理则广泛应用于数据分析、商业智能等领域。目前,以Hive、Pig等为代表的分布式数据仓库已经能支持上千台服务器的规模。在互联网领域中,随着互联网技术的发展,用户与平台和其他用户之间的交互更加复杂且频繁,而搜索引擎、微博及诸如百度知道的在线问答平台等网络平台则利用复杂的交互式处理满足了用户的需求。目前,各大平台主要使用NoSQL类型的数据库来进行交互式数据处理。如HBase的多为有续表的列式存储、MongoDB的JSON格式的数据嵌套存储等。

4 大数据处理基本流程

4.1 数据采集

大数据指的是其规模、其涌现速度和其处理难点超出目前常规技术能管理、处理和分析的数据(见图6)。

于是就有了如何认识数据的问题。倘若人类仅仅获取数据,停留在这个层面,意义还是有限。只有对用户有用的数据(称为信息),用户才会感兴趣。但信息还是低级层面,用户更感兴趣的是知识。换句话说,我们要讨论如何从数据到信息到知识再到智慧这四个层次的演变:即借助于传感器或软件采集和处理到信号,从而形成数据,经处理后变成信息,再通过挖掘形成知识,最终上升到智慧层次(见图6)。对人类来说最关心的是金字塔顶上的东西,只有处理到最上層(智慧)才是大家最感兴趣的东西。换言之,人们不只想知道感知到的是什么数据,还想知道这些数据代表什么,更想知道面对这些数据我们应该采取的应对策略是什么。要做到这一点,就需要很好的工具。这就涉及到大数据分析问题。

大数据分析学,笼统地讲就是大数据分析技术。那么,大数据分析技术具体是指什么?迄今为止,还没有权威人士给出明确的答案。但目前人们认识到有两大问题是重点:一个就是文本的分析学,第二个就是机器学习。

4.2 数据分析与挖掘

就大数据的处理平台来说,大数据系统需要非常大的数据处理、传输和存储能力,目前云计算平台是最符合要求的计算基础设施。云平台实现了计算资源和物理资源的虚拟化,通过资源池对处理能力进行快速动态分配和调用,具有一定的可伸缩性,能够最大限度地利用已有计算能力,降低运行成本,节省用户开支。数据分析方法通常如下所示。

(1)关联分析与FP.growth算法关联分析是挖掘数据库中两个或多个变量之间存在的关系,该问题由Agrawal等于1993年首先提出。经典的关联算法为Apriori算法,该算法需要对频繁项集进行迭代生成和扫描。针对Apriori算法的固有缺陷,有学者提出了不产生候选挖掘频繁项集的方法:FP-growth算法。通过建立FP—tree,该算法解决了Apriori算法中的长频繁项搜索子项数量巨大的问题。实验表明,FP—growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。FP—growth的并行化,主要研究基于Map/Re—duce的FP—growth算法。理论上,通过对FP—Tree不断的递归挖掘就可以得到所有的完备频繁模式(Frequent Patterns)。但是在目前海量数据的现状下。FP—Tree已经大到无法驻留在计算机的内存中,因此并行化是必然的选择。

(2)分布式聚類算法为了发现设备故障和状态异常,可以对状态数据进行聚类,将正常状态和故障状态区分出来。通过聚类,可以将数据划分为不同的簇,其簇问差异较大,而簇内差异较小。聚类以样本间的相似度为基础,可以通过不同的距离计算方式达到不同的分类效果,如曼哈顿距离、欧氏距离、汉明距离或夹角余弦等。在能源互联网中数据采集量巨大,聚类需要分布式运行,整个聚类任务被当作一个Hadoop任务来并行运行,通过将分布式计算与迭代计算相结合,大大减少了计算时间。

5 大数据面临的挑战

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合;具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。例如,一个公民的心率和阵列望远镜一天将产生巨大的原始数据。海量的数据规模中很多数据是我们不感兴趣的。在大数据处理中面临的挑战是如何不丢弃有用信息的情况下定义有效的滤波器。我们需要研究的是科学数据简化,能够智能地处理这些原始数据。当人类消费信息时,很容易受到许多异质性的影响。事实上,自然语言的细微差别和丰富性可以提供宝贵的深度。然而,机器分析算法期望均匀的数据,并且不能理解细微差别。因此,数据必须作为数据分析(或之前)的第一步仔细构建。

在大数据的应用中,数据的隐私是一个巨大的问题。管理隐私实际上既是技术性的又是社会学问题,必须从两个角度共同解决,实现大数据的承诺。例如,考虑从基于位置的服务收集的数据,这些新架构需要用户与服务提供商分享的位,导致明显的隐私问题。隐藏用户身份而不隐藏其的位置将无法正确解决这些隐私问题。攻击者基于位置的服务器可以从其位置信息中查出查询源的身份。在大数据时代,数据采集和访问肯定会通过网络进行,这可能更容易受到攻击。我们可以通过当前相关的研究课题来想象可能的攻击。

另一个非常重要的方面是重新考虑大数据用例中信息共享的安全性。今天许多在线服务要求我们分享私人信息。不仅在计算方面,而且在网络的角度来看,隐私成为开发大数据的关键。数据社区在十多年前就实现了隐私保护数据发布(PPDP)的隐私问题,其次是隐私知识学习的新研究课题。此外,世界领先研究人员最近的调查报告指出,大数据的出现是机器学习技术发展的动力引擎,同时机器学习在大数据时代的隐私方面也构成了关键威胁。

参考文献

[1] Alexandros Labrinidis,H.V.Jagadish.Challenges and opportunities with big data[J].Proceedings of the VLDB Endowment,2012,5(12):2032-2033.

[2] Keim DA.Information Visualization and Visual Data Mining[J].IEEE Transactions on Visualization and Computer Graphics,2002,8(1):1-8.

[3] PC Wang,HW shen,CR Johnson,et al.The top 10 challenges in extreme-scale visual analytics[J].IEEE Computer Graphics and Applications,2012,32(4):63-67.

[4] Chaomei Chen.An Information-Theoretic View of Visual Analytics[J].Computer Graphics,2008,28(1):18.

[5] Zhicheng Liu,Nancy Nersessian,John Stasko.Distributed Cognition as a Theoretical Framework for Information Visualization[J]. IEEE Transactions on Visualization and Computer Graphics,2008,14(6):1173-1180.

[6] Cui Weiwei,Liu Shixia,Tan Li,et al.Textflow: Towards better understanding of evolving topics in text[J].IEEE Transactions on Visualization and Computer Graphics,2011,17(12):2412-2421.

[7] Herman Ivan,Melancon Guy,Marshall M.Scott.Graph visualization and navigation in information visualization:asurvey[J].IEEE Transactions on Visualization and Computer Graphics,2002,6(1):24-43.

[8] Gou Liang,Zhang Xiaolong,Lu ke.Treenetviz: Revealing patterns of networks over tree structures[J].IEEE Transactions on Visualization and Computer Graphics,2011,17(12):2449-2458.

[9] Cui Weiwei,Zhou Hong,Qu Huamin,et al.Geometry-based edge clustering for graph visualization[J].IEEE Transactions on Visualization and Computer Graphics,2008,14(6):1277.

[10]David Selassie,Brandon Heller,Jeffrey Heer.Divided Edge Bundling for Directional Network Data[J].IEEE Transactions on Visualization and Computer Graphics,2011,17(2):2354-2363.

[11]Ozan Ersoy,Christophe Hurter,Fernando Paulovich,et al.Skeleton-Based Edge Bundling for Graph Visualization[J].IEEE Transactions on Visualization and Computer Graphics,2011,17(12):2364-2373.

[12]王祖超,袁曉如.轨迹数据可视分析研究[J].计算机辅助设计与图形学学报,2015(1):9-25.

[13]陈谊,刘莹,田帅,等.食品安全大数据可视分析方法研究[J].计算机辅助设计与图形学学报,2017(1):8-16.

[14]陈良臣.大数据可视分析的若干关键技术研究[J].数字技术与应用,2015(11):98.

[15] 佚名.《空间可视分析方法和应用》出版[J].测绘通报,2008(2):10.

[16]邓超,宋金伟,孙瑞志,等.基于热力图的卷烟市场数据可视分析系统[J].烟草科技,2016(12):91-97.

[17]姜晓睿,田亚,蒋莉,等.城市道路交通数据可视分析综述[J].中国图象图形学报,2015(4):454-467.

[18]沈汉威,张小龙,陈为,等.可视化及可视分析专题前言[J].软件学报,2016(5):1059-1060.

[19]聂俊岚,陈欢欢,郭栋梁,等.多维数字战场态势可视分析研究[J].小型微型计算机系统,2014(3):626-629.

[20]梁荣华.“大数据可视分析”专栏序[J].中国图象图形学报,2015(4):453.

[21]杜一,任磊.DaisyVA:支持信息多面体可视分析的智能交互式可视化平台[J].计算机辅助设计与图形学学报, 2013(8):1177-1182.

[22]戴国忠,陈为,洪文学,等.信息可视化和可视分析:挑战与机遇——北戴河信息可视化战略研讨会总结报告[J].中国科学:信息科学,2013(1):178-184.

[23]Paek T,Dumais S,Logan R.WaveLens:A new view onto internet search results[A].Proc.of the CHI[C].2004:727-734.

作者:周梅

海战场态势可视化数据挖掘论文 篇3:

网络信息体系结构及其应用研究

摘 要:目前,信息已经成为一种重要的战略资源,网络信息体系结构能够促进信息的高效利用。该文通过分析网络信息体系结构的概念、构建过程及其基本内涵,结合某领域的应用特点,提出了面向某领域网络信息体系结构参考模型,同时详细分析了面向某领域网络信息体系结构应用的技术体制,包括云计算技术、数据挖掘技术、数据可视化、数据分发/信息推送以及云安全技术等。最后规划了面向某领域网络信息体系结构的一个典型应用模式,以期网络信息体系结构能够在该领域发挥其巨大的作用。

关键词:网络信息体系结构 参考模型 面向某领域网络信息体系结构 信息应用

Research on Concept and Application of the Web-Based Information Architecture

Cai Lei Lu yuchuan,Yang Cheng

(15th Research Institute of China Electronics Technology Group Corporation, Beijing,100083,China)

信息体系结构(Information Architecture,IA)最早是由美国建筑学家R·S·Wurlman于1976年提出,IA的主要任务有:(1)将数据中固有的模式进行组织,化复杂繁琐为简单明晰;(2)创建信息结构或地图,以便让他人获得自身所需的知识;(3)21世纪将应用于信息组织等学科领域。简而言之,信息体系结构就是从信息复杂的状态中抽取本质要点,并将这些要点以清晰美观易用的方式提交给用户。

20世纪90年代,网络信息爆炸般激增以及信息的无序传递和失控、信息污染、信息超载、信息贫困、信息焦虑等问题日趋严重,使得信息生态日趋复杂,人们在混乱的网络信息空间中,很容易迷惑和迷失方向,难以找到所需的适用信息,而且大量的信息早已超出了人们的吸收消化能力。在信息社会中,信息成为一种重要的战略资源,而无法被用户获取和使用的信息却不是资源,因此,为了解决信息环境中信息源与信息利用的矛盾成为亟待解决的问题,IA被人们引入到互联网,逐渐发展成网络信息体系结构(Web-Based Information Architecture,WBIA)。WBIA具有改善互联网信息生态环境、促进用户对信息的理解、吸收和利用等特点。

1 网络信息体系结构

目前关于网络信息体系结构的定义还没有一致的说法,一般认为,WBIA是指有效组织网络信息,高效构建网络信息环境(空间)或网络信息体系结构,以满足需求者信息需求的一门艺术和科学。

1.1 WBIA有两个显著特点

(1)始终强调信息的可理解性、便于用户获取、接受和使用,体现了“以用户为中心”的理念。(2)注重信息的表达,这是信息能够被用户理解的关键因素。

构建网络信息体系结构的过程中,信息按照由信息片段到信息集合,再到信息结构,最后形成信息空间这样一个过程而不断的发生改变。因此,可以说信息构建的过程就是为信息集合产生一个合理的信息结构,并在特定的信息空间中展示这种信息结构。整个构建过程需要四个步骤,如图1所示。

(1)信息片段集成。

从信息片段的采集开始,对所采集的信息进行内容和谐的、各种媒介和手段兼容的、综合且多方面的集成的过程。

(2)信息集合序化。

信息体系结构构建过程中,对信息集合中信息内容的组织和信息形式的表达实质上是增强有效信息含量,自觉控制信息体系结构中熵值,形成有条理、合逻辑、主题鲜明、主次关系清晰的网络信息结构。

(3)信息结构展示。

为序化后的信息设计一个协调一致的、功能化的信息架构,通过信息界面,有效的展示信息的内容、风格和特色,让用户能够感知信息结构中所存在的信息,方便的从中获取信息,以满足自己的信息需求,实现自己的目标。

(4)信息空间优化。

通过一系列手段和措施,减轻用户的认知负担,帮助用户缓解在复杂而且庞大的信息空间中所产生的心理迷惑,摆脱行为困境,同时增强人们的信息感知和信息捕捉能力,促进其对信息的有效接受和利用。

1.2 WBIA基本内涵

网络信息体系结构的本质是解决采集信息、序化信息、表达信息和传递信息的问题,根本目的是帮助人们快速查找信息和有效管理信息。北京大学赖茂生教授曾对IA的内涵进行了归纳[1],据此,结合网络信息特点,将WBIA的内涵归结为“一、二、三、四、五”。

“一”个空间:网络信息空间。

“二”种基本构建方法:自顶向下、自底向上。

“三”个基本阶段:调查分析、设计建模、实施及测试。

“四”类系统:内容组织系统、标识系统、导航系统、检索系统。

“五”种强调:强调信息可理解、强调体系结构、强调用户体验、强调可用性、强调科学与艺术的结合。

2 WBIA应用研究

2.1 面向某领域网络信息体系结构参考模型

面向某领域网络信息体系结构(Military Feild Oriented WBIA,MFOWBIA)是网络信息体系结构在某领域的直接应用,是在全面分析军队平时和战时信息需求的基础上,本着以“用户为中心”的原则,设计和组织信息内容,以提供丰富的用户体验。MFOWBIA参考模型指出了面向某领域网络信息体系结构的核心组成部分,其参考模型如图2所示。

(1)元数据模型。重点在于按照一定的规则的组织信息,构建用于提高内容共享和交互能力的元数据。

(2)信息内容模型。用于定义用户平时和战时工作对创建和共享信息的内容需求,包括信息的类型、内容和来源等。

(3)信息导航模型。依据一定的构建目标,定义用户及其相互之间的信息需求。

(4)作战目标。构建面向某领域网络信息体系结构一定具有相应的作战目标,所有的内容都必须符合这一目标。

(5)用户。主要是指需要获取信息的各级指挥机构、后勤保障、政工部门等用户。

(6)评审模型。信息内容受到评审模型的激励和制约。

2.2 面向某领域网络信息体系结构技术体制

面向某领域网络信息体系结构的应用的技术体制包括了云计算技术、数据挖掘技术、数据可视化、数据分发/信息推送及云安全技术等。

(1)云计算相关技术[2]。

云计算(Cloud Computing)是网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物,它将计算任务分布在由大量计算机构成的资源池上,使用户能够按需获取计算能力、存储空间和信息服务。世界主要军事强国正加紧推进云计算技术在军事信息领域内的应用研究,希望通过云计算将信息优势转化为决策优势、作战优势,实现向“网络中心战”转型。基于信息系统的体系作战,作战指挥人员都期望最大限度地拓展自己的信息空间,力求全面准确、及时详细、形象直观地获取战场信息。云计算技术使得低成本、高效的实现这一目标成为可能。

构建面向某领域网络信息体系结构需要处理的数据量巨大,处理时效性要求较高,因而对信息处理的准确性、及时性要求更高,在云计算环境下,各种传感器收集到的信息和数据汇总存储到“云”中,由网络上的云计算中心、服务器组共同承担计算任务(终端计算机不再承担大量计算任务),瞬息之间就可以处理超大规模的数据流量,实现快速情报融合、态势威胁分析、辅助决策等,为各级指挥员及时正确决策提供可靠的支持保障。

(2)数据挖掘技术[3]。

数据挖掘(Data Mining,DM)是目前人工智能和数据库领域的热点问题,所谓数据挖掘是指从大量数据中揭示出隐含的、先前未知的并有潜在价值信息的过程。数据挖掘是一种决策支持过程,主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化等技术,可以高度自动化的分析各类数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者做出正确的决策。数据挖掘的任务包括关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。

面向某领域网络信息体系结构构建在拥有丰富基础数据的云计算平台上,需要对原始数据进行充分挖掘,使其更加结构化、更具语义关联,从而实现了从“数据”到“信息”再到“知识”的积淀和进化,为作战指挥的决策提供有力的技术支持。

(3)数据可视化技术[4]。

数据可视化主要是借助图形化手段,清晰有效的传达与沟通信息,数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。数据可视化技术已经提出了许多方法,这些方法根据可视化的原理不同可以划分为基于几何的技术、面向像素技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术等。

构建面向某领域网络信息体系结构的主要目的是帮助各类用户高效的利用信息,而如何简洁美观的展示有效信息也是一个重要的因素,采用数据可视化技术能够让用户在纷繁杂乱的数据堆中解放出来,直观的看到对自己有用的信息。

(4)数据分发/信息推送服务。

数据分发服务的目的是为应用提供数据传递服务,其最优原则是按需分发的原则,即数据源产生的数据传递只传递给对此数据“感兴趣”的用户,如何在正确的时间从正确的地点获取正确的数据是数据分发服务要考虑的核心问题。数据分发/信息推送服务中包含三个主体:发布者、订阅者、传输网络。包括两种基本的实现技术:①自动拉取技术:最终用户要求发布者按照预先约定的时间自动提交所指定的新信息;②事件驱动技术:以预先设置的规则为基础,发布者判断规则是否发生,如发生则将相关信息提交给最终用户。

面向某领域网络信息体系结构中存在大量各种类型数据,需要将不同地点和不同时间的数据进行整合,数据分发过程随着数据需求的多样性而变得更加复杂,数据分发不仅需要建立发布与订阅两者间的数据传递关系,还需要提供数据在时间、空间和功能上的扩展能力。

(5)云安全技术[5]。

随着云计算技术的发展,云安全技术成为网络时代信息安全的最新体现,它融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念,通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,并发送到服务端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。“云安全”的策略构想是,整个互联网就是一个巨大的“杀毒软件”,参与者越多,每个参与者就越安全,整个互联网就会更安全。

面向某领域网络信息体系结构将海量数据存储在云端,且在云端对这些数据进行快速处理,这一过程不免会面临着数据/信息安全问题,采用云安全技术可以最大化的利用资源,采用最先进的防御和检测手段,抵御网络信息安全问题。

3 面向某领域网络信息体系应用规划

面向某领域网络信息体系结构包括统一的数据收集平台、数据处理模块、信息处理模块、信息应用模块、统一的信息服务平台、基础计算与储存模块。其应用规划图结构如图3所示。

将数据的采集接口进行统一,使用标准化的数据接入手段,能够自动的进行数据采集和传输。

(1)统一数据收集平台。

MFOWBIA的数据来源主要包括作战类(情报、作战力量、作战系统等)数据、后勤保障类数据、政治工作类数据、环境类数据等。其中,这些数据的量大且形式多种多样,有纸质文件、电子化文档以及格式不同的数据结构等,因此,需要采用规范的数据描述格式,将所有数据进行电子化、格式化、标准化,而后进行统一的采集录入。

(2)数据处理模块。

统一数据收集平台采集的数据,还需要进行相关处理才能入库保存。首先需要对这些数据进行分类,然后针对不同类的数据分别进行预处理,去伪存真,最后对处理后的数据进行云存储。

(3)信息处理模块。

大量的原始数据存入后,并不能直接为人所用,还需要在这些巨量的数据中找出信息,进而形成知识供用户使用。因此需要进行数据挖掘,此时还需要对挖掘后的信息进行管理,根据用户的使用需求进行信息发布。

(4)信息应用模块。

信息处理后,需要提供对这些信息的检索服务,信息访问处理服务,通过这些服务,用户就可以编写自己的应用访问这些信息,满足自己的特殊需求。另外,这些信息并没有通过专家、用户的认可,同时一些信息可能早已过时,因此需要一套信息评价机制来对这些信息进行打分,保证信息的正确性和有效性。

(5)统一信息服务平台。

MFOWBIA为终端用户提供了统一的信息服务接口,方便用户调用编写自己的应用,如用于知识查询、决策支持、知识反馈以及极具专业特色的应用等。

(6)基础计算与储存模块。

云相关技术是一种新兴的共享基础架构的方法,它以公开的标准和服务为基础,以互联网为中心,提供安全、快速、便捷的数据存储和网络计算服务。巨大的数据量要求能够存储海量数据的云存储技术,对于海量数据的计算处理,需要通过云计算技术来降低成本,加快处理速度。数据存放在云端并不安全,需要云安全技术来保证数据的存储、访问、使用的安全。

4 结语

近年来,随着战争的信息化转变,作战相关信息如爆炸般激增,如何在繁杂的信息海洋中准确抓住战机,对于战争的胜利起着非常重要的作用,网络信息体系结构恰好能够满足这一需求。该文简单分析了网络信息体系结构,提出了一种应用规划设想,以期网络信息体系结构能够在某领域发挥其巨大的作用。

参考文献

[1] http://net.pku.edu.cn/~wbia/2013Fall.

[2] 唐鹏,宋巍.浅谈云计算技术[J].电子制作,2013(12):125.

[3] 张艳英,朱婕.数据仓库、数据挖掘及网络信息服务[J].现代情报,2003(12):2-3.

[4] 任永功,于戈.数据可视化技术的研究与进展[J].计算机科学,2004(12):92-96.

[5] 俞能海,郝卓,徐甲甲,等.云安全研究进展综述[J].电子学报,2013(2):371-381.

作者:蔡磊 卢玉川 杨诚

上一篇:学生顶岗实习离职酒店管理论文下一篇:交互式电子白板高中语文论文