机器数据

2024-05-10

机器数据(精选九篇)

机器数据 篇1

首先从两款比较有代表性的翻译软件说起, 比如谷歌翻译, 其翻译是将语言词汇和相关语法编入程序, 然后通过电脑程序进行翻译, 属于比较典型的机器翻译。这种翻译软件翻译出来的句子往往令人啼笑皆非, 生搬硬套下造成种种牛头不对马嘴的例子比比皆是。语言如此精妙的东西, 以当今的电脑程序发展水平还不能驾驭, 这也是为什么需要翻译人员的原因。

第二款翻译软件是塔多思 (Trados) , 这是一款翻译记忆软件, 它的翻译方式不同于谷歌翻译, 谷歌翻译是通过计算机程序, 而塔多思是通过“记忆”。塔多思公司能凭借这款翻译软件在伦敦股票交易所上市, 可见其使用人数之多和销量之大。塔多思的两大特点是辅助翻译和翻译记忆。辅助翻译就是在翻译过程中, 人仍然占据着主导的地位, 机器是辅助地位。而所谓翻译记忆就是, 塔多思不同于谷歌翻译, 谷歌是用计算机程序进行翻译, 而塔多思是凭借之前翻译过的例子给人提供一个参考。比如在翻译一个建筑方面的文本中, 总会出现之前翻译过的词汇和句子, 这样重复翻译就没有必要了, 塔多思就会记忆下你翻译过的每一个句子, 在相同句子再一次出现时, 塔多思会给出之前翻译过的结果, 从而自己选择是否进行采纳。随着自己翻译过的资料越来越多, 自己电脑中的塔多思记忆库也会越来越丰富, 这样重复翻译出现的概率就会增大, 塔多思往往会使翻译效率成倍增加, 特别是对职业笔译工作者来说, 塔多思是必备的翻译软件。

但是在今天, 依托着云计算技术, 大数据这个概念被英国经济学家舍恩伯格提出。正如文章的第一段所说, 每人每天都在产生大量的数据, 这些数据就相当于自己留下的轨迹。如果能将翻译记忆技术与大数据相融合, 古往今来每个译者所做的任何一个翻译都被记录到翻译记忆库中, 那么前文所说的翻译记忆库将是海量的, 人人都贡献分享自己的翻译记忆库, 并且将之前自从人类有翻译活动以来所有产生出来的翻译结果都录入翻译记忆数据库, 那么在未来, 这个翻译记忆库会不断地增加, 不断地丰富, 随着时间的推移, 在当今全球化的世界, 只要有国际间的交流, 就会有翻译活动的产生。待将来数据挖掘技术日臻成熟, 那么将来的翻译, 特别是笔译就会产生革命性的变革。面对着一篇文章, 大部分的内容都不需要自己进行翻译, 自己所要做的任务就是选择正确的译法和调整句子以使其更适合篇章, 因为这些句子前人已经翻译过, 看到一个句子后, 大数据会给我们提供许多翻译作为参考, 而且这些翻译不是计算机程序生成的, 而是前人所翻译过的, 大数据时代下的机器只是将它们存储并且挖掘。当某一天翻译记忆库中的数据真的可以用“海量”来形容, 那么我们做翻译就不是在做“问答题”, 而是在做选择题了。

翻译软件也一样, 都是同样的原理。都是随着时间的推移, 它就会变得越来越强大。今天, 在专业领域或非文学方面, 塔多思已经是笔译工作者人手必备。将来或许塔多思可以在文学方面有所建树, 比如将翻译过的文学篇章都输入进翻译记忆库, 而且将各个翻译大家的作品都输入进去, 这样在作文学翻译时, 遇到某一词组或者句子, 塔多思就会提示道许渊冲的译法是……, 傅雷的译法是……。并且将来的翻译软件还可以引入评分系统, 面对着海量的翻译数据, 被频繁采用的可以评高分, 罕有采用的评低分, 这样数据就会被分类, 会更合理地被人们利用。

大数据技术对于各行各业都是一次革命, 在我们笔译领域也同样如此, 科技突飞猛进, 我相信, 有一天, “当我做翻译的时候, 其实是做选择题”这一翻译梦会实现。海量的数据加上优良的翻译人员, 未来的机器翻译会是另一番面貌。

参考文献

[1]维克托?迈尔?舍恩伯格, 肯尼思?库克耶 (著) , 盛杨燕, 周涛 (译) .大数据时代[M].杭州:浙江人民出版社, 2013.

机器数据 篇2

大数据背景下的机器算法

专业

计算机科学与技术

学生姓名

杨宇潇

学号

***4

一、选题的背景、研究现状与意义

为什么大数据分析很重要?大数据分析可帮助组织利用其数据并使用它来识别新的机会。反过来,这将导致更明智的业务移动,更有效的运营,更高的利润和更快乐的客户。

在许多早期的互联网和技术公司的支持下,大数据在2000年代初的数据热潮期间出现。有史以来第一次,软件和硬件功能是消费者产生的大量非结构化信息。搜索引擎,移动设备和工业机械等新技术可提供公司可以处理并持续增长的数据。随着可以收集的天文数据数量的增长,很明显,传统数据技术(例如数据仓库和关系数据库)不适合与大量非结构化数据一起使用。Apache软件基金会启动了第一个大数据创新项目。最重要的贡献来自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是复杂数据准备和ETL的旗舰,可以为许多数据存储或分析环境提供信息以进行深入分析。Apache Spark(由加州大学伯克利分校开发)通常用于大容量计算任务。这些任务通常是批处理ETL和ML工作负载,但与Apache Kafka等技术结合使用。

随着数据呈指数级增长,企业必须不断扩展其基础架构以最大化其数据的经济价值。在大数据的早期(大约2008年),Hadoop被大公司首次认可时,维护有用的生产系统非常昂贵且效率低下。要使用大数据,您还需要适当的人员和软件技能,以及用于处理数据和查询速度的硬件。协调所有内容同时运行是一项艰巨的任务,许多大数据项目都将失败。如今,云计算已成为市场瞬息万变的趋势。因为各种规模的公司都可以通过单击几下立即访问复杂的基础架构和技术。在这里,云提供了强大的基础架构,使企业能够胜过现有系统。

二、拟研究的主要内容(提纲)和预期目标

随着行业中数据量的爆炸性增长,大数据的概念越来越受到关注。由于大数据的大,复杂和快速变化的性质,许多用于小数据的传统机器学习算法不再适用于大数据环境中的应用程序问题。因此,在大数据环境下研究机器学习算法已成为学术界和业界的普遍关注。本文主要讨论和总结用于处理大数据的机器学习算法的研究现状。另外,由于并行处理是处理大数据的主要方法,因此我们介绍了一些并行算法,介绍了大数据环境中机器学习研究所面临的问题,最后介绍了机器学习的研究趋势,我们的目标就是研究数据量大的情况下算法和模型的关系,同时也会探讨大部分细分行业数据量不大不小的情况下算法的关系。

三、拟采用的研究方法(思路、技术路线、可行性分析论证等)

1.视觉分析。大数据分析用户包括大数据分析专业人士和一般用户,但是大数据分析的最基本要求是视觉分析。视觉分析直观地介绍了大数据的特征,并像阅读照片的读者一样容易接受。2.数据挖掘算法。大数据分析的理论中心是数据挖掘算法。不同的数据挖掘算法依赖于不同的数据类型和格式来更科学地表征数据本身。由于它们被全世界的统计学家所公认,因此各种统计方法(称为真值)可以深入到数据中并挖掘公认的值。另一方面是这些数据挖掘算法可以更快地处理大数据。如果该算法需要花费几年时间才能得出结论,那么大数据的价值是未知的。3.预测分析。大数据分析的最后一个应用领域是预测分析,发现大数据功能,科学地建立模型以及通过模型吸收新数据以预测未来数据。4.语义引擎。非结构化数据的多样化为数据分析提出了新的挑战。您需要一套工具来分析和调整数据。语义引擎必须设计有足够的人工智能,以主动从数据中提取信息。5.数据质量和数据管理。大数据分析是数据质量和数据管理的组成部分。高质量的数据和有效的数据管理确保了分析结果在学术研究和商业应用中的可靠性和价值。大数据分析的基础是前五个方面。当然,如果您更深入地研究大数据分析,则还有更多特征,更深入,更专业的大数据分析方法。

四、论文(设计)的工作进度安排

2020.03.18-2020.03.20 明确论文内容,进行相关论文资料的查找与翻译。2020.04.04-2020.04.27:撰写开题报告。

2020.04.28-2020.04.30 :设计实验。

2020.05.01-2020.05.07 :开展实验。

2020.05.08-2020.05.15 :准备中期检查。

2020.05.16-2020.05.23:根据中期检查的问题,进一步完善实验2020.05.24-2020.05.28 :完成论文初稿。

2020.05.29-2020.06.26 :论文修改完善。

五、参考文献(不少于5篇).王伟,王珊,杜小勇,覃雄派,王会举.大数据分析——rdbms与mapreduce的竞争与共生.计算机光盘软件与应用,2012.被引量:273..喻国明.大数据分析下的中国社会舆情:总体态势与结构性特征——基于百度热搜词(2009—2 012)的舆情模型构建.中国人民大学学报,2013.被引量:9.3.李广建,化柏林.大数据分析与情报分析关系辨析.中国图书馆学报,2014.被引量:16..王智,于戈,郭朝鹏,张一川,宋杰.大数据分析的分布式molap技术.软件学报,2014.被引量:6..王德文,孙志伟.电力用户侧大数据分析与并行负荷预测.中国电机工程学报,2015.被引量:19..江秀臣,杜修明,严英杰,盛戈皞,陈玉峰 ,郭志红.基于大数据分析的输变电设备状态数据异常检测方法.中国电机工程学报,2015.被引量:8..喻国明.呼唤“社会最大公约数”:2012年社会舆情运行态势研究——基于百度热搜词的大 数据分析.编辑之友,2013.被引量:4.

六、指导教师意见

签字: 年 月 日

七、学院院长意见及签字

(办公室盖章)

机器数据 篇3

【摘 要】服务机器人的自主导航过程通常处于不确定的环境中,单一的传感器提供信息己经无法满足现代移动机器人的需求,多传感器信息融合技术在机器人领域得到广泛应用。项目以国家863重点项目成果“护理机器人”样机为平台,研究室内移动服务机器人的多传感器信息融合、路径规划与运动控制方法,为今后室内机器人定位的研究提供理论依据和具有实用性的参考。

【关键词】服务机器人;D-S论证;数据融合

引言

随着机器人技术的发展,机器人的用途开始从传统的工业领域不断向军事、医疗、服务等领域拓展。服务机器人是本世纪最有发展潜力的一个应用领域,据预测在未来一段时间内服务机器人的需求数量将会超过工业机器人[1]。美国、欧洲、日本和韩国都制定了研制服务机器人的国家中远期研究计划。我国863计划2006年开始将“智能机器人技术”列为专题,为服务机器人研究提供支持,推动服务机器人发展,因为服务机器人研制的意义为:(1)解决社会人口结构变化问题——全球性人口老龄化问题,为老人提供陪护服务,缓解社会压力,并监控环境安全[2] ;(2)提高社会生活质量,提供多种移动服务作业例如:导游、娱乐、清扫和网络信息服务等,服务机器人可胜任伙伴;(3)提升家居环境智能,随着IPV6技术的推进和3G时代的到来,家电网络化和多功能化,服务机器人替主人担当管家。在无人值守的室内环境下服务机器人能够担当保姆角色与远程家人实时保持交互,并监控室内安全;(4)在康复和助残方面服务机器人也是病人的得力助手。

1.服务机器人技术的研究

服务机器人是一种自主或半自主的能够提供服务而不是提供生产的机器人,这种机器人能够改善人们的生活质量[3]。服务机器人的研究始于上世纪60年代末期,Nilssen等人开始研制自主移动机器人(Autonomou mobile robot,AMR)Shakey,在复杂环境下将人工智能技术应用于机器人系统,以完成自主推理、规划和控制的功能[5]。服务机器人应用范围广泛,TCSRIRAS在应用范围上将服务机器人分为:清洗管家、教育机器人、类人机器人、人道主义排雷机器人、康复机器人、检查监视机器人、医疗机器人、建筑、自动回填机械、导游及办公室环境、消防机器人、搜索及拯救机器人和食品工业等16种服务机器人并给出相关研究机构和科研成果[4]。Care-O-Bot III是Fraunhofer IPA研制的最新一代服务机器人,和前两代产品相比,尽管也配有激光测距传感器和视觉系统,但在控制方法、传感器、中间件、运动学、皮肤和人机界面等方面做了很多改进[15-17]。

2.移动机器人多传感器信息融合技术的研究

移动机器人在自主导航定位过程中,必须以有效且可靠的环境感知为基础。由于各类传感器信息的物理性能局限性、不完备性和不确定性,利用具有冗余性和互补性的多传感器信息融合技术能全面地描述周围的工作环境并提高系统的可靠性。目前,多传感器信息融合技术常用的方法包括加权平均,卡尔曼滤波,贝叶斯估计,统计决策理论,神经网络,模糊推理和Dempster-Shafer(D-S)证据理论[18]-[25]。针对移动机器人所处的动态工作环境,以贝叶斯概率描述不确定因素在实际应用中鲁棒性较好,但算法通常需要先验假设且计算量大,因此具有一定的局限性;D-S证据理论满足比贝叶斯理论更弱化的条件假设,可以不需要先验知识,通过证据信息对假设做出判断,得到各个假设的基本信度赋值。虽然D-S证据理论可以有效处理不确定信息,但处理冲突信息能力不够。作为D-S证据理论的发展,证据推理(Evidential Reasoning)方法在处理不确定或不完整和冲突信息方面适应性更强,已成功应用于不确定系统建模和多源信息融合[24][25]。

针对室内环境下服务机器人系统建立及定位问题进行研究,首先面向家庭环境多任务需要,建立服务机器人系统,然后基于证据推理方法的移动机器人多传感器信息融合技术对其定位理论进行分析和证明,在实验室环境下对新平台进行定位算法验证。

3.基于证据推理方法的移动机器人多传感器信息融合技术

根据已知环境地图的栅格矩阵,推理每个栅格被障碍物占用的置信度。其映射关系为: 其中M, N表示二维空间中栅格的数量,R表示实数空间,Belief表示某个栅格被障碍物占用的置信度。在证据推理框架下,首先确定辨识框 中的基本焦元 和 ,定义 表示某个栅格为空, 表示该栅格被障碍物占用。在某t时刻超声波传感器或红外PSD传感器采集的数据信息作为一条证据源,构造证据置信度函数 ,在辨识框 中用 表示不确定信息。通过证据推理算法融合所有传感器的置信度函数值,得到每个栅格被障碍物占用的置信度值,确定整个工作环境数据栅格的置信度分布图。在数据融合过程中可根据工作环境信息动态调整不同传感器证据信息的相对权值。此外,在本项目中还可以利用护理机器人士工作环境顶部的摄像头和驱动轮上的编码器信息动态修正数据融合结果。

4.结论

项目在已有研究工作的基础上,结合移动机器人现有的自主导航技术,以护理机器人样机为平台,重点研究室内移动服务机器人的多传感器信息融合、路径规划与运动控制技术。对于提高家庭生活支援机器人的自主定位能力和运动控制精度,使其走出实验室逐步产业化具有重要的理论价值和实际意义。

参考文献:

[1]张炜.环境智能化与机器人技术的发展[J].机器人技术与应用.2008,3:13~16.

[2]张钹.机器人的智能化.国家863计划智能机器人主题专家组.迈向新世纪的中国机器人.辽宁科学技术出版社,2001:30~32.

[3]赵立军.室内服务机器人移动定位技术研究[D]:博士学位论文.哈尔滨:哈尔滨工业大学,2009.

[4]Nilsson N J. A mobile automation: An Application of Artificial Intelligence Techniques. Proceedings of the 1st In ternational Joint Conference on Artificial Intelligence. 1969:509~520.

救援机器人数据采集系统的实现 篇4

一、数据采集系统的主要功能和组成结构

本文设计机器人数据采集系统主要包括三个部分, 分别是:图像采集和传输部分、无线遥控部分和A/D 数据采集部分。

其中图像采集和传输部分:通过摄像头获取机器人周围的地理位置, 环境状态, 通过微波图像发射机将图像发送给监控站的微波图像接收机, 经过监控计算机的图像采集卡处理后输出图像, 将模拟信号转换为数字信号传递给上位机, 根据这些信号上位机做出判断和决策。

无线遥控部分:包括两个部分的功能, 一是将地面监控 PC 机发出的控制信号传输给机器人上的 PC104 计算机, 再由 PC104 计算机发出控制指令;二是将机器人的相关状态数据发送回监控 PC 机。

A/D 数据采集部分:通过数据采集卡对各种模拟信号进行采集, 经 AD 转换后传输给 PC104 计算机。考虑到机器人在废墟里运动的特殊环境, 崎岖不平的路面, 因此在机器人上安装加速度传感器显得尤为重要。加速度传感器安装在机器人的各个面上, 可以测量出机器人各个面的姿态和角度, 然后进行实时的调整, 使机器人进行最合理最有效的运动。数据采集卡为生命探测传感器预留了接口, 生命探测传感器是机器人在执行任务时必须携带的传感器, 使搜救工作变得简单易行。在分秒必争的营救工作中, 生命探测传感器可以帮助搜救人员迅速准确安全地发现仍然存活的遇险者, 从而为营救工作争取到宝贵的时间。机器人的数据采集系统组成框图如图 1所示。

二、图像采集和传输

(一) 智能云台摄像机。

云台是承载摄像机进行水平和垂直两个方向转动的装置, 把摄像机装云台上能使摄像机从多个角度进行摄像。云台内装两个电动机。他们分别负责水平方向的转动和垂直方向的转动。水平转动的角度一般为 350 度。垂直转动则有 45 度、35 度、75 度等等。水平及垂直转动的角度大小可通过限位开关进行调整。云台摄像机采集模拟图像, 由图像发射装置通过微波传输到监控中心的图像接收装置, 再由图像采集卡将模拟信号处理成数字通过监控计算机显示出来

(二) 图像发射与接收装置。

救援机器人本体上安装智能云台摄像机, 通过图像发射与接收装置传输到监控PC机上。这里采用的是无线影音传输, 发射装置传输影音模块型号为FOX-2500, 体积:90*50*17mm, 传输距离可以达到2公里以上, 可以达到音频视频同步, 工作频段为1.2G~1.3G。拥有体积小、重量轻, 传输距离长等优点。地面基站装无线影音模块接收机FOX-02, 另配20db的定向天线, 增强信号接收能力和抗干扰能力。

(三) 数据采集卡的硬件平台。

数据采集卡是针对加速度传感器和生命探测仪信号的采集, 由于机器人是五面体结构, 每一个面均安装一片数据采集卡。考虑到 A/D 采样芯片如 AD7891 等模拟通道足够多, 转换速度和转换精度满足的情况下, 成本较高。这里所采用的是 ATmega16L, 它是具有 16KB 系统内可编程 Flash 的高性能, 低功耗 8 位 AVR 微控制器;工作电压在 2.7~5.5V 之间;工作于 16MHZ时性能高达 16MIPS;具有 8 路 10 位 ADC;32 个可编程 I/O 口;具有一整套的编程与系统开发工具, 数据采集卡框图 (如图 2所示) 。

三、三维图像的形成

彩色CCD摄像机摄取的图像, 是以RGB坐标系表示颜色, 而RGB坐标系并不能直接表示彩色感觉, 必须经过变换, 变换到另外一种可以直接表示彩色感觉的色度坐标系当中。这需要两个步骤, 首先把亮度和彩度分离, 得到一维的亮度子空间和二维的彩度子空间;然后再把彩度分解成色调和饱和度两个量。其中色调H表示彩色彼此相互区分的性质, 如红, 橙, 黄, 绿, 青, 蓝, 紫这些颜色的不同, 就表现为色度的不同。饱和度S, 表示彩色的纯洁度, 而亮度Y, 则表示彩色的明亮程度。

我们选择Y I Q坐标系作为变换坐标系。其变换关系为

undefined

在颜色分解过程中以色调作为颜色分类的主要依据, 采用聚类的方式实现颜色分割。用于标定的图像的颜色分类没有任何限制, 但需要对分类的结果做直线拟合, 最后给出颜色类的在图像平面上的直线方程。用于三维计算的图像的颜色分类则要求所分得的各类必须是经过标定的颜色类, 否则, 需要以最小误差准则将其归于某一标定的颜色类。

该方法的标定技术包括摄像机标定和颜色面的标定两部分。由于我们采用空间“视线”与空间光面的交点来计算三维坐标, 待标定参数即为摄像机的参数和各谱线所对应的空间颜色面的空间方程。这里, 着重介绍颜色面的标定。

直线光源可以在空间形成一个光平面, 连续光谱中, 每一条垂直的谱线都对应于空间的一个光平面, 如图3所示。

设该连续光谱中共包括n条谱线其波长分别为Ki (1〈i〈n) , 对应于n个空间颜色面Ci (1≤i≤n) 。我们用两个平行的空间平面Za和Zb截这些平面, 得到两组空间直线。设截颜色面Ci所得的两条空间直线分别为Lia和Lib, 则这两条空间直线必然在颜色面Ci上, 由两直线的空间方程可以求得颜色面Ci的空间方程。具体的实现过程为:在与Z轴垂直的方向上放置一个可以沿着Z轴移动的白色平面, 用连续光谱照射这个平面, 在两个不同的位置Za和Zb上用彩色CCD摄像机分别取两幅图像, 通过颜色分解分别求出两幅图像中各彩色在图像平面上的直线方程, 设空间直线Lia在图像平面的直线方程为V=Kiau+bia, 空间直线Lib在图像平面的直线方程为v=Kibu+bib.根据摄像机模型, 可以分别计算出空间直线Lia和Lib上各点的空间三维坐标。因为这些点都在空间平面Ci上, 可以通过平面拟合的方式求得该面的空间方程。

四、结语

救援机器人数据采集系统, 主要通过摄像头和多传感器的应用达到对图像采集的目的, 并通过微波发射机将图像发射给图像监控站的接收机上, 已达到图像采集和传输的过程, 使救援人员在监控PC机上观测到采集的数据, 并通过PC机指示机器人进行搜救工作, 方便救援人员对机器人的控制。

参考文献

[1].高国富, 谢少荣, 罗均.机器人传感器及其应用[M].北京:化学工业出版社, 2005

[2]. (日) 西原主计, (日) 山藤和男著;牛边强, 赵文珍译.有视觉机器人制作[M].北京:科学出版社, 2002

[3].吕泉.现代传感器原理及应用[J].北京:清华大学出版社, 2006

[4].A.Mainwaring, J.Polastre, R.Szewczyk, D.Culler, et al.Wireless sensor networks for habitat monitoring[C], Proceed-ings of the ACM International workshop on WirelessSensor Net-works and Applications, Atlanta, GA, United States, 2002

基于机器学习算法的大数据处理 篇5

关键词:大数据,机器学习,算法

1 大数据内涵与特征认知

关于大数据的定义尚未统一, 从狭义定义来看, 不能载入计算机内存储器的数据即大数据, 虽然这种定义并非正式定义, 但容易被理解与接纳。从广义定义来看, 大数据指的是在传统IT技术与软件、硬件工具条件下, 在一定时间范围内无法完成感知、获取、管理、处理与服务的数据集合。大数据特征主要表现数据量庞大、积累速度快、数据类型多样、变化性突出。从海量与复杂多变的数据中, 如何进行有效数据挖掘, 以获取数据中隐藏的知识与价值, 是现代产业发展的重要方向。

传统机器学习主要包括四个部分, 对人类学习过程进行理解与模拟;对人类用户与计算机系统之间的语言接口进行研究;问题自动规划能力设计;设计能够发现新事物的程序以实现机器学习目的。然而传统机器学习多在小数据环境下运行, 所依赖的机器学习算法难以支撑大数据学习。基于此, 为解决大数据问题, 必须深入研究大数据环境下的机器学习算法问题。

2 大数据环境下机器学习算法分析

2.1 大数据分治策略

大数据处理中, 分治策略十分重要。一般而言, 数据中样本差异性对学习结果的重要程度存在着较大影响, 一些噪音数据与冗余数据在带来存储消费问题的同时, 还会降低学习算法运行质量, 影响机器学习精度。基于此, 应采取一定的标准遴选出代表性样本, 通过代表性样本构成子集, 并在子集基础上进行学习方法构造, 完成相关的学习任务, 从而在降低数据存储消耗问题的同时, 提高运行效率与学习质量。然而当前主流的样本选取方法主要以小数据集为对象, 如编辑最近领、约减最近邻与压缩最近邻等, 这些样本选择方法以最小一致子集为核心概念。Jordan提出以分支算法进行大数据统计推理, 这种方法实现的基础在于确定数据集合置信区间;Bootstrap理论提出, 通过获取采样数据评估值波动来确定置信区间, 然而大数据环境下数据具备不完全抽样特征, 评估值波动范围难以准确捕捉。Jordan提出Bag of Little Bootstraps程序, 为大数据准确统计推理提供了可能。Jordan在矩阵计算中提出分治策略, 获得较好效果。

2.2 大数据特征选择

多媒体索引、数据挖掘等多以大数据集为对象, 其数据中包含庞大的记录数与属性数, 从而对算法执行效率带来严重影响。基于此, 进行大数据属性特征选择, 将无关属性进行剔除, 则能够提高算法运行效率, 提高模型计算精度。大数据环境下其数据量庞大, 内容种类繁杂, 为提高大数据分析效率与质量, 需要以张量分解为重要工具。Koida提出应用MET分解方法来解决传统张量分解中无法解决的大数据处理问题, 通过MET程序以内存自适应为基础执行相关分解策略, 实现了内存环境下最大化运行, 有利于消除中间溢出问题。Anaraki提出带阈值的模糊下近似模糊粗糙集特征选择方法, 引入阈值以降低大数据集中选取特征数量, 进一步提高数据特征提取准确性。

2.3 大数据分类与大数据聚类

当前, 大数据分类问题处理问题较为普遍。然而采取传统分类算法, 难以实现大数据分类处理。如采取传统统计机器学习方法, 则存在着无法应用于大规模数据集、置信区间拟合模型预测未执行等问题。基于此, Lau提出在线学习算法, 在大数据分类问题中获得突破。Laskov则在研究中提出支持向量机学习方法。Kin基于增量核主成分分析与支持向量机等理论提出满足大数据的特征提取与分类算法, 能够对大数据分类问题提供解决路径。传统前馈神经网络采取梯度下降法进行权值参数调整, 其泛化性能差且学习速度慢, Huang提出EIM方法, 在单隐层神经网络输入权值与偏差项中采取随机赋值方式, 能够有效提高学习效率。为确保大规模数据能够实现并行处理, Papadimitriou提出Map Reduce模型, 通过该模型实现协同聚类, 以满足大规模数据聚类需求。

2.4 大数据关联分析

Apriori算法属于关联分析的基础算法, 在其基础上提出众多算法, 如序列模式挖掘算法、广义序列模式算法等。为解决大数据关联问题, 需要通过并行与增量两个方面来解决。Li提出Map Reduc并行Apriori算法, 将产生候选集项的过程实现了并行化处理, 切实提高了学习效率。有学者提出性能与差异均衡算法、增量频繁序列挖掘算法、增量更新序列算法等, 为大数据增量问题提供了方法。

2.5 大数据并行算法

应用传统机器学习算法进行大数据问题处理, 必须对现存的学习算法采取并行化处理, 如通过并行架构的图形处理器提高计算机运行能力。Hefeeda提出近似算法, 实验证明其算法在大规模数据集处理中具备优势。Cheng等提出分布式系统, 以大规模可伸缩数据为处理对象, 通过用户进行聚合自定义来实现数据分析, 能够实现一定量级大数据处理。

3 结语

当前, 我们置身于数字化时代, 随着数据快速积累, 大数据问题越发突出。大数据具备数据海量性、构成复杂性、变化快速、高噪音、关系复杂等特征, 采取传统机器学习算法难以实现大数据有效分析与处理。基于此, 需要深入研究大数据处理基本技术。重点从大数据分治策略、特征选择、大数据分类与大数据聚类、关联分析、并行算法等方面对大数据环境下机器学习算法进行研究。相信随着大数据处理理论与技术的发展, 大数据处理问题将逐渐解决。

参考文献

[1]何清, 李宁, 罗文娟等.大数据下的机器学习算法综述[J].模式识别与人工智能, 2014, (4) :327-336.

[2]张宏莉, 鲁刚.分类不平衡协议流的机器学习算法评估与比较[J].软件学报, 2012, 23 (6) :1500-1516.

[3]王晓.大数据环境下机器学习算法趋势研究[J].哈尔滨师范大学自然科学学报, 2013, 29 (4) :48-50.

机器数据 篇6

空间自由飞行机器人(Free—Flying Space Robot,简称FFSR)是目前空间机器人领域的主要研究方向之一,它由机器人本体(星体)和搭接在本体上的机械臂组成,本体上携带有喷气装置,可以在宇宙空间自由飞行或浮游,代替宇航员完成舱外作业[1]。FFSR的主要用途是对卫星做在轨服务,即用来对失效卫星捕捉、维修(包括零部件更换和能量补给等)、重新投放使用、使卫星再生等作业。卫星的在轨服务一方面能挽救失效卫星得到极大的经济效益,另一方面能排除失效卫星等因素造成的空间垃圾[2,3]。

空间机器人在轨应用之前,必须在地面搭建相应的微重力实验环境或仿真环境,对其进行实验研究。随着空间机器人技术的发展和深入研究,近年来,空间机器人地面试验研究已经成为当前的一个重要研究热点。本文在对利用气浮重力补偿方式搭建的空间机器人地面试验平台进行简要介绍的基础上,主要探讨主控系统(IPC机)和自由飞行机器人控制器间的数据打包/解包算法及通信程序设计。

1 基于遥操作技术的自由飞行机器人实验系统

空间机器人地面试验平台主要是在地面模拟太空的微重力环境,通过各种重力补偿的方式抵消空间机器人所受到的重力影响,以验证空间机器人各关节的活动能力、整体运动性能等指标,并进行机器人空间作业的模拟试验,及时发现结构、性能等方面的缺陷或故障,并进行改进和完善,保证机器人在太空环境中能执行并完成各种任务[4]。

实验室搭建了以气浮为重力补偿方式[5]的基于在轨服务的遥操作自由飞行机器人地面试验平台。该机器人实际上是一颗服务星,通过对分布在星体四周的8个气动喷嘴进行伺服控制,来控制星体的前进、后退、左移、右移及绕Z轴的正、反转。星体上设置有对接机构,可以实现与其他目标星的交会对接。星体上的5DOF机械臂可以实现典型的在轨服务和插拔动作。在机械臂的端部安装有智能位姿传感器,可以灵敏地实现对目标进行定位。其结构简图如图1所示。

主控系统(IPC)与自由飞行机器人之间采用蓝牙通信进行信息交换。IPC一方面为人机对话提供接口(手控器或人机图形界面),主要完成系统参数的设置、控制系统运行状态以及系统重要参数的图形化显示;另一方面实现一定的控制算法,生成自由飞行机器人的控制命令及控制参数;对数据进行打包,并通过蓝牙无线通信发送给自由飞行机器人,控制其动作。自由飞行机器人控制器作为下位机,一方面根据上位机(IPC)发来的控制命令和运动参数,通过运动控制算法,实现预定的动作;另一方面对机器人运动信息和现场环境信息进行实时采集,数据打包,然后通过蓝牙无线通信,实时上传给IPC。

总之,各种控制命令、系统参数和数据的传送和交换,都依赖于IPC与自由飞行机器人控制器之间的蓝牙无线通信。作为遥操作系统的重要数据通道,其数据的打包与解包算法、无线通信的协议及通信接口软件的设计,在整个系统中具有举足轻重的作用。

2 数据打包算法及通信协议

遥操作系统的主手与从手之间的数据通信方法,对整个系统的实时控制与工作性能有很大的影响,特别是数据打包算法与解包算法的效率,是设计中应该重点考虑,并积极控制的重要因素。

2.1 对数据打包算法的基本要求

对于遥操作系统进行通信的数据打包算法,有实时性的要求,因此,与一般网络传输数据文件的打包算法有明显不同。在保证实时性要求的前提下,如何高效、准确地对数据包进行处理,即发送时如何根据通信协议对数据进行“打包”,接收时如何根据通信协议对接收到的数据信息“拆包”,并快速取出自己想要的数据信息。保证算法高效,误码率低是确定数据打包和解包算法基本要求时应该考虑的主要因素。具体应该遵循以下几个原则:

1)数据包必须有包头。包头是供接收方判断一个数据包开始传输的重要标志,接收方从接收到数据中判断接收到了包头,就认为接收的数据已经开始,真正的数据信息马上就会到达。包头字符必须有别于数据信息,这种特征是数据包中其他数据没有的,否则就会引起混乱。

2)非定长数据包必须有包尾。所谓非定长,是指没有指明数据包的长度。对于非定长的数据包,接收方只能根据包尾标志判断数据包是否结束。同包头一样,包尾字符必须有别于数据信息,这种特征是数据包中其他数据没有的,否则就会引起混乱。

3)定长数据包应该指明长度。对于长度不变的数据包,数据长度可以是事先约定,也可以在数据包中的约定位置定义;对于长度可变的数据包,则必须每次在数据包中的指定位置说明。接收方在知道了接收长度后,就能够判断接收的数据包是否结束。

4)应当对数据进行校验。串口通信底层协议(由机器硬件实现)已经设置了奇偶校验方式,在用户层加入校验,可对数据进行进一步的排错,更好地保证其正确性。

5)要求便于观察的数据应该在结尾加入换行等符号。

6)实时传输数据要求包不能太长。传输的数据越多,需要的时间越长,应根据实时性要求来确定。

2.2 数据打包及解包算法

由于蓝牙通信是仿RS232串行通信,以ASCII码的方式进行数据传输。根据遥操作系统所需传输的每个数据的长度,确定用4个ASCII码来表示1个数据。在ASCII码中,“0AB3D56GH9:K

1)打包算法:

待发数据按下式进行编码:

其中,D3~D0为0~F的十六进制数。

D3=(d+32768)/4096

D2=(d+32768)%4096/256

D1=(d+32768)%256/16

D0=(d+32768)%16

按D3~D0查出低半字节与之对应的ASCII码。

2)解包算法:

每个接收到的数据为4个ASCII码,按下式进行解码:

其中,d3~d0为ASCII码低半字节对应的十六进制数。

数据打包时,上位机和下位机均按公式⑴和公式⑵对数据进行编码和解码。

2.3 通信协议

按照以上原则和算法,确定通信协议如下:

1)每一个命令包都以小写的字符‘c’作为包的开始,以回车符‘r’作为包的结束。

2)每一个命令包的第二个字符,表示该包是发送给机器人哪个部分的命令。‘a’表示机械臂某关节的控制命令;‘m’表示机器人本体的控制命令;‘h’表示机械臂的控制命令;‘s’表示传感器的控制命令。

3)对于第二个字符为‘a’的命令包,第三、四个字符表示关节号,即该包是发往机械臂的某一个关节的。接下来的两个字节表示该数据包将要发送的命令。对于其他3种命令包,第三、四个字符表示该命令包将要发送的命令。对于需要带参数的命令,在命令之后是4个字节或8个字节的数据。

4)每一个数据包都以小写的字符‘d’作为包的开始,以回车符‘r’作为包的结束。

5)每一个查询命令返回的包以小写的字符‘r’作为包的开始,以回车符‘r’作为包的结束。

6)每一个查询命令返回包的第二个字符表示该包是由哪个部分返回的信息,‘a’表示机械臂某个关节,‘m’表示机器人本体,‘h’表示机械臂,‘s’表示传感器。对于第二个字符为‘a’的每一个命令包,第三、4个字符表示关节号。其余字节都是反映状态信息的数据。

3 通信程序设计

上位机(IPC)与自由飞行机器人的无线通信,通过安装在IPC串口上的蓝牙适配器,与自由飞行机器人控制器中的蓝牙模块来进行。通信程序是在VC++环境中,通过MSComm控件实现的。

3.1 通信程序

数据包的骗码、组包与发送流程如图2所示;接收到的数据包是在中断处理程序中实现的,接收数据包的拆包与解码流程如图3所示。

3.2 实验结果

蓝牙通讯速率设置为38400bps,位时间为26us,字节时间为260us(无奇偶校验)和286us(有奇偶校验),通讯过程中数据包最大长度为26个字节。

在IPC与自由飞行机器人通过蓝牙通信建立联系后,选择一个最大长度数据包,进行了大量的通信试验,通过记录在发送、接收和处理数据包的整个过程中所需的时间,来测试系统的实时性。其中100次通信实验的具体实验数据如图4所示。

由图4可知,最大长度数据包在发送、接收和处理整个过程中所需的时间,基本上都在25ms以内,可以满足系统的实时性要求。

4 结语

本文针对基于遥操作技术的自由飞行机器人实验系统,对遥操作系统中无线通信技术进行了实验研究,提出了一种数据打包和解包算法,据此实现了主、从系统之间的蓝牙无线通信协议,并按最大可能的数据包进行了实验验证。

实验表明,该打包和解包算法是有效的,通信协议能够满足自由飞行机器人遥操作系统对实时性、准确性的要求,达到了预期的目标。

参考文献

[1]柳长安,洪炳熔,王鸿鹏.自由飞行空间机器人地面实验平台硬件系统[J].高技术通讯,2001,11.

[2]孙富春,吴凤鸽,刘华平.面向在轨服务遥操作技术的研究与展望[J].空间技术与应用,2008,1.

[3]曹秀云.近空间飞行器成为各国近期研究的热点(上)[J].中国航天,2006,6.

[4]李成,梁斌.空间机器人的遥操作[J].宇航学报,2001,22(1).

机器数据 篇7

随着通信与传感器技术的迅猛发展,基于图像识别的机器视觉得到不断的发展,并在各种行业领域得到广泛的应用[1]。在电子元器件表面贴装加工过程中,已有研究将机器视觉系统用于局部的贴装质量检测[2]。传统的机器视觉实验常常依赖于少量的样本,因而在实际生产过程中的应用仍然具有一定的局限性[3]。

为了提高检测结果的准确性与稳定性,就必须提高样本的容量。随着硬件性能的发展,设备内存、性能有了大幅提升,并且具有联网功能,这为基于大数据的机器视觉缺陷检测系统提供条件[4]。

目前,对于大数据相应的算法及大数据的机器学习方法已经较为深入和广泛[5],但大数据直接在机器视觉方面的应用还少见报道。本研究利用机器视觉结合大数据分析,对电子元器件表面贴装缺陷进行识别,对提高表面贴装质量检测效率具有实际的意义。

1 表面贴装图像数据平台构建

机器视觉的基本数据是图像,具有数据量大、非结构化的特点,通过特征提取算法引擎,对图像的特征进行提取。并对特征优劣进行评价,对特征的主分量进行自动选择,并对特征进行相关性分析研究,从而得出较优的特征的选择方法。建立整体样本的统计模型,并设计缺陷分类算法,通过并行计算的工具实现算法,提高了算法的运行速度。

首先,设计出符合行业标准的API图像收集接口部分,以网络爬虫对互联网图像进行收集作为补充,并对特征提取部分进行相关的实验和研究,在此基础上,进行缺陷分类器的设计,并将其集成到API中。建立采用API的实验平台,进行相关实验。然后,边实验边收集数据,直至形成能够进行缺陷检测的大数据。

图像来源有两个方面,一是来自检测设备,这也是图像来源的主要方面;二是来自于互联网。从具有代表性表面贴装行业入手,和行业协会及相应的大公司合作,从行业标准切入、发布相应的API接口,该API接口即集成了数据输入的功能,又集成了统计模型输出接口及检测算法接口,从而方便设备制造商调用,使设备制造商既是大数据的提供者,也是大数据的受益者。其次,拟采用网络爬虫的方式作为补充,从互联网上扒取相应的数据。由于互联网上的数据量大,且数据是来自各行各业的图像,需要对图像内容进行判断,还需要对图像的大小,格式等进行调整。

API以大数据为基础,包含了特征提取算法引擎、统计模型接口和缺陷分类算法接口。大数据是研究的基础,机器视觉的基本数据是图像,具有数据量大,非结构化的特点,通过特征提取算法引擎,对图像的特征进行提取,将提取到的数据通过以太网输入至服务器。通过对特征优劣进行评价,对特征的主分量进行自动选择,建立了整体样本的统计模型,并采用了最小风险分类器算法。

自动光学检测设备在一年内,产生的数据量大约为18,000 000 000条,由于其中合格品率在95%以上,即合格品的数据为17,100 000 000条,假设取特征向量的维数为30维时,对特征的优化和缺陷统计模型的计算量是相当大,拟通过Hadoop并行工具进行处理。Hadoop工具是一个能够对大量数据进行分布式处理的软件框架。Hadoop以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

2 表面贴装缺陷特征提取

要检测表面贴装缺陷,必须定义一系列的特征,统计出PCB表面贴装的缺陷特征模型。作为一个复杂系统,几乎没有哪一种特征能完全将合格产品和有缺陷产品分开。所以,缺陷检测系统一般都采用多个特征作为缺陷检测的依据,可以分为:几何类特征,形状类特征,颜色类特征,纹理类特征等。

根据特征评价指标选择一些对分类贡献大的特征,然而,有些特征之间具有较大的相关性,这些特征对分类起到相同的作用,因此,可以只选择其中之一,进一步降低特征维数,以提高系统的效率。特征之间的相关系数可以通过下式求得:

其中:C表示协方差矩阵,R表示相关系数矩阵,是一个对称矩阵。

但是,不同的特征对于缺陷的辨识能力不同,当特征维数越多时,运算量就会越大,因此可以通过研究特征优劣,从而对特征向量进行优化,减少运算量。

从直观上可知,如果同类模式分布比较密集,不同类模式相距较远,分类识别就比较容易。因此,对于特征的分类能力可以用以下指标进行评价:

其中,dinter表示类内距离,din tr a表示类间距离。类内距离越小,同时类间距离越大,则表示特征的质量越优;反之越差。

3 机器视觉检测试验平台

开发好API后,搭建一个实验平台,如图1所示。该实验平台的软件方面集成了API;在硬件方面:镜头采用Mytron公司型号为25 mm焦距的镜头。成像设备选用OPT公司型号为MC300-F-D的高分辨率工业数字CCD摄像机。照明系统选用OPT公司AOI检测专用LED光源,型号OPT-RIA211,并配备的数字控制器,型号为OPT-DP1024,使光源能够通过计算机实时调节。

将该实验平台用于表面贴装生产线,一边检测一边搜集图像,利用API的特征提取算法引擎,将收集到的图像进行特征提取,并将特征发至服务器。实验平台的检测结果可以自动与光学检测设备的检测结果实时比较。图2是不同表面贴装的缺陷图像,每个子图的上面部分为合格产品,下面部分为不合格产品。

4 结论

采用机器视觉系统,结合图像大数据平台的搭建,利用机器学习的特征识别,开展电子元器件表面贴装的缺陷识别。该系统自动检验表面贴装加工质量,对提高电子元器件加工质量,保证表面贴装的一致性具有实际的工程价值。

参考文献

[1]卢盛林,孙振忠,师雪超,等.基于机器视觉的木制品在线自动检测系统设计[J].装备制造技术,2009(12):39-40.

[2]拜颖乾,赫东锋,刘波,等.表面贴装LED全自动编带机视觉检测系统研制[J].机械设计与制造,2013(7):117-118,122.

[3]刘学平,陈艺昌,刁常龙,等.基于机器视觉的BGA芯片检测对中技术[J].计算机工程,2013,39(8):281-284.

[4]张晁军,陈会忠,李卫东,等.大数据时代对地震监测预报问题的思考[J].地球物理学进展,2015,30(4):1561-1568.

机器数据 篇8

管道机器人的定位,是指机器人通过其携带的传感器确定自身在管道内所处的位置。机器人在管道内行走,由于结构的封闭性和材料的屏蔽性,使其与外界的联系手段受到严重的制约。因此,机器人在管道中的准确定位相对于其他环境来说要困难得多。

管道机器人常用的管内定位技术与传感器技术的发展密切相关,目前应用较多的仍是基于光电式转速传感器的里程轮定位[1],通过读取光电器件输出的脉冲数获取机器人在管道中的位置。但考虑到在役埋地输油管道普遍具有内部环境复杂、油污覆盖严重等特点,采用单个里程轮很难满足机器人定位精度的要求,因此本文将探讨通过多个里程轮获取定位数据,并对这些冗余的里程信息进行融合处理,最终实现机器人的精确定位。

首先介绍基于关系矩阵的多传感器数据融合理论[2],以置信距离测度作为数据融合的融合度,并以此构造出基于多里程轮测量数据的置信距离矩阵;通过选择合适的支持度函数,对各个里程轮数据的可靠程度进行验证,建立正确的关系矩阵,然后采用一种根据综合支持程度的数据融合算法求解多里程轮数据的最优融合结果,最后通过定位算例分析验证了该融合算法的有效性。

2. 基于关系矩阵的多传感器数据融合理论

2.1 置信距离测度和置信距离矩阵

采用多里程轮对机器人位置信息进行测量时,设第i个里程轮和第j个里程轮测得的数据分别为Xi,Xj。Xi,Xj都服从Gauss分布,以它们的密度函数来描述传感器的性能,记成Pi(x),Pj(x),xi,xj为Xi,Xj的一次观测值。

为了反映观测值xi,xj之间的偏差的大小,引进置信距离测度的概念,设

式中

A,B分别是概率密度曲线Pi(x|xi),Pj(x|xj)下及区间(xi,xj),(xj,xi)之上的面积,dij的值称为第i个里程轮与第j个里程轮读数的置信距离测度。

当时xi=xj时,dij=dji=0;

当xi□xj(xi□xj)时,dij=dji=1,很显然,0≤dij≤1。

dij的值越小,说明i,j两个里程轮的观测值越相近,否则偏差就很大,因此也称dij为第i,j两个里程轮的融合度。

dij的数值可以借助于误差函数erf(θ)直接求得,即

同样有

如果有m个里程轮同时测量管道机器人的位置信息,置信距离测度dij(i,j=1,2,…,m)即构成一个矩阵Dm

Dm就称为多里程轮测量数据的置信距离矩阵。

2.2 支持度函数的选择和建立关系矩阵

由置信距离测度dij的定义可知dij越小,表明两数据差别越小,相互支持程度越高。进而可以定义支持度函数rij,它表示第j个传感器对第i个传感器的支持程度,显然rij与dij成反比。在确定支持度函数rij时,常用的方法是根据经验或先前多次测量的结果给出dij的阈值ε,然后令:

这种对rij非0即1的方法,虽然可以较好地剔除不可信数据,保证传感器信息的可靠性,但是其局限性也是很明显的[3]:

(1)该方法对数据的提取过于绝对化,势必导致确定支持数目的下限困难,数据损失严重等问题;

(2)阈值ε的选择过于绝对,而且依赖于经验,不适用于瞬息万变的实际情况,容易造成最终融合结果受主观因素的影响过大。

因此,本文考虑利用模糊集合理论中隶属函数的优点来确定支持度函数rij采用分段直线来表示这种模糊性,并且在阈值ε处取rij=0.5;另外,还将采用阈值区间代替阈值点的方法来避免在阈值点处判断的模糊性。

由rij的定义可知,dij越是接近ε,此距离涉及的传感器i与传感器j的关系越模糊,只有远离ε才能清楚说明其支持程度,即置信距离只在阈值附近存在模糊性,随着距离的增加,这种模糊性将很快消除。因此可以考虑在阈值附近选择一个区间代替一个点的方法来确定支持度函数,在阈值ε附近选择合适的区间[ε1,ε2](0<ε1<ε<ε2<1),在区间[0,ε1]和[ε2,1],dij与ε的距离已经可以清楚说明传感器之间相互支持与否,在这两段区间rij的取值分别为1和0;在区间[ε1,ε2]中,dij与ε的值相当接近,不能清楚说明传感器之间支持与否,用dij的严格单调下降函数来模糊表示它们之间的支持程度,为确保rij的稳定性,考虑采用分段直线函数对其进行描述,即:

在采用多里程轮收集定位数据时,将得到的dij分别与ε1、ε和ε2:进行比较,利用公式(9)计算得到rij,即构成关系矩阵Rm,

3. 根据综合支持程度的数据融合算法

该算法的基本原理[4]是:利用关系矩阵Rm计算出各传感器被支持的综合程度,被支持的综合程度越高的传感器所测量的数据,在融合过程中其重要程度越高,根据各传感器数据的重要程度对其测量数据进行综合融合。

设βj为第j个传感器的综合衡量指标,βj作为衡量第j个传感器的重要程度,可认为是对该传感器测量数据可靠程度的衡量。因而,本着若传感器被越多的其他传感器所支持,则认为该传感器数据可靠性越高的原则,具体的计算过程为:

而是一不可分非负矩阵,由Perron-Frobenius定理可知,存在最大模特征值λ>0,并且入对应正特征向量 γ,即:,其中表示第j个特征值。

故λγ即可作为综合支持程度的度量,令:

此即为第k个传感器的综合支持程度。

设个传感器局部决策数据为yk,则其融合数据为:

4. 算例分析

为了便于对算法结果进行分析比较,本算例将采用文献[5]中的数据。管道机器人利用3个里程轮同步采集里程信息来确定自身所处位置,为了提高数据的可靠性,机器人在5.5m长的标准钢管内重复进行了10次定位实验,里程轮测量值、方差、采用极大似然算法的融合结果等数据如表1所示

以第7组数据为例(表1中黑体数据)进行融合算法分析,由(5)、(6)式计算得到其距离矩阵:

分别取阈值ε1=0.45,ε=0.6,ε2=0.75将其代入(9)式即可得到里程轮的关系矩阵:

采用MATLAB软件[6]可以求得矩阵RT(7)所对应的最大模特征值为:λ=2.3579,其对应的特征向量为:γ=(0.4239,0.5806,0.6951)T根据(12)、(13)式,并结合里程轮测量修正值y'(由于打滑等因素,根据先验知识对3个里程轮的原始数据进行了补偿处理,分别为0.18、0.155和0.165),可以得到融合后的结果:

文献5采用极大似然估计算法得到的融合结果是5.53。通过结果比较可以发现,本文提出的融合算法在一定程度上提高了传感器的综合支持程度,使多里程轮测量数据的融合结果更为接近真值。

5. 结束语

为保证管道机器人的正常作业,首要的就是提高管道机器人在管内的定位精度。本文利用多里程轮获取定位数据,采用阈值区间代替阈值点的方法来确定里程轮之间的支持程度,消除了由阈值点带来的判断模糊性,最后根据其综合支持程度提出融合算法,并通过算例分析说明了这种方法简单而有效。

参考文献

[1]苏毅.埋地管道检测技术与管道机器人的研究[D].重庆:后勤工程学院博士学位论文,2008.

[2]陈福增.多传感器数据融合的数学方法[J].数学的实践与认识, 1995,(2):11-16.

[3]王丽,杨全胜.多传感器数据融合的一种方法[J].计算机技术与发展,2008,18(2):80-82.

[4]涂国平,邓群钊.多传感器数据的统计融合方法[J].传感器技术, 2001,20(3):28-32.

[5]王忠巍,曹其新,栾楠.基于多传感器数据融合的管道机器人精确定位技术[J].机器人,2008,30(3): 240-241.

机器数据 篇9

前人的基于数据筛选的语言模型自适应方法大都依赖于一次解码的翻译结果, 他们根据一次解码的翻译结果从目标语言端语言模型的训练数据中筛选和当前翻译任务相似的训练数据。这些方法全部受限于翻译结果的质量, 越好的初始翻译结果会带来越精确的筛选到的数据。但是翻译结果远不够精确, 里面有很多噪声数据。带有噪声的翻译结果会误导数据筛选过程, 进而将噪声带入筛选到的训练数据中, 最终导致“噪声繁衍”的问题, 降低自适应后的语言模型的性能。

另外, 传统的数据筛选方法都是基于词袋模型的, 可以看作是上下文内容无关的。这些方法在整个数据筛选过程中将词语孤立看待, 以词为单位, 没有考虑上下文内容信息, 会降低筛选到的数据的质量。

为了解决以上方法的不足, 很多学者从跨语言数据筛选和引入上下文内容的角度提出了双语数据筛选方法, 基本上可以分为基于翻译模型的双语数据筛选和基于主题模型的双语数据筛选两类方法。在本论文中我们将对这两类方法进行全面综述和分析, 最后给出相关的比较, 总结和展望。

1 基于双语数据筛选的翻译模型自适应方法

1.1 基于词翻译的双语数据筛选 (CLWTM)

假设S=s1, …, sj表示翻译任务中的源语言句子, T=t1, …, ti表示目标语言端语言模型训练数据中的句子, 那么双语数据筛选模型可以在概率意义上转化为最大化P (S|T) 。通过贝叶斯准则, 等价于最大化P (S|T) 。

类似于跨语言信息检索, 基于词翻译的双语数据筛选可以表示为:

其中, P (s|t) 为通过IBM模型1训练得到基于词的翻译概率。由于数据稀疏问题, 该方法在实际数据筛选中效果不是很好, 为提高性能, 需要对模型做出平滑处理。

1.2 基于短语翻译的双语数据筛选 (CLPTM)

首先, 每一个句子T被分割成K个非空的短语序列t1, …, tk的集合U;其次, 非空的短语系列t1, …, tk被依次转化 (翻译) 成一系列的非空的短语系列q1, …, qk;最后, 将得到的短语转化 (翻译) 序列q1, …, qk的集合V进行调序组合生成句子S。

在以上假设下, 基于短语翻译的双语数据筛选可以表示为:

其中, M表示K个短语调序后的结果;B (T, S) 定义为U, V和M构成的三元组集合, 表示将T转换成S的过程。

对于给定的部分对齐关系, 我们关注的是由U, V和M构成的三元组与部分对齐关系是一致的, 记为B (T, S, ) 。一旦词语对齐关系确定了, 调序部分就可以忽略。利用最大化求和可以得到:

其中, P (sk|tk) 表示短语的翻译概率。最大化求和过程可以采用动态规划算法。

不同于基于词的翻译模型, 基于短语的模型在数据筛选过程以短语为单位, 融入了上下文信息, 理论上可以获得更好的性能, 但是直接运用基于短语翻译的相似值计算进行数据筛选效果不好。为提高性能, 通常采用线性排序的方法, 将不同的模型作为特征, 融合到统一的框架中。例如, 短语翻译特征, 词汇化特征, 词翻译特征等。

1.3 基于联合双语主题模型的双语数据筛选 (JBLTM)

在以上条件下, 一个跨语言主题相似句对的基于语义的对数可能性以及词-主题分布可以计算如下:

接下来, 通过最大化双语数据的联合对数可能性, 并采用标准EM算法去估算参数 (θ, φS, φT) 。E步骤:针对每个隐变量z, 计算句子S中的每个词s和配对句子T中的每个词t的后验概率;M步骤:通过E步骤计算得到的后验概率来更新参数。

1.4 基于成对双语主题模型的双语数据筛选 (CBLTM)

在数据筛选任务中, 对于一个相似的双语句对不一定要有完全相同的主题分布, 更加合理的应该是相似的主题分布。因为相似句对在长度不同的时候, 主题分布不可能完全相同变得尤其明显。我们希望JBLTM趋向于在长句时的主题向量的生成更好, 使得句对中两个句子的对数可能性更高, 而短句的最好的主题分布权重相对更小, 进而在JBLTM基础上我们提出了CBLTM。

一个跨语言相似句对 (S, T) 中, 我们希望S和T每个主题下的预期片段相似或是相近:

Q={P (zS|s, θS) , P (zT|t, θT) }表示建立在隐含主题分配上的后验分布, Q'={PS' (zS|s, ) , PT' (zT|t) }表示带有期望性能的理想的分布集合, 可以通过最小化两个分布集合Q和Q'之间的KL距离KL (Q'||Q) , 去寻找一个和Q最接近的一个理想分布集合Q'。有效的理想分布空间Q是非空的, 可以在其对偶形式下解决问题。最后, CBLTM同样可以用EM算法去估算参数, 并且使用后验正则化算法对跨语言相似句对中两个相应句子的最近的主题分配的期望进行线性约束。

2 比较与总结

以上四种双语数据筛选方法可以基本分为两类:基于翻译模型的双语数据筛选和基于主题模型的双语数据筛选:

2.1 基于翻译模型的双语数据筛选方法

相对于传统的利用单语数据筛选的方法, 双语数据筛选可以解决“噪声繁衍”的问题。另外, 相对于传统的基于词袋模型的方法和基于词翻译的双语数据筛选方法, 基于短语翻译的双语数据筛选方法能够从词汇的层面考虑“局部”上下文内容, 在数据筛选过程中以短语为处理单位, 提高数据筛选精度。

2.2 基于主题模型的双语数据筛选方法

该类方法可以从词的主题分布的层面考虑“全局”上下文内容。假设语义相关的词经常出现在相似的上下文中, 而这些语义相关的词通常可以看作是一个“主题”。该类方法将双语数据筛选过程看作是在语言上独立地跨语言语义表示, 并且假设相似的双语数据句对含有相同或是相似的主题分布, 也就是相同或相似的全局上下文信息。基于联合双语主题模型的双语数据筛选方法对跨语言相似的句对赋予相似的主题分布并且在建模过程中对于不同长度的句对处理是相同的, 所以更加适合于基于双语数据筛选的语言模型自适应任务, 并且有更好的性能。

相关实验结果表明, 相对于传统方法, 以上两类方法可以进一步提升数据筛选的性能, 在语言模型困惑度和翻译性能方面都有明显提高, 最终提高统计机器翻译中语言模型自适应的性能。

从系统融合角度来说, 基于翻译模型的双语数据筛选方法和基于主题模型的双语数据筛选方法对于双语数据筛选过程是相互补充的, 可以通过线性排序函数对这两类方法进行融合, 进一步提高数据筛选的性能。融合后的模型既能从词汇的层面考虑上下文信息, 又能从语义的层面考虑上下文信息, 因此融合后的模型比单一模型具有更好的上下文描述能力。

虽然以上数据筛选方法性能都相对很好, 但是在实际系统运用中模型过于复杂, 需在系统实现上做进一步的优化, 精简模型。如做相应的关键词信息处理, 利用Text Rank算法提取相应的关键词并对训练数据做处理, 在此基础上训练模型。另外, 要在根本上提高语言模型自适应的性能, 还需在模型和大数据方面做相应的深入研究, 一是要做到数据融合和模型整合的统一, 二是要做到海量规模的训练数据。

摘要:统计机器翻译中, 语言模型的性能受限于训练数据的数量和质量。为提高其性能, 通常采用数据筛选的方法筛选合适的训练数据。本文对基于双语数据筛选的方法进行了全面综述和分析, 并对各类方法进行了比较和总结。

关键词:统计机器翻译,双语数据筛选,语言模型自适应

参考文献

[1]Matthias Eck, Stephan Vogel and Alex Waibel.Language model adaptation for statistical machine translation based on information retrieval.Proceedings of LREC 2004, pages 327-330.

[2]Bing Zhao, Matthias Eck, and Stephan Vogel.Language model adaptation for statistical machine translation via structured query models.Proceedings of COLING 2004, pages 411-417.

[3]Sameer Maskey and Abhinav Sethy.Resampling auxiliary data for language model adaptation in machine translation for speech.Proceedings of ICASSP 2010, pages 4817-4820.

[4]Almut Silja Hildebrand, Matthias Eck, Stephan Vogel, and Alex Waibel.Adaptation of the translation model for statistical machine translation based information retrieval.Proceedings of EAMT 2005, pages 133-142.

[5]Sankaranarayanan Ananthakrishnan, Rohit Prasad, and Prem Natarajan.On-line language model biasing for dtatistical machine translation.Proceedings of ACL 2011, pages 445-449.

[6]Amittai Axelrod, Xiaodong He, and Jianfeng Gao.Domain adaptation via pseudo in-domain data selection.Proceedings of EMNLP 2011, pages355-362.

[7]Shixiang Lu, Wei Wei, Xiaoyin Fu, and Bo Xu.Translation model based cross-lingual language model adaptation:from word models to phrase models.Proceedings of EMNLPCoNLL 2012, pages 512-522.

上一篇:可持续经济发展下一篇:战略盈利