非结构化信息管理论文

2022-04-17

摘要:本文首先简述了非结构化数据的背景以及电力系统非结构化数据的特点,然后阐述了对非结构化数据挖掘利用时所遇到的问题,回顾了电力系统不同应用层面非结构化数据的处理方法及优缺点。在此基础上,从非结构化数据处理中的数据提取、数据过滤、数据转化和利用方面进行归纳和分析。最后根据电力系统战略规划,提出了未来非结构化数据处理的发展方向。今天小编为大家精心挑选了关于《非结构化信息管理论文(精选3篇)》,仅供参考,大家一起来看看吧。

非结构化信息管理论文 篇1:

非结构化医学信息管理现状及存在的问题研究

摘要:了解目前国内外非结构化医学信息管理现状,分析存在的主要问题,提出推进非结构化医学信息管理的对策建议。文章采用文献调研、描述性统计分析方法,调研分析国内外科研、现实应用两个层面上的非结构化医学信息管理的相关情况。

关键词:非结构化信息;医学图像;信息管理

一、引言

随着现代社会的发展,信息数量猛增,逐渐分化出不同的种类。医学信息有结构化与非结构化之分,其中绝大多数都是以医学图像为代表的非结构化医学信息。医学图像包括CT、X光片、B超、彩超等,用于人体的脑、胸、肺、甲状腺等部位。

非结构化医学图像信息由数字成像设备生成。医学影像学的发展主要经历了三个阶段:X线的临床应用,放射学的形成,医学影像学的形成。1895年德国物理学家伦琴发现X线,并把X线用于人体检查,开创了放射医学的先河。20世纪60年代,Lodwick等人首次将X光片实现数字化。到八九十年代,世界各国纷纷引进医学成像设备对患者病情进行诊断,病人在医院做完影像检查后,医院需要冲晒两套胶片,一套用于医院存档,另一套则交给病人保存。但这种方式难以管理、实时性较差、不方便数据共享。随着HIS、PACS系统的普及,各地医院纷纷引进医院信息管理系统或平台,将医学图像与其他文本信息数字化,实现了无胶片电子图像的管理。但由于医学图像信息量大、关联性强、对象复杂,这种基于图像表征信息的管理,以非结构化信息存储的方式并没有挖掘出医学图像深层次、高维度的有用信息,造成严重的资源浪费,临床工作者也很难从以往珍贵的患者影像数据中发现疾病的发展趋势和其中隐含的规律。

二、非结构化医学信息管理现状分析

非结构化医学图像的管理与分析,针对不同的人体部位,采用不同的方法,步骤会有所区别。但一般包括医学图像的获取、预处理、特征提取、分类识别、存储等。本文对国内外的相关文献以及事实数据进行整理统计,得出数十年来医学图像信息管理的整体现状,主要分为科研层面和现实应用层面两部分。

(一)科研层面

自数字成像普及开始,围绕着对医学信息管理的研究层出不穷。国外的发达国家和国内的发达地区、三级医院分别于二十世纪八九十年代中期逐步形成了现代医学影像学体系。

1. 国内

近年来,国内主要研究的是医学影像信息系统开发和管理,陈轲在需求分析的基础上对医学影像信息管理系统进行系统体系结构设计和系统功能设计在医学影像数据管理与分析方面,张波研究了放疗计划系统医学图像数据存储技术,致力解决图像数据和系统中各模块之间数据的存储和获取问题;在数据库构建方面,潘世扬将临床信息与样品管理相结合的病例信息管理系统,建立群体病例管理数据库;陆锦龙使用SQL Server数据库软件完成了具有多种模块的鼻咽癌病案信息数据库管理系统;在运用深度学习进行医学影像分析方面,万艳丽提出基于层次化深度学习的医学影像组织与检索框架,进行分类操作。

2. 国外

在医学图像处理领域的研究,欧美国家的研究较多,发文量较高,国家间合作关系更加紧密,学科间存在较多的交叉融合。近来年主要是对“算法”、“系统”、“模型”、“分割”等方面的研究。在医疗影像数据管理方面,Beahan学者提供了一种医疗影像信息数据仓库管理系统和方法。系统接收若干组医疗影像文件,被概率地转换成结构化数据集(通常作为表);在构建关系数据库方面,美国 EMBBS 机构实现的医学影像数据库存储了大量的实用数据,例如医学文献、医学指南、甚至还存储了临床照片、 X光照片等数据;在深度学习训练过程方面,将卷积神经网络模型运用在医学图像识别中,可追溯到1995年,将双重匹配方法和人工视觉神经网络技术融合,用于肺结节检测。此后,运用卷积神经网络在医学图像中的应用慢慢开展起来。

(二)实际应用层面

理论研究取得的成果众多、研究方法更先进,但只有经过成千上万的重复性实践检验后,才能真正落地。非结构化医学图像信息管理的实际应用,经过不同载体的历史变迁,从纸质化发展到数字化,再到现在的智能化。

1. 国外

国外由于科技的先进,最早研制出各种医疗成像设备,核心技术也一直牢牢掌握在其手中,如美国通用电气公司、西门子公司、飞利浦、锐珂医疗公司等,全球范围内的医学成像设备以及PACS系统大多由这些医疗公司垄断。国外的设备厂商如GE、西门子公司提供跨国的远程医疗诊断服务,建立了大规模的远程会诊中心,实现了商业化教学和区域性协同的成功案例。但到目前为止,美国仍有近1/4的医院和超过40%的医生尚未采用电子健康记录系统。医疗数据的敏感性和严格的保护隐私规定,限制了AI医疗所要求的高质量聚合数据的收集。美国医院对患者隐私有诸多保护,不同的医院无法和病人或其他医院共享数据,重复的医学检查、生成大量的冗余医疗数据,造成極大的资源浪费。

2. 国内

国内对医学图像信息管理的实际应用方面,21世纪初通过购买发达国家的先进成像设备和信息管理系统实现了早期的医学信息化管理。加上计算机的普及,人民整体文化水平的提高也一步步推动了医学信息化的发展。在此前提下,医院建设了不同部门的信息系统、构建了不同科室、人体不同部位的数据库,医疗公司也尝试着借助客户端实现对患者病例的收集与管理。在医院信息管理上,大多数大型医院基本已完成临床业务和医院管理业务的信息化,依托影像中心初步建立远程会诊中心,PACS系统主要还处于院内网络运行状态,还致力于整合院内应用系统,构建医院集成平台,实现医学图像与其他信息的业务协同。但信息系统大多都是分散建设模式,由不同厂商建设,导致医院内各业务系统建设标准不统一,各模块子系统的开发采用的标准不一致,医院之间的业务协同与资源共享难度更大。一些信息系统由于是直接引进国外的,存在着界面不友好、用户体验欠佳、图像处理无法满足用户要求的强烈。此外,我国的医学数据标准建设并不完善,导致系统开发性和适应性不足。

(三)国内外非结构化医学图像信息管理的区别

经过上文分别对国内外在科研层面、实际应用两个层面上的非结构化医学图像信息管理的论述,可以看出,总体上在研究工具、研究技术、研究成果等方面,我国和以美国为代表的发达国家相比,仍存在较大差距,具体如表1所示。

三、存在的问题

近年来,国内外对非结构化医学信息——医学影像信息的管理,只是简单的对医学影像进行不同形式的储存归档,方便显示、储存、查询、调用与统计,增加一些用户接口模块和统计辅助功能,医疗工作者并没有在实际工作中对医学影像本身进行深度的数据挖掘与利用。基于某种算法或模型对医学影像进行图像分割、图像特征提取等一系列操作,但并没有对采用先进算法处理之后产生的影像数据进行系统规范的整理,且人工智能环境下的智慧医疗也存在着诸多问题,主要包含以下四个方面。

一是临床需求复杂。一方面,医生需要全面覆盖的产品;另一方面医生需要解决的又是具体的临床应用场景而非某个结节。

二是数据问题。医学图像数据缺乏统一的质量评估标准,如何获取足够训练、标注好的高质量的数据十分困难,数据标准难以统一。

三是算法问题。主流的深度学习方法存在一个明显的缺陷,即它的过程可用不可见,没有普遍的适应性。

四是性能评估问题。部分研究选用了公共库的部分图像,使用的标准不清晰,实验环境无法重现。

四、对策研究

非结构化医学图像信息发展至今,借助计算机和算法模型对其进行深层次的挖掘和利用。在这不断发展的过程中,存在着种种不足与缺陷。针对前文提到的问题,本文对照提出以下四点建议与对策,已望更好地指导之后的科学研究。

(一)范围更广泛的跨组织合作

患者数据本身有特殊性,较难获取,医院数据提供者、供应商和计算机专家之间的合作至关重要,这种协作将解决医疗研究人员无法获得的数据问题。

(二)多融态数据的融合

目前病历方面关于文本的研究走在图像分析的前面,彼此由独立进行,因此多模态信息的融合,实现患者—诊断—用药一条线的有机联系十分重要。

(三)普适性深度学习模型的构建

目前国内外大多是构建某种单一改进模型,或是融合算法來对单一病种进行分割、分类,不具备普适性,这就需要对更多模型进行迁移学习。

(四)医学图像标准的统一

目前国际通用的医学图像信息交换标准主要采用DOCOM,不同地区、不同国家医院间的各业务系统建设标准应统一,以便更好地进行数据开放和共享,有利于医院集成平台、区域性协同平台的建设,在医学专业用语方面,国际组织或国家应统一规范,加强行业标准化管理。

五、结语

本文通过对国内外大量的文献调研,了解目前国内外非结构化医学信息管理现状,调研分析国内外现实应用、科研两个层面上的非结构化医学信息管理的相关情况,采用描述性统计分析方法分析非结构化医学图像信息存在的主要问题,提出推进非结构化医学信息管理的对策建议。通过梳理整理好医学影像数据,将人工智能技术与医疗影像数据管理更好地结合起来,为下一步工作的一般医学影像信息过程管理方法的提出做好前期调研准备,更好地指导接下来的研究进展。

参考文献:

[1]沈立峰.中小型医院智能化信息系统的设计与实现[D].吉林大学,2016.

[2]魏明,罗希.基于PACS标准化通用型信息管理系统[J].中国医疗设备,2017(02).

[3]赵鹏飞,钱沄涛,郑文斌,等.基于图像与文本特征的在线生物文献MRI图像库构建[J].中国生物医学工程学报,2010(05).

[4]蔡雨蒙,冷锴,单红伟,等.大型医院影像分级存储架构下归档的策略及应用[J].中国数字医学,2017(01).

[5]毛善友.医院影像信息管理系统的研究与实现[D].武汉工程大学,2014.

[6]Dan C. Cireran, Giusti A, Luca M. Gambardella, et al. Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks[J].Med Image Comput Comput Assist Interv,2013(02).

[7]陈诗慧,刘维湘,秦璟,等.基于深度学习和医学图像的癌症计算机辅助诊断研究进展[J].生物医学工程学杂志,2017(02).

[8]Litjens G, Kooi T, Bejnordi B E, et al. A Survey on Deep Learning in Medical Image Analysis[J].2017.

[9]张琪.人工智能的发展及其在医学领域中的应用[J].电子技术与软件工程,2016(20).

(作者单位:江苏大学科技信息研究所)

作者:黄江珊

非结构化信息管理论文 篇2:

电力系统非结构化数据处理方法研究

摘  要:本文首先简述了非结构化数据的背景以及电力系统非结构化数据的特点,然后阐述了对非结构化数据挖掘利用时所遇到的问题,回顾了电力系统不同应用层面非结构化数据的处理方法及优缺点。在此基础上,从非结构化数据处理中的数据提取、数据过滤、数据转化和利用方面进行归纳和分析。最后根据电力系统战略规划,提出了未来非结构化数据处理的发展方向。

关键词:非结构化数据;大数据处理;电力系统;聚类;智能算法

0  引  言

如今,在移動互联、大数据、人工智能时代背景下,在电力行业中,随着能源互联网、智能电网、泛在电力物联网的建设和发展,各种网络拓扑变得更加复杂,整个电力行业运营中产生爆炸式增长的多源异构数据。伴随着移动互联技术的普遍应用,电力物联网中复杂的传感器网络产生了海量数据,这些数据覆盖了电力生产、传输、销售等各个环节,并且电力监管和电力资源之间的信息交互数据也会不断增长。电力行业产生的海量数据将会带来存储、传输和信息处理等各方面的挑战,也成为了移动互联、物联网及人工智能技术在电网企业融合应用中需突破的实际问题。

在电力系统数据中,结构化数据与非结构化的数据有着不同的应用价值。结构化数据通过统计分析可以用来制定发展策略、预测动向。但实际上,与电力企业内目前用于记录、统计、控制的显性结构化数据相比,大量的非结构数据中蕴含了更加持久和影响深远的价值,包含着大量可以提高企业效益的有利信息。对于电力企业来讲,通过再检索、共享、分析这些数据,可以挖掘其中的隐藏价值,对电力公司的战略部署、发展方向将会产生深远影响[1]。

结构化数据主要基于关系数据库存储,通过保存不同的业务数据到对应的表中,方便查询统计、操作便捷、易于维护。而非结构数据占比较高,如设计图纸、合同、报告、说明书、标书等,这些数据文件格式多样、内容繁多、不易理解,数据含义比较隐性,无法使用关系数据库存储,只能通过不同文件形式存放。鉴于非结构化数据的特点,对这些非结构化数据存储检索时难度会比较大。为了获得其中蕴含的价值,需要在使用这些非结构化数据时,必须根据具体需要对其进行预处理,将其标准化,建立更加智能化的系统来处理这些数据,深入挖掘其中的价值。

1  电力系统非结构化数据的特点

根据数据来源以及数据特征结构的不同,电力系统中所产生的数据可以分为结构化、半结构化和非结构化数据,如表1所示。

结构化数据特征表现为可以在固定字段集合中存放并且可以用二维表表示;而半结构化数据虽然说是结构化的,但是数据结构变化大,因此不能像结构化数据一样简单地通过建立表来处理,但适合将数据元素用标签区分,用XML来存储;非结构化数据本身主要表现为格式和标准多样,存储量大且增长速快,可以是任何类型的数字信息形式,如文本、图片、Web页面、Office文档、电子邮件等[2]。非结构化数据内容无法直接获取,如有些音频视频文件需要用相应的方式打开才能读取,所以难以用数据库中的二维逻辑表表示,且检索困难,大部分要借助处理方法或者处理工具才能方便管理利用,但是这些非结构化数据中所蕴含的价值是巨大的。这类数据在电力系统中占80%以上,例如故障录波、监控视频、图像、CIM等数据[3]。

在电力系统中,对非结构化数据的处理上存在以下问题[4-7]:

(1)相比于结构化数据,电力系统中非结构化数据产生速度快、格式多样化、价值密度较低等导致难以系统化,部门之间的数据交互很多依靠扫描件、邮件、人工传递的方式,这就使得数据传递效率低下,交互成本高。

(2)非结构化数据的管理无法双向进行,只能根据业务的需要单向传递,由于传递缺乏实效性导致更新以及变更后的文档不能完整及时地传到用户那里,而且文档利用的情况无法及时反馈。

(3)目前非结构化数据的传输主要通过数据交互平台,但是由于传输通道的容量较小、传输速度较低,通常需要在保证主要信息的前提下,删除图片、正文数据信息,导致信息存在失真的情况。

(4)非结构化数据在业务系统间传递时,文件标识没有统一的定义标准,导致更新文件版本时,需要人为定位历史版本。

2  电力系统中非结构化数据的处理方法的现状

2.1  采集提取

非结构化数据的采集提取,是指从一个数据集中抽取一类所需的信息导入对应数据库的过程,提取技术有很多种,可以根据不同的标准来分类。例如,根据人为参与程度可以分为人工方式、人工辅助方式和全自动方式的提取方法。非结构化数据的提取相对比较复杂,对于文本数据,一般需要采用模糊匹配法匹配行上的字段并逐行进行抽取。数据的抽取涉及到几个关键的问题:数据仓库需要抽取的数据内容;数据抽取的来源;数据存放在哪个系统的数据库;根据需要制定各个系统的数据抽取规则;确定所抽取记录的唯一标示符。

文献[8]利用聚焦类网络爬虫Scrapy构架来采集网页非结构化数据信息,爬虫根据提交的查询表单,寻找选择合适的Web数据库,然后把页面存储到本地的数据库中。

文献[9]提出了一种从数据库抽取数据的方法,该方法将ODBC用于数据抽取,为了建立数据仓库,在数据转换过程中应用转换规则集,从而有效地提取和管理非结构化数据。此外,文中还采取了虚拟化集群存储、资源池存储和容错机制来方便非结构化数据的抽取。

文献[10]提出了数据提取的三种方法。方法一:通过应用机器学习归纳算法的包装器归纳方式来生成抽取规则,抽取规则的制定是基于對语义项上下文描述,通过语义边界来定位语义项;方法二:基于Ontology方式的信息根据数据本身的描述来实现抽取;方法三:通过Web页面的定位信息并基于HTML结构实现信息抽取,再将Web文档解析成语法树,然后进行信息抽取的同时,还需采用后模式的方式为其添加语义,该方法通过使用大量的样本进行训练来提高抽取数据的精确性,以避免抽取到与用户无关的信息。

2.2  过滤清洗

数据的过滤清洗是指对数据进行杂质去除和校验的过程,主要在于去掉重复信息、纠正错误,以及排除非用户需求的数据等,对于多数据源的数据,还需要对其进行关联性验证。

文献[11]中提到的数据清洗在目前可以通过匹配算法、机器学习算法和相应的数据关联表进行,文中采用改进后的Skyline算法对数据进行过滤排查,通过找出具有代表意义的点,对这些点进行统计分类处理,然后生成多种统计图。由于电网中复杂的环境因素,以及设备传感器的故障、信号的干扰等因素会形成数据的噪声点并导致数据的缺失,这会影响到接下来对数据分析的结果,文中提到在进行数据清洗过程中,应采取相应方法对噪声点进行数据的修复,对于缺失的数据通过相应调控进行填补,以减轻清洗过程中数据价值的流失。

文献[12]中提到对于清洗过程中缺失内容数据的填充可以通过四种方式实现。方式一:人工参与,主要根据专家经验和专业知识来补充;方式二:对相应字段进行数据计算;方式三:通过字段的组合规律计算分析所缺失的数据;方式四:对于失真严重的数据可以通过数据的重新采集,或者从其他渠道获取对应数据集。

2.3  拆分转换

由于所抽取的非结构化数据格式属性复杂多样,难以进行后期的存储、分析和检索,需要将非结构化数据创立标准化、转换为可识别的数据,需要根据目标数据模型或者统一数据模型对数据进行数据格式转换、关键数据重新构建等。

2.3.1  非结构化数据拆分

为了提高存储资源的利用率,优化计算机资源分配,可以把非结构化数据分离为元数据和二进制数据。二进制数据可以直接以数据流的形式存储在关系表中,元数据以XML格式存入实际数据所在的节点中[13]。

2.3.2  非结构化数据的结构化处理

文献[14]提到在非结构化数据结构化处理过程中,可以使用XML作为转换媒介,利用XML支持嵌入和链接非结构化数据的特征,使用XlLink链接非结构化数据,非结构化数据通过XML的过渡最终转换为结构化数据,由于非结构化数据的文件格式的不同,有文本、图片、视频、音频等,所以必须根据文件格式的不同,采取不同的半结构化转换方法。

文献[15]中提出基于规则库来实现不同格式的非结构化数据的转换,先对原始数据格式描述,或者定义生成描述然后存入规则库,最后提取相应规则描述。

文献[16]中提到在非结构性数据的转换过程中,还可以依靠相关机器学习算法对非结构化数据进行实体识别和关系抽取,从而获得构建数据库所需要的特定的数据对象,如通过K-means聚类算法实现实体的关系抽取,以及通过CRF++工具包实现文本数据的实体识别。

这种逐级转换是一种典型的思路,可实现非结构化数据到结构化数据的映射,再加上CLM作为电力系统公共信息模型,通过统一的表达方式将CLM与XML链接,可以很好地解决电网中大部分非结构化问题。但这种逐步转化的方式,存在转换后缺乏通用性、文件元数据难以管理的问题,不具备大量数据转换的条件,以及对于视频,音频等需要打开查看再提取有价值信息的数据只能依靠人工处理等缺点。这就需要创建文件模板表、文件联系表来建立转化前后的联系,通过引入大数据文件解析优化方法,来提高系统转化容量。

2.4  解译利用

2.4.1  语义处理

文献[17]中引入人工智能和模式识别领域中的向量表示法来描述非结构化文本数据;采用算法提取关键词,用文档含义和属性组成的语义向量代替文档,并且使用语义相似度检索算法,从而实现非结构化文本数据也可以用传统的SQL语句来进行检索。

文献[18]中提到可以借助统计学习或深度学习算法提取语言特征,通过句法或者语法分析器,实现所查文本的语义的分析,此外文中还提到使用知识图谱和语义搜索技术对文本进行语义解析,通过文档关键词提取、自动生成摘要等技术可以进一步提高检索效率。

文献[19]中提到可以通过分词的方法,将字符串变成词的集合,一般的文本文件通常是连续的字符串流,分词要根据语言的类型,其中中英文的处理方法并不相同。一般的全文索引工具采用正向最大匹配算法,此外,对于编码过的文档类型,则需要另将其解码成字符串流。

2.4.2  文本建模

在对非结构化文本进行预处理后,为了方便对文本进行系统的分类和存储,通常需要对文本进行建模。很多企业普遍运用混合模型如Hybrid模型来对文档进行建模。因为相对于单一的模型,此类混合模型对于非结构化文本建模效果较好,通过文本建模,可以把每个文档映射到多维空间向量中,从而可以进一步进行文档相似度的计算,方便文本的分类和储存[20]。

3  未来电力系统非结构化数据处理的发展方向

随着非结构化数据规模的不断扩大以及行业发展的需要,再加上相关技术的创新,非结构化数据的处理技术也需要不断改善、创新以适应不同行业的需求。例如,随着电力数据的爆炸式增长,电力企业的非结构化与结构化数据统一储存调用系统已经展现出不足,迫于数据库存储压力,新型的非结构化数据存储系统在不断研究开发之中,与之相应的非结构化数据的优化管理和处理技术成为未来研究的重点之一。总之,虽然国内外对非结构数据的处理有一定经验,但是总体来说还处于初级阶段,相关技术还不够成熟,为了满足未来大数据时代信息价值的充分挖掘,未来非结构化数据处理应该向以下几个方面发展:

(1)满足应用范围不断拓展。随着企业信息化程度的不断加深,以各种文档、图像、音频视频、报表等为代表的非结构化数据挖掘处理在业务中的需求不断增大,应用范围不断扩大,数据处理作为构建信息化平台的核心组成要素之一,必须提高非结构化数据处理技术对不同业务的需求,从而保证业务的全面开展。

(2)满足数据的快速增长。互联网技术的发展使得网络信息数据迅速增长,非结构化数据库也随之迅速发展起来,这也对信息管理与共享提出了更高的要求。但目前非结构化数据库的处理主要是通过构建数据库集中处理,为了适应非结构化数据“爆炸式”的增长,进一步提高非结构化数据的处理性能,满足分布在网络中的各类数据同步处理。建立分布式处理体系便是未来非结构化数据处理的重要方向。未来针对非结构化数据需采用更加先进的体系架构、处理技术以满足分布式存储和处理大批量数据的需要[21]。

(3)特定方面的技术改进。比如,在数据存储检索过程中。虽然可以通过XML统一格式存储非结构化数据,但是非结构化数据以此方式存储后在系统的检索上仍旧比较困难,必须针对非结构化数据库本身的结构特点,在操作记录、限制机制以及数据元组方面结合XML的特性加以改进,优化非结构化数据的处理方式,进而提高非结构化数据库的检索性能。

(4)智能化处理。随着人工智能的普及,機器学习是非结构化数据处理的一个重要方面,特别是可以从数据中发现规律和挖掘知识,为基于非结构化数据处理的综合决策提供基础。在数据表示层面上,非结构化数据的可视化和特征提取以及数据降维,仍然是研究的重点[22]。

4  结  论

虽然现在电力企业拥有较为成熟的数据库管理处理系统,但这仅适用于结构化的数据。在大数据分析挖掘中,非结构化数据的有效处理可以充分挖掘大数据价值。但是在国内外,非结构化数据的处理仍是大数据处理技术的关键和难点。非结构化数据处理的核心问题包括数据的采集与表示、数学建模、信息挖掘、知识推理与综合决策等。未来随着产业的升级和大数据的扩张,非结构化数据的处理技术迫切需要得到创新与优化,以满足智能电网和泛在电力物联网中数据挖掘利用的需要。非结构化数据的处理技术会朝着智能化数据建模与机器学习,特别是非线性高维数据机器学习方面融合发展。此外推进大容量高速率的分布式数据处理与存储平台的建设,对于提高电力系统海量非结构化数据的处理能力和处理效率也有着极为重要的现实意义。

参考文献:

[1] HUANG Y,ZHOU X. Knowledge Model for Electric Power Big Data Based on Ontology and Semantic Web [J].CSEE Journal of Power and Energy Systems,2015,1(1):19-27.

[2] 施超.智能电网大数据相关应用问题研究 [D].广州:华南理工大学,2015.

[3] 裴珍.国家电网公司非结构化数据管理平台的设计与实现 [D].天津:天津大学,2016.

[4] 王玮,刘荫,于展鹏,等.电力大数据环境下大数据中心架构体系设计 [J].电力信息与通信技术,2016,14(1):1-6.

[5] 李泽江.电力系统多源异构数据优化管理技术的研究及应用 [D].兰州:兰州理工大学,2016.

[6] 陈硕,闫春生,王欧,等.国网辽宁全业务统一数据中心分析域关键技术组件研究 [A].中国电力科学研究院2017智能电网发展研讨会论文集 [C]//中国电力科学研究院:北京市海淀区太极计算机培训中心,2017:4.

[7] 邝苏鹏.国网业务与财务协同平台数据交换系统设计与实现 [D].哈尔滨:哈尔滨工业大学,2017.

[8] 张瑀.基于非结构化招聘信息的采集与清洗系统 [D].长沙:湖南师范大学,2017.

[9] 刘冬兰,刘新,马雷,等.电力系统中数据集成技术关键问题研究 [J].山东电力技术,2016,43(11):23-27.

[10] 马珊.面向Web文本数据仓库的预处理关键技术研究 [D].西安:西安电子科技大学,2011.

[11] 王瑞杰.面向电力调度控制系统的多源异构数据处理方法研究 [D].北京:华北电力大学(北京),2017.

[12] 吴伟波.轨道交通非结构化数据处理与维修决策研究 [D].广州:广东工业大学,2018.

[13] 李泽江.电力系统多源异构数据优化管理技术的研究及应用 [D].兰州:兰州理工大学,2016.

[14] 万里鹏.非结构化到结构化数据转换的研究与实现 [D].成都:西南交通大学,2013.

[15] 张枝令.结构化数据及非结构化数据的分类方法 [J].宁德师专学报(自然科学版),2007(4):417-420.

[16] 马晓荣.科技云中非结构化数据向结构化数据的转换方法 [D].西安:西安电子科技大学,2017.

[17] 邱剑.电力中文文本数据挖掘技术及其在可靠性中的应用研究 [D].杭州:浙江大学,2016.

[18] 苏兴华.非结构化生产信息的向量表示提取方法 [J].中国管理信息化,2018,21(23):159-161.

[19] 温绍楠.非结构化数据处理技术的应用和研究 [D].北京:北京邮电大学,2011.

[20] 李青,陈阳,谢浩然,等.一种基于文本相似度矩阵运算的非结构化海量投诉数据分类算法 [J].计算机工程与科学,2012,34(1):103-107.

[21] 周静宁.基于XML的非结构化信息存储系统事务处理模型研究 [D].武汉:武汉科技大学,2004.

[22] 徐宗本,张讲社.基于认知的非结构化信息处理:现状与趋势 [J].中国基础科学,2007(6):4-8.

作者简介:高明(1978-),男,汉族,陕西宁强人,高级工程师,硕士研究生,研究方向:电力信息化;陆宏治(1984-),男,汉族,广东广州人,高级工程师,工程硕士,研究方向:电力行业信息化、软件工程、基于云大物移智技术的共享服务应用;梁雪青(1985-),女,汉族,广东广州人,高级工程师,硕士研究生,研究方向:信息技术。

作者:高明 陆宏治 梁雪青

非结构化信息管理论文 篇3:

浅谈企业数据管理的需求及建议

摘 要:本文讲述了企业数据管理包含的内容,浅析企业数据管理的四方面需求,提出企业数据管理存在的问题及改进建议。

关键词:结构化数据;非结构化数据;内容管理

随着网络技术的发展,企业信息呈爆炸式增长,数据资产成为企业最具价值的无形资产。数据管理分为结构化数据和非结构化数据管理。结构化数据即行数据指存储在数据库里,可以用二维表结构来逻辑表达实现的数据;非结构化数据相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、图片等。据Forrest Research的统计资料表明,企业20%左右的信息有效地存储在各种类型的结构化数据库中,但是还有80%非结构化信息分散在整个业务过程及外部环境中,非结构化数据已成为企业数据的主体。

1 企业内容管理概念

企业内容管理(Enterprise Content Management)是指对组织机构内部多种格式和媒体类型的信息资源(通常称为信息资产)的组织、分类、管理等有序化过程,常常作为数字图书馆或企业知识管理的一个组成部分。企业内容管理是随着数据管理的发展而为客户提供的一种应用软件,它管理、集成和访问从音频、视频到扫描图像的各种格式的商业信息。内容管理处理的对象范围比传统关系数据库管理系统处理的结构化数据更广,除了一般文字、文档、多媒体、流媒体外,还包括Web网页、广告、程序(如JavaScript)、软件等一切数字资产,即所有结构化的数据和非结构化的文档。内容管理重点解决各种非结构化或半结构化的数字资源的采集、管理、利用、传递和增值,并集成到结构化数据的信息系统中,如ERP、CRM等,从而为这些应用系统提供更加广泛的数据来源。

2 企业数据管理需求

对国内大型企业非结构化数据应用现状的调研结果,结合AIIM、Garnter等权威机构对内容管理业务领域的研究,总结企业非结构化数据管理需求如下:

2.1 数据统一存储需求

针对大型企业内各业务应用系统基本采用分散存储各自非结构化数据的应用现状,需要通过建设非结构化数据管理平台,建立企业内部大数据量的非结构化数据存储中心,同时需要通过制订存储优化策略达到优化存储结构,达到将企业内的非结构化数据进行集中存储,简化企业内部的IT架构、减少数据安全控制点,提升企业核心业务系统总体性能。

2.2 数据集中管理需求

非结构化数据管理平台不仅是企业内非结构化数据的存储中心,也是各项非结构化数据管理标准的制订者与实践者。通过制订各种非结构化数据管理标准,解决目前在非结构化数据管理上所存在的主要问题,满足企业内非结构化数据集中管理的需求,如通过建立内容元数据管理标准、数据全局访问标准、数据归集标准等。

2.3 全生命周期管理需求

全生命周期管理是指内容的创建、申请、审核、生效、分发、退休到销毁的全生命周期过程。它的基础是统一的版本管理、统一的存储管理和统一的权限控制。实现方式一种是根据内容的状态来控制全生命周期过程,另外一种是结合工作流。通过工作流和版本管理、存储管理和权限管理的结合,实现更丰富多样的全生命周期管理过程。

2.4 多类型应用系统接入需求

目前,在大型企业内的业务系统存在业务逻辑多样性、所采用的开发技术多样性的特点,如基于SAP开发、基于J2EE开发等。因此平台需要为不同类型的业务应用系统提供整体接入解决方案以及与之配套的相关接入规范等。

3 企业数据管理的问题及建议

由于非结构化数据格式多样、存储分散、总量大、增长速度快等特性,给企业数据管理造成许多困难,下面浅谈企业数据管理存在的问题及建议:

3.1 数据共享协作困难

问题:各业务应用间数据交互过程不可管控,交换方式不统一,交互效率低,部分采取线下作业,增加了人工作业的工作量。

建议:增强各业务应用间非结构化数据的交互集成,提升数据的横向和纵向交互能力,减少线下的数据交互。

3.2 无全局访问机制

问题:目前电子文档搜索机制均由业务应用单独进行,未形成面向全局的文档访问能力,导致电子文档交互困难,无法提升用户工作效率。

建议:通过对电子文档的集中存储,提供高效的全局访问能力。

3.3 存储方式多样性,不利管理

问题:各业务应用数据存储方式多样性,不利于管理,项目建设中无形增加历史数据迁移工作的难度。

建议:建立集中统一的海量内容库,对内容进行压缩存储管理;建立自动化、智能化持续优化存储非结构化数据的技术架构。

3.4 数据分散孤立,不利数据挖掘

问题:没有建立基于业务的数据共享机制,信息孤岛现象严重,难以形成数据信息知识的价值链。

建议:统一存储非结构化数据,提升对非结构化数据的处理能力,特别是数据加工和挖掘的能力,从中获取重要信息,实现由数据到信息再到知识的过程。

3.5 版本不一致

问题:不同数据源中的存在版本不一致、多个版本情况,在应用时难以获取最准确的版本数据。

建议:统一数据来源和版本控制,利于不同业务应用的获取。

3.6 存在安全隐患

问题:大部分业务应用对非结构化数据未加密存储、未开展离线安全管理、对审计不够全面、访问授权独立,未达到全体系访问授权、数据备份还原能力高低不齐。

建议:加强对非结构化数据全方位的安全管控,如数据的传输加密、敏感信息管理等。

3.7 无全生命周期管理

问题:非结构化数据产生后根据业务需要传递,但传递过程中会有信息丢失/偏差,文档的产生部门变更后没有完整的更新到使用用户手中,旧版本也没有及时完整的回收。

建议:对非结构化数据的产生、变更、处理、删除、销毁进行全程管理,实现数据与所处的业务环境、应用环境无关。

4 结束语

本文对企业数据管理进行了讲解,主要列举了4个共性的企业数据管理需求,结合工作中系统建设遇到的数据管理问题,浅谈了目前针对企业数据管理中非结构化数据管理存在的问题及建议。目前,虽然很多内容管理软件解决了企业许多信息管理问题,用来管理结构化数据的关系数据库从理论到技术上已经相当成熟,而非结构化数据的复杂程度远远高于结构化数据,所以内容管理技术还存在很多有待解决的难题。

参考文献:

[1]曾春,张来峰,杨川.企业内容管理技术与应用[M].北京:电子工业出版社,2009.

[2]龚永罡,王晓庆.企业内容管理理论与实践[M].北京:机械工业出版社,2012.

作者简介:门海玲,女,陕西户县人,中级职称,工程师,本科,从事企业数据管理及应用方面的研究、实施与运维,从事信息化应用系统的部署、实施、运行与维护,从事oracle数据库、中间件等日常应用与运维工作。

作者单位:国网陕西省电力公司信息通信公司,西安 710048

作者:门海玲

上一篇:中考数学试题研究论文下一篇:家庭智慧能源管理论文