数据模型设计方法研究

2024-05-01

数据模型设计方法研究(精选十篇)

数据模型设计方法研究 篇1

一、防御模型网络防御式终端带来的安全挑战

目前的计算机遭到攻击主要从个人计算机终端上发起的较多:黑客们利用系统漏洞攻击并窃取超级管理员权限,我们使用TransactionScope.Required,也就是默认值:当已存在环境事务时,使用该环境事务,否则,创建新的事务。使用TranasctionScope方法实现DeleteObject方法:在DeleteObject方法中,调用new TransactionScope()时,不存在环境事务,所有会创建新的事务。在DeleteConnections方法中,调用new TransactionScope()时,如果该方法是由DeleteObject方法调用的,那么存在环境事务,在DeleteConnections中就不会创建新的事务了。如果DeleteConnections是由服务对象直接调用的,就不存在环境事务,DeleteConnections中调用new TransactionScope()时,会创建新的事务。

使用TransactionScope,事务的提交和回滚也是由TransactionScope自动管理的。DeleteObject方法中,数据回写成功后,事务会自动提交。如果DeleteConnections调用成功后发生异常,DeleteConnections中做的数据库修改会进行回滚,保证数据的一致性。

实现中使用TransactionScope的缺点是:存在多次数据回写,每一个db.SaveChanges都是一次数据回写。所以DeleteObject存在两次数据回写。如果是调用关系更复杂的方法,将会有更多次的数据回写。

二、现有防御模型终端访问控制的方案研究

防御模型控制中媒体流的Mode可分为“Sendonly”,“Receiveonly”,“Send/Receive”,“Inactive”和“Loopback”几种。接收/发送(Send/Receive)与媒体流的流向有关,其中,媒体流的流向是从防御模型控制的外部来进行确定。信号和事件均不受模式的影响。换句话说,这个黑盒子就起到了保护对象的作用。

若Reserve防御模型控制值为“False”,且Local描述符和Remote描述符存在,则MG为它们各选一个可选防御模型控制(组)。如果MG还没有给选中的防御模型控制(组)预留资源,则为其预留资源。相反,如果之前Reserve防御模型控制值为“True”且MG已经为选中的防御模型控制(组)预留了资源,则消息交换之后应释放先前预留的多余资源。处理完毕后,MG应向MGC发送Reply响应,响应中应给出Local描述符和(或)Remote描述符中被选中的防御模型控制(组)。如果MG没有足够的资源来支持任何指定的可选防御模型控制(组),则返回出错响应510(“Insufficient Resource”)。

但是在系统的物理部件,比如硬盘、CPU、内存,这些都不是安全的域。即这里我们把防御模型控制系统比喻成一个物理上分开的分时系统,把硬盘和CPU分开,使它们之间通过不被信任的接口相连接,通过这个接口,一个恶意的用户就可以访问及篡改这台计算机上的所有信息。

三、总结

防御模型控制系统的很重要的一个方面就是它的安全。从某种意义上说,安全是防御模型控制系统的最重要的一个方面。在分布环境下,很难确定你所要保护的域。比如在传统的分时系统中,终端即代表着域,我们为了能够进入系统,必须先登陆,提供登录帐号及口令,这是我们的安全解决方案。

摘要:针对网络防御入侵检测的开发项目,对于源文件的使用通常会很多,有可能会达到几十个甚至上百个,从而这就要利用到make工具来进行自动处理,能够避免人工输入gcc命令带来的繁琐工作。这个工具的工作内容是:对于特定几个源文件的修改,如果数量不是很多,只要对这几个源文件进行重新编译即可;如果是针对某一个被修改的头文件,对这一类型的头文件的源文件全部都进行重新编译。通过对这个工具的利用,使开发效率大大提高,有效的防止了重复编译。

关键词:网络数据,模型,设计

参考文献

[1]李川.WCDMA网络中的各种无线增强覆盖技术[J].信息通信,2007.05:45-46

[2]王军选.未来移动通信系统及其关键技术[J].通信技术,2009.42(10):09-12

[3]曹曦.光纤射频拉远技术的应用研究[J].无线通信,2009.04:037-040

数据模型设计方法研究 篇2

3.1.1主数据模型的定义主数据模型:涵盖传统的勘探开发数据模型内容,增加勘探开发各专业之间需要相互引用的共享数据,建立起的规范数据模型,称为主数据模型。基本实体:引领和构成主数据模型实体联系的的井、地质单元等顶层实体,称为主数据模型的.基本实体。专业实体类:将2.2识别的钻井、测试、地质、采油等16类专业共享数据,定义为主数据模型专业实体类。

3.1.2主数据模型的逻辑结构石油上游勘探开发主数据模型由九个基本实体和十六类专业实体类构成。基本实体作为顶层或引领实体是主数据模型的核心实体。专业实体类依赖于一个基本实体而约束存在。根据专业数据的特点,专业实体类的实体,可以直接作为基本实体的子节点实体,也可以是在专业实体类内构建的多层约束关系的实体。

3.2基本实体

基本实体部分由项目、业务单位、地质单元、生产单元、物探工区、井、井筒、站库、设备九个实体构成。这九个基本实体代表了石油上游勘探开发和使用的主要对象。其中,地质单元是被发现和认识的客观存在的对象,其它对象,包括生产单元和地震工区是人为划分构建的对象。为了便于管理,将基本实体属性分为主体部分和辅助描述部分,主体部分和辅助部分之间一般是一对多的关系。基本实体辅助部分描述基本实体的自身结构,状态变化信息,如地质单元的父子关联关系、井生命周期变化等内容。项目:记录区域勘探与油藏评价、油田开发产能建设等专项投资项目。将勘探与开发地质层系划分方案作为项目管理,以区分不同层系划分的层位数据。业务单位:记录油田公司各级油气生产单位,参与油田公司勘探开发施工作业的服务公司。地震工区:地震勘探所设定的数据采集工区。地质单元:勘探开发过程中所认识的、客观存在的各级地质构造单元。生产单元:油田开发过程中所划分的生产区块或单元,可以是地质单元,也可以是地质单元部分或组合。井、井筒:井和井筒是父子关系,井筒是井的若干分支,一口井有一个地理坐标,可以有多个地下井筒目的层坐标。站库:用于油田地面油气集输的处理单元。设备:勘探开发钻井、井筒施工或测试、油田采油和注水使用的移动设备和固定设备。

3.3专业实体类

在主数据模型逻辑结构上,以基本实体为引领,对十六个专业实体类,按照各专业产生和使用数据的方式和特点,针对性地进行内部数据逻辑结构设计。以地质油藏专业实体为实例,来阐述专业实体类的设计方案。区域地质的关键实体分层方案记录了对层位的认识,层位结构记录不同分层方案层位的上下关系。构造、圈闭、断层属性数据表描述区域的形态,储层、油气藏流体、小层评价等属性表描述区域单元内部特性。单井地质实体类以井筒基本实体展开。井筒地层存储单井钻遇的地层信息,包括界、系、统、组、段。井筒层位存储单井钻遇的油层组、砂岩组、小层、沉积单元、夹层等。井筒地层与层位受区域地质中所属分层方案下的层位约束。对比联通数据用来实现井筒层位的对比,描述其联通关系。

4结语

电视视频数据库模型的建模设计分析 篇3

引言:

作为多媒体信息的一种,视频信息具有蕴涵信息丰富、数据量大等特点。相对于文本、音频、图片,视频信息由于具有时间和空间的两维结构,具有明显的优势,但对其进行编目、存储、传输、表达的难度也更大。本文将以电视新闻视频为例,来论述电视视频数据库模型的建模设计。

一、结构选定

新闻事件、现场主持人、现场同期音、时间、地点、人物、播音员、节目配音、新闻类别、播出等信息构成了电视新闻的一般属性。数据库建立的目的是:使人们可以根据数据对象的特征、属性等标识体来实现对数据库内容的处理和操作。

二、引入模型

某地广电集团新闻中制作的新闻栏目有7档,尽管各栏目涉及的新闻类别都不一样,但不可避免地会出现一些重叠的地方,所以如何实现节目信息资源的合理分配与共享是制作新闻栏目时最常见的问题。为了尽快实现摄录数字化、制播网络化的发展目标,结合了当前新闻节目制作的流程和播出管理现状,设计了电视新闻视频数据库模型。为了确定模型中对象与新闻的对应关系,要把以下新闻引入到前述的数据框架模型中:

(1)新闻序列:指某一项新闻;

(2)新闻场景:由一个或多个镜头组成,是在同一个地点、同一时间录制的视频帧序列;

(3)复合单元:一个非递归的复合单元组成一个完整的新闻;

(4)视频文档:用于表达一档播出新闻或一条新闻,和复合单元是对应的关系;

(5)地点注释:指新闻帧序列中的地点的信息,如机场、体育场、会议地点;

(6)人物注释:指新闻帧序列中的人物的性别、姓名、年龄、职业等信息;

(7)事件注释:指新闻帧序列中的事件的对象、情况、描述等信息。

而为视频建立独有的查询代数,并以模型对象与新闻的对应关系为纽带,能保证对数据库查询操作的顺利进行。视频查询代数的基本运算公式有正则集合运算(Set Operation)、时态集合运算(Temporal Set operation)、过滤运算(Filter Operation)、合成运算(Compositional Operation)、浏览运算(Browsing Operation)。在正则集合运算(Set Operation)法则下:A AND B,即返回同时出现在A和B中的所有元素;A OR B,即返回出现在A或B中的所有元素;A MINUS B,即返回出现在A中但减去了同时出现在B中的所有元素。在时态集合运算(Temporal Set operation)法则下:A tAND B,即从A与B相交的元素中返回其代表区间;A tOR B,即从A与B并集中返回其代表的区间;A tMINUS B,即从A与B不想交的元素中返回其代表的区间。在过滤运算(Filter Operation)下,只有A tREDUCE(temo-rel)B,即返回与B中至少一个元素具有给定时态关系的A中元素。在合成运算(Compositional Operation)法则下,Decompose A,将A中元素映射到基本上下文;Map to composition A,即将A中元素映射到初级上下文;Map to stream(stream)A,将A中元素映射到给定视频流的初级上下文。在浏览运算(Browsing Operation)法则下,A NNOT(type)A,即返回所有与A中元素具有相交的流区间的指定类型的注解;STRUCT(type)A,即返回所有与A中元素具有相交的流区间的指定类型结构。

将视频查询代数应用在建立的数据模型上,极大地方便了对电视新闻以下列类别的查询:内容查询、内容报告生成、复杂内容查询、剪辑表生成、结构浏览。

三、模型实现

按照此前所建立的模型,并结合电视新闻视频的特点,可建立起一个新闻视频数据库。在此数据库体系中实现视频查询的代数操作,并引入上下文概念。

为了保证数据管理系统实用,易于操作,各个新闻栏目模板的建立应以栏目板块为主线,各个数据表索引分类的建立应以相应的栏目为主,新闻数据内容检索应与各个数据表相匹配,以视频段注释描述、关键词、镜头场景为索引实现对数据的操作。

在数据索引采用方面,要以注释描述项、检索项、关键词项、特征镜头场景取代地点、现场主持、人、新闻类别、人物、记者、播出日期、新闻事件、发生时间、播音员等,加强对数据库的使用,更好地在实际的工作中应用新闻视频数据。尽管视频数据的复杂性某种程度上会影响到数据的使用,不过可以建立多个检索项目,单个或多个地采用关键词、场景镜头、注释描述来进行检索,使得数据库的检索定位更加的准确、方便、快捷,方便对某条合成好的节目或素材进行浏览、添加、删除、修改等操作建立新的节目数据库和节目迁移库为新节目的合成和播出做准备。

若需要查找《新闻半小时》栏目在2014年8月1日播出的内容。只需登录《新闻半小时》栏目,打开检索浏览界面,输入有关的关键项,然后点击“检索”按钮,系统就会显示出要找的新闻内容,弹出具有该视频首帧画面播放器窗口。

四、实验结果

结合现有的基于千兆以太网的非编制作工作组,在此次电视视频数据库模型的建模设计中,除了采用一台系统管理服务器,还采用了一台节目数据存储服务器,这是一台基于PowerEdge 2900的戴尔存储服务器。经过对《新闻半小时》栏目两个月的试验测试,基本满足了的设计要求。

五、结束语

上述电视视频数据库具有特征清晰、结构简单明了特点,数据库管理系统的建立也相对简单一点。在实际的工作中,电视视频数据库更加复杂、多变,其建立也更加困难,但本文所论述基本思路和原则应保持不变。

参考文献

[1]潘丽娜,陆伟,周国飞,等.广西气象影视视频数据库建模分析[J].气象研究与应用,2009,30(z1):226-227.

[2]杨颖.非结构化数据库在视频检索中的应用研究[J].科技信息,2013(9):73-74.

[3]刘劲松,闫剑锋,徐军,等.红外图象数据库的建立[J].电子科技,1999(16):9-11.

[4]张秋余,王鹏辉.基于对象及空间关系语义检索的图像数据库建模[J].电子科技,2008(4):56-60.

(作者单位:中国人民解放军92124部队)

作者简介

数据模型设计方法研究 篇4

关键词:应用程序,数据模型,存储架构,概念模型,实体架构

关系数据模型就是传统企业数据库中DBA设计的字段与多个模型合并到一个表中的数据库设计方式,这种数据库设计较适合复杂的OLAP类型的查询,它能有效地消除多表联合查询。然而,大表的复杂关联查询是性能杀手,一旦无法有效利用数据索引会导致全表扫描,结果是数据库服务器硬盘灯的狂闪不止和无数进程阻塞在IO WAIT状态的无奈。

传统的数据库应用程序的开发,程序员很难从符合3大范式的数据模型中获得有效的查询结果。符合3大范式就意味着数据库表会拆分得很细,表间关联很多,统计分析查询就不可避免地导致n张表的联合查询。在没有有效的应用层缓存的情况下,这种查询不可避免地使应用程序的性能降低。因此,程序员宁肯违背3大范式而选择查询性能优先的数据库设计方式。

1 应用程序和数据库的关系

1.1 应用程序

常用的应用程序可分为C/S和B/S两种类型,其设计目标主要是展现或操作一种或多种类型的数据,数据可能是搜索结果、库存目录、用户配置文件、账户信息、财政信息、个人信息、地图坐标或天气等各种形式,所有这些数据都可能存储于某个数据库中。然而这些存储在数据库中的数据并不一定能被应用程序直接使用和操作,因此应用程序设计师在设计程序时需要对数据的逻辑关系和映射进行重新设计和处理。

1.2 数据库存储架构

面向对象的应用程序不考虑终端用户,只是在关系数据库的平面行和列中对数据进行处理,即使所有的应用程序概念都能够通过关系模型来表达,应用程序的开发人员还是不能完全控制数据库的架构,因为架构会因不同的使用模式而改变,从而使得硬编码的访问路径、映射和隐含的假设都变得无效[1]。规模较小的应用程序都是通过直接嵌入逻辑,从关系架构映射到应用程序数据对象,然而随着应用程序规模的增大,或是应用程序建立之初就是作为大型企业框架的一部分,数据访问的逻辑关系则通常被分散到单独的数据抽象层(Data Abstraction Layer,DAL)中。对于数据库架构、关系、使用约定和访问模式的代码设计,无论是应用程序的组成部分,还是单独的组件,尤其是根据数据的底层架构进行维护和扩展数据时,使得应用程序的代码设计变得越来越难。

2 规范化数据库架构

2.1 规范化数据存储架构

数据库中的数据通常展现为“规范化”的表和视图,独立同构的表包含具有单值的列,通过将行的特定值移植到单独表中来降低冗余,从而改进数据的完整性。对单独表各数据列中不同的数据,应用程序是通过数据联接来进行组合,不管表的外键是否在相关的表中被使用,它始终可以作为进一步加强数据完整性的数据标识,外键本身不能定义导航路径或连接条件[2]。

2.2 数据架构实例

一个Web应用程序将存入数据库中的学生成绩展现给IE用户,学生数据信息的存储结构如图1所示。

一个完整的规范化架构可能将数据信息分为4个单独的表,如图1所示,为了能够展示相对简单的学生成绩页,Web应用程序可能使用以下查询:

SELECT distinct student.学号ID,student.姓名,student.班级,student.专业名称,results.学期,

results.成绩,teacher.姓名as任课教师,course.课程名称,results.类别名称as课程类别,

course.学时,course.学分FROM(student INNER JOIN results on student.学号=results.学号)

INNER JOIN(course on results.课程代码=course.课程代码and results.学期=course.学期)

INNER JOIN(Techer on teacher.工号ID=course.工号ID)

该查询不仅复杂而且要清楚各表之间的联系;如student表的学号字段与results表的学号字段相关联,而results表的学号和课程代码字段分别与student和course表的学号和课程代码字段相关联,此查询既能得到学生已经考核过课程的成绩,也能查询出无成绩的课程。尽管基于当时的框架和数据进行应用程序开发时的假设是有效的,但是,如果将隐含逻辑与应用程序中的查询混在一起,则应用程序会更加依赖于数据库的架构,从而使应用变得很难被跟踪和维护。上述实例从数据库的角度看该架构是规范的,但它不是非常适合应用程序的使用,为了提取想要的数据必须将表之间的隐性关系加入应用程序。

3 概念模型

3.1 概念模型的引入

数据建模是将数据模型分为3个部分:概念模型、逻辑模型和物理模型。关系数据库的概念模型是定义需要建模系统中的实体和关系;逻辑模型是通过外键的约束将实体和关系规范化到表中;物理模型通过指定分区和索引等存储详细信息实现特定数据引擎的功能。物理模型由数据库管理员进行优化以改善性能,而编写应用程序代码的程序员的工作主要限制为通过编写SQL查询和调用存储过程来处理逻辑模型[3]。概念模型通常是用作捕获和传达应用程序要求的工具,常常以静态关系图的形式供项目早期阶段查看和讨论,设计完成后被弃用。

3.2 概念模型实例表示

针对以上的实例用E-R图表示学生成绩信息的概念模型,如图2所示。

3.2.1 实体

(1)学生:学号ID、姓名、班级、年级、专业名称、系部名称。

(2)课程:课程ID、课程名称、学时、学分、学期。

(3)成绩:学号ID、课程ID、学期、工号ID、成绩、类别名称、类别代码、考核方式。

(4)教师:工号ID、姓名、性别、年龄、职称、系部。

(5)教师课表:工号ID、课程ID、班级、学时、学期、考试方式、类别代码。

3.2.2 实体之间的联系

上述各实体之间的联系如下:

(1)一个学生可以有多门课程的成绩,一门课程可以对应多个学生上课,学生与课程之间是多对多的关系。

(2)一个老师可以担任多门课程,一个课程也可以有多个教师上课;教师与课程之间是多对多的关系。

(3)一个学生的课程可以有多门,一个学生的一门课程对应一个成绩,学生与成绩之间的关系是一对多的关系。

(4)学生、课程、成绩三者之间具有多对多的联系。

4 ADO.NET实体框架

ADO.NET实体框架是一组支持面向数据的应用程序开发技术。面向数据的应用程序的架构师和程序开发人员必须为要解决业务问题的实体、关系和逻辑构建模型。数据可能跨多个具有不同协议的数据存储系统,应用程序开发人员必须利用实体框架查询概念模型中的实体和关系,同时依赖于实体框架将这些操作转换为特定于数据源的命令,从而为概念模型赋予生命,使应用程序不再对特定数据源具有硬编码的依赖性,应用程序开发人员可以根据需要对存储模型和映射进行更改,而不需要对概念模型、数据类型或应用程序代码进行更改。实体框架利用客户端视图机制来扩展查询,出于性能的考虑,客户端视图可以编译到应用程序中,或是通过从XML文件产生的元数据中映射而实时产生,对不同的或是进化的存储结构无需重新编译[4]。

4.1 查询概念模型

根据图2概念模型,查询一个学生的成绩集合就很简单,首先根据查询需要建立一个Course视图,选择各表中需要的字段,利用概念模型框架设计查询所有已开课程的成绩信息代码:

此查询中不需要开发人员编写任何联接,实体是强数据类型,关系通过属性来遍历,根据层次内的类型来过滤集合。Web应用程序框架经常需要将同一数据通过不同的Web应用程序展现为不同的视图。例如,向没有授权的Web客户端展现的内容往往是信任客户端展现内容的子集,同样在应用程序框架内部处理的数据架构也与在进行商业事务交换的数据架构大不相同。ADO.NET实体框架将不同的概念模型映射到同一数据库架构,从而满足了这些类型场景的需求。

4.2 将结论建模为对象

在ADO.NET实体框架中,将查询结果以Data Reader类型返回,并可以对其进行扩展,上面的例子将返回结果表示为记录。有了实体,就可以对同一个概念模型编写查询,返回强类型的业务对象结果,当把结果建模为业务对象时,关系就可以通过对象的类型属性进行导航和更新,而不需要操作大量的外键值[5]。

以下代码是业务对象使用概念模型的例子,通过查询概念模型将Courses中课程为考试课且成绩>=60分的结果返回为对象,通过课程类别集合的属性导航,对数据库的更改通过对Save Changes()的调用进行保存:

与前面的概念查询实例一样,这里的查询中也不需要联接,对象的返回结果是强类型和可更新的,对两个不同类型关系的导航、修改是通过属性和方法来完成,而不需更新大量键值。

5 结语

对象模型和关系模型在数据库存储上不存在阻抗不匹配,面向对象的程序设计和面向数据库的程序设计应该是一致的,而不应该是对立和冲突的,设计过程中直接向数据库存储框架编写应用程序,存在很多问题,它既不能控制应用程序对象模型,也不能控制存储架构。数据库的规范化程度使其很难直接在应用程序中使用,从而使应用程序很难对其进行跟踪和维护。ADO.NET实体框架允许应用程序使用应用程序概念(如强类型、继承和关系)来建立概念模型,该概念模型可以映射到各种存储架构中。映射是在应用程序外声明的,因此当数据库架构的访问模式发生改变时,仅需要更改映射,应用程序便可以继续使用同一查询,在同一概念模型提取同一结果。

参考文献

[1]张光华,李晓红.基于三方架构的存储备份系统设计与实现[J].软件导刊,2009,02:157-159.

[2]陈志忠.数据存储的架构方式与选择[J].现代远程教育研究,2007,02:66-68.

[3]汪春妍,刘洪星.基于XML的数据仓库概念模型设计[J].微计算机信息,2009,06.

[4]黄光芳.面向接口编程在三层架构系统中的设计及应用[J].计算机应用与软件,2009,06:133-135.

数据模型设计方法研究 篇5

重点介绍ArcGIS的Geodatabase数据模型,并在Geodatabase的基础上构建城市人防数据模型,进一步介绍ESRI公司的空间数据库引擎(Spatial Database Engine),分析人防数据的存储模式,最后基于ArcObjects组件对象实现人防数据的.入库.

作 者:王锐 白玲 马德涛 WANG Rui BAI Ling MA De-tao 作者单位:王锐,白玲,WANG Rui,BAI Ling(信息工程大学,测绘学院,河南,郑州,450052)

马德涛,MA De-tao(海军出版社,天津,300450)

数据起源模型PROV—DM研究 篇6

关键词 数据起源 安全性 安全数据起源模型

中图分类号:TP3 文献标识码:A

0引言

计算机的广泛应用导致了信息爆炸式增长,人们处理的信息呈几何级增长,这些信息可以分为原始采集录入的数据以及由这些原始数据派生的数据这两类。其中派生数据占大多数,它们一般都经过了一系列的处理,由于其派生过程无法得知,用户往往怀疑这种数据的可靠性,事实上也确实如此,派生的数据往往存在纰漏甚至与原始数据毫无关系。这种现状使得用户不得不关心这些信息的产生过程和产生它们的源数据,这就导致了数据起源技术的产生。

因为数据起源是新兴的研究领域,所以目前对数据起源的研究主要集中在建模、计算、存储、查询等工作上,对确保数据起源信息安全方面的研究比较少。如果收集到的起源信息本身安全性得不到保证,无法确保起源信息的完整性和机密性,那么我们就不能依赖它们来确定数据对象是否可信,起源信息就失去了其存在的价值。所以数据起源信息安全的研究有其重要的现实意义。安全起源无论在法律上还是在科学实验中都有着及其重要的作用。

数据起源的安全性主要考虑其完整性,机密性以及不可否认性。论文将在基于W3C标准的起源模型上研究安全起源,使用有向无环图来描述起源模型。通过对各种加密算法的研究和分析,选取合适的加密算法,以实现起源关系和起源信息本身的完整性和机密性的要求。

1基于W3C的数据起源模型PROV-DM

PROV-DM全称是Provenance Data Model,即数据起源模型。起源概念,表现为PROV-DM类型和关系。这些关系被归纳为六个组件,即实体和活动;派生;代理、义务和影响;描述包;替代化;集合。

(1)实体和活动:PROV-DM的第一个组件是关于实体和活动,及它们之间的相互关系:已使用(使用),已产生(产生),已开始(开始),已结束(结束),已失效(失效)和已被告知(通信)。实体是一个拥有固定方面的物理、电子、概念型或其他类型的事物;可以是真实的也可以是虚构的;活动即在一段时间内发生在、作用于实体的事件;可以包括实体的消耗、加工、转换、修改、迁移、使用或产生。如图1所示使用UML来描述第一个组件。核心结构在黄色区域展示,包括两个级别(实体、活动)和它们之间的3个二元关联:已使用(使用),已产生(产生),和已被告知(通信)。图的其余部分展示了延展结构部分,包括UML关联级别。

图1 实例和活动组件UML描述

(2)派生:派生是一个实体到另一个实体的转化,一个实体更新后会成为一个新的实体或者是可以基于一个已存在的实体创建出一个新的实体。

(3)代理、义务和影响:代理为一个活动的发生、一个实体的存在或另一个代理的活动承担某种形式的责任;义务是活动代理责任承担任务,指明了代理在活动中所扮演的角色。它进一步允许一个计划可以被指定,该计划指的是在活动的背景下代理需要实现的某些目标影响是指一个实体、活动或代理有能力通过使用、开始、结束、产生、失效、通信、派生、属性、关联或授权而对相互的特性、发展或行为产生影响。

(4)描述包:描述包是对一系列起源描述的称呼,它本身就是一个实体,因此可以表示起源的起源,对一个描述包的名称进行定义可以采用描述包构造函数进行。

(5)替代化:替代是实体间的特殊化(特殊化)和替代(替代)关系。图 2描述了第替代组件,包括一个单独分类和两个二进制关系。替代组件可以对同一个数据采用两个不同的起源描述该数据的两个不同方面。

图2 替代组件关系描述

(6)集合:一个集合是拥有成分的实体。成分本身也是实体,因此它们的起源可以被表达。某些应用需要能够表达收集本身的起源:例如,谁维护该收集(属性),在其演变中包括哪些成分,它是如何被集合起来的。

为了构建安全数据起源模型,保证数据起源记录的完整性和机密性,可以通过向状态节点之中添加安全组件的方法来保证互相关联的状态节点的完整性及机密性。如图3所示为一个通过添加安全组件构建的安全数据起源模型。

图3 加入安全组件的数据安全起源模型

为了生成并添加安全组件,在节点Pi生成节点Ai时,同时生成一个节点Si,该节点用来保存节点Ai的起源信息以及该信息的安全性。对于需要进行机密性保存的节点Ai的部分信息或元素中的某些信息,主要是节点描述中的description部分(该语义主要是描述和其他节点之间的必要元素关系,例如时间以及环境变量等),则将其保存在附加节点Si中,然后采用协议密钥进行加密保存。

组件及其依赖性在如下图4中有所体现。一个组件对另一个组件中所定义概念的依赖,在图中显示为前者在后者的上方。例如,组件5(替代化)依赖组件4(描述包)中所定义的概念,而其又依赖组件1(实体和活动)中所定义的概念。

图4 PROV-DM组件间的依赖关系

2 PROV-DM实例描述

上一部分对起源的一些概念以及PROV数据模型是怎样通过类型或关系给出这些概念的。本部分将这些概念与实际应用联系起来,以表达一些发布在网络上的文件的起源。PROV的概念在实例中相互协作,显示起源表达式的插图构成了一个定向图,据此我们可以对实体的起源进行解释,并且指出实体、活动以及代理。这个实例同样也展示了有时不同的起源表达式可以共存于同一个实体,这证明了追踪起源的起源的必要性。

在本实例中,我们将发布在万维网上的一些文件作为目标,描述它们的起源。为便于描述,以http://www.w3.org/TR/2011/WD-prov-dm-20111215中的文档为例,它的起源可以从不同的角度来表达:首先,可以从作者的视角出发看起源;其次可以被看成是一个W3C过程;除此之外还可以提供这两个起源描述的属性。下面从过程描述的角度采用PROV-DM描述该文档的衍生过程。

万维网联盟根据出版政策发布文档。定期的文档发布反应了小组工作的完成。每一个工作草案的发布都需要向发出网络管理员的"发布申请"。 W3C编辑者同样需要为文档的最初版本提出"调整申请"。所有的工作草案都可以在一个特殊的IRI中被访问。我们根据文档的发表政策以及相关请求,对同样一个文档的不同版本进行观察两个版本的文档:tr:WD-prov-dm-20111215 (第二个工作草案) 和 tr:WD-prov-dm-20111018 (第一个工作草案);

(1)WWW联盟 (w3:Consortium)发布tr:WD-prov-dm-20111215和tr:WD-prov-dm-20111018;

(2)tr:WD-prov-dm-20111215的发布活动为ex:act2;

(3)tr:WD-prov-dm-20111018 的发布活动为ex:act1;

(4)tr:WD-prov-dm-20111215为 tr:WD-prov-dm-20111018的派生;

(5)发布活动ex:act1使用一个发布请求 (email:2011Oct/0141)以及一个编 辑请求(chairs:2011OctDec/0004);

(6)发布活动ex:act2 使用一个发布请求 (email:2011Dec/0111);

(7)文件根据发布规定 (process:rec-advance)内容发布,即PROV术语中的计划。

现在我们开始对一些PROV描述进行解释,通过PROV-N符号对其进行表示,如下图 5以图解的形式呈现所有起源记录的细节信息。

将一个工作草案文档(rec54:WD)视为实体以便我们能够描述其起源。

实体(tr:WD-prov-dm-20111215,[prov:type='rec54:WD'])

发布活动

活动(ex:act2,[prov:type="publish"])

发布活动产生了文档:一个产生过程。此产生没有指定时间因此用'-'标记。

被产生的(tr:WD-prov-dm-20111215,ex:act2,-)

文档的第二个草案由第一个派生而来:一个派生过程。

派生自(tr:WD-prov-dm-20111215,tr:WD-prov-dm-20111018)

这个活动需要一个发布请求:一个使用过程。没有指定的时间因此用'-'标记。

已使用(ex:act2,email:2011Dec/0111,-)

这个活动与互联网联盟代理有关联,根据联盟发布政策进行:一个关联过程。

关联(ex:act2,w3:Consortium,process:rec-advance)

图5通过一个多边形展示了这种关系,关联标签指向一个代理和实体。这个简单的实例展示了不同的PROV概念,例如实体、代理、活动、使用、产生、派生和关联。恰巧这个例子中的所有实体本就是网络资源,拥有固定的可用IRIs。我们注意到某些IRIs是可用的公共资源,但某些是有访问限制的:只能通过其标识符来寻找起源。如果标识符之前不存在,那么一个活动可以产生标识符,且在实例ex:act2中,可以通过前缀指明的命名空间来确定。我们发现W3C开发的IRI计划尤其适用于表示文档起源,因为每一个IRI都代表了一个特定版本的文档。通过PROV很容易就能够确定个版本间的关系。我们同时发现关联其实是活动、代理和计划构成用多边形表示的三元的关系。

3结论

随着计算机的逐步普及,存储硬件的不断更新和存储技术的不断完善使得大量收集和存储数据信息成为可能,数据在其生命周期中都要经历从产生到存储查询以及加工处理到最后的删除或存档的过程,数据起源能够记录数据对象在其生命周期内的演化过程,可用于验证数据对象的可信度,同时某种程度上可反推演数据的加工过程。本文从PROV-DM的六个组件角度研究了数据起源模型,并以万维网上的一个文档作为实例,分析其产生及派生过程。

参考文献

[1] 戴超凡,王涛,张鹏程.数据起源技术发展研究综述.计算机应用研究,2010(9): 3215-3221.

[2] 李亚子.数据起源标注模式与描述模型.现代图书情报技术,2007,7: 10-13.

[3] Moreau,L.,Missier,P.Prov-n:The provenance notation.2013.

[4] Moreau,L.,Missier,P.Prov-dm:The prov data model.2013.

数据模型设计方法研究 篇7

众所周知, 数据库是一种按照数据结构实现数据组织、数据存储和数据管理的仓库, 它是伴随着信息技术和市场发展形成的。作为信息系统的核心组成之一, 数据库设计在信息系统的研究和开发中发挥着无可替代的作用, 其质量直接影响着信息系统的最终运行效果和质量。因此, 企业必须加强对数据库设计的管理与控制, 以提升客户的信任度和满意度, 推动企业健康稳定发展。

如何根据企业中用户的需求及企业生存环境, 在指定的数据库管理系统中, 设计企业数据库的逻辑模型, 最后建成企业数据库, 这是一个从现实业务问题向计算机语言转换的过程。

1 信息的转换

信息是客观事物运动的表征, 数据则是用来表示信息的一种符号。若要将现实客观事物变成计算机能处理的数据, 需要经历认识选择和加工转换两个过程。如图1所示。

在信息-数据转换过程中, 各种术语都有一一对应的关系, 如表1所示。

当具体地研究某个实体时, 就要对实体型和属性型赋以一定的值, 在数据库中就是一条记录值和一项数据值。[1]

2 E-R信息模型的设计

所谓E-R信息模型设计, 就是指实体-关系模型设计, 它较为直观地反映了是实体与属性的内在联系与特点。

2.1 E-R图E-R图主要由实体、属性以及联系三种基本要素组成。

图2表示了两个实体间的三种不同联系方式 (1:1, 1:n, m:n) 。

由图2可以看到实体有属性, 联系也可能有属性, 如图中的联系“学习”也有属性“成绩”, 它反映了某个学生学习某课程的成绩。[2]

2.2 设计E-R图

例:假定某企业信息系统, 要求适应以下不同用户的应用要求:人事科处理职工档案, 供应科处理采购业务。

2.2.1 设计局部E-R图

根据要求, 可以对各个用户进行调查、分析需求得到局部E-R图, 如图3所示。

2.2.2 分析实体集之间的联系

根据局部E-R图, 可以分析实体集之间的联系。在该例中, 职工之间存在着领导与被领导的关系, 因此职工实体集自身 (即一个实体集中的实体之间) 存在着1:n的联系。

供应商、工程项目和零部件之间存在着供应商为工程项目提供零部件的联系, 即三个实体集之间存在着联系,

它们之间是m:n的联系 (多对多的联系) 。

2.2.3 总体E-R图

现在需要对各局部E-R图加以综合, 产生总体E-R图, 综合后的总体E-R图如图4所示, 为了清晰, 这里省略了实体集的属性。

注意:在综合E-R图中, 同一实体只出现一次。

3 从E-R图导出关系数据模型

3.1 转换原则

(1) E-R图中每个实体, 都相应地转换为一个关系, 该关系应包括对应实体的全部属性, 并应根据该关系表达的语义确定出关键字, 因为关系中的关键字属性是实现不同关系联系的主要手段。

(2) 对于E-R图中联系, 要根据联系方式的不同, 采取不同手段以使被它联系的实体所对应的关系彼此实现某种联系。

3.2 转换方法

(1) 如果两实体间是1:n联系, 就将“1”方的关键字纳入“n”方实体对应的关系中作为外部关键字, 同时把联系的属性也一并纳入“n”方的关系中。如图3 (a) 所示, E-R图对应的关系数据模型为:

职工 (职工号, 姓名, 工资, 职务)

(2) 如果两实体间是m:n联系, 则需对联系单独建立一个关系, 用来联系双方实体, 该关系的属性中至少要包括被它所联系的双方实体的关键字, 如果联系有属性, 也要归入这个关系中。图3 (b) “供应商”与“工程项目”和“供应商”与“零部件”之间是m:n联系, 根据上述转变原则, 对应的关系数据模型如下:

供应商 (供应商名称, 地址, 电话)

工程项目 (项目号, 预算, 工期)

供应 (供应商名称, 项目号, 零件号, 供应量)

零部件 (零件号, 零件名, 单价)

将工程项目与供应合并最后的到的关系数据模型是:

供应商 (供应商名称, 地址, 电话)

工程项目 (项目号, 供应商名称, 零件号, 预算, 工期, 供应量)

零部件 (零件号, 零件名, 单价)

(3) 如果两个实体间是1:1联系, 如图2 (a) 表示“工厂”与“厂长”两实体间联系, 联系本身并无属性, 转换时只要在“工厂”的关系中增加“厂长”的关键字作为属性项, 就能实现彼此间1:1联系。如:

厂长 (厂长号, 厂号, 姓名, 年龄)

工厂 (厂号, 厂名, 地点)

或者:

厂长 (厂长号, 姓名, 年龄)

工厂 (厂号, 厂长号, 厂名, 地点)

4 结论

数据库设计中最关键的一步操作就是实现概念模型到计算机数据模型的转换。

E-R模型通常采用实体集联系的方式展示其与现实世界的关系;而在关系模型中, 使用单一的结构 (二维表) 来组织数据。在将E-R模型转换为关系模型时应遵循下面几条准则:

(1) E-R模型中的每个实体集都转换成一个同名的关系, 实体集的属性就是关系的属性、实体集的关键字就是关系的关键字。

(2) E-R模型中的每个联系也用一个特定的关系来表示, 而将与该联系有关的各个实体集和相关属性以关键字的形式表示。总体来看, 这些关键字大体可以分为以下三种情况:

1) 若联系为1:1, 则使用的候选关键字可以是每个实体的关键字。

2) 若联系为1:n, 则候选关键字必须为n端实体集的关键字。

3) 若联系为m:n, 则候选关键字是各个集合关键字的组合。

(3) 一般地, 那些具有相同关键字的关系模式可以进行合并。

摘要:在管理信息系统开发中, 数据库设计的目标是建立DBMS能识别的关系数据模型。而关系数据模型建立的基础是首先建立E-R模型, 通过E-R模型才能转换为关系数据模型。如何建立E-R模型以及如何将E-R模型转换为关系数据模型, 是管理信息系统开发中数据库设计的关键。

关键词:数据库设计,E-R模型,关系模型,转换

参考文献

[1]刘臣宇, 朱海秦.管理信息系统的开发与应用[M].北京:国防工业出版社, 2006:115.

[2]王能斌.数据库系统原理[M].北京:电子工业出版社, 2000.22.

[3]王行言.计算机信息管理基础[M].北京:高等教育出版社, 1999:50-61.

[4]陈琳, 苏艳芳.管理原理与实践[M].北京:国防工业出版社, 2007:47.

[5]陈国华.安全管理信息系统[M].北京:国防工业出版社, 2007:102.

数据模型设计方法研究 篇8

虚拟设计技术是利用计算机辅助技术, 在计算机环境中实现产品的开发过程, 是计算机图形学、人工智能、计算机网络、信息处理和机械设计与制造等技术综合发展的产物。通过对产品从设计到装配整个过程的模拟, 达到提高产品设计质量、降低产品开发周期和成本的目的。

1 虚拟设计技术在机械产品开发中的重要意义

目前, CAD软件的应用提高了设计效率, 在产品设计同时进行零部件的受力分析、加工仿真、预装配、运动仿真及动力学分析。但由于CAD软件开发是基于传统的产品开发模式, 不支持多用户并行工作模式, 不能实现产品开发过程的并行化, 产品的设计质量取决与某个工程师的经验。虚拟现实技术在机械产品设计中的应用, 为产品开发提供了新的设计和验证手段。虚拟设计系统支持多用户并行操作, 不同领域的工程师可以在同一个设计环境中对产品的虚拟原型从不同方面进行分析, 避免了在传统产品开发模式下各部门对设计的孤立修改和交流困难。由于虚拟现实技术自身的特点, 在虚拟设计环境中操作者可以进入产品模型的内部, 分析产品在工作状态下的性能, 同时虚拟现实技术具有适时交互功能, 对产品开发的全过程计算机模拟, 实现产品开发一次性成功的目的, 避免传统开发方法中采用物理样机验证设计所带来的人力和财物的损耗, 达到缩短产品开发周期、降低开发成本和提高用户满意度的目的。产品模型的数据分析是虚拟设计系统重要组成部分, 是进行各种仿真的基础, 需要用CAD软件创建产品模型并通过模型数据处理程序实现模型几何拓扑信息的提取和保存。下文就对虚拟设计环境中的模型数据结构以及CAD软件和虚拟设计系统的模型数据交换进行探讨。

2 虚拟环境中模型的数据结构

虚拟现实系统中采用三角面片模型进行产品信息的表达, 该数据格式在模型显示和碰撞检查方面具有处理简单、计算量小的优点, 它是对产品的外形描述, 没有与设计和制造相关的信息, 模型精度通过三角面片划分密度来控制。且现有的图形硬件大部分支持三角形绘制的加速, 所以三角面片模型可以很好地满足虚拟现实系统的实时性要求。常用的有两种方法实现虚拟现实应用系统的模型创建, 一是用专业的建模软件如3DS Max、Multigen等创建模型, 这些软件都能生成虚拟现实系统支持的三角面片文件, 可以直接载入虚拟现实应用系统中, 但是建模环境复杂, 不易于掌握, 只是模型的形状描述, 对于机械零部件复杂和精确模型的描述和表示比较困难。三角面片模型不含有特征和几何信息, 只能用于一般的展示和运动仿真, 不可以进行更深入的设计分析。另一种是用CAD系统进行产品的建模, 再利用模型转换功能将模型转化为三角面片格式文件, 在虚拟设计系统中编写文件读取功能模块实现模型的载入和拓扑重构。

3 CAD系统与虚拟现实系统的模型数据交换分析

CAD系统和虚拟现实系统模型的不同特点决定了CAD系统创建的模型不能直接运用于虚拟现实系统中。CAD系统中的模型具有精确的几何描述, 侧重于模型几何形状的表达。虚拟现实系统的模型侧重于模型在虚拟场景中的渲染速度和模型在虚拟场景中的碰撞检测需要, 虽然有一些专业的建模软件可以生成虚拟现实系统直接支持的模型, 但是对于复杂的模型还是在机械CAD系统中比较方便, 所以对于机械产品虚拟设计系统的开发, 模型的创建工具一般是选择CAD软件。在虚拟设计系统的开发中, CAD系统向虚拟现实系统的模型转换是系统设计的一个重要部分。下面对两种常用的数据转换方式进行分析。

3.1 利用CAD系统的模型导出

在CAD系统中通过vrml和STL两种文件将模型转化为虚拟现实系统支持的模型。STL是用于快速成型的数据文件, 有固定的格式, 每个CAD系统都支持这种形式模型的输出。vrml文件是虚拟现实文件, 现在的版本是vrml97即vrml2.0, 该模型的语法复杂, 且不同系统生成的模型数据格不一致。通过对这两种模型的比较, 选择STL模型作为CAD和虚拟设计系统的交换文件。下面将详细分析STL文件的语法和虚拟设计系统中STL文件的载入。STL模型是一种离散的实体表面三角面片模型, 该模型记录了将实体表面离散处理后得到的所有三角面片信息, 包含了每一个三角面片的顶点坐标及其法矢。STL文件格式规定了三角面的方向、顶点法则和量纲, 其描述如下:

面的方向。由于这些三角面片定义的是三维实体的表面, 所以每个三角面片同时也可看作是三维物体内部与表面的分界面, 它的法矢始终朝外, 它与三顶点连成的矢量方向构成右手法则。

顶点法则。每一个三角面片中必须有两个顶点与其相邻的三角面片共用, 即一个三角面片中的顶点不能落在另一个三角面片的边上。

量纲。三角面片数据是无量纲的, 各顶点坐标值均必须是正数。模型中包含的三角形面片的个数则按STL文件的类型, 有的直接给出, 有的不给出。文件中还包括其它一些信息, 如文件名, 文件描述等等。STL文件有两种类型:ASCII格式和二进制格式。

3.2 通过API函数对CAD系统二次开发

利用CAD系统提供的二次开发接口对CAD创建的模型进行三角面片离散化。这种方法可以直接使用CAD的建模环境, 进行模型信息的提取。

Solid Works二次开发方法。Solid Works是基于Windows平台的三维机械设计软件, 它通过COM技术为用户提供强大的二次开发接口, 凡支持OLE和COM编程的开发工具。其二次开发分两种, 一种是基于自动化技术的, 另一种开发方式是基于COM的。COM技术可以使用最多的Solid Works API函数, 并可控制Solid Works的运行方式, 生成dll文件, 即以Solid Works插件的形式生成用户的自定义功能模块。由于Solid Works是以Visual C++作为主要开发工具, Solid Works2006采用了ATL COM Appwizard向导, 并且EDS公司推荐使用ATL方法进行程序的开发。在此采用Visual C++6.0和ATL向导进行程序开发。可以最多地使用Solid Works提供的API函数和Visual C++6.0的MFC类库, 方便程序的开发。特征提取是在Solid Works2006软件平台上通过二次开发实现的。

模型信息的提取和存储。信息提取的基本思路是:遍历零件的拓扑树, 对特征进行判断是否是几何特征, 若是则提取其拓扑信息与几何参数信息, 对特征中的几何面逐个进行三角化离散, 记录每个面片的顶点信息与法线信息, 将零件的面片信息以自定义文件.v rd保存。在对模型进行三角化离散后, 为模型的近似描述。在虚拟设计系统中不能通过对三角面片的计算获取精确的模型几何信息, 同时需要进行大量计算, 但是在虚拟设计系统中需要获取模型的精确几何信息进行分析, 这就需要在CAD软件中进行特征提取时提取所有的属性信息。对于模型信息的存储采用了先遍历模型中的所有特征, 形成特征链表, 再遍历特征中的几何面形成几何面表, 最后对每个面进行三角面片离散化后用顶点链表保存顶点数据, 形成模型的数据存储结构。

小结

虚拟设计技术是虚拟现实技术在机械产品设计中的应用, 通过对开发过程的模拟, 减少了产品的开发周期, 是CAD技术的发展趋势。一些应用已经表现了其巨大的优势, 将是产品设计方法的一个重要的研究方向。

摘要:模型是虚拟设计系统的基础, 对于机械产品, 通常使用CAD软件创建零部件模型, 并进行预装配, 再进行模型的转换或特征信息的提取。本文介绍了虚拟设计技术在机械产品开发中的重要意义, 并对CAD软件和虚拟设计系统的模型数据交换的进行了探讨。

关键词:模型,虚拟设计,机械产品,CAD

参考文献

[1]陈琪, 产品开发与虚拟设计制造技术, 机电产品开发与创新, 2002

[2]黄成洋机械产品虚拟设计建模方法的研究, 机电产品开发与创新, 2004

数据模型设计方法研究 篇9

信息资源是实现企业、政府、商业信息化的源泉。随着Internet技术的发展, 这些信息资源逐渐呈现分布性、动态性, 多领域、半结构化或无结构化、非规范化等特点。不同应用系统之间要进行准确的信息共享和交换, 需要设计一个数据交换来实现跨部门、跨系统、跨异构数据库的数据共享, 为领导管理、决策提供信息支持与服务。将不同的数据形式变异构为同一, 化分散为集中, 才能有利于集成人员对数据的发布、订阅和查询操作。

数据交换是实现数据共享的一种方式。通过数据交换的方法, 实现企业业务系统间的数据共享、互联互通、业务协同, 也是解决目前“信息孤岛”现象的关键途径。本文设计了一个基于RDF/XML的异构数据交换模型, 利用RDF/XML文件为公共数据模型来实现异构数据库管理系统间模式转换和数据交换。

2. RDF/XML公共元数据

目前很多Web站点使用内嵌于HTML (超文本标记语言) 中的

一个完整的元数据体系可以从横向和纵向两方面分析。横向分析包括内容元数据、管理元数据和结构型元数据。纵向分析包括语义 (元数据表达的含义) 、结构 (元数据元素之间的相互关系) 和语法 (元数据体系如何描述和表达) 。语法是前两者的表现基础, 只有选择合适的语法才能体现出元数据的语义和结构[1]。元数据的语法通常是各种标记语言, 如SGML (Standard Generic Markup Language, 标准通用标记语言) 、HTML, XML, RDF等。

2.1 RDF定义

RDF是采用XML作为交换和处理元数据的通用语法结构体系, 致力于增强WWW上对元数据的创建、交换和使用, 甚至可以通过简单地嵌套RDF描述来生成由其他RDF资源所组成的资源。RDF的含义就是描述资源的框架 (Framework for Describing Resources) , 这样, 不同的用户或团体能在这一框架下定义他们自己的元数据资源。我们可以用对象模型的原则来辨别这些资源:

(1) 资源 (Resource) :资源对象标识实际的以网络为基础的资源, 包含世界上所有的网页及部分元素或网络应用程序、所有在Web上被命名、具有URI的东西, 如网页、XML文档中的元素等。

(2) 描述 (Description) :对资源属性 (Property) 的一个陈述, 以表明资源的特性或者资源之间的联系。

(3) 框架 (Framework) :与被描述资源无关的通用模型, 以包容和管理资源的多样性、不一致性和重复性。

综合起来, RDF就是定义了一种通用的框架, 即资源-属性-值的三元组, 以不变应万变, 来描述Web上的各种资源。

2.2 用RDF/XML描述基础信息元数据

用RDF/XML描述企业信息的元数据的优势在于:

(1) 当前各个应用系统不同的机构和部门根据需要建设了形式多样、内容各异的资源库, 把RDF/XML应用于基础信息元数据描述, 通过其对资源库的领域知识进行识别和规范描述, 达成领域内关于元数据及其关系之间的共识, 从而实现资源库真正的重用和共享, 解决资源库建设存在的问题。

(2) 提供元数据映射方案, 集成到基础信息的元数据管理中, 使其有机地成为交换协议的一部分, 实现公共元数据之间的语义映射、不同词汇之间的关系定义及约束规则, 从而保证各个应用分布式资源的语义互操作。

(3) 在RDF/XML的元数据层基础上构建有关领域知识的本体层帮助提供一种智能浏览技术, 实现对查询请求的语义理解。

表1描述了一个国标的公共元数据一览表。

上表的RDF/XML描述为:

3. 数据交换模型

数据交换模型是数据特征的抽象, 是数据库管理的形式框架。数据交换模型包括数据库数据的结构部分、数据库数据的操作部分和数据库数据的约束条件。所有的数据库管理系统都是基于这样的概念和实现模式。借鉴这样的思想和实现模式, 复杂网络环境下RDF/XML数据交换模型充分地吸取了RDF/XML的优点, 用RDF/XML文件作为中间数据, 利用RDF/XML丰富的表示形式和通用性自定义了数据的数据文档和结构文档, 将数据表示和结构表示分开。

如图1所示为数据交换模型, 在该模型中, 数据交换的过程是:首先通过数据采集将源数据的数据和结构都抽取出来, 形成原始层的结构文档 (以下也称Structure) 和数据文档 (以下也称Data) ;同时, 也需要通过数据采集将目标数据结构抽取出来, 形成转换层的结构文档 (Structure) 。然后对原始层和转换层的结构文档进行分析, 按照转换的需求, 形成数据转换规则配置文档。在原始层和转换层的结构文档和转换规则文档的基础上生成映射文档 (以下也称Data Mapping) , 结合转换规则文档和映射文档完成数据的交换, 并同时得到转换层数据文档。最后, 利用转换层数据与目标层数据之间的映射文档, 将转换层数据文档中的数据推送到目标数据库中, 到此一个完整的数据交换过程结束。

数据采集模块、数据交换模块、数据推送模块是该数据交换模型的三个主要部分, 下面分析各个模块的功能。数据采集模块是整个交换模型的基础, 主要是和用户直接交互, 获取源数据和目标数据的匹配信息;数据交换模块是整个交换模型的核心, 主要是将源数据和目标数据表示成相应的数据文档和结构文档, 按照用户需求, 进行结构匹配操作, 消除类型异构、语义异构、长度异构、精度异构、度量异构和联系异构等异构, 同时按照数据映射文档和相关算法, 将原始层数据转换成转换层数据库中;数据推送模块主要是将转换层文档按照数据映射文档, 将转换层数据写入目标数据库中。

3.1 数据采集模块

数据采集模块是整个数据交换模型的基础, 它的主要任务是与用户交互, 获取数据源连接的相关信息, 获取源数据表和目标数据表之间的数据结构对应关系, 产生数据结构文档, 为数据交换做好准备。

数据采集模块在整个数据交换模型中负责与用户进行交互工作, 因为数据库连接方式的选择与系统的可扩展性紧密相关。因此, 数据采集模块的设计模式选择是至关重要, 要尽量减少数据之间的耦合, 尽量考虑到系统的扩展性。考虑到整个模型今后在实际应用中的发展空间, 为实际应用打下良好的基础。同时, 对数据采集时, 需要对采集的数据都用中间数据表示, 因此对RDF/XML文档进行处理时应根据文档的特点及编程要求来选择相应的编程模型。

数据采集部分包括模式采集模块、模式提交模块、数据卸载模块。模式采集模块的任务是从关系数据库抽取关系数据表的结构信息作为结构文档, 抽取关系数据表的值信息作为数据文档, 实现关系模式与RDF/XML模式的转换。模式提交模块的任务是在模式提取模块将关系模式转换为RDF/XML模式后, 分别将结构文档和数据文档提交保存为文件RDF/XML, 进行不需要的索引处理, 以供数据交换时使用。

3.2 数据交换模块

数据交换模块的作用是连接源数据和目标数据, 利用RDF/XML作为存储和交换的中间媒介格式, 生成源数据表和目标数据表的结构文档和数据文档, 分别表示需要转换的数据和结构, 完成从关系模式到RDF/XML模式的转换。为了方便下一步的数据交换, 有时候, 也可以将目标数据表认为是空。该模块通过对结构文档的匹配操作, 来消除源数据和目标数据的类型异构、语义表示异构、数据长度异构、精度异构、度量异构和联系异构, 是整个数据交换模型的核心。

关系数据库中的数据都是规则的二维结构关系表, 所以能使用很简单的RDF/XML文档来表示。对象数据库中的数据, 由于RDF/XML文档本身就是树形组织模式, 所以也能使用RDF/XML文档来表示。利用RDF/XML作为交换的中间媒介格式, 源数据和目标数据通过中间格式来进行表示和交换。一方面, 利用RDF/XML来表示需要转换的数据本身;另一方面, 也利用RDF/XML来表示数据结构。

数据交换文档详细给出了数据交换过程中原始层数据的每个字段是如何交换到转换层数据中的。生成一个转换层数据所需要的所有信息, 包括原始层节点、转换层节点、转换规则。在这个模块中, 将复杂的RDF/XML数据映射操作分解为若干个相对简单的子操作, 每个子操作的计算过程被封装在转换函数中, 转换链将转换函数按执行顺序组合在一起, 全部转换函数计算完毕后, 将计算结果组装成转换层的RDF/XML数据文档。

3.3 数据推送模块

数据推送模块的任务是负责将从目标层的数据文档传送到目标数据库管理系统, 加入具体的数据库中。

4. 结束语

随着社会化数字信息进程的飞速发展, 人们访问的信息量呈指数增长, 再加上资源分布的扩散性、自治性, 信息分布趋势越来越异构化、海量化、动态化。在这种情况下, 信息网络的异构数据交换一直是研究人员关注的焦点。本文在研究目前网络集中式数据转换技术基础上, 提出了基于复杂网络环境下RDF/XML模式的数据转换模型, 很好地解决了不同部门异构数据库之间的数据交换问题。同时消除各个信息孤岛, 把这些孤岛一个一个互联起来, 形成为信息共享的数据集合;及时获取这些有价值的数据信息的同时, 积极充分地利用这些资源, 降低信息化建设成本发挥更大的效益。

摘要:为了解决各个相互孤立的应用系统之间由于缺乏信息共享和互通互联的通道和平台, 协同应用困难, 共享程序低的问题, 提出了基于RDF/XML的异构数据交换模型。该模型充分考虑了各个应用系统的特点, 通过基于RDF/XML的异构数据交换模型, 达到不同系统间的数据传输, 实现跨部门、跨系统、跨异构数据库的数据交换。

关键词:数据交换模型,异构数据,RDF/XML

参考文献

[1]赵永辉.信息网络异构数据交换技术研究与实现[D].西北工业大学, 2007.

[2]杜思峰.数据交换平台中异构数据转换技术的研究[D].西安工业大学, 2011.

[3]房成萍, 马坤, 杨波, 陈贞翔.分布式一体化及数据交换平台的设计与实现[J].济南大学学报 (自然科学版) , 2011 (1) :11~14.

[4]齐小文.高等学校电子校务数据交换平台设计初探[J].中山大学学报, 2010 (10) :126~128.

数据模型设计方法研究 篇10

关键词:刑侦数据仓库,模型设计,主题事实表,数据挖掘

1 引言 (Introduction)

目前, 随着社会政治、经济和科学技术的高速发展, 现代犯罪行为表现出了速度化、智能化、高科技化的特点[1], 国际上目前状况的安全信息化技术发展迅猛, 公安信息化技术的发展使公安刑侦数据仓库模型设计成为刑侦数据仓库研究的核心问题之一, 而与数据仓库技术发展相辅相成的数据挖掘技术, 虽然在很多领域的研究取得了进展, 但在我国公安刑侦工作的研究中尚处于初级阶段[2]。因此, 面对我国目前的这种情况, 将数据挖掘技术应用于刑侦工作, 及时发现新的规则, 以提高执法效率与快速反应能力、及时的预防与打击犯罪行为, 成为公安工作中急需解决的问题[3]。但是公安工作具有其自身的规律和特殊性, 当前在实际刑侦工作中针对公安刑侦数据仓库及其数据挖掘算法的应用较少, 需要加大对其的研究工作, 解决目前面临的诸多问题。本文首先针对公安刑侦数据信息复杂化多样性的特点, 提出利用当前公安现有计算机信息系统资源及其网络, 形成统一标准, 将公安各类档案数据信息有机结合起来, 构建具有统一标准, 覆盖范围广泛, 信息准确, 反应迅速, 各部门相互协调运行的跨地区、跨部门的信息交换和共享平台, 形成用于公安刑侦的数据仓库操作平台;接着, 针对数据挖掘技术在刑侦工作中存在的问题进行了分析研究, 并在此基础上建立一个基于数据挖掘技术的刑侦档案信息整合及综合查询/查证和分析系统, 帮助一线民警对跨地区、跨部门的刑侦档案数据进行检索和挖掘, 从已有的刑侦档案数据信息中找出相关的犯罪线索及规律, 为刑侦档案数据的信息处理提供科学依据, 提高整个公安系统的整体协调能力和工作效率, 有利于进一步的刑侦数据信息联机分析处理和有用信息挖掘以及为公安安全防范决策服务。

2 数据仓库与数据挖掘有关概念 (Relevant conceptson data warehouse and data mining)

我们知道, 数据库是用于事务处理的, 而数据仓库是由大量的相关数据集成而来的, 是用于决策分析的。数据仓库将大量的数据库的数据按决策需求进行统一、综合和重新组织, 然后以数据仓库的形式进行存储。目前, 用于刑侦数据仓库涉及到的数据量极为庞大, 并且根据案件的情节和后果, 如何查明案件性质、作案过程以及案件反映当事人和社会等相关更深层次的问题, 传统的数据库数据建模方法已经显得过于陈旧, 无法适应当前现状。传统数据库那种面向事务型分析处理工作的数据建模方法显得力不存心, 而数据仓库数据的建模是面向数据分析为决策提供服务的, 它包含大量的历史数据、当前细节数据以及综合数据, 因此, 其采用多维数据模型的数据建模方法, 完成对数据仓库中数据的建模和组织。数据挖掘是从大量数据中, 根据某种算法及规则, 提取出隐藏在数据中的有用及人们感兴趣的信息, 为人们的正确决策提供服务。用数据库管理系统来存储数据, 用机器学习方法来分析数据, 挖掘大量数据背后的知识, 这两者的结合促成了数据挖掘技术的产生[4,5]。

3 刑侦数据仓库模型设计 (Model design on Data warehouse of criminal investigation)

3.1 概念模型设计

3.1.1 确定主题域及其内容

面对目前刑侦数据信息的复杂化多样性, 构建刑侦数据仓库需要对刑侦数据信息特点及对刑侦数据仓库进行具体的研究和分析, 需要首先从目前刑侦档案数据的实际情况, 将其从现场实际进行具体抽象, 也就是将现实的决策分析环境抽象成一个概念数据模型的过程分析。然后, 将此概念模型逻辑化[6]。通过分析及研究, 刑侦数据仓库中的主题域定义如下, 如图1所示。

(1) 人员:指刑侦数据仓库中所有案件所涉及到的相关人员。

人员主题分析:在此处我们将人员分为数据仓库的所有全部人员和涉及到违法犯罪的有关人员。

(2) 物证:指在现场侦查过程中, 能够在依法情况下搜集到的各种客观存在的物品或痕迹, 其外部特征、物质属性、所处位置以及状态能够证明案件事实情况。

物证主题分析:在侦查破案中, 物证起着非常关键的作用, 对案件的侦破速度、案件性质和相关结果往往能起到决定的作用。以物证为主题, 能为查明案件事实提供线索和依据的同时, 发现许多相关隐藏的潜在关系, 对案件的串并、数据挖掘及刑侦研究提供支持和保障。

(3) 案件:指刑侦业务数据库内所有涉及到的案件。

案件主题分析:案件主题分为未破案件和已破案件两类, 在刑侦工作中案件的侦破是目的, 数据仓库中以案件做主题进行数据组织, 便于对案件进行特性分析统计及数据挖掘, 可以完成逻辑模型向数据仓库模型转化, 为数据仓库概念模型设计、逻辑模型设计和物理模型设计提供了可靠的设计方案。

(4) 组织:指刑侦数据仓库中违反犯罪涉案人员所在的组织。

组织主题分析:组织主题分为团伙犯罪, 同监舍关系和社会关系三种类型。组织主题发现许多相关隐藏的潜在关系, 有利于案件的串并、数据挖掘及刑侦研究。

(5) 地域主题:指有关案件发生的地域。

地域主题分析:地域主题有利于实际工作中犯罪的预防、现有警力的合理配置和领导的安全防范决策。因为不同的地域违法犯罪具有不同的特性, 地域主题使地域性、区域性的犯罪特征和犯罪趋势等相关规则通过数据挖掘得以实现。

3.1.2 确定系统边界

对于当前刑侦数据仓库的模型设计, 必须根据现实情况, 在明确需求分析的情况下, 首先要下大工夫实地考察调研等, 确切刑侦案件办案的整个具体流程, 通过流程显示系统所实现的功能, 然后确定系统边界, 如图2所示。

其次通过系统需求分析, 明确系统相关业务部分的业务流程和功能需求情况, 将刑侦案件办案流程中所需信息资源和整个案件的所有数据信息进行定义, 进行数据的抽取、转换和装载, 通过E-R模型来实现本刑侦数据仓库的概念模型。数据仓库为不同的用户随时提供各种辅助决策的随机查询、综合数据或趋势分析等信息, 以数据仓库为基础, 结合联机分析处理和数据挖掘为不同目的的决策提供支持。综合刑侦数据仓库数据的多维特性及联机分析处理, 传统的数据流图描述已经不能满足需要, 因此系统采用多维立方体模型来描述[7]。

3.2 逻辑模型设计

对于刑侦数据仓库的数据信息来说, 针对其信息组织特点和概念模型的多维特性, 一般采取星型模式来实现刑侦案件数据集市和刑侦案件数据仓库逻辑模型设计[8], 如图3所示。

星型模型是由“事实表” (大表) 以及多个“维表” (小表) 所组成。在该模式中, 中间是事实表, 周围是维表。星型模型逻辑模型设计阶段, 主要进行的工作是针对刑侦数据仓库的事实数据进行主题域分析、确定当前要装载的主题、粒度层次划分、关系模式、数据分割策略、定义记录系统等。通过确定决策分析需求, 从需求中识别出事实, 确定维表等, 就可以用包含主题的事实表和多个维表来执行侦查、分析及安全防范等决策支持的相关查询。具体内容如下:

比如针对报警人、受害人及案件操作等的维表:

报警人信息维:报警人身份证号、报警人姓名、报警人性别、报警人电话号码、报警人年龄、报警人职业、报警人地址、报警人报警时间等。

受害人信息维:受害人唯一编号、受害人身份证号、受害人姓名、受害人性别、受害人电话号码、受害人年龄、受害人职业、受害人地址、受害人物品等。

案件操作历史维:操作权限、系统操作序号、案件编号、操作时间、操作记录、操作人编号或姓名等。

同理也可描述事实信息维表:

案件基本信息维:案件负责人编号、案件编号、报警人姓名、受害人编号、案件登记时间、案件操作号、案件操作记录等。

案件流程信息表:案件编号、案件当前状态、案件操作号、案件操作记录等。

针对完成的刑侦案件各部分概念结构模块, 需要进一步分析各模块对刑侦数据仓库总体框架的匹配及功能服务, 符合需求分析后就可以进行数据仓库的设计及实现, 当然, 也可以相对独立的开发其相关独立的或从属的数据集市。众所周知, 就当前的绝大多数的刑侦数据仓库, 其数据来源不一而足, 有针对一个省或市的信息, 也有来自不同的区域或部门的, 更有来自不同平台或不同系统的。因此, 要构建数据集市或数据仓库, 首先要对这些数据进行统一的规格化处理, 经过统一的格式对数据进行抽取、清洗、转换及装载等过程, 才能构成数据集市;而相关独立的或从属的数据集市的完成, 可升级到完整的刑侦数据仓库。

3.3 物理模型设计

从逻辑模型即星型模型到物理模型设计的转换完全遵循传统的数据库设计方法。针对刑侦数据仓库的数据, 其物理模型设计需要确定一个最适合应用要求的物理结构, 即估计存储容量、确定数据的存储计划、确定索引策略、确定数据存放位置及确定存储分配等。在星型模型中, 不管是其综合事实表还是其维表, 一般情况下都是转变为对应的物理数据库表进行存储, 但由于刑侦数据仓库的综合事实表包含涉案案件的众多基本信息, 其数据量庞大, 而其维表虽然包含各方面的具体细节信息 (如受害人信息) , 但其数据量相对来说不是很大, 因此在物理模型设计过程中, 完成前面描述有关内容外, 还需要认真解决多维数据库管理系统对数据的访问的效率及灵活程度, 所以要用多种数据挖掘方法对数据进行切片、分割、钻取和旋转等, 以便动态地考察汇总数据和细节数据的关系, 为安全防范决策提供技术支持。

目前, 高速存储设备 (如硬盘) 已成为主要存储媒介, 其存取速度不但与数据存放的位置有关, 而且还与存储设备本身的存取速度有关。因此, 对于刑侦数据仓库中其记录庞大的事实表, 其涉案案件的基本数据信息按其多维性可以考虑分区存放, 而反映其细节数据的各种维表, 则可以比较集中的存放于相对独立的某个表空间。一般情况下还必须建立相关表的索引, 但索引也是在消耗大量的磁盘空间的基础上, 提高数据的读取速度, 同时, 索引也会带来数据更新速度降低的问题。因此不同系统物理模型设计应根据具体的硬件环境和决策需求合理地进行选择, 在首先要保证数据仓库稳定性及有效满足仓库应用者需求的基础上, 尽量减少有用信息获取时间, 提高数据仓库的应用效率, 为进一步的刑侦数据挖掘或相关决策指挥服务。综上所述, 针对公安数据信息分布性共享的特点, 刑侦数据仓库物理模型一般采取分布存储方式。

4 刑侦数据仓库的数据挖掘 (Data mining on Data warehouse of criminal investigation)

对于刑事案件信息数据仓库的数据挖掘, 首先要明确数据挖掘的任务或目的, 如要进行数据的分类、聚类、关联规则发现或序列模式发现等达到什么样的目的。目前, 我们可以分别进行犯罪嫌疑人基本信息、作案规律特点有关信息、损失物品信息、现场痕迹物证信息等的数据挖掘, 同时, 如果与被盗抢机动车信息和CCIC (中国国家犯罪信息中心) 连接的话, 将可以进行更深层次的数据挖掘。有了确定的数据挖掘目的, 才能针对其挖掘任务有选择性地决定使用什么样的挖掘算法才能达到更好的目的。比如对于犯罪嫌疑人信息的数据挖掘, 我们可以对数据进行切片、分割、钻取和旋转等操作, 进行作案规律特点库和现场痕迹物证库等的信息分析比对, 实施相应的数据挖掘算法, 获取有用的模式, 为打击违反犯罪及公安安全防范提供决策服务。刑侦数据仓库的数据挖掘方法如图4所示。

5 结论 (Conclusion)

随着犯罪信息的数字化和网络化, 在现代刑事侦查及公安工作中, 利用数据仓库与数据挖掘技术进行侦查破案, 运用系统科学优化数据仓库以及多层多目标交互式决策建立和优化数据仓库等, 显得越来越重要;而将数据挖掘技术这门新兴科学有效地应用于刑侦工作不但是顺应潮流, 而且是目前公安工作现实斗争的迫切需要。在我们实际的刑事侦查工作中, 各地区一线的刑侦部门已经积累了大量的刑侦档案文件, 这些数据通过刑侦数据仓库的模型设计, 实施其跨平台的海量数据的信息整合和数据挖掘, 然后就可以获取大量的有用知识, 这些知识不仅对于刑侦研究还是对于一线的刑侦工作, 具有非常深刻的科学理论意义和重要的实用价值。本文针对刑侦档案数据, 对刑侦数据仓库模型设计和数据挖掘进行了初步的探讨, 同时, 面向刑侦数据仓库, 给出了刑侦数据挖掘的系统框架及挖掘方法。我们将针对刑事侦查研究与实际工作中的一些实际问题, 在未来的研究中, 逐步完善试验平台, 结合科学技术的发展, 尝试给出不同的解决方案, 进一步深入研究相关算法在实际中的应用。

参考文献

[1]李小青.论公安刑侦数据仓库建模[J].广州市公安管理干部学院学报, 2008, 67 (1) :18-24.

[2]黄维金, 顾益军.刑侦档案文本挖掘系统平台中的文本精炼初探[J].中国人民公安大学学报 (自然科学版) , 2006, 48 (2) :75-77.

[3]张辉.数据挖掘技术及其在刑侦工作中的应用[J].信息技术与信息化开发与应用, 2005, 4:111-113.

[4]麦永浩.数据仓库和数据挖掘方法研究及其在公安信息建设中的应用[D].华东理工大学博士学位论文.2000:102-105.

[5]李敬社, 张小木, 黄泽贵.数据挖掘技术的方法和最新进展[J].现代电子技术, 2004, (6) :54-56.

[6]陈海燕.基于HIS的数据仓库的建设及数据挖掘[D].2004.6-10.

[7]金光, 等.基于数据挖掘决策树的犯罪风险预测模型[J].计算机工程与应用, 2003, 2:112-114.

上一篇:汉语教材下一篇:饮食健康与淀粉含量