数据表达模型

2024-05-23

数据表达模型(精选九篇)

数据表达模型 篇1

要设计一个能满足要求的信息系统, 关键之处就是如何把信息系统要处理的信息, 通过抽象、综合、分类定义为有标准有规律有组织的数据, 进而定义与设计相应的数据库及对应的处理。我们把这些组织起来的各类数据与它们之间的关系称之为各种数据模型, 把其组织过程称之为数据建模过程。落实信息系统的数据模型是信息系统数据架构设计的一个最重要的组成部分。

一、数据模型

所谓数据模型, 是通过对展现客观事物的信息进行抽象、综合、分类, 组织为具有某种结构的数据, 对这些数据结构、其相互之间的逻辑关系、数据操作方式及约束的描述。

(一) 描述内容

通常认为, 数据模型所描述的内容包括三个部分:数据结构、数据操作和数据约束。

1. 数据结构

数据模型中的数据结构描述主要有两方面内容:一方面是描述数据结构的类型、内容、性质, 例如层次模型、网状模型及其记录型、数据项, 又如关系模型及其关系、域等;另一方面是描述各数据结构间的关系。

2. 数据操作

数据模型中的数据操作主要描述在各数据结构上对应的操作规则、操作类型和操作方式。

3. 数据约束

数据模型中的数据约束主要描述数据结构内数据及它们之间的制约和依存关系, 以及数据动态变化的规则。约束条件可以按不同的原则划分为数据值的约束和数据间联系的约束、静态约束和动态约束、实体约束和实体间的参照约束等。通过数据约束, 保证数据的正确、有效和相容。

在上述数据模型的描述中, 数据结构是数据模型的基础, 数据操作和数据约束都建立在数据结构上。不同的数据结构具有不同的操作和约束。所以, 本文下面的论述也是主要围绕数据结构展开。

(二) 模型层次

在建立数据模型的过程中, 数据模型按不同的视图分成三个层次:分别是概念数据模型、逻辑数据模型、物理数据模型。

1. 概念数据模型

概念数据模型是面向用户的现实世界的模型, 主要用来描述信息系统要处理的现实世界的概念化结构。它使信息系统的设计人员在设计的初始阶段, 摆脱计算机系统及数据库的具体技术问题, 集中精力分析现实世界数据以及数据之间的联系。概念数据模型与具体的数据库或数据管理系统无关, 它必须再进一步转换成逻辑数据模型、物理数据模型, 才能在具体的数据库中实现。

概念数据模型要面向现实信息世界, 一方面要有较强的表达能力, 能够方便、全面、正确地表达信息系统面对现实世界需要处理的数据属性及它们的分类与关系;另一方面, 应简单、清晰、易于非技术人员的理解。在概念数据模型中, 最常用的是E-R模型、面向对象模型等。

2. 逻辑数据模型

逻辑数据模型是既面向用户又面向某种数据库类型的数据模型, 是具体的数据库管理系统所能支持的数据模型。在数据库发展的历史上, 比较主流的数据库类型有网状数据模型、层次数据模型、关系数据模型等。把概念数据模型发展为逻辑数据模型, 使之可以对应某种类型的数据模型, 进而能在对应的数据库管理系统上实现数据库的建立。

3. 物理数据模型

物理数据模型, 是面向具体计算机系统展示的模型。物理数据模型描述了数据在具体数据库产品与具体储存介质上的组织结构, 不但与具体的数据库有关, 而且还与具体的操作系统和硬件有关。

每一种逻辑数据模型在落实到具体的计算机系统时都有对应的物理数据模型。通常, 每种主流的计算机系统, 都提供了相应的数据库生成手段, 使逻辑数据模型向物理数据模型转换的实现工作大部分由系统完成。而设计者只需按照基本相似的方式, 关注数据库的索引、视图、关系等各种内部结构设计。这样, 使得各种数据库对于不同的操作系统与硬件, 能保证其独立性与可移植性。

二、主要的数据模型

在数据库发展与使用的历史上, 主要的数据模型类型有三种:层次模型、网状模型和关系模型。这三种模型是按其数据结构而命名的。

其中, 前两种采用格式化的结构, 在这类结构中实体用记录型表示, 记录型之间的联系抽象为记录型之间的连接线。这两种数据结构与图相对应, 对应于树形图的数据模型为层次模型, 对应于网状图的数据模型为网状模型。

关系模型为非格式化的结构, 用单一的二维表的结构表示实体及实体之间的联系。满足一定条件的二维表, 称为一个关系。

(一) 层次与网状模型

在早期的计算机数据处理系统里, 广泛使用层次模型与网状模型的数据库管理系统。特别是层次数据库, 具有存取方便且速度快;结构清晰, 容易理解;数据修改和数据库扩展容易实现;检索关键属性十分方便等特点。

但随着计算机应用对数据库的要求越来越高, 上述数据库的缺点也非常明显。尤其是网状数据库, 数据间的关系通常用存储指针链接, 使得数据量增大;数据间关系没有强约束条件, 使得网状结构比较复杂, 甚至比较凌乱, 增加了用户查询和定位的困难;数据的修改往往涉及指针的修改, 维护成本高。因此, 在许多计算机事务处理应用系统里, 关系数据库逐步取代了上述两种数据库。

(二) 关系模型

关系数据库是建立在关系数据模型基础上的数据库, 以记录组或数据表的形式组织数据, 一个记录组具体表现为一个规范化的二维表。关系数据库的记录组不分层也无指针, 是建立空间数据和属性数据之间关系的一种非常有效的数据组织方法。

关系模型与非关系模型不同, 它是建立在严格的数学概念的基础上, 借助于集合代数等概念和方法来处理数据库中的数据。

关系数据模型具有下列优点:第一, 概念单一, 无论实体还是实体之间的联系都用关系表示, 操作的对象和操作的结果都是关系, 所以其数据结构简单、清晰, 用户易懂易用。第二, 关系模型的存取路径对用户透明, 使程序和数据具有高度的独立性、更好的安全保密性。第三, 关系模型的数据语言非过程化程度较高, 用户性能好, 具有集合处理能力, 并有定义、操纵、控制一体化的优点。关系模型中, 结构、操作和完整性规则三部分联系紧密, 简化了程序员的工作, 为提高程序员的生产率以及端点用户直接使用数据库提供了一个现实基础。

三、数据建模

把现实世界需要处理的信息进行综合、抽象、组织, 通过逐步求精过程, 建立三个层次的数据模型, 最终建立起我们的目标数据库, 这整个过程可以称之为数据建模的过程。

(一) 概念模型的建立

在建立概念模型时, 我们需要充分理解需求, 把要处理的对象综合、抽象为一个个实体, 并整理出这些实体的各种主要属性, 及实体之间的关系。其中实体的主要属性一定要包含与实体间关系相关的属性。实体之间的关系指的是概要关系, 数量的对应关系, 实体间相关属性的依存与约束关系。

(二) 逻辑模型的建立

在建立逻辑模型时, 我们需要决定我们最终选择的数据模型 (数据库) 种类。因为不同的数据模型种类, 实现实体间关系的方法不一样。如对于网状模型, 关系通常通过指针实现;而对于关系模型, 关系通常通过共享键值、外键实现。另外, 我们应该细化与完善对实体与关系的描述, 使之可以在具体的数据库管理系统生成相应的具体的数据库对象。这些对象包括数据库的对应文件或表、记录或行、字段或列, 对象还包括主键、外键等。

以建模工具Erwin对关系模型的逻辑模型展现为例, 它既把概念模型中的实体展现为具体二维表的行与各列, 还具体定义了实体的各索引键以及与它们之间的具体关系。

(三) 物理模型的建立

物理模型是对逻辑模型的进一步求精, 是真实数据库的完全描述, 包括数据库中的一些对象如表, 视图, 字段, 数据类型、长度、主键、外键、索引、是否可为空, 默认值等。并根据具体的计算机系统及使用的具体数据库管理系统, 将在逻辑建模阶段创建的各种数据库对象生成为具体的DDL SQL代码。通过运行这些代码, 我们就可以创建相应具体的数据库对象。

人们在具体的计算机系统中使用的大多数建模工具, 大都可以通过物理模型的建立, 自动生成相应的DDL SQL代码。

四、概念模型举例

在数据模型的三个层次中, 概念模型只与现实世界里需要计算机对其进行数据处理的对象有关, 与将采取什么样的数据库管理系统进行数据处理无关, 更与具体的计算机系统无关。

为了能全面、准确地描述概念模型, 比较常用的方法有“实体-联系方法 (Entity-Relationship Approach) ”, 它是描述现实世界概念结构模型的有效方法。其展现方式为实体-联系图, 也即通常说的E-R图 (Entity Relationship Diagram) 。

E-R图提供了表示实体类型、属性和联系的方法, 用来描述现实世界的概念模型。其中, 矩形表示实体型, 框内写明实体名;椭圆表示实体的相关属性, 并用无方向连线将实体型与其相应的属性连接起来;菱形表示实体型之间的联系, 框内写明两个实体间的关系概要, 也用无方向连线将有联系的实体型连接起来, 同时在菱形的两侧连线上标注上联系的类型。联系类型有三种:1对1 (1∶1) , 1对多 (1∶m, 1∶n) , 多对多 (m∶n) 。

下面以银行交易系统为例, 探讨如何建立需要处理的数据实体的概念模型。

在银行交易处理系统里, 信息系统要处理的数据实体很多, 这些数据实体都需要进行抽象、综合、分类, 组织为具有某种结构的数据, 并对这些数据结构及其相互之间的逻辑关系进行充分的分析, 以便系统进行需要的处理。

例如, 银行信息系统面对的最主要的数据实体有客户与账户。每个银行都会有许多的客户, 而这些银行客户会在银行开立各种各样的银行账户, 记录客户在银行各种资产负债的变化情况及现状。

银行客户在银行开立账户后, 通过什么方式取得银行对其相应的服务呢?

在银行没有实现电子化前, 客户每在银行开立一个账户, 银行均会给该客户某种日后能证明该账户是该客户的凭据, 如活期存折、定期存单、或银行卡等。我们通常可以把这些凭据称之为客户与银行打交道使用的介质。客户手持这些介质到银行, 银行就知道该客户在银行有什么账户, 从而可获得相应的银行服务。

在银行的客户服务基本实现电子化后, 上述介质的作用性在逐步弱化, 客户与银行打交道的界面通常变为计算机界面。计算机并不关心介质的外特征, 它仅关心介质所承载的数据信息。我们把所有介质承载的用以计算机识别客户的数据称之为访问标识。对于计算机系统, 如果介质所承载的数据被破坏, 尽管介质表面上完好无损, 但由于计算机不能够正确读出介质里的数据, 计算机就会认为这是无效介质。除非在银行的人工服务柜台, 在某种场合里, 还可以由银行员工根据介质的外特征手工输入介质承载的访问标识, 否则客户将不能获取银行的服务。

在一些银行的客户自助服务渠道上, 如网上银行、移动银行等, 已经只有访问标识的概念, 此前介质的作用已经完全消失。客户只需要在这些自助渠道上输入自己的某个访问标识, 经过一定的认证方式, 就可以获取银行相应的服务。这些访问标识也许是一些别名、昵称、或者是完全没有任何意义的一串字符串。这样的访问标识, 除了用作访问, 已经不与任何现实事物所对应。当然, 许多银行也允许客户使用账号、卡号作为访问标识。但该账号、卡号所代表的含义往往已经超出所对应的银行账户。

就算在一些传统的渠道, 表面上还需要介质作为服务凭据, 如柜台渠道、ATM和POS渠道。但实际上, 在这些渠道里, 信息系统通过渠道终端读进的仍然是访问标识。并且该访问标识完全可以通过手工输入而不是通过读取介质输入。如今不少银行提供柜台无折存款, ATM提供无卡取款功能, 这些无视介质的作用。

根据上述对银行客户、访问标识、账户以及它们之间关系的描述, 我们可以知道, 银行客户通过使用他的访问标识, 去访问他在银行拥有的账户。这样, 我们可以建立实体-关系图, 如图1所示。

分析上述E-R模型, 是如何展现与描述实体和它们间的关系。

(一) 实体

在上述E-R图里, 有三个实体, 它们是分别用方框描述的客户、账户和访问标识。图中还举例列举了这三个实体部分比较重要的属性。

1. 客户

这里的客户主要是指银行客户, 即银行的服务对象, 其属性有姓名、出生日期、客户标识等。

(1) 姓名

客户姓名是客户有效身份证件里记载的姓名, 这些有效证件通常有护照、身份证等。

(2) 出生日期

客户属性的出生日期是一个非常重要的属性。经常有这样的情况, 我们需要通过姓名来查找某个客户的相关资料。但是, 无论在中国或者在全球, 同名同姓的人实在太多了。据相关数据统计:中国重名最多的前50个名字, 重复率全部都超过十几万。其中前五个最多的名字为:张伟, 290 607个;王伟, 281 568个;王芳, 268 268个;李伟, 260 980个;王秀英, 246 737个。如果只用姓名作为对数据库进行检索的索引键, 将会出现非常多的重键。例如, 一个叫张伟的客户由于银行卡丢失了要到银行挂失, 但他忘记了具体卡号。如果我们用他的名字进行检索, 可能会查到数万个张伟, 然而究竟是哪一个, 我们也难以判断。

但如果我们在客户资料里保留了客户的出生日期, 那么, 我们可以用姓名加出生日期进行检索。检索结果的重复几率就会非常低。所以在国际社会的人员交流管理中, 普遍对人员的出生日期特别关注。只有掌握了人员的出生日期, 鉴定人员的唯一性就相对容易与简单。

(3) 客户标识

由于客户姓名并不唯一, 就算加上客户出生日期也不能保证能唯一识别客户。所以, 几乎所有国家都对其公民赋予一个唯一识别标识。例如, 在中国是身份证号, 在美国是社会安全号 (Social Security Number) 。这些公民唯一识别号的唯一性由国家来保证。所以, 银行也可以借用这些识别号作为唯一的客户标识。客户标识通常包含了客户标识种类和客户标识号。

2. 账户

这里指的账户, 是指客户在银行的账户, 用于记录客户在银行的资产、负债或其他非货币东西的现状、数量变化的历史等。不同的账户会对应银行不同的产品与服务, 账户的属性有客户标识、账户标识、姓名等。

(1) 客户标识

账户的客户标识表明该账户是属于哪一个客户的, 这客户标识与客户实体里的客户标识一致。

(2) 账户标识

账户标识是账户的唯一标识, 通常包括账户种类与账户号。

(3) 姓名

账户所属客户的姓名, 与客户实体里的姓名一致。

3. 访问标识

访问标识是银行客户赖以访问其在银行开立账户及获取银行相关服务的凭据。在许多场合里, 访问标识会通俗地称之为登录名、用户名、用户号、用户别名、用户昵称等。在银行的信息系统服务界面里, 访问标识也会使用账号、卡号等。访问标识的属性有客户标识、访问标识、适用渠道等。

(1) 客户标识

访问标识的客户标识表明该访问标识是属于哪个客户的, 这客户标识与客户实体里的客户标识一致。

(2) 访问标识

这里的访问标识是访问标识实体的唯一标识, 是访问标识实体里最重要的内容, 体现为一窜字符串。银行信息系统通过读取客户或银行员工在银行信息系统的服务界面上输入的访问标识, 经过相应的认证与处理, 就可以唯一识别客户, 以提供银行对客户的相应服务。

(3) 适用渠道

通常, 银行会对不同渠道的访问标识有不同的要求。例如, 在网银, 访问标识可以是别名、昵称等;但在柜台, 通常要求是账号、卡号。另外, 银行客户也会根据不同的渠道, 选择不同的访问标识, 而一个访问标识可以适用多种渠道。客户的某个访问标识, 仅在其适用的渠道有效。

(4) 适用账户标识

根据银行相关规定与客户的意愿, 不同的访问标识可以访问不同的账户。当然, 某个访问标识可以访问哪一个账户, 根据银行的相关规定与客户的意愿, 需要履行一定的手续后, 指定才能成立。

(5) 认证方式

不同的渠道、不同的账户、不同的服务, 有不同的安全防护等级与安全措施, 会对应不同的认证方式。通常, 越是容易被仿冒、越是要害的服务, 对应的认证方式越复杂。这类服务有网银、移动银行等全自助式的服务, 涉及大额转账的服务。

(6) 认证标识

认证标识, 最通常的就是指认证密码。按银行的希望, 最理想的情况是, 不同的认证场合与认证方式最好对应不同的认证标识。并且, 认证标识最好长一点、复杂一点 (有的网站规定组成密码里的数字、大写字母、小写字母、其他字符均不能连续超过3个) , 且能经常变化, 以防泄漏被仿冒。在比较复杂的认证方式里, 认证标识可能不止一个。多个认证标识会在一个交易的不同阶段通过不同的方式分别输入, 以增加认证的可靠性。

(7) 对应权限

综合前面几点, 不同的访问标识、不同的渠道、不同的账户、不同的认证方式, 会对应不同的服务内容与权限。如果是账户查询, 通常输入查询密码就可以;如果是转账, 就要加上进一步的认证。有的银行要求再输入转账密码, 有的银行要求插入U盾等。

(二) 关系

根据实体-关系图, 客户、账户、访问标识三个实体之间, 存在三个关系。它们的关系用菱形体现, 它们的数量关系体现在菱形的两侧。

1. 客户与账户

一个客户在一个银行里通常会拥有多种账户, 例如有活期存款账户、定期存款账户、信用卡账户等。在某种账户里, 还可能拥有多个账户。如活期存款账户, 有用于工资转入的账户、有用于各种自动扣费的账户等等。

总之, 客户与账户的关系是拥有的关系, 是一对多的关系。

2. 客户与访问标识

从前面的论述可以看到, 一个客户, 为了能在不同的渠道上访问不同的账户、获取不同的服务, 通常需要使用不同的访问标识。

可见, 客户与访问标识的关系是使用的关系, 是一对多的关系。

3. 访问标识与账户

不同的访问标识可以访问不同的账户, 反过来, 不同的账户可以由不同的访问标识进行访问。

可见, 访问标识与账户的关系是访问的关系, 是多对多的关系。

五、逻辑模型举例

在数据模型的三个层次中, 逻辑模型涉及具体的数据模型 (数据库) 种类。在把上述概念模型进一步深化为逻辑模型时, 假设我们采用的是关系数据模型, 用工具Erwin展现, 其逻辑模型大概如图2所示。

从图2可以看出, 逻辑模型比概念模型更具体、更细化了。图中每个框图代表某个数据库表的一行, 框图里每一行表示数据库的各列。在每一个框图里, 分为上下两部分, 上半部份为键区, 下半部分为数据区。两个区域定义的数据库表各列分别对应原来实体里用作索引键的属性与非索引键的属性。

与层次模型和网状模型不同, 关系模型用共享值来体现其关系, 这是关系模型的特点。上述Erwin可以完全体现这种使用共享键的实体-关系模型。

从图2可以看出, 无论是账户或者是访问标识, 都通过客户的客户标识将其关系起来。而账户与访问标识, 则通过账户标识关系起来。

用图表直观表达数据教案 篇2

一、教学目标

列举常用图表的类型和特点 能根据要求确定图表的类型 能利用图表向导创建图表

能根据表达的信息修改美化图表

二、教学重难点

(一)重点

(1)图表的类型及各自的特点(2)使用图表向导创建图表

(二)难点

(1)根据表达的数据分析确定合适的图表(2)创建图表过程中属性选项的含义和作用

三、教学流程设计 导入:问卷调查我们统计出各个方面的满意度情况了,老师将这些数据用图表的形式表示出来,大家觉得用图表来表达有什么优点呢? 引导学生了解用图表表达数据的优势(直观)。

(一)出示课题,揭示教学目标

(二)自学指导

阅读课本74-79页,完成以下问题。

1、打开EXCEL中的图表向导,了解图表的类型,常用的图表有哪些?各有什么特点?

2、课本75页交流题,你认为使用哪种图表更合适表达这组数据?为什么?

3、就“校园小歌手”比赛活动调查结果统计表,如果想表达“第1题”中队本次比赛组织方面满意度的调查结果,选择什么图表比较合适?如果要表达全部5道题中各方面的满意度调查,选择什么图表合适呢?为什么?

4、请使用“图表向导”来完成上面的第3题。(注意系列中的数据区域、分类轴标志的选择)

(三)学生自学,自主探究

学生根据要求自学,完成自学任务,教师进行巡视,把握学生容易出现错误的地方,并对个别学习有困难的学生进行指导。

(四)疑难解答,难点突破

解决自学指导中的注意事项,教师把在巡视过程中发现的问题提出来,让学生分析解决。让学生演示第4题。

数据表达模型 篇3

Caveolin-1为细胞膜上直径为50~100nm、富含脂质的细颈瓶样内陷的caveolae的结构蛋白,也存在于高尔基体、内质网和细胞小囊泡等细胞器中。caveolae集中了多条信号转导途径的信号分子,caveolin-1对其中多种关键性信号分子的活性态起直接调控作用,参与细胞分化、增殖、肿瘤发生、炎症、肌病、心肌肥厚、衰老等多种病理、生理过程[1]。Caveolin-1参与介导成骨蛋白的成骨能力[2],参加成骨细胞的分化成熟[3,4],直接介导破骨细胞胆固醇的流出转运[5],这些研究表明Caveolin-1与骨质的生长发育过程明显相关,可能对骨吸收和骨形成有一定的调节作用。

本实验建立去卵巢小鼠骨质疏松模型,观察骨质疏松模型小鼠骨组织Caveolin-1表达变化,探讨Caveolin-1信号分子与骨质疏松症关系,以期发现骨质疏松症药物治疗新的作用靶点。

1 材料与方法

1.1 实验动物

清洁级昆明成年和幼年雌性小鼠(由南华大学动物部提供),动物生产许可证:SCXK(湘)2004-0009。

1.2 主要试剂

一抗Caveolin-1(N-20):sc-894为Santa Cruz Biotechnology Inc.公司产品;二抗Peroxidase-conjugated Affini Pure Goat Anti-Rabbit IgG(H+L),Code Number:111-035-003为Jackson ImmunoResearch Laboratories Inc.公司产品。

1.3 主要仪器

PIXImus双重能量X-射线吸收测量系统,GE公司;Olympus BX40显微镜,日本。

1.4 方法

1.4.1 实验动物分组

成年小鼠假性手术组,成年小鼠模型手术组,幼年小鼠对照组(检测时才取用,约3周龄,作为一个年龄对照)。

1.4.2 双侧卵巢切除法建立小鼠骨质疏松模型

取成年雌性昆明小鼠14只,体重在(45±5)g,随机分成2组:去卵巢骨质疏松模型组8只,假手术对照组6只。用10%水合氯醛以380 mg/kg的量进行腹腔注射麻醉;背部常规消毒,在无菌条件下,在居脊柱左右两侧各约1 cm皮肤处做一小的横向切口(<1cm),且切口与最后一肋水平;滴少许1∶1 000稀释的肾上腺素止血,轻轻滑动皮肤,暴露卵巢(橘黄色)或脂肪垫(白色),切除两侧卵巢后缝合[6]。假手术为切除两卵巢重量相同的脂肪组织后缝合;术后给予青霉素8万u/kg腹腔注射3 d。清洁环境饲养12周,自由进食水,定期环境消毒。

1.4.3 股骨矿密度测定

脱颈方法处死小鼠,取出小鼠左右两侧后腿股骨,剔尽肌肉及筋膜,用PIX-Imus小动物双重能量X-射线吸收系统测量,测定骨矿含量与骨面积,按公式骨矿密度=骨矿含量/面积,得骨矿密度。

1.4.4 股骨组织学观察

将剔尽肌肉及筋膜后腿股骨置于70%酒精,用4%多聚甲醛固定液中,4℃固定24 h后,取出置入10%EDTA溶液中,脱钙制片,HE染色。光镜观察。

1.4.5 骨组织中Caveolin-1表达

将小鼠后腿股骨蜡切片标本脱蜡;3%H2O2室温孵育5~10 min,蒸馏水冲洗,PBS洗3次;5%BSA封闭,室温孵育10min,倾去血清,滴加1︰400稀释的一抗Caveolin-1(N-20),37℃孵育1、2 h,PBS洗3遍;滴加1︰1 000稀释的辣根过氧化物酶标记二抗,37℃孵育20 min,PBS洗3遍;DAB显色5 min,洗片并固片。

1.5 统计学处理

采用SPSS10.0进行数据分析,计算结果均用(x±s)表表示,所得数据进行方差分析和t检验,检验水准α=0.05。

2 结果

2.1 小鼠的骨矿密度分析

模型手术组小鼠有1只术后1天死亡,小鼠的股骨骨矿密度测定结果,见附表。与假性手术组比较,模型手术组小鼠的股骨骨矿密度明显降低(P<0.01),表明模型手术组小鼠骨质明显疏松;由于一般幼年动物比老年动物骨内有机质含量多,无机质含量少,即骨矿含量低,幼年组小鼠的骨矿密度测定值低。

2.2 股骨组织学观察

幼年组小鼠尚处于生长时期,其股骨较小,但骨质致密,骨小梁排列整齐。假性手术组与模型组小鼠均已老龄化,其股骨较幼年组大,骨质空腔也增多增大。模型组与假性手术组比较,模型组小鼠的骨质空腔增大明显,模型组小鼠的骨皮质变薄,骨髓腔扩大,骨小梁稀疏或断裂,进一步表明模型手术组小鼠骨质明显疏松;见图1。

2.3 骨组织中Ca ve olin-1表达

免疫组化结果显示Caveolin-1在幼年组小鼠股骨中表达最高,假性手术组表达量也明显高于模型手术组,说明Caveolin-1对骨质疏松的进展有调节作用,见图2。

3 讨论

骨质疏松的基本病理是骨代谢过程中骨的吸收和骨形成的动态平衡出现失衡,破骨细胞的功能增强,导致人体内钙磷代谢失调,使骨密度逐渐减少而出现相关的临床症状,而目前对骨质疏松症的治疗尚无理想的方法。

有研究报道成骨细胞中存在丰富的caveolae和caveolin-1[3]。在成骨细胞分化成熟过程中,Caveolin-1以基质小泡和细胞外小囊泡的形式从成骨细胞膜上释放,在MC3T3-E1(成骨细胞)分化成熟的前4天左右,细胞基质小泡部分的Caveolin-1迅速增加[4]。在成熟破骨细胞中Caveolin-1表达较低,介导胆固醇的流出转运有限,用高密度脂蛋白或环糊精降低胆固醇诱导细胞凋亡,低密度脂蛋白明显增加破骨细胞活性[5]。目前认为caveolin-1对多种关键性信号分子的活性态起直接调控作用,尤其是负性调控作用[7]。caveolin-1负性调节的e NOS活性[8],抑制NO(nitricoxide)释放,NO为细胞内及细胞间的信号转导分子,是骨组织细胞的一种重要调节因子,对成骨细胞和破骨细胞均具有一定的调节作用[9]。NO在成骨细胞和破骨细胞分化成熟过程中的功能报道不一,可能原因为NO浓度界限不明确,一般为低浓度促成骨细胞和破骨细胞增殖,较高浓度NO明显促进破骨分化成熟,巨噬细胞集落刺激因子(M-CSF,macrophage colony stimulating factor)和激活核因子NF-k B受体的配体因子(RAN-KL,receptor activator of NF-kB ligand)诱导野生型骨骼细胞表达i NOS,NO释放增加,促破骨细胞分化成熟[10]。i NOS选择性抑制剂L-NAME(L-nitro-arginine-methyl-ester)通过抑制NOS活化,可抑制TNF-α,IL-1诱导的破骨细胞分化成熟,并促进其凋亡[11]。

进一步研究Caveolin-1对骨质疏松症进展过程中的调节作用机制,将可能为骨质疏松症药物治疗提供新的作用靶点。通过上调Caveolin-1表达,将可能促进成骨细胞分化成熟,并可能抑制破骨细胞的成熟和促其凋亡,从而恢复骨重建的平衡,治疗骨质疏松症。

参考文献

[1]YANGA G,TIMMEA TL,NARUISHIA K,et al.Mice with cav-1gene disruption have benign stromal lesions and compro-mised epithelial differentiation[J].Experimental and Molecular Pathology,2008,84(2):131-140.

[2]SATOW R,KURISAKI A,CHAN TC,et al.Dullard promotes degradation and dephosphorylation of BMP receptors and is re-quired for neural induction[J].Developmental Cell,2006,11:763-774.

[3]LOFTHOUSE RA,DAVIS JR,FRONDOZA CG,et al.Identifi-cation of caveolae and detection of caveolin in normal human osteoblasts[J].J Bone Joint Surg Br,2001,83(1):124-129.

[4]SAWADA N,TAKETANI Y,AMIZUKA N,et al.Caveolin-1in extracellular matrix vesicles secreted from osteoblasts[J].Bone,2007,41(1):52-58.

[5]LUEGMAYR E,GLANTSCHNIG H,WESOLOWSKI GA,et al.Osteoclast formation,survival and morphology are highly depen-dent on exogenous cholesterol/lipoproteins[J].Cell Death and Dif-ferentiation,2004,11:S108-118.

[6]JIN Y,editor in chief.Developmental biology,methods and pro-tocols for mouse embryo[M].People's Medical Publishing House,2005:296.Chinese[6]金岩,主编.小鼠发育生物学与胚胎实验方法[M].人民卫生出版社,2005:296.

[7]JASMINA JF,MERCIERA I,SOTGIAA F,et al.SOCS proteins and caveolin-1as negative regulators of endocrine signaling[J].Trends in Endocrinology&Metabolism,2006,17(4):150-158.

[8]MEYE C,SCHUMANN J,WAGNER A,et al.Effects of homo-cysteine on the levels of caveolin-1and eNOS in caveolae of human coronary artery endothelial cells[J].Atherosclerosis,2007,190(2):256-263.

[9]BASSO N,HEERSCHEA JN.Effects of hind limb unloading and reloading on nitric oxide synthase expression and apoptosis of osteocytes and chondrocytes[J].Bone,2006,39(4):807-814.

[10]GYURKO R,SHOJI H,BATTAGLINO RA,et al.Inducible ni-tric oxide synthase mediates bone development and P.gingi-valis-induced alveolar bone loss[J].Bone,2005,36(3):472-479.

数据表达模型 篇4

目的检测水通道蛋白-1在膜迷路破坏豚鼠耳蜗及内淋巴囊中的.表达情况.方法以氯仿鼓室注射制造豚鼠膜迷路破坏的动物模型,运用免疫组化二步法在不同的时间点上检测膜迷路破坏豚鼠耳蜗及内淋巴囊中水通道蛋白-1的表达.结果耳蜗中AQP-1的表达表现出一种波动性过程,即随螺旋韧带细胞形态的破坏出现下调,而后当螺旋韧带细胞出现再生时AQP-1的表达出现上调.在内淋巴囊处水通道蛋白-1的表达则无明显改变.结论水通道蛋白-1可能参与维持耳蜗螺旋韧带处结构的稳定性.

作 者:李琦 黄德亮 LI qi HUANG De-liang  作者单位:李琦,LI qi(解放军总医院耳鼻咽喉研究所,北京,100853)

黄德亮,HUANG De-liang(解放军总医院耳鼻咽喉-头颈外科,北京,100853)

刊 名:南方医科大学学报  ISTIC PKU英文刊名:JOURNAL OF SOUTHERN MEDICAL UNIVERSITY 年,卷(期):2006 26(5) 分类号:Q5 关键词:膜迷路破坏   免疫组织化学   水通道蛋白  

★ 胆固醇酯转运蛋白抑制剂研究进展

★ 含藻水的处理技术研究进展

★ 湖泊水华生物防治技术研究进展

★ 一个水稻穗特异表达锌指蛋白基因的克隆与结构分析

★ 自身抗原OGDC-E2融合蛋白的克隆表达与鉴定

★ 数码暗房之应用通道系列――4《计算法 选择效果最好的通道》

数据表达模型 篇5

大数据技术的广泛应用使越来越多的行业和机构认识到,数据已经成为最重要的企业资产甚至是行业资产,对于数据资产的了解、规划、治理和预测成为各行业的新兴赢利点。证券期货行业数据治理是对全行业数据资产行使权力和控制的活动集合,其包括但不限于规划、监控和执行。数据治理能指导数据管理工作的执行。数据治理方法论体系涵盖了概念、框架、应用、目标要求以及成果理论。

在目前的国际数据治理体系中,各国际标准组织及数据管理组织对数据治理的概念、框架、目标要求都已有明确定义,但是在应用与成果理论两个环节,还没有深入和具体的方法论,国际数据治理方法论体系见图1。

基于数据模型的证券期货行业数据治理方法论就是围绕上述欠缺的两点开展研究。

现有的证券期货行业机构多、类型广,交易方式多样,变化迅速。市场上机构间数据交互相对复杂;机构内部应用系统多,数据交换接口多样,通用程度差。证券期货行业的数据化程度相对较高,能够准确、高效地掌握行业数据的情况,不论对监管者还是市场参与者,都是至关重要的。因此,急需一套数据模型,用于描述整个证券期货市场业务、数据情况,明确数据定义、规范数据交换、指导行业系统建设。为了解决上述问题,证券期货行业应建立行业数据治理体系,以行业数据模型为核心,包含行业数据模型建设和数据治理两大块工作。行业数据治理可以规范数据定义,服务行业标准化,其架构见图2。

注:“披露”指行业数据模型中的披露条线及其模型,信息披露组是规范、指导行业现行信息披露工作的专业工作组,在其工作过程中将应用“披露”条线的行业数据模型。

目前,在行业数据生成、交换与应用的整个生命周期中,均面临着一些数据应用的相关问题,数据模型作为数据治理体系的核心,针对以上问题,提供相应的解决思路,具体见图3。

2 数据治理核心——行业数据模型

证券期货行业数据模型是以证券期货行业相关法律法规、业务规则、制度及流程等为依据,绘制行业顶层数据流图及机构内数据流图,识别行业数据的现状。进一步以“交易”、“监管”、“披露”三大业务线条为切入点,分别完成对行业中各种业务的全面遍历,最终形成一系列有关联关系的数据项和数据表。

行业数据模型从识别行业现状出发,根据模型应用深度的不同,分两步形成用于规范行业标准化的抽象模型和指导行业数据应用建设的逻辑模型,模型编制步骤见图4。

其中梳理抽象模型和逻辑模型分别形成了一套方法论。

(1)提取行业规则

在提取行业规则时,综合考虑法律法规、业务规则和数据特征。其中,涵盖证券业务法律法规近50部;3条业务主线,20余类主体,10余个品种,共计业务规则400余项;同时,根据机构内、机构间数据交换现状,形成数据流图,提炼数据特征。

(2)梳理抽象模型

在抽象模型梳理过程中,依据“IBR”(Identity、Behavior、Relevance)方法,以“内部+对外+监管”三个角度划分三大业务条线。在证券期货行业,这三个条线按照行业特征对应为内部业务运行类即“交易”模型;对外信息发布类即“披露”模型和监管模型。三大条线模型分别采用各自的方法进行梳理。

其中,交易模型使用“SPB”(业务(Service)、行为(Behaviour)、过程(Process))方法,即针对市场中的每个品种,识别其交易行为和过程的相互关系来抽取数据模型;监管模型使用“TM”(监管主题(Theme,譬如获取证券期货业资格)、监管方式(Method,譬如行政许可))方法,即通过监管主体和法律法规,识别监管对象和方式形成模型;披露模型使用“T4R”(模板(Templete)、映射(Reflect)、提炼(Refine)、重组(Recombine)、回归(Regress))方法,即通过披露模板逐层反向提取数据表和数据项形成模型。最终,综合三大业务条线,抽取、提炼全市场业务流程与数据的共性部分,形成统一、完备的具有通用性、稳定性和扩展性的资本市场多层次数据模型。

然后,针对梳理结果,应用元数据管理思想,将数据模型按照其自身的属性分为原子数据、复合数据,可复用数据表、语义独立数据表四个层次。同时根据应用过程中的通用性差异,形成通用基础、业务条线通用、业务个性化三个层级的“1+3+N”式模型层级,其中“1”为全市场通用的通用基础数据模型;“3”为交易、监管、披露的业务条线通用模型;“N”为各业务应用的个性化模型。上述分类、分层的组织架构,保障了数据模型的完整性,兼顾了数据模型的共性和个性。抽象模型分层描绘见图5。

(3)设计逻辑模型

为了方便用户读懂并使用数据模型,按照行业属性代码、证券交易所、期货交易所、证券公司、期货公司、基金公司、监管机构等视角,以“1+6”的方式,依托抽象模型,设计一系列实用性比较强的表形成逻辑模型,逻辑模型架构见图6。

逻辑模型设计时,首先依托抽象模型成果,归纳数据共性,合并、提炼划分逻辑模型主题域;其次,通过“IBR”方法,找出主题域中核心数据的特征和关系,构建主题域之间的核心关系;最后根据主题域和核心关系形成从核心到外延的逻辑模型架构。证券公司逻辑模型样例见图7。

3 数据模型应用

证券期货行业数据模型通用性强、覆盖面广、实用度高,是行业数据治理工作的核心。现已用于统一证券期货行业数据标准、规范行业各类标准制定、指导行业各机构应用系统建设,乃至为行业数据大集中项目提供权威数据标准。

数据模型应用领域主要体现在以下三个方面:

(1)规范行业标准化

建立一套基于行业数据模型的行业标准编制、审核机制、关联查询方式,通过行业标准审核,规范、统一在行业中交换数据的含义和口径。

(2)支持核心应用系统建设

运用不同视角的逻辑模型,直接指导行业系统建设,特别是数据仓库类的数据应用系统建设,规范机构内部甚至机构间关联的数据含义,减少数据损失。

(3)指导智能数据挖掘方法论

建立智能数据挖掘方法论。通过数据模型中的业务流程和实体关系图,形成数据挖掘地图,开展不依赖于业务需要的工程化数据挖掘,遍历特定业务方向上的数据特征,全面提取业务间的关系列表,提高数据挖掘准确性和挖掘效率。大数据智能挖掘思路见图8。

4 行业数据治理规划与展望

为了更高效地管理行业数据资产,以行业数据模型为核心的行业数据治理工作将作为一项长期工作,从模型设计、平台建设、模型推广和应用等方面不断推进。行业数据模型将与市场创新同步发展,形成业务全覆盖的、具有世界先进水平的数据模型,并针对核心业务深度扩展,构建逐层深化的行业模型体系。今后,应大力开展模型推广和应用,推动以数据模型为原点的行业数据治理工作。

参考文献

数据表达模型 篇6

1 大数据时代电视新闻的新契机

1.1 大数据时代与数据新闻

大数据或称巨量资料,是指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。大数据开启了一次重大的时代转型,正在改变人们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发。大数据已经渗透在物理学、生物学、公共卫生等领域以及军事、金融、通讯、IT行业等诸多领域,全球知名咨询公司麦肯锡最早提出“大数据时代”已然来临。

从新闻报道的演变历程来看,数据新闻并不新鲜,它是精确新闻的后期产物,多是通过精确的数据、概念来分析新闻事件,以确保报道的客观、公正。随着大数据时代的来临,数据新闻被赋予了新的理解角度和呈现方式。以公开的数据为基础,依靠特殊的软件程序对数据进行处理,开掘隐藏于宏观、抽象数据背后的新闻故事,并以形象、互动的可视化方式呈现。由此可见,数据处理和可视化呈现是大数据时代数据新闻生产流程的关键环节。

1.2 大数据时代媒体间的博弈

随着大数据时代的到来,整个传媒行业都被无缝隙渗透,从平面媒体到互联网,从节目生产机构到终端企业,无论是不是海量数据的源头拥有者,都在抢占大数据的高地。以今年的两会报道为例,人民网、新华网、凤凰网等几大主流网站无不在这场数据新闻的博弈中崭露头角。(见表1)从统计中发现,三大网站在两会报道中的数据新闻呈现形式均是图表加文字,而且是图表为主文字为辅,从根本上颠覆了数据新闻的纯文字化呈现,可视化是读图时代数据新闻的最新表达方式。

1.3 电视媒体在博弈中的取胜探索

在平面媒体和网络媒体中,数据新闻的呈现多依靠3D、Flash、Excel等软件对大数据做分析和可视化处理,最终以数据图表来讲述本来枯燥晦涩的新闻。尽管这种方式解决了无法依靠传统报道方法来讲述大量庞杂数据、变量之间的复杂关系的难题,但这种二维平面、静态的呈现是没有温度并缺乏互动的。对于通过视听双渠道传播信息的电视媒体,如何利用多方位的电视元素丰满数据新闻的可视化表达,是电视媒体在这场博弈中取胜的关键。

2《两会大数据》可视化表达分析

2.1 可视化新闻叙事——参与性最强的叙事模式

传统的新闻叙事更多依靠文学的手法,使新闻信息能够以趣味性、通俗性的方式传达受众。数据新闻可视化叙事就是将抽象数据具象化,挖掘出数据之间的相关性形成新闻文本的同时,制作出具有高度互文性、动态性、参与性的可视化信息,用动态、直观、互动的文本挖掘出数据背后的深层意义。在《两会大数据》制作中,央视选择与百度、亿赞普和腾讯微博三家公司合作为其提供数据源,并以此作为栏目新闻叙事的主干。用可视化叙事方式将信息巧妙呈现,如为了表明亚洲哪个国家更关注中国“两会”,用动态小球从小到大分别照应关注度由弱到强的国家(见图1),这种直观叙事使得信息在传播过程中达到畅通无阻。利用简单的线条和几何图形将核心信息从繁杂无章的海量数据中抽离,直观和易读的方式降低了受众参与的门槛;大数据从民众中来,最终反馈给民众,使他们相信自己在参与过程中能有所贡献,这些都与“参与式文化”的特点相吻合。

2.2 虚拟演播室——性价比最高的表达空间

央视利用数据新闻作为新闻节目的叙述主体,《两会大数据》并非首例,如央视新闻频道2013年的《数字两会》和2014年的《据说春运》等都以数据来解读新闻。而《两会大数据》的特别之处在于运用虚拟演播室进行节目录制,这种电视节目制作技术的应用会为大

2.3 主持人参与——最人性化的表达方式

在电视媒体与平面媒体或网络媒体的这场博弈中,主持人是电视媒体所具备的独特法宝。由于主持人的出现,改善了电视媒体这种大众传播工具的传播效果,主持人利用亲和力表达、互动性参与等方式制造出拟人际传播的效果,更容易使受众转为主动接受信息。在《两会大数据》中,主持人欧阳夏丹清新的形象、生动的语言都成为吸引受众关注的重要因素。

在信息过载时代下,就必然会出现信息的过度充裕和满足于用户个性化、定制化需求的信息的极度匮乏之间的突出矛盾。在海量信息堆积的面前,受众将无法选择和分辨,这个时候专业的筛数据电视新闻节目带来怎样的视觉效果呢?

首先,节约成本,打造最优虚拟场景。与实景演播室相比,虚拟演播室的优势显而易见,虚拟场景和道具的制作、修改和保存都是在计算机中完成,能够在瞬间改变场景更换动画贴图,大大节省了人力、物力和财力,缩短了节目制作周期,这是实景演播室可望而不可及的。其次,三维贴图为数据新闻可视化表达提供技术支撑。随机抽取《据说春运》和《两会大数据》两个数据新闻板块任意一期节目做比较(见表2)不难发现,前者以主持人叙述为主、背后大屏幕视频和图片展示为辅;后者则以主持人和三维贴图共同叙述进行表达,而三维贴图正是实现节目可视化新闻叙事选和稀释对于受众接受来说就显得尤为重要。同样是网友对两会话题关注度的统计中,人民网“据说两会”板块用图表绘制出3月3日到3月13日每天热搜词的前十位,虽说经过信息筛选,但信息表述仍显得无重点、导向性不强;在《两会大数据》中,主持人欧阳夏丹分别讲述了25岁以上、30到45岁、45岁以上不同年龄段人群所关注的话题,并分析出老百姓的心愿单和政府的施政单不谋而合。相比较而言,经过主持人筛选和稀释的信息更容易实现有效传播。

3 结语

央视新闻频道《两会大数据》为电视媒体数据新闻表达开创了一个崭新的模式。虚拟演播室电视节目制作技术的使用也许并非唯一方式,如何提升数据的技术支撑。这些三维贴图是通过3D、Photoshop等三维动画或图形制作软件创建出的模型,然后存入虚拟演播系统专用目录下并读出。

那么,与实景演播室大屏幕显示相比,虚拟演播室三维贴图在可视化方面的优势就显而易见了。三维贴图以动态、立体化方式呈现,可以制作出真实演播室无法实现的视觉效果,使得节目更加吸引受众;主持人与虚拟三维模型的互动更是节目新颖之处。例如,在说到大数据表明秘鲁关注中国两会比例上升这个话题时,欧阳夏丹可以从虚拟牛油果模型中拿出一个真的牛油果,在聊到50岁以上人群最关注食品安全这个问题时,主持人可以坐下和虚拟动画人物互动等,这些效果呈现都是虚拟演播室技术的功劳。新闻的易读性和趣味性还要继续探索,但可以坚信的是,走可视化道路是保证电视媒体在大数据时代博弈中崭露头角的正确方向。

摘要:大数据时代的来一临为电视媒体发展带来新的机遇和挑战,数据新闻的表达成为摆在电视新闻人面前的新课题。本文以2014年央视《两会大数据》为例,分析电视媒体如何利用自身元素丰富数据新闻的可视化表达。

关键词:两会大数据,数据新闻,可视化表达

参考文献

[1]维克托·迈尔·舍恩伯格.大数据时代[M].杭州:浙江人民出版社,2012.

[2]方洁,颜冬.全球视野下的“数据新闻”:理念与实践[J].国际新闻界,2013,(6).

正则表达式的Web数据提取研究 篇7

随着Internet的不断发展,Web已经成为巨大的、分布广泛的信息源。网页作为数据的载体,多数采用超文本标记语言编写,其内部表现为由离散文本条与标记组成的字符串序列,其中标记控制浏览器如何显示定义的信息,决定了外部实体(文本、图片等)的表现形式(视觉、布局等);外部表现为多个信息区域共同分布。

根据网页的表现形式与功能可将其分为三类:一类是主题网页,由大量无链接文本与少量超链接文本组成,共同表达一个中心主题;一类是标签网页,又可称为前导页面,主要由超链接文本组成,网页内标签可分为导航标签(导航条)与主题标签,其作用是对所链接网页进行主题概括,一般位于网站的首页;还有一类由图片和极少量文本组成的网页,将其称为图片网页。一个主题页面内又分为不同的区域,一般包括导航区、主题文本区、主题标签区、噪音区(版权区、广告区、交互区)。Web网页结构内容复杂,HTML语言在语义描述方面不足,网页多语义块分布等给基于Web的应用带来了不便。网页结构内容分析在搜索引擎、Web文档分类、聚类、数据提取、数据重构与主题信息采集等方面有重要作用。

因此针对特定结构的Web数据提取,就成为网络资源处理中的一个重要工作。Web数据提取,简单地说就是从网页中过滤掉“噪声”数据,萃取出其中感兴趣的部分内容。

2 数据提取概述

数据提取返回细致的文档内的相关信息,通常以表格的形式表示。数据提取是一个热门的研究领域,经过数届MUC会议(Message Understanding Conference)的召开而得到了很大的发展。MUC会议不仅致力于研究更好的数据提取系统,同时也研究如何选择更好的数据提取的评价指标。

有两种主要的方法来进行设计,分别是知识工程方法和机器学习方法。知识工程方法通过“知识工程师”(对数据提取系统、知识表示方法、领域知识都有很深了解的人员)仔细研究领域的特点,设计出一套用于提取所需数据的“规则”来实现数据提取的任务。在规则的书写上,知识工程师必需认真分析样本数据,还要依据自己的“直觉”。

知识工程方法除需要对领域知识有深入的了解之外,还需要大量的工作时间。在典型情况下,开发高效的数据提取系统有这样一个过程:分析数据、写规则、运行系统、测试结果、检查结果、改进规则、继续叠代。

机器学习方法则不需要知识工程师人工写规则,而只需要有大量人工标注过的训练数据,依靠机器学习算法,将训练数据给程序进行学习,来得到相应的知识库。

当Internet成为流行的信息载体之后,数据提取系统也开始转向针对Internet上结构化和半结构化的网页文档进行提取。但由于网页文档半结构化的特点,使得传统的在自由文本上进行数据提取时所采用的自然语言处理技术,如词法分析、句法分析等在Web数据提取中并不一定能够取得很好的效果。

3 数据提取应用

该节主要介绍数据提取系统在招聘网站上的应用。

在提取招聘数据的系统中,需要从其中的网页文档中提取得到预先定义好的两类招聘信息。每一类招聘信息又进一步包含了若干个更细致的属性,称为信息槽。如表1所示,公司信息槽共12个,职位信息槽共16个。

其中,

Company category指该公司的类别,如国营、合资或外资。

Company_trade指该公司所属的行业,如医药、电子等。

Job_property指该工作的性质,如全职或兼职。

Job_type指该工作的类别,如管理类、财会类、销售类等。

4 系统框架

网页数据提取系统的处理过程主要分为三步:预处理、特征判定、数据提取。

详细流程如下所述:

4.1 预处理

这一步对从网站上获得的网页进行初步的过滤及结构分析等预处理。保留HTML文件中的重要文字信息及相关的标记而舍弃其他标记,保留文本在原始HTML文件中的位置信息,并作简单的标记结构分析,为后面的特征学习和数据提取做准备。预处理的输入为普通的HTML文件,而输出为自定义的类HTML文件,包括文字、HTML中部分的标记及标记结构分析的结果。具体算法如下

While HTML文件未扫描完毕,

获得下一个HTML标记,

If当前标记为以下标记,

(1)文本修饰标记:

(2)纯文本标记:

 

(3)列表标记:

  1. 直接保留标记本身(去除可能出现在标记中的属性信息)及被修饰的文本即可。

    Else

    if当前标记为表格标记时

    (1)保留table中的信息。同时构造一棵table树,其结构如下:

    树中每一节点代表HTML中的一个table,是一个三元组:(data_array、child_array、parent)。

    1)data_array是指向当前节点关键数据(table包含的子table数、包含文字的长度、包含的行数及根据表格内容构造的数组等)的指针。

    2)childes_array是子节点的指针数组。

    3)parent是指向父节点的指针。

    (2)删去不包含文字的table。按后序遍历的顺序,将table树中不包含任何文字信息的叶子节点删除,并修改其父节点的相关数据。对修改后的树继续采用此算法直至遍历完整棵树。

    (3)判断该表格是否为导航条。若是,则删去。方法如下:首先将表格中链接到本网站的超链接删除;其次,计算y=表格中剩余超链接文本的总长度格中所有文本的总长度。若y>=t(0

    (4)删去空行及空列。对修改后的树中每一节点,即每一个table,检查每一行,若一整行中不包括文字信息时,删去该行。

    (5)按前序遍历的顺序输出table的内容。

    4.2 特征判定

    在观察了大量国内著名招聘网站的不同风格的网页后,可以发现这些网站有如下的特征:

    (1)同一招聘网站的网页风格较为一致,即:对于公司名、职位名等关键的招聘信息均采用一致的HTML标记进行修饰.

    (2)因为公司名、职位名对一个招聘广告来说较其他信息更为重要,所以修饰公司名、职位名的HTML标记一般仅用来修饰这两种信息,而不会用来修饰其他信息。因此在Web数据提取系统中可以使用这些HTML特征来辅助数据提取。

    对于某一个网站,将该网站中经预处理的网页作为目标对象,将一些人为给定的公司名、职位名的槽值正则表达式作为初始知识,在所有训练集的网页中进行公司名、职位名的匹配,将匹配到的字串及其HTML特征(目前取修饰字串的最邻近的前两个标记及在table树中的层数)记录下来。在对所有的网页处理完之后,分别对公司名、职位名的HTML特征进行统计,将出现次数最多的两个特征信息作为该网站的特征,供数据提取时使用。对所有要进行提取的网站均进行一次学习的过程,最终得到一张表格记录所有网站的公司名、职位名的特征信息。

    4.3 数据提取

    对于一个招聘网页,做出了如下的假定:在一个招聘信息网页中仅出现一个公司的信息及至少一个招聘职位的信息。在一个网页中,一个招聘公司的信息或一个招聘职位的信息称为一个提取事件(event)。在提取时需要将同一网页中的若干事件切分开。目前采用的方法如下:假定公司名的出现即为公司事件的开始,招聘职位名的出现即为职位事件的开始,而新事件的开始即意味着前一个事件的结束。

    在此假定的基础上,在对一个网页进行提取之前,先识别出该网页中的公司名及职位名,同时记录下其在原HTML文件中的行号,以便于对该网页中的事件进行分割,然后对每一个事件进行所有槽的数据提取。在事件分割较为准确的前提下,就不会出现提取错误在整个网页中蔓延的问题。为了有效地进行事件分割,应用了网页中的标记信息来辅助公司名和职位名的识别。

    对一个网页的数据提取的顶层算法如下所示:

    (1)读入信息的提取规则

    (2)读入预处理后的文件

    (3)事件分割

    (4)将HTML文件变为内部表示

    (5)在该网页上定位公司名的位置

    (6)提取所有公司名的信息槽

    (7)在该网页上定位职位名的位置

    (8)提取所有职位名的信息槽

    (9)将结果输出到数据库

    其中,

    事件分割的算法如下:

    (1)根据公司名、职位名的槽名正则表达式进行公司名、职位名的识别。

    (2)若步骤1未得到公司名及职位名,则根据特征判定中得到的本网页所属网站的公司名、职位名的HTML特征数据,提取出可能的字串。然后应用公司名、职位名的槽值正则表达式对该字串做进一步的匹配,得到公司名、职位名的字串。

    (3)若1,2均不能得到公司名及职位名,则使用公司名、职位名的槽值正则表达式进行识别。

    职位(公司)信息槽的提取算法如下:

    根据事件分割的结果,对所有的职位(公司)事件进行数据提取。

    将待匹配的HTML字串存入Text中;

    a.若Text匹配某个职位槽Job Slot;槽名表达式取Text中删除匹配到的字串后剩余的字串;

    if Text为空取下一行HTML字串存入Text中;

    if Text匹配职位槽Job Slot的槽值正则表达式提取成功,存储该值;

    else

    取下一行HTML文本作为待匹配字串;

    b.否则,若Text匹配某个职位槽的槽值正则表达式,提取成功,存储该值;

    c.否则,取下一行HTML文本作为待匹配字串;

    举例来说:

    对于公司信息中的邮政编码槽Company_zip,它的槽名表达式为:/邮政编码|邮编/槽值正则表达式为:/[^0-9]*([0-9]{6})[^0-9]*/若有一段如下的HTML文本:

    公司地址上海市XX路X大楼X栋20层105

    邮政编码518031

    FAX 021-3623XXX

    E-Mail admin@XXX.com.cn

    公司主页http://www.XXX.com.cn

    公布日期2007-12-30

    按照匹配算法,第二行'邮政编码'匹配Company_zip的槽名表达式,而它后面的'518031'匹配Company_zip的槽值正则表达式。因此,'518031'将被认为是提取成为该职位信息的邮政编码的值。

    5 结语

    数据提取是从特定的一批文档中获得预先定义的结构化信息。信息提取系统通常使用知识工程或机器学习的方法来实现。Web上的信息检索由于其难度增大,需要更多的专家知识和对代码的维护。研究的趋势仍将是如何通过更加有效和快速地自动学习,得到更加通用的数据提取系统。XML表示的网页文档将会成为新一代的Web信息源,如何利用XML的一些特性使得数据提取系统拥有更好的性能也将成为新的研究热点。

参考文献

[1]John E.Hopcroft,Rajeev Motwani,Jeffrey D.Ullman.自动机理论语言和计算导论.

[2]王继成,张福炎.文本信息检索技术综述.计算机科学.

[3]杨树林.正则表达式的网络教学系统中的应用.北京印刷学院报.

[4]于满泉,陈铁睿,许洪波.基于分块的网页信息分析解析器的研究与设计.计算机应用.

[5]韩近强,赵静,杨冬青等.基于领域知识的网页筛选系统.计算机科学.

[6]Liger F,Queen C M,Wilton P.刘乐亭译.C#字符串和正则表达式参考手册.清华大学出版社,2003.

基因表达数据的模糊聚类技术研究 篇8

随着cDNA微阵列和寡核苷酸芯片高通量检测技术的发展和应用,大量基因表达数据的获取变得越来越容易。基因表达数据是通过实验直接或间接测量得到的基因转录产物信使RNA(mRNA)在细胞中的丰度。面对日益增长、复杂的基因表达数据,如何有效地挖[1]掘其中隐含的生物信息已成为后基因组时代研究热点之一。聚类分析本着“物以类聚”的思想,旨在将功能相关的基因归入同一基因簇中,已成为分析基因表达数据获取生物信息的有效工具。本文系统评述了基因表达数据模糊聚类中所用到的各种技术方法。由于聚类问题的开放性,评价一个聚类算法的优劣不仅仅要从数学的角度出发,而且要在生物学意义下进行评价,因此本文并不用统一的评价标准对所有的聚类算法进行评价。

传统的基因表达数据聚类分析主要有基于划分的方法[2]、基于层次的方法[3]和基于人工神经网络的方法[4]等。从生物学角度看,传统的聚类方式生成的是基因表达数据的一个划分,基因簇之间没有重叠,然而一个基因通常具有多面性,在不同的条件下可能与不同的基因组共调控,因此各个聚类之间应该有重叠的现象。为了获得重叠的基因簇,模糊聚类就很自然地应用到基因表达数据聚类分析中。

二、基因表达数据的模糊聚类分析

1974年由Duinn提出并由Bezdek加以推广的模糊C-均值(fuzzy C-means,简称FCM)算法是应用最广泛、理论最完善的模糊聚类算法。设X=(xbx2,…,xn]Rp是一个数据集,M算法就是将x分成c个模糊簇,并求得隶属度矩阵U={uil}∈Rnxc和c个聚类中心V=N,V,V}]Rb,使目标函数达到最小,其中p是向量维数。FCM算法的目标函数定义为

其中,uik=1,uk∈[0,1]。Bezdek等已经证明了k=I FCM算法不能保证收敛到目标函数的极小值点。另外,FCM对模糊参数m的选择、初始中心(或初始隶属度)的选择、数据的输入顺序等都比较敏感,而且FCM从本质上来说是一种局部搜索算法。

大量研究表明,模糊聚类算法很好地挖掘了基因间的关系。文献[5]用FCM算法对时序基因表达数据进行聚类分析,通过对不同噪音水平的基因表达数据的测试,实验结果验证了FCM算法比传统的K-Means聚类算法鲁棒性好。由于FCM算法存在这些缺陷,下面分别介绍将模糊聚类算法应用到基因表达数据聚类分析上所做的改进。

(一)自动生成最优聚类数目

Gasch等[6]提出一种FCM的启发式改进算法FuzzyK,该算法对基因表达数据执行三次FCM处理。第一次FCM迭代结束后,若一个基因与其中的某聚类中心间的Pearson相关系数大于0.7时,将该基因从原基因表达数据中移除,剩余的基因表达数据构成了原基因表达数据的一个子集,然后在这个子集上进行第二次FCM处理,处理过程与第一次相同,第二次FCM迭代结束后,得到的聚类中心要和第一次FCM处理得到的聚类中心合并,从原基因表达数据中移除与合并后聚类中心相似度高的基因,对剩下的基因进行第三次FCM处理,处理方法同前。FuzzyK算法相对于K-Means算法来说,对聚类数目不是太敏感,稍大的K不会严重影响算法的性能,但是该算法只能识别出90%的已知聚类,甚至无法识别出一些能够被层次聚类算法识别的聚类。

文献[7]提出一种两阶段聚类算法(SiMM-TS)。该算法首先引入多隶属度函数SiMM的概念,用于确定属于多类的基因。该算法在第一阶段,用FCM算法和可变长编码的遗传算法找出具有属于多个类别特征(SiMM特征)的点,并将这些点移除;在第二阶段,用FCM算法和固定长度编码的遗传算法对剩下的点进行聚类,并确定聚类数目,最后按最小距离原则将具有SiMM特征的点分配到已知的类中。该算法与传统的模糊聚类算法相比较,效果较好。

文献[8,9]通过评价不同聚类数目的聚类结果的有效性,从而选择最佳聚类数目。文献[10]用模拟退火算法计算最优聚类数目。文献[11]用最大期望算法(EM)获得聚类数目。文献[12]根据GO Slim来确定聚类数目。

(二)模糊参数设置

文献[13]提出对基因表达数据用FCM算法进行聚类分析时,将模糊参数固定设置成2是不适合的,因为:①聚类结果中基因隶属于所有类的隶属度相似,表明算法没有找出任何聚类结构;②算法虽然有时能够识别出聚类结构,但是隶属度值都相对较低,表明每个基因与每个类之间的联系都较弱。因此,该文提出一种模糊参数m的经验设置方法。设Ym是两两基因之间距离的集合,大量实验表明,当m取其上界值时,隶属度uij→1K,Ym的变异系数cv{Ym}趋向于003p,p是基因表达谱的维数。通过这种依赖关系,可以找出模糊参数的上界值uub。该文给出一种根据基因表达数据本身的特征计算模糊参数的方法,如下:

从公式2中可以看出m∈(1,2},公式2是经验公式,缺乏相应的理论推导。

(三)改进搜索策略

模糊聚类算法是一种局部启发式搜索方法,易陷入局部最优解。近来,一些研究人员通过改进算法搜索策略来克服这个问题。文献[14]提出用可变邻域搜索(VNS)[15]来优化模糊J均值算法(FJM)。该算法将目标函数定义为

该文利用VNS算法随机变换FJM的初始输入来克服FJM局部搜索算法的缺陷,提高了算法的性能,但是该算法复杂度较高,且模糊参数值较难设置。

文献[16,17]提出用一种进化模糊聚类算法。该算法分成两个部分:①用变长染色体编码的遗传算法优化模糊聚类的候选解,因此聚类数目可变;②用Bayesian方法评价聚类结果,计算遗传算法个体的适应度值,并以此为基础,进行选择、交叉和变异操作,直至找到最优解。

文献[18]提出一种基于分布估计算法的模糊聚类分析方法。分布估计是统计学习和遗传算法相结合的一种随机优化算法,通过统计学习来建立解空间内个体分布的概率模型,然后对该概率模型随机采样产生新的种群,如此反复迭代,从而实现种群的进化。和遗传算法不同的是,分布估计算法没有交叉和变异等遗传操作,而是通过概率模型对变量间的关系进行建模,从而有效地解决了多变量相关的优化问题。因此,与标准遗传算法相比较,分布估计算法可以避免大量参数的设置问题,并且收敛速度较快。该文用分布估计算法优化FCM算法,克服了传统模糊聚类算法容易陷入局部最优的缺陷,并且比用遗传算法优化FCM算法的聚类效果要好。

隶属度高的基因分类可信度较高,而隶属度低的基因分类歧义性较多,基于这种假设,文献[19]先用遗传算法优化的重复FCM算法(IFCM)对基因表达数据进行聚类,然后将具有较高隶属度的基因当做训练集,用支持向量机(SVM)产生分类器,用该分类器对余下的基因分类。

(四)利用生物先验知识

大量研究表明,在聚类搜索过程中充分利用生物先验知识会显著提高聚类性能。Maraziotis等[9]提出一种半监督模糊Kohonen聚类网络算法,该算法利用must-link和cannoit-lnk这两种约束信息来辅助模糊Kohonen网络对时序基因表达数据进行聚类分析。must-link约束(ML)是要求两个数据点必须在同一个聚类中的点对信息,而cannot-link约束(CL)是要求两个点对不能在同一聚类中的点对信息。半监督模糊Kohonen聚类网络算法的目标函数为

从公式4可以看出,该目标函数包括两个部分,第一部分是FCM算法的目标函数,第二部分是违反约束的惩罚项。Maraziotis等将半监督学习方法引入模糊Kohonen网络,与传统FCM算法相比,该算法输出结果与输入次序无关,并能自动确定聚类数目。实验结果验证了该算法比未使用先验知识的算法聚类效果要好。

文献[20]为了利用生物先验知识,提出在度量基因间相似性时,组合GO相似性和基因表达数据相似性两种度量。组合的相似性度量公式为

其中,DGo表示基因间的GO距离,DMA表示基因间的表达数据距离,A是用户选定的一种函数,比如求最大值函数MAX、求最小值函数MIN或者其他函数。该文利用这种组合相似性度量和模糊聚类算法NERFCM对拟南芥基因表达数据聚类,取得了较好的结果。

文献[21]提出一种基于距离度量学习的半监督模糊聚类算法,该算法首先训练相似性度量以满足约束信息,然后采用改进的半监督模糊聚类算法对基因表达数据进行聚类分析。

在基因本体层次结构中,假设两个不同的术语是同一个GO Slim术语的后代,被这两个术语注释的两个基因可能具有相似的功能。基于这个前提,文献[12]提出一种基于基因本体数据的模糊聚类算法(简称GOFuzzy算法),该算法利用基因生物过程本体数据(BP)和基因注释数据对基因进行聚类分析。一个GO S1 im代表一个类,也代表一个生物过程。该算法先根据基因生物过程本体数据(BP)和基因注释数据初始化隶属度矩阵,并影响后继的迭代过程。GOFuzzy算法利用先验知识确定聚类中心,初始化模糊聚类种子,与无监督聚类算法相比较,该算法具有可重复性,聚类结果具有很好的可解释性和生物学意义,并成功地预测了未知基因的功能。

(五)其他

针对传统FCM算法对聚类中心的迁移比较敏感这一问题,文献[22]提出一种改进核函数和采用动态权的模糊核聚类算法KW-KFCM,该算法聚类效果和收敛性比FCM算法要好。

文献[23]提出一种基于局部逼近隶属度函数FLAME的模糊聚类分析算法,该算法假设:①数据相对密集的一个区域可以被识别为一个聚类;②具有相似特征(基因表达谱相似)的邻近对象必须有相同的隶属度,这样一个对象的隶属度可由其邻近对象的隶属度确定。该算法主要分成三个步骤:①提取数据局部结构信息和界定聚类支持对象(CSOs)和离群点,CSOs就是在邻近对象中具有最高密度的对象,它可被看成聚类中心;②利用局部逼近原理计算隶属度矩阵;③根据隶属度矩阵获得聚类结构信息。该算法能够获取基因间非线性关系,能够自动获取聚类数目,能够发现离群点。该算法与K-Means算法、FCM算法和SOM算法相比较,具有简单、性能好和鲁棒性高的优点。

三、展望

对基因表达数据进行模糊聚类,将基因分组,可以研究基因的共同功能、相互作用以及协同调控等。更进一步地,利用基因表达数据的聚类结果,可以预测未知功能基因的功能、界定转录起始位点和启动子区域、寻找共同的模体、辅助构建基因之间的调控网络。这些也是DNA微阵列能在生物医学领域中广泛应用的关键原因之一。

数据表达模型 篇9

1 E-R模型概念

构成成分是实体集、属性和联系集, 其表示方法如下。

(1) 实体集用矩形框表示, 矩形框内写上实体名。

(2) 实体的属性用椭圆框表示, 框内写上属性名, 并用无向边与其实体集相连。

(3) 实体间的联系用菱形框表示, 联系以适当的含义命名, 名字写在菱形框中, 用无向连线将参加联系的实体矩形框分别与菱形框相连, 并在连线上标明联系的类型即1—1、1—M或M—M。因此, E-R模型也称为E-R图。

2 关系数据模型概念

行与列交叉的二维表称为关系, 关系的每一行称为元组, 关系的每一列称为属性, 关系中唯一标识一个元组的属性或属性组称为候选码, 简称码。如果候选码有多个, 则选定中一个作为主码。

如果关系R中的属性或属性组X并非R的码, 但X是另一个关系的码, 则称X是R的外码。

3 作E-R模型图的方法

(1) 确定实体和实体的属性。

(2) 确定实体之间的联系及联系的类型。

(3) 给实体和联系加上属性。

如何划分实体及其属性有两个原则可作参考:一是作为实体属性的事物本身没有再需要刻画的特征而且和其它实体没有联系。二是属性的一个值可以和多个实体对应, 而不是相反。尽管E-R模型中的属性可以是单值属性也可以是多值属性, 为简单计算, 多值属性常常被作为多个属性或作为一个实体。

例如:职工和部门, 一般情况下, 一个部门有多个职工, 而一个职工仅属于一个部门。所以职工应作为实体, 而部门既可作为职工的属性—部门本身仅有一个名称也可以作为实体—部门具有部门号、部门名称及电话等。再如, 职工和工种, 一个工种有多个职工, 而一个职工仅属于一个工种, 所以职工应作为实体, 而工种既可作为职工的属性—工种本身仅有一个名称;也可以作为实体—工种和其它实体。

如何划分实体和联系也有一个原则可作参考:当描述发生在实体集之间的行为时, 最好采用联系集。例如, 读者和图书之间的借、还书行为, 顾客和商品之间的购买行为, 均应该作为联系集。

如何划分联系的属性:一是发生联系的实体的标识属性应作为联系的缺省属性, 二是和联系中的所有实体都有关的属性。例如:学生和课程的选课联系中的成绩属性, 顾客、商品和雇员之间的销售联系中的商品的数量等。

4 E-R模型与关系数据模型转换的规律

规律1:将每个实体转换为一个关系。实体的属性就是关系的属性, 实体的码就是关系的码。如果该实体是弱实体, 则弱实体的属性及其父实体的主码作为关系的属性, 而码为弱实体的码与父实体的主码的组合。

规律2:所有主码必须定义为非空 (NOT NULL) 。

规律3:一个1∶1的联系可以转换为一个独立的关系, 也可以与任意一端对应的关系合并。如果转换为一个独立的关系, 则与该联系相连的各实体的码以及联系本身的属性都转换为关系的属性。每个实体的码都是该关系的候选码。如果与某一端的实体对应的关系合并, 则需要在该关系的属性中加人另一个关系的码和联系本身的属性。另一关系的码作为该关系的外码。

规律4:一个l∶n的联系可以转换为一个独立的关系, 也可以与n端对应的关系合并。如果转换为一个独立的关系, 则与该联系相连的各实体的码以及联系本身的属性都转换为关系的属性, 而关系的码为n端实体的码。如果与n端对应的关系合并, 则需要在该关系的属性中加人另一端实体的码和联系本身的属性, 而码仍为n端实体的码。另一端实体的码在该关系中作为外码。

规律5:一个m∶n联系转换为一个关系。与一该联系相连的各实体的码以及联系本身的属性都转换为关系的属性, 而关系的码为各实体码的组合。各实体的码分别是该关系的外码。

规律6:三个或三个以上实体间的一个多元联系可以转换为一个关系。与该多元联系相连的各实体的码以及联系本身的属性都转换为关系的属性, 而关系的码为各实体码的组合。各实体码分别是该关系的外码。

规律7:将超类和子类分别转换为一个关系, 称超类转换的关系为父表, 子类转换的关系为子表, 然后将父表的主码作为子表的外码, 实现父表与子表的联系。

5 结语

E-R模型向关系模型的转换规律是清晰、简洁的。但是对于具体的问题, 在运用转换规律的同时, 依然要考查转换结果是否符合关系数据理论的基本概念和定义。

参考文献

[1]萨师煊, 王珊.数据库系数概论[M].北京:高等教育出版社, 2000.

[2]施伯乐, 丁宝康.数据库技术[M].北京:科学出版社, 2002.

上一篇:体验式校园下一篇:三主体