序列模式分析

2024-05-21

序列模式分析(精选十篇)

序列模式分析 篇1

序列相似性分析一直是生物信息学中的一个研究热点。相似性分析基本采用序列比对的方法来实现。最早用于相似性分析的序列比对算法是Gibbs的点阵图法[1]。其后, Needleman和Wunsch提出了进行全局比对的Needleman-Wunsch算法[2], Smith和Waterman提出了进行局部比对的Smith-Waterman算法[3]。目前的许多算法都是在这些算法上的改进。由于序列比对算法复杂、计算量大, 2000年Randic等人首次提出非序列比对的方法实现相似性分析, 利用矩阵将复杂问题简单化, 将序列比对转化为矩阵不变量的比较[4]。另外一些学者在序列相似性分析中引入几何图形表示, 并从中提取不变量。汪挺松引入了图形曲率, 作为生物相似性比较的不变量[5], 计算量也大大降低。李梅等人采用基于DTW的DNA序列相似性度量方法能够有效地解决动态规划算法对空位罚分的主观性依赖[6]。唐晓婵采用4D图形的几何中心表示DNA序列比较的不变量[7], 在进行序列相似性分析时能够得到较好的效果。本文提出了一种基于模式匹配的多序列相似性分析的方法, 并通过两组实验证明了该方法的有效性。

2 基于模式匹配的多序列相似性分析

2.1 方法概述

利用模式匹配的序列相似性分析方法属于DNA序列相似性研究中应用最广泛的序列比对方法, 该方法基于模式匹配的序列比对结果进行相似性分析。为了使得到的进化树更加准确, 采用Kimura双参数模型和Neighbor-joining方法实现。

2.2 利用模式匹配的序列相似性分析方法的基本步骤

利用模式匹配进行序列相似性分析的基本步骤分为2个阶段:

第一阶段:基于模式匹配的序列比对

(1) 将每个序列) 等分成长度为r的子序列构成子序列 集合L , {l取值len (p1) } , k取值 O (l/logl) 。将集合L中的所有子序列构成一棵公共的模式树T。

(2) 对于公共的模式树T, 每个序列利用Aho-Corasick算法搜索T, 并记录每个序列匹配的模式号和该模式在当前序列中出现的位置。这里使用一个三维数组进行记录, 三维数组的第一维对应一个序列, 第二维包括2个一维数组, 一个数组存储匹配的模式号, 另一个数组存储该模式号在序列中出现的位置。

(3) 统计每个序列Pi (i =1, 2, ..., n) 匹配的模式号, 这里只考虑搜索T时通过非失效链接得到的模式号, 并使用一个二维数组进行统计。二维数组的第0行按顺序记录匹配成功的模式号的值。从第1行开始, 每一行对应一个序列, 该行上的每一列对应模式号在该序列中出现的次数。

(4) 依次找出匹配次数最多的那个模式号, 将没有匹配该模式号的序列从查找中心序列的队列中去除, 最后剩下的序列将是中心序列Pc 。

(5) 得到中心序列后, 将P c与Pi (i =1, 2, ..., n且i≠c) 依次进行比对。由于在步骤 (4) 中已经记录了P c和Pc 匹配的子串位置, 然后使用动态规划算法将P c和Pi 未匹配的子串进行比对。并且记录需要在P c和P i中插入空格的位置S ci和Si 。

(6) 依次比对完P c和Pi (i =1, 2, ..., n且i≠c) 后, 对所有需要插入空格的位置Sci (i ≠c) 汇总, 汇总后的位置记为S c, 分别比较S c和Sci (i =1, 2, ..., n且i≠c) , 在S i中加入新汇入的空格位置。分别根据S i中记录的空格位置将空格插入到Pi中并输出多序列比对的结果。

第二阶段:使用序列比对结构构建进化树

(1) 对结果序列集L使用Kimura双参数模型计算进化距离矩阵;

(2) 对进化距离矩阵计算并筛选最小速率校正距离, 并找出最小速率校正距离所对应的结果序列S i#'和Sj' ;

(3) 为系统进化树创建一新节点t, t的孩子节点为Si' 和S j', 从结果序列集L中删除节点S i'和节点S j'并加入新节点t;

(4) 重复3-5, 直到结果序列集L中节点个数为0时停止, 则系统进化树构建完毕。

3 实验结果分析

该组数据采用基于模式匹配的多序列比对方法进行比对, 得到8种H5N1型禽流感病毒的HA片断基因的序列比对结果, 采用Kimura双参数模型构建进化矩阵, 如表1所示。将表1给出的进化矩阵输入到PHYLIP软件包中的neighbor.exe软件中, 构造出物种的进化树, 如图1所示。

由图1可知, 在同种动物身上采集的病毒中相同年份和相同地域的相似性最高。另外, 使用CLUSTALX软件进行多序列比对, 同样采用Kimura双参数模型和neighbor.exe程序构建进化树, 这两种方法得到的进化树的结构是完全相同的。并且文献[8]使用基于BB信息离散度的DNA序列相似性分析的方法也得到了相同的结果。

4 结束语

本文在基于序列比对的基础上提出了利用模式匹配进行序列相似性分析。由于Kimura两参数模型更能体现生物的突变规律, 计算出的序列距离更为精确, 所以采用基于模式匹配的多序列比对, 使用Kimura双参数模型和Neighbor-joining方法实现相似性分析。实验结果表明, 该方法能够对DNA序列的相似性进行有效分析, 分析结果接近事实。

参考文献

[1]Gibbs A J, McIntyre G A.The diagram a method for comparing sequences its use with amino and nucleotide sequences.Eur J Biochem, 1970, 16:1-11

[2]Needleman S B, Wunsch C D.A general method applicable to the search for similarities in the amino acid sequences of two proteins.Journal of Molecular Biology, 1970, 48:443-453

[3]Smith T F, Waterman M S.Identification of common molecular subsequences.J Mol Biol, 1981, 147:195-197

[4]Randic M.Graphical representations of DNA as 2-D map.Chemical Physics Letters, 2004, 386 (2) :468-471

[5]汪挺松.曲率在生物序列相似性分析中的应用:[大连理工大学硕士学位论文].大连:大连理工大学, 2007, 42-45

[6]李梅, 白凤兰.基于DTW距离的DNA序列相似性分析.生物数学学报, 2009, 24 (2) :374-378

[7]唐晓婵.基于4D图形表示的DNA序列相似性分析.科学通报, 2010, (6) :442-446

时间序列的趋势分析 篇2

无论是网站分析工具、BI报表或者数据的报告,我们很难看到数据以孤立的点单独地出现,通常数据是以序列、分组等形式存在,理由其实很简单,我们没法从单一的数据中发现什么,用于分析的数据必须包含上下文(Context),数据的上下文就像为每个指标设定了一个或者一些参考系,通过这些参照和比较的过程来分析数据的优劣,就像中学物理上的例子,如果我们不以地面作为参照物,我们无法区分火车是静止的还是行进的,朝北开还是朝南开。

在实际看数据中,我们可能已经在不经意间使用数据的上下文了,趋势分析、比例分析、细分与分布等都是我们在为数据设置合适的参照环境。所以这边通过一个专题——数据的上下文,来总结和整理我们在日常的数据分析中可以使用的数据参考系,前面几篇主要是基于内部基准线(Internal Benchmark)的制定的,后面会涉及外部基准线(External Benchmark)的制定。今天这篇是第一篇,主要介绍基于时间序列的趋势分析,重提下同比和环比,之前在网站新老用户分析这篇文章,已经使用同比和环比举过简单应用的例子。

同比和环比的定义

定义这个东西在这里还是再唠叨几句,因为不了解定义就无法应用,熟悉的朋友可以跳过。

同比:为了消除数据周期性波动的影响,将本周期内的数据与之前周期中相同时间点的数据进行比较。早期的应用是销售业等受季节等影响较严重,为了消除趋势分析中季节性的影响,引入了同比的概念,所以较多地就是当年的季度数据或者月数据与上一年度同期的比较,计算同比增长率。

环比:反应的是数据连续变化的趋势,将本期的数据与上一周期的数据进行对比。最常见的是这个月的数据与上个月数据的比较,计算环比增长率,因为数据都是与之前最近一个周期的数据比较,所以是用于观察数据持续变化的情况。

买二送一,再赠送一个概念——定基比(其实是百度百科里附带的):将所有的数据都与某个基准线的数据进行对比。通常这个基准线是公司或者产品发展的一个里程碑或者重要数据点,将之后的数据与这个基准线进行比较,从而反映公司在跨越这个重要的是基点后的发展状况。

同比和环比的应用环境

其实同比、环比没有严格的适用范围或者针对性的应用,一切需要分析在时间序列上的变化情况的数据或者指标都可以使用同比和环比。

但是我的建议是为网站的目标指标建立同比和环比的数据上下文,如网站的收益、网站的活跃用户数、网站的关键动作数等,这类指标需要明确长期的增长趋势,同比和环比能够为网站整体运营的发展状况提供有力的参考。

还有个建议就是不要被同比和环比最原始或者最普遍的应用所束缚住:同比就是今年每个月或每季度的数据与去年同期比,环比就是这个月的数据与上个月比,

对于方法的应用需要根据实际的应用的环境,进行合理的变通,选择最合适的途径。所以同比和环比不一定以年为周期,也不一定是每月、季度为时间粒度的统计数据,我们可以根据需要选择任意合适的周期,比如你们公司的产品运营是以周、半月、甚至每年的特定几个月为周期循环变动,那完全可以将这些作为同比的周期。

特别对于互联网这个瞬息万变的环境,常用的年与年之间的同比,以季度或月为粒度的统计可能不再合适,为了适应快速的变化,以月为周期、周为周期的同比,以天为粒度、小时为粒度的统计数据进行环比将变成常见的方式,因为要适应这种快速的变化,我们需要做出更迅速的决策和调整,当然数据要适应这种快速决策的需要。

应用实例

同比和环比被广泛地应用于各个领域,在Google的图片中搜索同比和环比会有丰富的包含了同比环比的图表显示在你的眼前,所以这里只举个简单的例子:因为很多的互联网产品的数据变化情况会以“周”为周期进行波动(周末会出现明显的上升或者下降趋势),所以这里以一周的数据为例来看下同比和环比的展现效果。还是虚拟数据,为了展示上的需要而临时设定的:

从图中可以看出数据在一周中的变化趋势,周中和周末之间存在明显的差异,周末的收益会有明显的上涨,在使用同比的时候需要抓到这类数据的周期性的变化规律,让数据的对比能够更加有效地反映数据的变化。同时在Excel里面可以直接为一组基于时间序列的数据绘制趋势线,正如图中的虚线所示,本周收益在一周中的变化趋势就显得非常明显,这里用的是指数的拟合,Excel的趋势线提供了线性、指数、对数、幂等回归分析的方式,同时也包含多项式和移动平均等趋势分析的方法。

最后看看我们经常在使用的网站分析工具里面有没有同比和环比的功能呢?这里以Google Analytics和百度统计为例截了两张图,首先看下百度统计登录进去后的网站概况:

百度统计默认就为我们提供了一个比较环境,上方表格中是今天与昨天的数据对比及变化情况,还提供了预测的功能;下方的折线图显示的是每小时数据的变化,提供前一天或者上周的同一天(百度可能已经意识到网站大部分会存在以周为变化周期的趋势,所以很多地方都提供了以周为单位的参考数据)的每个整点的数据对照,同时可以选择不同的时间区间和各类指标。再看看Google Analytics的Dashboard:

Google不像百度那样一进去就能看到对照数据,需要我们手工去选择,在时间区间的选择界面提供了“Compare to Past”的勾选按钮,如果默认是近一个月的数据,那么参照数据就是再往前推一个月的每日变化数据,Timeline的选择面板做得非常炫,可以自定义地选择任何有效的时间区间,当然也同样提供不同的参考指标,鼠标移到图中相应日期的点后会显示具体的数据及差异的大小。

同比和环比是最简单直观的基于时间序列的趋势分析方法,通过观察关键指标的变化情况来洞察网站的发展和运营情况,同时衡量目标的实现程度。所以这篇文章的主题是使用趋势分析的方法来为网站的目标设定数据的上下文,下一篇将主要针对KPI指标进行数据上下文的选择和设定。

序列模式分析 篇3

关键词:农村社会养老保险;家庭养老;土地保障;社会救助;养老保障水平

中图分类号:F323.89 文献标识码:A 文章编号:1000-4149(2014)04-0109-09

DOI:10.3969/j.issn.1000-4149.2014.04.012

作者简介:柳清瑞,经济学博士,辽宁大学人口研究所教授,博士生导师;穆怀中,经济学博士,辽宁大学副校长,教授,博士生导师。

A Research on the Endowment Mode and Level of Peasants with

Two Series:Landlandless and Childrenchildrenless

LIU Qingrui1, MU Huaizhong2

(1. Institute of Population Research,Liaoning University,Shenyang 110036,China;

2. Liaoning University,Shenyang 110036,China)

Abstract:In the process of the new rural social pension system being carried out, it is one of the key issues how to realize the linkup of the rural social pension insurance and family supporting, land security and social assistance. In the short term, middle and long term, we simulate the endowment level of two series of peasants and test its moderation. According to the conversion and linkup process of the rural social pension insurance, the family supporting and the social assistance, the difference and substitution oldage scheme for two series of elderly peasants is proposed. In the short term, we should play the substitution effect of the family supporting, the land security and the social assistance on the rural social pension system. In the middle and long term, we should improve the rural social pension system and raise its benefit, in order to weaken the oldage substitution function of the family security and the social assistance gradually.

Keywords:rural social pension system; family supporting; land security; social assistance; endowment level

一、問题的提出

国务院从2009年9月开始进行新型农村社会养老保险(以下简称“新农保”)试点。新农保的发展目标是探索建立个人缴费、集体补助、政府补贴相结合的制度体系,实行社会统筹与个人账户相结合,与家庭养老、土地保障、社会救助等其他社会保障政策措施相配套,保障农村居民老年基本生活。根据《2012年度人力资源和社会保障事业发展统计公报》,2012年新农保已经实现了制度全覆盖,城乡居民社会养老保险参保人数约为4.8亿人,其中实际领取待遇人数约为1.3亿人。在新农保实现制度全覆盖的情况下,新农保发挥多大的养老作用,新农保与家庭养老、土地保障、社会救助等其他社会保障政策措施如何有效衔接等问题,都非常值得我们深入研究和探讨。

十八届三中全会《中共中央关于全面深化改革若干重大问题的决定》中提出“赋予农民对土地占用、使用、收益流转及承包经营权抵押、担保职能”,在城镇化快速推进的过程中,农村土地流转将导致部分农民失去土地养老保障,同时由于农村少子高龄化现象和家庭结构的变化,农村分化产生了“无土地”和“无子女”两序列农民。这部分农民依靠传统的家庭养老和土地保障就会出现危机,如果仅靠新农保可能就难以满足他们老年时的基本生活需要。关于这个问题,潘漪、陆杰华认为农村家庭无土地现象和土地集中的规模经营趋势,导致土地保障出现了“虚化”现象[1]。与此同时农村独生子女家庭增多、社会流动性增加及子女减少,不仅增加了父母空巢的可能性,而且也弱化了代际赡养的家庭养老功能[2]。为解决这一问题,在新农保逐步建立和发展的基础上,就必须有效发挥家庭养老、土地保障、社会救助及其他社会保障政策的养老作用。申策、约翰·威廉姆森认为虽然农村已经建立了新农保,但家庭养老和社会救助的养老作用不容忽视[3]。桂世勋主张把计划生育家庭奖励扶助制度纳入农村社会养老保险体系,体现对农村独生子女或只生育两个女儿父母的养老关怀[4]。关于“有无土地”二序列农民的养老保障问题,穆怀中、沈毅提出以农民养老保险适度水平为主线,构建二序列农民养老差异化组合模型,通过对不同类型农民实行不同的联动机制,实现“有土地”和“无土地”农民养老同质化发展的目标[5]。此外,关于农村养老保险体系的协调对接,王翠琴、薛惠元对新农保与老农保、城保、被征地农民社会保障、计划生育政策、农村低保以及参保人跨地区转移的制度衔接问题进行了研究,并提出了具有可操作性的对策建议[6]

nlc202309051654

关于“有无土地”和“有无子女”两序列农民的养老保障问题,本文拓展了一个新的研究思路。首先,构建农村养老保险适度水平模型,并对其适度下限和适度上限进行测算,用以考察不同时期两序列农民养老水平的适度性;其次,建立了“有无土地”和“有无子女”两序列农民养老保险体系的基本框架,对不同时期两序列农民的养老保障水平进行了测算并对其适度性进行了分析;再次,根据农村社会养老保险与家庭养老及社会救助等转换与对接过程,构建了“有无土地”和“有无子女”两序列农民的差异替代给付方案;最后,给出了研究结论和政策建议。

二、农民养老金替代率适度水平

在农村养老保险制度中,养老金替代率是一个重要参数,它用以衡量社会养老保险的保障水平。有的学者将养老金替代率定义为参保农民开始领取养老金后第一年所领取的养老金与开始领取养老金前一年农民人均纯收入的比值[7]。为与城镇企业职工养老金替代率相对应,本文将农民养老金替代率用养老金给付与上一年人均劳动收入的比值来表示,具体公式如下:

根据理论与实证检验,把农民养老金替代率的适度上限RHt设计为50%。这样设计的理论依据为:一是以城镇企业职工养老金目标替代率60%为依据[9],考虑到农村土地保障的替代率为10%左右,农民养老金替代率适度上限设计为50%,与城镇企业职工60%目标替代率相比,具有政策一致性。二是合意的养老金替代率应以保障农民基本生活需求(如食品、衣服、住房、交通通信、家庭设备及服务等内容)为标准[10],并综合考虑农民收入结构与水平的特点。郑功成认为将农民养老金目标平均替代率设为50%是合适的[11]。三是利用2001~2011年的数据,对农民养老金替代率适度上限50%进行实证检验。结果表明:农民养老金目标替代率在以农民人均收入为基数,取值50%的情况下恰好能满足农民的基本生活需求。根据基础养老金和个人账户相结合的混合模式,基础养老金和个人账户替代率的适度上限为25%,总养老金与基础养老金替代率的适度下限相同(见表1)。

三、有无土地和有无子女两序列农民的养老模式及水平

根据“有无土地”和“有无子女”,农民养老模式可以划分为四种类型:一是“无土地、无子女”农民,养老模式是在享受社会养老保险(基础养老金和个人账户)的基础上,还可享受低保和计生奖扶金;

二是“无土地、有子女”农民,养老模式是在享受社会养老保险的基础上,还可享受低保和家庭养老;三是“有土地、无子女”农民,养老模式是在享受社会养老保险的基础上,还可享受土地保障和计生奖扶金;四是“有土地、有子女”农民,养老模式是在享受社会养老保险的基础上,还可享受土地保障和家庭养老。在新农保制度实施的情况下,“有无土地”和“有无子女”两序列农民养老保险体系的基本框架如图1所示。

农村社会养老保险由基础养老金和个人账户养老金构成,基础养老金由国家财政负担,具有福利补偿和收入再分配性质,个人账户养老金主要由农民缴费负担,国家进行微量补贴,具有个人储蓄性质。基础养老金具有维持农民基本养老所需的功能定位,而个人賬户养老金主要发挥提高农村养老保障水平的功能。鉴于土地保障、社会救助的福利性质,有无土地和有无子女两序列农民养老模式主要指农民基础养老金与土地、家庭和社会救助养老联动机制。

1.“无土地、无子女”农民的养老模式及水平

农村地区存在着“无土地、无子女”农民,他们既没有土地,也没有子女或者只有独生子女(两个女儿)。撇除符合“五保”供养条件的老人,这种类型农民的养老模式是,在享受社会养老保险的基础上,“无土地”且收入水平低于贫困标准,则可被纳入低保;“无子女”可享受计生奖扶金。因此,这种类型农民实际上主要依靠社会养老保险和社会救助来维持老年基本生活需要。本文根据农村社会养老保险、低保与计生奖扶金给付水平,模拟测算了“无土地、无子女”农民的养老保障水平(见表2)。

根据表2的数据,“无土地、无子女”农民倘若只依靠基础养老金收入,则难以维持老年基本生活需要。在初期和中期,农民基础养老金替代率只有10%左右,低于社会养老保险的适度下限。如果在享受基础养老金的同时,再享受低保和计生奖扶金,那么农民老年人口的养老保障将得到很大改善。在不同时期,依靠基础养老金、低保和计生奖扶金的联合给付,养老总水平能够实现30%以上的替代率水平,超过了社会养老保险的适度下限,低于社会养老保险的适度上限,基本上可以满足农村老年人口的基本生活需要。在近期和中期,由于新农保2009年才开始正式启动,绝大多数农民没有或者领取很少的个人账户养老金,此时实行社会养老保险和社会救助政策的联动是非常必要的。在远期,随着个人账户养老金替代率的提高,农民养老总水平可能会超过50%的适度上限。如果个人账户缴费档次高且回报率高的话,可能会达到60%的目标替代率水平,这样就与城镇企业职工60%左右的目标替代率水平大体相当。

2.“无土地、有子女”农民的养老模式及水平

如果农民无土地但有子女,那么他们因为无土地可以享受低保,还因为有子女可以享受家庭养老。这类农民养老模式是在享受社会养老保险的基础上,还可享受低保和家庭保障,以维持老年基本生活需要。本文根据农村社会养老保险、低保及对家庭养老支出的估计,模拟测算了“无土地、有子女”农民的养老保障水平(见表3)。

根据表3的数据,“无土地、有子女”农民在享受基础养老金的基础上,因为“无土地”且收入水平低于贫困标准,可以纳入低保。但是,这部分群体如果仅靠领取基础养老金和低保金,在近期养老总水平将低于养老金适度下限;如果加上家庭养老支出,养老总水平将超过适度下限。在近期和中远期,由基础养老金、低保和家庭养老支出联动实现的养老金总水平将维持在40%左右,能够满足老年基本生活需要。在近期,由于新农保刚刚起步,对这部分群体不仅要发挥低保的养老作用,还要强化家庭保障意识,有效发挥子女供养父母的养老功能。在中远期,随着农村社会养老保险的不断发展及个人账户养老金替代率水平的不断提高,社会养老保险作用将不断加强,而家庭养老水平将不断下降。基础养老金从近期的8%左右,提高到远期的25%左右;而家庭养老水平将从近期的16%左右,降低到远期的10%左右。虽然如此,在远期这部分群体的养老金总水平将维持在40%左右。如果再加上个人账户养老金,那么养老总水平将接近或者突破适度上限,有利于为这部分群体在年迈时提供更有效的基本生活保障。在农村少子高龄化危机逐渐加剧的情况下,这样不仅有利于减轻子女养老负担,还有利于实现社会化养老和家庭保障的联动,从而建立农村老年人口养老保障的长效机制。

nlc202309051654

3.“有土地、无子女”农民的养老模式及水平

如果农民有土地但无子女,因为“无子女”,按照计划生育家庭奖励扶助政策可以享受计生奖扶金。这种类型农民的养老模式是在享受社会养老保险的基础上,不仅可以利用土地收益实现自我养老保障,还可享受计生奖扶金进行补充养老保障。本文根据基础养老金、计生奖扶金给付水平及对土地养老支出的估计,模拟测算了“有土地、无子女”农民的养老保障水平(见表4)。

根据表4的数据,“有土地、无子女”农民在享受基础养老金的基础上,不仅可以通过土地收益实现自我保障,还可以享受计生奖扶金进行补充养老保障。在近期,如果这部分群体仅靠领取基础养老金和计生奖扶金,则养老总水平将低于养老金适度下限;加上土地保障,养老总水平才能超过养老金适度下限。在近期和中远期,由基础养老金、计生奖扶金和土地养老支出联动实现的养老金总水平将维持在30%左右,均超过养老金适度下限,能够满足老年基本生活需要。在近期,由于新农保刚刚起步,对这部分群体不仅要发挥计生家庭补贴的养老作用,而且还要提高土地收益并有效发挥土地保障的养老功能。在中远期,随着新农保的不断发展及个人账户养老金替代率水平的不断提高,社会养老保险作用将不断加强,可以逐步减轻农民依靠土地收益的养老负担。在中远期基础养老金、计生奖扶金和土地保障的养老总水平维持在30%左右的基础上,再加上个人账户养老金,养老总水平将接近或者突破适度上限。在农村少子高龄化危机逐渐加剧的情况下,“有土地、无子女”农民将通过社会养老保险、计生奖扶金及土地保障,稳定养老总水平,为老年时的基本生活提供有效保障。

4.“有土地、有子女”农民的养老模式及水平

一般情况下,如果农民有土地也有子女,他们的养老模式就是在享受社会养老保险的同时,通过家庭养老和土地保障进行养老。

本文根据基础养老金及对家庭养老和土地养老水平的估计,模拟测算了“有土地、有子女”农民的养老保障水平(见表5)。

根据表5的数据,“有土地、有子女”农民在享受基础养老金的基础上,不仅可以通过子女供养实现养老保障,还可以通过土地收益实现自我保障。在近期,如果这部分群体仅靠领取基础养老金或者在领取基础养老金的同时增加土地保障,则养老总水平将低于养老金适度下限;如果加上家庭养老支出,则养老总水平才能超过养老金适度下限。在近期和中远期,由基础养老金、家庭养老和土地保障联动实现的养老金总水平将维持在30%~40%之间,均超过养老金适度下限,能够满足老年基本生活需要。在近期,由于新农保刚刚起步,对这部分群体不仅要发挥土地保障的养老作用,而且还要发挥子女代际赡养的养老功能。在中远期,随着农村社会养老保险的不断发展及个人账户养老金替代率水平的不断提高,社会养老保险作用将不断加强,可以逐步减轻农民依靠土地收益和子女供养的养老负担。在中远期基础养老金、家庭养老和土地保障的养老总水平维持在30%~40%之间的基础上,如果再加上个人账户养老金,那么养老总水平将接近或突破适度上限,有利于为这部分群体在老年时提供更有效的基本生活保障。在農村少子高龄化危机逐渐加剧的情况下,“有土地、有子女”农民将通过社会养老保险、家庭养老和土地保障,稳定养老总水平,为老年基本生活提供有效保障。

四、构建有无土地和有无子女两序列农民养老差异替代给付方案

综上所述,有无土地和有无子女两序列农民的养老模式及水平在不同时期是动态变化的,体现了不同时期农村社会养老保险与家庭养老、土地保障及社会救助之间的转换与对接过程(见表6)。

1.农村社会养老保险与家庭养老等的转换与对接

农村养老保险体系完善的关节点之一是社会养老保险与家庭养老、土地保障及社会救助的转换与对接。根据社会养老保险与家庭保障、土地保障及社会救助的替代作用,将它们的对接与转换过程划分为三个阶段。在初期,以基础养老金与个人账户为主体的社会养老与家庭养老、土地保障及社会救助的给付水平比例约为1∶3,这一时期社会养老保险水平较低,家庭养老、土地保障及社会救助的养老作用较大,家庭养老、土地保障及社会救助对社会养老保险起到较大的替代作用。在中期,以基础养老金与个人账户为主体的社会养老与家庭养老、土地保障及社会救助给付水平比例接近1∶1,社会保险水平有所提高,社会养老保险与家庭养老、土地保障及社会救助养老将并重发展。在远期,以基础养老金与个人账户为主体的社会养老与家庭养老、土地保障及社会救助给付水平比例超过3∶1。这一时期家庭养老、土地保障及社会救助功能将逐步弱化,社会养老保险将发挥主要作用。

2.有无土地和有无子女两序列农民养老差异替代给付方案

在农村社会养老保险与家庭养老及社会救助的动态转换与对接过程中,应实施有无土地和有无子女两序列农民养老差异替代给付方案。对于有无土地二序列农民,应实施有无土地二序列养老联动给付对接方案。“有土地”农民享受基础养老金和土地保障,“无土地”农民则享受基础养老金和低保,其中低保替代土地保障。对于有无子女二序列农民,应实施有无子女二序列养老联动给付对接方案。“有子女”农民享受基础养老金和家庭养老,“无子女”农民则享受基础养老金和计生奖扶金,其中计生奖扶金替代家庭养老。在近期和中期,“无土地”农民享受的基础养老金与低保联动进入适度区间,“无子女”农民享受的基础养老金与计生奖扶金联动进入适度区间,以解决“无土地”、“无子女”二序列农民养老水平偏低问题。在远期,若“无土地”农民享受社会养老保险与低保联动给付超过适度上限,应取消与低保联动。特殊地,对于“无土地”且“无子女”农民,既可以根据情况纳入五保供养制度,也可以依靠农村社会养老保险与社会救助及计生奖扶金的联合实现养老保障。

五、结论与政策建议

农村社会养老保险与家庭养老及社会救助的转换与对接是完善农村养老保险体系的关键问题之一。在这一过程中,应对有无土地和有无子女两序列农民实施养老差异替代给付方案,以解决农民养老保障不足问题。在近期,农村社会养老保险与家庭养老、土地保障及社会救助的给付水平比例约为1∶3,应主要发挥家庭养老、土地保障及社会救助的养老替代作用。在享受社会养老保险(基础养老金和个人账户)的基础上,“无土地”农民将享受低保,以低保替代土地保障;“无子女”农民将享受计生奖扶金,以计生奖扶金替代家庭养老。在中远期,应完善农村社会养老保险并提高给付水平,逐步弱化家庭养老和社会救助的养老替代功能,建立农村社会化养老的长效机制。

nlc202309051654

在近期,由于新农保刚刚起步,个人账户没有或者只有很少积累,主要依靠基础养老金来实现养老保障远远不够,养老保障水平将低于适度下限,不能为农民提供有效的老年生活保障。因此,在这一时期,必须有效发挥家庭养老、土地保障和社会救助的重要作用,实现社会养老保险、家庭养老、土地保障和社会救助的联动给付,稳定养老总水平并确保其超过农民养老金的适度下限,为农民提供合理有效的养老保障。为此,首先应扩大农村社会养老保险覆盖范围,加強宣传引导,提高政策吸引力以提高农民个人账户参保率,为逐步提高养老保障水平奠定基础;其次,通过多种途径加强宣传引导,弘扬中华民族传统美德,加强孝文化宣传和褒扬孝子孝行,提倡子女共同分担养老责任,积极促进在全社会形成传承孝道美德的养老文化氛围,发挥家庭养老(子女供养)的重要辅助作用;再次,建立土地正常流转机制,实现农村剩余劳动力合理转移,提高土地规模化经营和现代化水平,增加土地收益以强化农村土地保障的养老功能;最后,完善农村社会救助体系,发挥最低生活保障、计划生育家庭奖励扶助

等制度的辅助养老作用,加强低保对象的资格审查,避免道德陷阱,对计生家庭奖励扶助政策要强化法制建设和行政管理,以有效解决“无土地”、“无子女”两序列农民的养老保障问题。

在中远期,随着农村社会养老保险制度的不断发展,基础养老金和个人账户替代率水平将逐步提高,应实现社会养老保险与家庭养老、土地保障和社会救助及其他社会保障政策的有序转换与衔接。在中期,在基础养老金按照农民人均纯收入和CPI进行调整和提高,个人账户有了一定积累的情况下,重点是实现社会养老保险和家庭养老、土地保障、社会救助及其他社会保障政策的并重发展。在远期,在社会养老保险给付水平逐步提高,接近或超过50%的适度上限的情况下,要重点发挥社会养老保险的作用,逐步弱化家庭养老、土地保障、社会救助及其他社会保障政策的养老替代功能。为实现以上目标,首先,应建立新农保基础养老金给付的自动调整机制,通过农民人均纯收入和CPI等参数设计对基础养老金进行指数化调整,合理提高基础养老金的给付水平;其次,应通过强化农民个人参保缴费意识及建立个人账户政府补贴的缴费激励机制,做实个人账户并逐步提高农民缴费水平,通过提高统筹层次并对个人账户利用银行、国债、股票等多种投资工具进行投资运营和提高基金回报率,切实提高个人账户替代率水平;最后,建立城乡居民养老保险对接机制,实现养老保险关系的正常转移接续,有效解决农民工、被征地农民等群体的养老保障问题,并在条件和时机成熟时实现城乡居民养老保险的整合与统一。

参考文献:

[1] 潘漪,陆杰华.农村土地养老状况及影响因素分析[J].中国人口科学,2004,(S1).

[2] 周长洪,刘颂,毛京沭,等. 农村50岁以上独生子女父母与子女经济互动及养老预期──基于对全国5县调查[J].人口学刊,2012,(5).

[3] 申策,约翰·威廉姆森.如何完善正在实施的中国农村社会保障体系[J].中国政法大学学报,2010,(5).

[4] 桂世勋.关于探索农村计划生育家庭养老保险的思考[J].人口与计划生育,2008,(7).

[5] 穆怀中,沈毅.中国农民有无土地两序列养老路径及养老水平研究[J].中国软科学,2012,(12).

[6] 王琴琴,薛惠元.新型农村社会养老保险与相关制度衔接问题初探[J].经济体制改革,2011,(4).

[7] 彭浩然,呙玉红.我国基本养老保险的地区差距研究[J].经济管理,2009,(8).

[8] 穆怀中.城乡社会保障体系建设中的“生存公平”问题[EB/OL].[2007-09-22]http://www.cnss.cn.

[9] 柳清瑞.养老金替代率的自动调整机制研究[J].中国人口科学,2005,(6).

[10] 李珍,王海东.基本养老保险目标替代率研究[J].保险研究,2012,(1).

[11] 郑功成.中国社会保障改革与发展战略——理念、目标与行动方案[M].北京:人民出版社,2008.

序列模式分析 篇4

1 序列模式挖掘步骤

序列模式挖掘的步骤如图1所示, 我们可以看到, 总体上分为三个不相同的步骤。它们依次顺序为:数据预处理→知识库形成→可视化。

2 基于序列模式挖掘的警用车辆维修数据分析模型结构介绍

通过数据采集模块警用车辆维护数据挖掘模型的序列模式, 数据预处理模块, 挖掘序列模式挖掘模块, 该模块包括以下几个部分。警用车辆维修数据采集模块用于采集数据进行分析;数据预处理将采集的数据为标准, 统一的数据格式;序列模式挖掘的模型和算法的核心部分, 挖掘的完整规范的预处理, 统一的数据格式与相关的序列模式挖掘和序列模式评估模块;分析显示在图形和表格形式的挖掘挖掘结果评估结果。

模型的体系结构如图2所示。

3 模型组件介绍

3.1 数据提取

警用车辆维修系统是一个非常复杂和庞大的信息管理系统, 包含复杂的业务逻辑和数据库连接存在十分复杂的数据库表。然而, 使用已经运行, 所以在这个极其复杂的巨系统数据库中积累了大量的业务数据, 但这些数据库中的数据不是数据挖掘的警用车辆使用数据, 我们需要提取相应的数据提取操作相关的数据。

警用车辆维修系统, 维修车的应用需要上传维修报价, 包含报价信息, 车牌号码, 车辆识别代码, 汽车维修零件清单, 以及相应的价格和其他相关信息。此信息存储在相应的数据库中的表, 需要提取。

3.2 数据预处理

由于各种主观和客观的或不可抗拒的原因, 数据提取过程中得到的数据往往是不一致的, 多余的, 不完整的现象, 直接的数据序列模式挖掘几乎是不可能的。数据清洗的需要, 数据采集, 通过操作上收集到的数据预处理数据的一系列操作, 能满足要求的序列模式挖掘。数据质量是数据预处理的改进, 当然, 也可能会丢失数据的一部分, 但有助于提高准确度和后期的序列模式挖掘性能。

警察的车辆维修制度, 车辆保养的记录到数据挖掘算法的属性数据, 可以处理的数据格式, 例如价格序列数据库中的值为离散的区间值数据库的维护将使用中国维修配件消耗属性表示, 可以转换成该算法直接操作字符或字符代码, 等等。经过数据情况好或不好, 会影响精度的数据预处理, 提取相关规则非常到位下推导和结果的有效性。

3.3 序列模式挖掘

序列模式挖掘算法模块采用改进的序列模式挖掘, 一个处理好进一步挖掘数据的步骤。期待的消耗部件之间的关系提出找警察车辆维修事件, 和资金账单每个警察车辆修理在特征提取的事件之间的相关性, 比如和维修时间的相关性。

3.4 挖掘结果评估

对序列模式挖掘算法挖掘出来的结果进行评估, 评估应用于该模型的改进的序列模式挖掘算法的优势与特征。

观察序列模式挖掘的警用车辆维修相关属性的关联性是否有效, 以及算法是否更优秀。

4 结语

主要工作在于提出了警用车辆维修数据的序列模式挖掘模型, 并介绍了该模型中所具有的组件:即数据收集模块、数据预处理模块、序列模式挖掘模块、挖掘结果评估模块在整个模型中所做的工作。提出了基于序列模式挖掘的警用车辆维修数据分析模型, 但还未实际应用于实践中, 后续工作将用于提高挖掘效率并应用于实践。

参考文献

[1]周斌, 吴泉源.序列模式挖掘的一种渐进式算法[J].计算机学报, 1999, 22 (10) :882-887.

[2]李云, 刘学诚, 朱峰.数据挖掘技术在入侵检测中的应用[J].计算机应用与软件, 2011, 28 (5) :117-119.

[3]马进, 金茂菁, 杨永丽, 等.基于序列模式挖掘的隐私保护多步攻击关联算法[J].清华大学学报, 2012, 52 (10) :1427-1434.

[4]HANJW, Kamber M, Pei J.数据挖掘概念与技术[M].北京:机械工业出版社, 2012:278-284.

纤维素酶系基因的克隆与序列分析 篇5

关键词: 纤维素酶;基因;克隆;序列分析

中图分类号: Q785 文献标志码: A 文章编号:1002-1302(2016)03-0040-04

纤维素是地球上最丰富的可再生自然资源[1]。全球每年纤维素产量达2 000亿 t[2],仅我国秸秆产量就达5亿~7亿t,大部分被焚烧、丢弃,不仅浪费资源,而且会对环境造成污染[3]。纤维素是一种无色、无味的白色丝状物,难溶于一般的有机溶剂及水,是植物细胞壁的主要组成部分。植物纤维素结构基本由结晶区域、无定型区域组成,纤维素结晶区域比无定型区域难降解[4]。酶解法是目前降解纤维素最有效的方法[5]。纤维素酶是能够分解纤维素、最终将其降解成葡萄糖的一类酶的总称。根据纤维素酶催化反应功能的不同可将其分为:(1)内切葡聚糖酶,这类酶作用于纤维素分子内部的非结晶区,随机水解β-1,4-糖苷键;(2)外切葡聚糖酶,这类酶作用于纤维素线状分子末端,水解β-1,4糖苷键;(3)β-葡萄糖苷酶,这类酶将纤维二糖水解成葡萄糖分子[6]。纤维素酶分子多数由球状的催化结构域(catalytic domains,CD)、连接桥(linker)、纤维素结合结构域(cellulose-binding domains,CBD)3个部分构成[7-9]。纤维素酶分布广泛,目前饲料用纤维素酶主要从微生物中获得。随着分子生物学、基因工程技术的发展,对纤维素酶分子层面研究也随之展开,纤维素酶基因的克隆与表达成了研究焦点。细菌、真菌的纤维素酶系不断被人们发现、分离,大量纤维素酶基因得到克隆、表达,丰富了纤维素酶的研究材料[10]。结构功能完整的纤维素酶基因克隆到高效表达载体上再进行异源表达,能使纤维素酶的产量成倍提高[11]。本试验对纤维素酶系内的3个纤维素酶基因进行克隆和序列分析,旨在为后续高效联合表达纤维素酶系基因进行研究准备。

1 材料与方法

1.1 材料

1.1.1 菌株与质粒 Bacillus subtilis K、Bacillus subtilis L均由实验室筛选并保存,大肠杆菌DH5α购于北京天根生化科技有限公司,pGEM-T Easy Vector System购于Promega公司。

1.1.2 主要试剂 DL 2000 Marker、溴酚蓝、琼脂糖购自北京天根生化科技有限公司;Taq酶、DNTP、各种限制性内切酶购自Promega公司;溴化乙锭(EB)、抗生素(Amp)购于北京索莱宝科技有限公司;RNA酶,蛋白酶K购于北京中科瑞泰生物科技有限公司;琼脂粉、蛋白胨购于Oxid公司。基因组提取试剂盒、质粒提取试剂盒、DNA胶纯化回收试剂盒均购自于中科瑞泰(北京)生物科技有限公司。

1.1.3 引物 试验中的3对引物序列:

ENF: 5′-ATGAAACGGTCAATCTCTATT-3′;

ENR: 5′-CTAATTTGGTTCTGTTCCCCA-3′;

CENF:5′-ATGAAAAAGATCATGAGTGCAT-3′;

CENR:5′-TTATTCAGGAAACTGAACATGG-3′;

KGF:5′-ATGAGTGAATGGTGGAAAGAAG-3′;

KGR:5′-TCATATACTAATGCCCATCACAG-3′。

1.2 方法

LB培养基的配制:蛋白胨10 g,酵母提取物5 g,氯化钠10 g,蒸馏水1 L,固体LB培养基加入20 g琼脂粉,120 ℃高压灭菌30 min。细菌基因组DNA的提取、质粒DNA的提取、DNA的凝胶回收参照试剂盒提供的说明进行。纤维素酶基因的PCR扩增、纤维素酶基因片段与T载体的连接、重组质粒导入感受态细胞、含纤维素酶基因的重组质粒的酶切鉴定参照《分子克隆试验指南》规定的方法进行。纤维素酶系基因的序列测定由北京擎科新业公司完成。用VectorNT软件和NCBI Blast 2.0在线软件对该纤维素酶基因的序列进行分析。

2 结果与分析

2.1 纤维素酶基因的克隆

根据GenBank公布的纤维素酶系的内切葡聚糖酶基因、外切葡聚糖酶基因、葡萄糖苷酶基因序列设计特异性引物:ENF(R)、CENF(R)、KGF(R),以提取得到的B.subtilis K、B. subtilis L基因组DNA为模板进行PCR扩增,扩增结果如图1所示。扩增得到的DNA片段大小分别为1 500、700、1 700 bp左右。根據来源不同分别将3个基因命名为Ken、Lcen、Kkg。

2.2 纤维素酶基因的鉴定

分别将片段回收,连接于T载体上转化到大肠杆菌培养,挑取单菌落,进行重组质粒PCR鉴定(图2-A),凝胶上有明显的DNA条带,与PCR扩增的结果一样。进行酶切鉴定(图2-B),凝胶上分别出现2条明显的DNA条带,一条大小约为3 kb与T-easy载体的片段大小一致,另一条带大小分别约为1 500、700、1 700 bp,与PCR扩增的结果一致。由此确定PCR扩增产物顺利连接到T-easy载体上,构建了3个基因与T-easy连接的重组质粒,分别命名为LcenT、KenT、KkgT。

2.3 纤维素酶基因的序列分析

将3个纤维素酶基因重组质粒LcenT、KenT、KkgT分别进行测序,并通过VectorNT软件和GenBank数据库对3个基因的序列进行分析。

2.3.1 Lcen基因的序列分析 对LcenT重组质粒进行测序,得到的基因序列如图3所示。

用VectorNT软件对Lcen基因序列进行分析发现,该基因全長699个碱基,组成1个完整的开放阅读框(open read frame,ORF),连续编码232个氨基酸,起始密码ATG,终止密码TAA。

利用NCBI网站上的Blast功能对该基因序列进行比对发现,基因Lcen与已报道的枯草芽孢杆菌纤维素酶基因GU327817.1、CP003695.1、CP003329.1、AP012496.1、AP012495.1十分相似,相似度为99%。对其编码的氨基酸进行比对分析发现,该基因编码的氨基酸序列与已报道的枯草芽孢杆菌胞外的葡萄糖苷酶基因NP389744.1、YP007427045.1、YP004203797.1、YP006231826.1、ZP06873100.1的氨基酸序列十分相似,相似度达到95%。故可初步确定该基因来源于枯草芽孢杆菌,属于纤维素酶基因。

对基因编码的氨基酸序列进行分析和预测得知,该基因编码的氨基酸结构属于罕见的脂蛋白(RlpA)超家族,基因序列部分与罕见的脂蛋白、假定的EG45-like域包含蛋白1、内切葡聚糖酶c终端域/亚单位和相关蛋白质相似性高。

2.3.2 Ken基因的序列分析 对KenT重组质粒进行测序,得到的基因序列如图4所示。

用VectorNT软件对Ken基因序列分析,KenT的基因全长1 500个碱基,组成1个完整的开放阅读框,连续编码499个氨基酸。起始密码ATG,终止密码TAG。利用NCBI网站上的Blast功能对该基因序列进行比对发现,基因Ken的序列与已报道的枯草芽孢杆菌纤维素酶基因FJ800366.1、EF070194.1、KC477685.1、CP002468.1、HM543165.1基因序列十分相似,相似度为99%。对其编码的氨基酸进行比对,该基因编码的氨基酸序列与已报道的枯草芽孢杆菌的内切葡萄糖苷酶基因NP389695.2、AFX88666.1、YP007209477.1、ACK38261.1的氨基酸序列十分相似,相似度达到99%。故可确定该基因来源于枯草芽孢杆菌,属于纤维素酶基因。

对该基因编码的氨基酸结构进行分析预测发现,该基因编码的氨基酸属于水解酶超级家族,整体由2个主要部分组成(图5),一部分为纤维素酶区域(cellulase,图5-A),一部分为纤维素酶的绑定区域(CBM-3,图5-B),其中的纤维素酶区域结构符合糖基水解酶家族5的结构特征。

2.3.3 Kkg基因的序列分析 对KkgT重组质粒进行测序,得到的基因序列如图6所示。

用VectorNT软件对Kkg基因序列分析,Kkg基因全长1 686个碱基,组成1个完整的开放阅读框,连续编码561个氨基酸。起始密码ATG,终止密码TGA。

利用NCBI网站上的Blast功能对该基因序列进行比对发现,Kkg的基因序列与已报道的枯草芽孢杆菌纤维素酶基因cp002468.1、CP003695.1、CP003329.1、AP012496.1、AP012495.1序列十分相似,相似度为99%。对其编码的氨基酸进行比对分析发现,该基因编码的氨基酸序列与枯草芽孢杆菌1,4-6-α-葡糖苷酶基因YP004205293.1、YP007208039.1、YP007428400.1、YP007664110.1、ZP12669813.1的氨基酸序列十分相似,相似度达到99%。故可初步确定该基因来源于枯草芽孢杆菌,属于纤维素酶基因的类别。对该基因编码的氨基酸结构进行分析和预测发现,该基因编码的氨基酸属于 α-淀粉酶的超家族,基因编码的氨基酸序列上包含纤维素酶活性部位、Ca绑定结构域、催化部位(图7)。

3 结论与讨论

纤维素酶的应用非常广泛,然而天然纤维素酶由于酶活较低以及成本高等因素的限制,对于大规模的工业化应用有一定困难。近年来,随着分子生物学和基因工程技术的发展,对纤维素酶分子层面的研究也随之展开,纤维素酶基因的克隆与表达成了研究焦点。 目前常用的基因克隆方法有人工合成法、PCR扩增法以及构建基因文库等[12]。本试验通过GenBank检索枯草芽孢杆菌纤维素酶基因,根据基因的编码序列设计3对引物,从B. subtilis K、B. subtilis L基因组DNA扩增出了3个基因片段,通过测序得到基因序列。枯草芽孢杆菌是目前细菌纤维素酶基因的主要来源,已报道的大部分纤维素酶基因均从枯草芽孢杆菌中获得[13-14]。已报道的枯草芽孢杆菌纤维素酶基因大多数属于内切葡聚糖酶(endo β-1,4 glucanase)基因[14]。在纤维素酶基因克隆上,不论是从何种微生物上进行克隆,大部分报道均是克隆获得1个基因。本试验同时从Bucillus subitilis K基因组DNA中克隆得到2个纤维素酶基因Ken、Kkg,其中Ken大小为 1 500 bp,与已报道的大多数枯草芽孢杆菌内切葡聚糖酶基因一致,属于纤维素水解酶家族;Kkg基因全长1 686 bp,与已报道的枯草芽孢杆菌1,4-6-α-葡糖苷酶基因一致,在结构分析上,该基因属于α-淀粉酶的超家族。

参考文献:

[1]杨家华,郭志宏,杜海祖. 纤维素酶的研究与应用[J]. 中兽医医药杂志,2007,26(5):30-32.

[2]Lynd L R,Weimer P J,van Zyl W H,et al. Microbial cellulose utilization:fundamentals and biotechnology[J]. Microbiology and Molecular Biology Reviews,2002,66(3):506-577.

[3]张平平,刘宪华. 纤维素生物降解的研究现状与进展[J]. 天津农学院学报,2004,11(3):48-54.

[4]Juy M,Amit G,Alzati M,et al. Crystal structure of a thermostable bacterial cellulose degrading enzyme[J]. Nature,1992,357(6373):89-91.

[5]刘 萌,战 利,马红霞,等. 纤维素酶及纤维素酶基因工程学研究进展[J]. 安徽农业科学,2011,39(16):9515-9517.

[6]张 杰,张晓东,孟祥梅,等. 纤维素酶研究进展[J]. 可再生能源,2007,25(5):57-60.

[7]Klyosov A A. Trends in biochemistry and enymology of cellulose gradation[J]. Biochemistry,1990,29(47):10577-10585.

[8]Tilbeurg H,Tomme P,Claeyssens M. Limited proteolysis of the celD lobiohydrolaseⅠfrom Treesei[J]. FEBS Letters,1986,204(2):223-227.

[9]李 旺,杨明明,陈玉林. 产纤维素酶枯草杆菌B.subtilis DR的鉴定与酶特性研究[J]. 饲料研究,2012(1):33-35.

[10]李雪峰,侯红萍. 选育高产纤维素酶菌种的研究进展[J]. 酿酒科技,2010(5):92-94.

[11]Li W,Huan X,Zhou Y,et al. Simultaneous cloning and expression of two cellulase genes from Bacillus subtilis newly isolated from Golden Takin (Budorcas taxicolor bedfordi)[J]. Biochemical and Biophysical Research Communications,2009,383(4):397-400.

[12]Shelomi M,Watanabe H,Arakawa G. Endogenous cellulase enzymes in the stick insect (Phasmatodea) gut[J]. Journal of Insect Physiology,2014,60:25-30.

[13]盧 敏,王帅豪,狄元冉,等. 纤维素酶基因克隆与表达[J]. 动物营养学报,2012,24(6):1013-1018.

序列模式分析 篇6

1 入侵检测技术

1.1 概念

入侵是指任何企图危及资源的完整性、机密性和可用性的活动[1]。入侵检测就是检测“未经授权使用计算机系统”的外部入侵行为和“合法访问系统但滥用其特权”的内部入侵行为,并采取对抗措施。它作为一种积极主动地安全防护技术,提供了对内部攻击、外部攻击和误操作的实时保护,在网络系统受到危害之前拦截和响应入侵,是网络防火墙的有力补充。对各种事件信息进行分析从中发现违反安全策略的入侵行为是入侵检测系统的核心功能。入侵检测模型如图1所示。

用于入侵检测的软硬件组合称为入侵检测系统(intrusion detection system,IDS),它通过收集并分析计算机系统和网络的有关数据来检测入侵行为,有效扩展系统管理员的安全管理能力(包括安全审计、监视、进攻识别和响应),提高信息安全基础结构的完整性。

1.2 分类

目前的入侵检测方法可分为:误用检测(Misuse Detection)、异常检测(Anomaly Detection)。

误用检测是基于规则的检测技术或者模式匹配检测技术,它是将已知的攻击特征进行编码,存入特征库,入侵检测将所监视的事件与特征库中的攻击特征进行匹配,当发现有匹配时,就认为有入侵发生。这种检测的优点是检测效率高,误报率低,缺点是只能检测已知的入侵,对未知的入侵活动或已知入侵活动的变异无能为力,需要不断更新特征库。

异常检测是基于行为的检测技术,是根据用户的行为和系统资源的使用情况判断是否存在网络入侵。异常检测技术首先假设网络攻击行为是不常见的或是异常的,区别于用户和系统的“正常行为”,通过比较被检测的信息与“正常行为”的偏离程度来检测入侵,通过关注异常的信息来分析是否有攻击产生。这种检测技术是假定正常的工作行为模式相对稳定,有入侵发生时,用户或系统的行为模式会发生一定程度的改变。异常检测的优势在于与系统无关,通用性强,它的最大优点是可以检测以前从未出现的攻击方法。异常检测是目前入侵检测系统的主要研究方向。

2 基于模糊序列模式挖掘的网络异常检测

在入侵检测的研究中,以往大量的工作集中在通过统计分析、专家系统、神经网络、模式预测等方法来构建检测系统的正常行为模式。而入侵检测实质是数据分析和知识发现的过程,所以数据挖掘在入侵检测领域极具应用潜力。

网络安全事件本质上具有模糊性,在正常行为与异常行为之间没有明确的边界。通过引入模糊逻辑,用定义在特征属性论域上的模糊集来软化边界,可以在集合元素和非集合元素之间提供平滑的过渡,从而缓解正常行为和异常行为的突然分离问题。将序列模式挖掘方法用在网络异常检测中可以从大量数据中自动地提取出行为模式,而模糊逻辑的引入又可以解决单纯使用序列模式挖掘方法进行入侵检测建模所引起的边界过硬问题。因此,把序列模式挖掘与模糊逻辑相结合用于网络异常检测建模,能够在高层次上挖掘出抽象的行为模式,减少对审计记录的依赖,同时使检测模型更具有适应性,检测精度更高。

2.1 模型简介

本文通过对文献[3]中的模型进行修改,建立图2中的网络异常检测模型。该模型主要包括三个模块,即数据采集及预处理、模糊序列模式挖掘、模式比较。

模型首先进行数据采集和预处理工作,将捕获到的网络数据包,经过数据预处理之后形成审计记录集,确定需要做模糊化处理的定量属性。然后为定量属性确定隶属度函数,计算出每个属性值对应于所属模糊集的隶属度。完成这些处理后,使用模糊序列模式挖掘算法从无入侵的模糊审计记录集中挖掘出所有的模糊序列模式,建立历史行为模式库。同时系统在运行时会产生新的审计数据,模糊序列模式挖掘模块根据它们挖掘出的新的模糊序列模式规则集合,建立当前行为模式库,计算出当前行为模式与历史行为模式的相似度。如果相似度低于预先设定的阈值,就可认为有入侵的行为,或者根据相似度给出系统遭受入侵的程度评价。

2.2 数据采集及预处理

采集网络数据通常的做法是:当网络数据流在网段中传播时,采用特殊的数据提取技术,收集网络中传输的数据,作为入侵检测系统的数据源。利用Tcpdump等工具可以实现网络数据包的捕获。Tcpdump是根据使用者的定义对网络上的数据包进行截获的包分析工具。但工具包输出的数据并不是专为安全目的设置的,所以在使用这些数据进行入侵检测之前必须对它们进行多轮的预处理,提取有价值的特征和度量尺度。经过预处理后,原始的网络数据被转换成了统计记录集合,集合中的记录是由若干基本特征属性值和统计特征属性值组成的。下一步的模糊序列模式挖掘就是在此基础上进行的。

2.3 模糊序列模式挖掘

得到网络连接的统计记录集后,首先将其转化为顾客序列数据库的形式。把目的主机IP地址作为主键,相当于顾客序列数据库中的CID;根据连接起始时间给记录按顺序编号,这个编号就相当于TID。将同一个主机IP上顺序发生的网络行为看作一个序列[4]。

然后对这个数据集上基于时间的统计特征属性做模糊化处理。例如Count(目标主机地址与当前连接相同的连接数)属性是基于时间的统计特征属性,将其看作模糊变量,在其论域上划分low、middle、high三个模糊集合,各自隶属函数表示及示意图如图3。

选取好隶属函数并为每个函数设定合适的参数后,计算每个模糊变量值的隶属度,完成模糊化处理。对每一条统计记录中的每一个属性都进行上述的模糊化处理后,就可以开始进行模糊序列模式挖掘了。

选定一种模糊序列模式挖掘算法,指定最小支持度min_sup,在处理好的数据中进行挖掘,可得到形如的序列模式,其中()为模糊项集。

2.4 模式比较

在得到用户在正常情况下所形成历史模式和检测数据所形成的当前模式之后,需要对两种模式进行模式比较,根据比较结果入侵检测系统的响应单元需要做出相应动作。在此,引入相似度(similarity)函数的概念来衡量不同行为模式之间的相似程度[5]。相似度函数的取值在0和1之间,如果两个比较模式序列完全相同其值是1;如果两个模式序列完全不相同,其值是0。取值越大,说明两个模式序列相似程度越高。计算出相似度后,就可以根据预先设定的阈值来判断网络行为的特征。如果相似度大于等于阈值,则该行为是正常行为,反之是异常行为。

3 小结

由于安全事件常常是与时间相关的,而有些时间统计特征往往是数值型的。因此在网络入侵检测应用模糊序列模式挖掘将十分有效。本文首先介绍了网络入侵检测的基本理论,包括入侵检测的概念、分类及分析技术等。然后将模糊序列模式挖掘引入了网络异常检测,介绍了一种基于模糊序列模式挖掘的网络异常检测模型,并对模型中各模块的工作过程进行了介绍。

参考文献

[1]陈望斌,王力生,廖根为.基于序列模式挖掘的入侵检测技术研究[J].小型微型计算机系统,2004,25(5):878-881.

[2]杨智君,田地,马骏骁.入侵检测技术研究综述[J].计算机工程与设计,2006,27(12):2119-2123.

[3]连一峰,戴英侠,王航.基于模式挖掘的用户行为异常检测[J].计算机学报,2002,25(3):325-330.

[4]马晓丽.模糊序列网络异常检测建模方法研究[D].太原:太原理工大学,2005.

基于模式与熵的随机序列研究 篇7

在自然界和人类社会中存在着两类现象, 确定性现象和非确定性现象。前者在一定条件下必然发生;对于后者, 其结果的样本空间非但并不唯一, 大多数时候甚至难以计量。非确定性现象, 或者说随机现象, 经过大量的重复试验或观察, 总能表现出一定的统计规律性。随机数根据其产生机理, 可分为两种:真随机数与伪随机数。前者由物理采样方法得到, 后者来自于数学计算。

2. 随机序列与模式

2.1 真随机数及其特征

真随机数源有很多, 包括人为随机源、设备随机源、电路中的热噪声和散粒噪声, 等等。电脑的操作系统就能够实现对如键盘随机性、鼠标随机性、中断随机性等的统一控制, 以产生符合要求的随机数。即使是真随机数发生器的设计者, 也不可能知道实际生成的随机序列的内容, 生成的随机数是真正无法预测的。

2.2 真随机与假模式

2.2.1 预测的模式

随机现象的本质是不确定性。研究表明, “我们在不确定局面下进行评估和选择时, 常常会依赖于直觉”。面对随机序列, 我们所要做出的判断并不会威胁自身的安全, 仅仅是个小小的判断。这时候, 模式的思维就占了上风。

2.2.2 双色球中的幸运

在中国, 目前双色球是一种较流行的博彩方式:投注区分为红球号码区和蓝球号码区, 红球号码范围为01~33, 蓝球号码范围为01~16。双色球每期从33个红球中开出6个号码, 从16个蓝球中开出1个号码作为中奖号码, 双色球玩法即是竞猜开奖号码的6个红球号码和1个蓝球号码, 顺序不限。考虑到16是2的四次幂, 便于后文的二进制计算, 本文取每一期的蓝球号码作为真随机序列。

毫无疑问, 每一次的蓝球数字都是随机产生的。现在, 让我们再来看看前一节所提到的ABCDE五个数字序列。印象中最为随机不可预测的序列, 竟然表现出了惊人的“模式”。不得不相信, 这些模式, 仅仅是凑巧的结果。一方面, 概率学的知识告诉我们, 产生任何一种排列, 都是有可能的, 而这些模式, 只是无数可能排列中的一种而已;另一方面, 真随机序列, 原来有时候看起来并不那么“随机”。

2.2.3 统计性验证

用于描述随机序列的两个主要指标就是期望和方差。数学期望体现了随机变量的真正平均, 而方差则代表随机变量的取值与其方差的偏离程度。

对于理想的从1~16等可能取值的随机序列, 其数学期望和方差分别为:

取最近200期的蓝球开奖结果, 计算其平均值与方差:

E=8.4800, D=21.1956

可见, 即使没有数量庞大的样本 (只取了200个) , 真随机序列在统计特性上的表现, 仍是十分优越的。真随机序列中暗含的“模式”, 让它看起来不那么随机了。

2.3 伪随机序列

与真随机序列相对的, 就是假随机序列。一般计算机中使用的伪随机序列, 都是通过递推公式计算得来。这种生成装置, 称为伪随机数发生:由一个初始状态 (种子) 开始, 通过一个确定的算法来生成随机数。

另一种广泛使用的PRNG, 是Mersenne Twister算法 (马特赛特旋转演算法) 。

1997年, 松本和西村开发了这一基于有限二进制字段上矩阵线性再生的伪随机数算法。它的算法随机性好, 易实现, 占用内存少, 产生随机数的速度快、周期长, 且具有623维均匀分布的性质。在MATLAB v7.7及以上版本中, 通过调用RandStream类, 就能产生基于MT的伪随机数。

2.4 两种随机数的比较

将Matlab自带的随机序列生成器设为“mt19937ar”, 便可以得到基于MT算法的伪随机序列。为了与双色球的真随机数作比较, 产生多组2 0 0个同区间均匀分布的伪随机数。计算数学期望与方差, 可得:

可以看到, Matlab产生的伪随机数偏离理想均值8.5的程度比双色球大, 其波动却相对较小。

使用随机数生成算法连续生成的2 0 0个随机数, 耦合成199个像素坐标值。Dn表示第n个像素点, 以此衡量数据的均匀性。作图后可见, 两者的均匀性相似。如果取值空间更大, 而不是1至16, 应当会出现一定的差异。

3. 基于熵的伪随机序列发生器

3.1 物理熵

1850年, 德国物理学家鲁道夫·克劳修斯首次提出熵的概念, 用来表示任何一种能量在空间中分布的均匀程度。一个体系的能量完全均匀分布时, 这个系统的熵就达到最大值。系统的熵, 只能逐渐增大或保持不变, 而不可能逐渐减小。在物理学中, 熵代表着系统的无序性。越是均匀无序的系统, 其熵值越大。

3.2 信息熵

信息论的创始人香农, 率先将熵的概念进行了泛化, 引入信息熵。对于有限离散随机变量集合, 当集合中的等概率发生时, 熵达到最大值。对于随机序列, 当取值均匀分布时, 熵达到最大值。熵标志着系统的无序性, 当序列变得无序, 熵也不断增大, 逼近均匀分布。

3.3 基于熵的发生器

构建一个序列, 由四个从0到255的连续升序排列 (0, 1, 2, ...255) 组成。显然, 这一序列是非常有序的。根据前一小节的分析, 如果不断打乱其排序, 序列的熵就会不断增加, 逼近最大值。这时, 就有可能得到了一个伪随机序列。

在原序列基础上, 每次随机选取两个序号, 交换其值, 进行实验。根据期望和方差的定义, 由于打乱后的序列, 其各个数字的数量维持在4不变, 因此均值和方差与理想序列相同。

3.3.1 均匀性测试

按照第二部分中介绍过的均匀性衡量方法, 取序列的前256个值作图。记k为交换的次数, 分别做出k=0, 100, 200, 300, 400, 500时的均匀性分布图。

未做交换时, 原图是一条直线。随着k的值不断增大, 点越来越分散。k=500时, 仍能看出原图的痕迹。对于使用这种扰乱的方法构造的1024个数字组成的序列, 在交换500次时, 随机性仍不理想。

当交换次数达到600时, 点的分布已找不到原始的规律;随着交换不断增加, 均匀性状况不再改变。对于一个长度为2n的序列, 交换n次时, 可基本无序。

3.3.2 无序程度测试

在未进行交换时, 1024个点, 每个都在自己的初始位置。现每交换100次后, 测试仍在初始位置的点的个数, 它表现出了明显的下降趋势, 并且在3200次之后开始波动, 不再单一递减。可以推测, 对于长为n的序列, 当交换3n次时, 无序状况基本稳定。

3.3.3 图像加密测试

以大小为256×256的256级灰度的Lena图像为例, 明文为是一个256×256的8bit的2进制矩阵, 通过reshape整合运算, 将算法生成的随机数转换成为一个256×256的密钥矩阵, 然后再将明文矩阵与密钥矩阵按位异或。当交换次数改变时, 加密效果有所不同。交换400次后, 仍能看出原图的痕迹;交换8 0 0次后, 逐渐变得模糊;交换1200次后, 已经完全看不出Lena的样子了。对于一个长度为n的序列, 进行n次交换后, 已达到较好的图像加密效果。

摘要:本文从双色球开奖结果出发, 探讨真随机序列中暗含的“模式”:真随机序列有时表现得并不那么“随机”。这是因为人们认为, 随机应是无序的。事实证明, 并非如此。另一方面, 人为产生的伪随机序列, 大多经过了消除重复的步骤以使序列本身较为“随机”——看起来是无序的。本文使用Mersenne Twister算法产生伪随机序列, 测试这种人为因素对随机序列统计特性的影响。为了进一步研究“无序”序列与随机序列的差异, 本文基于熵, 提出了一种简便的伪随机数发生器。通过对有序序列进行次数可控的交换来逐步实现无序化。对无序化后的序列进行均匀性和图像加密测试。通过无序的方法产生的序列, 其随机性在一定范围内是可以信赖的。

关键词:真伪随机序列,模式,熵,Mersenne Twister算法,图像加密

参考文献

[1]胡细宝, 孙洪祥, 王丽霞.概率论.随机过程.数理统计.北京邮电大学出版社.2004年2月, 第一版

基于趋势转折点的时间序列模式表示 篇8

关键词:时间序列,分段线性表示,趋势转折点

时间序列数据是指按照时间先后顺序排列的各个观测记录的有序集合。实际中的时间序列数据 (如股票价格数据、销售数据、图像数据等) 是高维数据, 为了便于处理必须降维, 已经有多种降维表示方法, 如傅立叶变换[1,2]、小波变换[3]、符号映射[4]和分段线性表示 (PLR) [5]。其中, 分段线性表示方法利用直线段来近似表示时间序列的局部波动, 具有时间多解析, 而且支持快速的相似性检索和新的距离, 是一种很好的数据压缩和消除噪声的方法, 而且多数的PLR表示方法支持时间序列的动态增量更新。

但由于来自不同领域的时间序列数据具有明显的数据特征差异, 同一时间序列数据在不同的时间段上呈现出来的数据特征也不相同, 这些都可以看作是数据的波动特征, 而波动特征是时间序列趋势变化的转折点、是时间序列随时间变化的表现形式, 能更好地代表这个时间序列的本质特征, 所以, 本文认为将这些转折点作为PLR方法中提取分段点的依据, 来对序列数据进行分段线性表示, 更能反映时间序列的变化趋势, 同时, 也能达到对时间序列进行有效压缩的目的。

1时间序列的分段线性表示

分段线性化近似表示时间序列的算法由Keogh[6]于1997年引入时间序列数据挖掘领域。这种方法将复杂曲线简化表示为有限个直线段, 即提取时间序列线性结构特征, 以加快时间序列相似搜索的速度, 有效压缩了原时间序列且较直观地反映了曲线变化趋势。该方法简单而且容易实现, 在时间序列挖掘领域得到了广泛应用。

在Keogh的分段线表示方法中, 分段近似的目标是使原时间序列与其线性近似表示之间的残差平方和最小, 在这种目标函数的限制下, 不能保证时间序列的每一分段内只具有一种基本趋势, 也就是只具有上升、下降或平稳中的一种, 因此将导致时间序列的某些点的基本趋被错误提取。

在进行分段线性表示原始时间序列数据的同时, 原序列中的一些重要数据点是必须被保留的, 如:达到一定变化幅度的极值点、边缘幅度变化剧烈的点或是局部极值点和拐点, 因为这些数据点保存着时间序列变化的主要特征模式。而在这些研究中, 位于相邻的重要数据点之间的变化趋势却有待进一步地细化, 也就是必须找出趋势变化的转折点, 这些转折点是上升、下降或平稳趋势的端点, 而这些转折点间的数据可以通过直线插补的方法来代替, 从而完成数据压缩的任务, 因此, 本文提出了“基于趋势转折点的时间序列分段线性表示”方法, 该方法可以全面地提取出时间序列中趋势变化的转折点。

2基于趋势转折点的时间序列分段线性表示

2.1时间序列趋势转折点

时间序列趋势转折点主要体现在以下的两种情况:

(1) 波动幅度达到一定程度的极值点, 也就是幅度变化剧烈, 并且相邻的极值点。相关文献已经证实了极值点带有较多的信息[7,8]。

对于波动幅度达到一定程度的极值点的判断, 依据文献[5]中定义, 确定特征点的方法, 给定常数R和时间序列{X= (v1, t1) , …, (vn, tn) }, 如果Xm是一个波动幅度达到一定程度的极值点, 它应满足如下的条件:

(1) 它必须是时间序列的一个极值点, X1和Xn除外;

(2) 如果Xm>Xm-1, 则Xm/Xm-1>R必须成立, 否则, 如果Xm<Xm-1, 则Xm-1/Xm>R必须成立。

通过以上方法得到的时间序列中的数据点代表了时间序列的变化趋势, 是本文寻找的趋势变化转折点中的一种。

(2) 短时间大波动数据点, 也就是波动幅度达到一定程度的相邻点, 并且这些点不是极值点。

对于短时间内大波动时间序列数据的判断:

假设当前点的值与其直接相邻的前一个点的值相减的绝对值为Q, 当前点的值与其直接相邻的下一个点的值相减的绝对值为P, 当Q不为零时, 如果P/Q>K或P/Q<1/K, 则认为是短时间内大波动数据, K为一个指定的数据;当Q为零时, 且P不为零, 则也认为是短时间内大波动数据。如图1。

a, b, c位置相邻的三点, Q=b-a, P=b-c, 满足上述条件时, a, b, c三点就是短时间大波动的数据点, 其中点b是这种变化趋势的转折点;而与点b相类似的这种变化趋势的转折点就是本文寻找的另一种趋势变化转折点。

通过以上两种方法确定的时间序列中的数据点, 代表了时间序列的变化趋势, 这里称之为时间序列的趋势转折点。

通过第一种方法得到的趋势转折点, 有效地反映了时间序列在相邻的局部极值点之间的变化趋势;而通过第二种方法得到的趋势转折点, 则有效地反映了时间序列在相邻的非局部极值点之间的变化趋势, 从而完成了用两种尺度来描述时间序列变化趋势的任务;更为重要的是, 以趋势变化转折点来反映时间序列的变化特征, 充分利用了时间序列数据自身的时变特征, 为PLR方法中分段点的选择提供了理论依据。

2.2 基于趋势转折点的分段线性表示

通过2.1节中的两种方法, 得到时间序列的趋势转折点, 在这些相邻的点之间进行直线插补, 就得出了本文提出的基于时间序列趋势转折点的分段线性表示。

算法步骤:

步骤1:对原始时间序列进行扫描, 在这一过程中, 记录原始时间序列的趋势转折点, 即波动幅度达到一定程度的极值点和短时间大波动的非极值数据点。

步骤2:对于每一对趋势转折点进行直线插补, 以这样的直线代替原来的曲线数据。

在充分利用了时间序列数据自身的时变特征的基础上, 本方法有效地对时间序数据进行了维数的约简, 是一种支持时间序列动态增长的方法。本方法还有具有实现方法简便、直观和运算效高的优点。

3 仿真实验

3.1 实验数据

本文中的数据集, 选择来自油田测井数据中的自然伽码数据GR。

3.2 实验方法

在本文提出的分段线性表示方法中, 对于每一个分段中的所有点用一条连接两个端点的直线所代替, 尽管这条直线与这些点较为接近, 但存在误差。这里定义第i段上的误差为:在同一时刻, 拟合直线上的对应点的值与原曲线上对应点的值相减, 得出对应点的误差e, 将这些误差e取平方后再相加, 得出代数和Ei;对于分成多段的时间序列, 每一段上的误差相加求和, 再取它的平方根, 而后再除以原时间序列的长度, 就得出了整条时间序列的误差E, 这是衡量维数约简后的序列与原时间序列拟合效果的重要标准。

对于长度为1 000的油田测井数据中的自然伽码数据GR, 原序列曲线和拟合后的序列曲线如图2。

原序列曲线如图2中上面的曲线, 拟合后的序列曲线如图2中下面的曲线, 图2中符号o是本文算法中提取出的有效波动点, 两个相临符号o之间为直线插补后的直线。

原时间序列长度为:1 000, 时间序列约简后的长度为:96, 而拟合误差为:0.036。以上实验结果的对比数据表如表1所示。

在时间序列表示过程中, 整条序列的拟合误差说明了经过处理后的序列与原序列之间的差别程度, 而这种误差是必然存在的。当拟合误差过大, 说明这种序列表示中某些趋势被错误提取了, 而拟合误差过小, 经过处理后的序列的长度必然与原序列的长度接近, 达不到有效压缩原序列的目的。

实验结果表明本算法对油田测井领域的时间序列数据能达到有效地维数约简和表示原时间序列的目标。

4 结束语

时间序列的模式表示可以实现对时间序列的数据压缩, 保留时间序列的主要形态, 去除细节干扰, 更能反映出时间序列的自身特征, 有利于提高数据挖掘的效率和准确性, 时间序列的线性表示是实现序列模式表示的一类重要手段。本文充分利用时间序列中的时变特征来提取时间序列中的趋势转折点, 并以这些趋势转折点作为时间序列在PLR方法中的分段点, 来对时间序列数据进行分段线性表示。实验结果证明本文中提出的算法在反映时间序列变化趋势的同时, 达到了有效压缩时间序列数据的目的。

参考文献

[1]贾澎涛, 林卫, 何华灿.时间序列的自适应约束分段线性表示.计算机工程与应用, 2008;44 (5) :10—13

[2]黄书剑.时序数据上的数据挖掘.软件学报, 2005;15 (01) :1—8

[3]潘定, 沈钧毅.时态数据挖掘的相似性发现技术.软件学报, 2007;18 (2) :246—258

[4]肖辉, 马海兵, 龚薇.基于时间边缘算子的时间序列分段线性表示.计算机工程与应用.2008;44 (9) :156—159

[5]喻高瞻, 彭宏, 胡劲松, 等.时间序列的分段线性表示, 计算机应用与软件, 2007;24 (12) :17—18

[6]Keogh E.Afast and robust method for pattern matching in time series databases.Proceedings of the9th International Conference on Tools with Artificial Intelligence, Newport Beach:IEEE, 1997;578—584

[7]杨治明, 王晓蓉, 游明英, 等.时间序列分段线性表示及相似性算法研究.微型计算机信息, 2007;23 (7—3) :204—206

序列模式挖掘在教学管理上的运用 篇9

1序列模式挖掘模型

I代表的是项目全集,这一全集指的是论域内相关的独立数据项构成的非空数集I={i1,i2,…,Im}(k=1,2,…,m)代表的是单独的数据项。

项集sj=(1,2,…,2m-1),指的是一个全集I若干项目构成的集合,可以得出sj⊆I且s存在的数量2m-1。增加时间属性之后集合T为:

T = {<s1,t1>,<s2,t2>,…,<sn,tn>},在此全集中ti表示的是si的出现的时间,同时存在ti<ti+ 1,也就说si应当先于si+1发生。以时序为基础的事务模式M记作:M = { Tid,Cid, Time,Item_set},模式中Tid指的是事务标识;Cid表示的是顾客标识;Time表示的是发生时间;tem_set代表的是某个项集sj。 多项事务组成的时序数据库D。

2学生成绩序列模式建模

2.1数据抽取

从某一教学管理数据库中抽取一定的学生成绩当做初识的数据信息,在数据库中仅仅读取和成绩相关的数据字段,涉及学年学期、课程名称、学号等。

2.2隐私保护

抽取的成绩样本属于学生的隐私范畴的内容,因此对所抽取的样本信息实施隐私保护[1]。为了保护信息,可以歪曲处理相关初始的一些信息,关联规律发掘的对象是集聚信息的数据集并非单独的数据项目,所以存在足够数据信息的状况下,可以对具体的数据进行歪曲处理,数据集设计统计和聚集信息能够得到准确的储存,对处理之后的信息发掘关联规律,一方面可以有效保护隐私,另一方面可以发掘数据集内部存在的关联性[2]。面对获得的样本数据,在数据信息统一的基础之上,使用随机的方法替换学号,隐蔽实际的学号,这是隐私保护的主要手段

2.3过滤

获得成绩信息中总评成绩字段涉及部分意义不大字段信息,比如,旷考、缓考等信息,对于这部分信息需要过滤掉[3]。与此同时,为了确保数据自身的完善性,假如过滤掉部分信息,那么这一实体需要删除全部信息。

2.4离散化

总评成绩字段最初信息可以在0 ~100进行随意取值,为方便进行分类处理,最为简便的方式是设置一个合格界限60, 离散为是否合格两种取值形式。

2.5建立序列数据模型

在教学数据库中,最初的成绩保存形式是一条记录储存一项成绩,这属于时序数据库基础上的事务模式:

差别非常大,因此必须转变课程信息并建立模型。

1)时间段划分

通常来说,学习成绩可以根据学期将成绩获取时间化为8个时间段,也就是四个学年,每个学年存在2个学期。但是也可能存在别的状况,比如,一个学年存在三个学期,如果是这种情况的话,需要按照实际的状况划分具体的时间段。

2)代换

为方便对数据进行处理,应当对课程名称以及经过离散获得成绩利用符号的形式进行转换。比如,我们单纯关注不合格成绩,这样对后续的课程出现的不及格成绩是否会造成影响, 可以将各个几个成绩信息过滤后,使用字母符号针对某一课程涉及的不及格数据进行表示。

3)归并

在相同的时间段内获得相同学生的成绩应当划分到一条事务之中,可以保障数据同序列数据事务模式M相符,继而便于后学的序列模式发掘。假定初始成绩如同表1所示,对其进行离散、按照时间段进行划分、进行一系列的替换以及归并之后得出的序列数据库事务(如表2所示)。

3 GSP算法

GSP算法数据最具代表性的Apriori类型的方法,当然也有很多需要进行扫描的数据库同时具有一定的缺陷比如候选集量太大,但是因为本次研究需要进行处理的样本信息数量相对小,因此使用GSP算法具有一定的可行性[4]。GSP算法描述如下:

算法描述中CK: = generate( LK-1) 指的是根据由LK-1所出现的候选序列集CK。

4序列模式挖掘实验及结果

学生成绩样本经过一定的过滤获得共计50000多条信息, 在进行离散、划分、替换以及归并等操作之后,获得序列模式数据库D,进而使用GSP算法发掘序列模式,将最后的发掘情况进行关联规律的转变,高于65%的置信度的存在三条:

1)Confidence( 高数1不合格→高数2不及格)= 66% ;

2)Confidence( 英语1不合格∩英语2不及格→英语3不合格) =73%;

3)Confidence( 信息技术1不合格→信息技术2不合格) =87%。

其置信度越高就表示假如规律涉及的条件具备的情况下, 这样规则情况出现的几率也就会更高。规律3具有87%的置信度,通过一系列的分析,产生这一情况的原因是只有极少数人的信息技术1不合格,但是大多数人的信息技术2是不合格的, 也就是说信息技术1没有过关的这部分人中,大部分的人他们的信息技术2是不合格的。这表明各项功课不合格几率的差异会在一定程度上影响发掘的最终结果。此外,站在规律推广立场上讲,假如需要采用序列模式发掘获得鼓励对后续工程不合格的概率进行预测,本质上还不存在确切的可以进行表述的约束条件,样本成绩以及需要进行预测的成绩不合格率应当基本相当,不然的话获得的规律缺乏较高的有效性。上述获得三条管理可以指导学校的教学管理活动,也可以指导学生的学习进展。具有较高置信度的关联规则,假如其条件具备,则规则中涉及的情况出现几率就会增加,假如不想出现规则结果, 可以实施一定的措施进行补救。比如,一个学生的英语1、2均不合格,必须提醒他英语3很可能还会不合格,不合格风险高达75%,要求该学生充分重视,学习更加努力,另外对其进行针对性的辅导,加快成绩的提升。

5结束语

文章中在教学管理中运用序列模式挖掘,充分发掘学生成绩样本数据,获得三项较高置信度的时序关联规则,所得出的规律可以有效指导教学管理工作,教师可以针对具体规律中涉及的情况进行合理的分析,对于问题采取积极的措施进行规避,对于不足进行改善,促进教学质量和水平的提升,对于学生的具体的情况,制定特定的教育方案,提升学生的学业成绩。

参考文献

[1]侯锟.数据挖掘技术在高校教育教学中的应用[J].吉林省教育学院学报:下旬,2012(28):51-52.

[2]王智钢,王池社,顾云锋,等.序列模式挖掘在教学管理上的应用[J].计算机与现代化,2012(11):22-25.

[3]刘美玲,李熹,李永胜.数据挖掘技术在高校教学与管理中的应用[J].计算机工程与设计,2010(31):1130-1133.

序列模式分析 篇10

关键词:乳酸菌;基因组;生物信息学;多样性;代谢重建

中图分类号: Q789文献标志码: A文章编号:1002-1302(2014)10-0040-02

收稿日期:2013-12-05

基金项目:上海理工大学科研启动基金(编号:A2500130104)。

作者简介:叶巍(1981—),女,黑龙江大庆人,博士,讲师,主要从事生物工程研究。E-mail:beatificy@hotmail.com。含有乳酸菌的发酵剂,如乳杆菌、乳球菌等,对于很多食物如牛奶、肉类、蔬菜、谷类的发酵起重要作用。这些菌种发酵主要产生有防腐作用的乳酸,影响产品的风味及质地[1-3]。 乳酸菌在发酵中还有其他重要的功能,人们在不同的环境中发现了各种特性的菌种[4-6]。随着乳酸菌基因组数据的公布,生物信息学对乳酸菌功能特性研究作用越发重要。本研究介绍了乳酸菌DNA序列分析与功能基因研究现状,旨在为开发利用乳酸菌资源提供依据。

1基因组、质粒

乳酸菌全基因组大小相对一致,约为1.8~2.6 Mb,植物乳杆菌全基因组大小约为3.3 Mb。过去20年,分子遗传学家一直青睐的不含质粒的L.lactis ssp. Cremoris MG1363测序已经完成。通过将其与L.lactis ssp. Lactis IL1403染色体共线性绑定,以非常相近的菌种或菌种的全基因组为模板完成原核基因组定位。对Lactobacillus brevis KB290的9个质粒测序分析表明,L. brevis KB290有很好的稳定性[7]。乳酸菌特别是乳球菌也含有多种质粒,大小为2~130 kb。所有已知的乳酸菌质粒的详细信息都可以在质粒数据库中找到。一些乳酸菌特别是链球菌有很多转座子复杂的结构,意味着更高的遗传学可塑性。含有很长的相似重复片段的大质粒的出现为基因组测序增加了复杂性。随着全基因组、质粒测序数量的增长,数据的呈现及表征对于描述这些序列多种信息的应用变得越来越重要。例如,Genome Atlas 是一个呈现所有基因组序列的非交互网络基础工具。Microbial Genome Viewer允许使用者在交互式途径下结合复杂的基因组数据库,使公布的基因组数据库中环形、线形染色体图谱交互产生。

2比较基因组

如果基因组以标准方式进行分类,那么全体微生物基因组序列及编码蛋白比较将会非常便利,因为有很多不同的分类系统可以使用。目前,一些基因组数据库对所有公布的基因组和未完成的基因组采用标准格式进行自动注释,这些数据库经常链接比较基因组的生物信息学工具。研究表明,L. gasseri、L. acidophilus、L. johnsonii的基因组含量、基因序列、基因组组织有很高的相似性。所有这些源于肠道的乳酸菌线性基因组分析有一些长的、相同的片断,偶尔有些间断、缺失。

3乳酸菌的多样性和进化

全球有很多不同的乳酸菌发酵剂,人们对这些菌种显性特征的遗传学组成以及种与属之间的进化关系了解得很少。表型筛选、分类仍然是分析乳酸菌多样性的主要工具。有学者对kimchi发酵乳中的Leuconostoc mesenteroides、L. sakei、 Weissella koreensis、 Lc. gelidum、 Lc. carnosum、 Lc. gasicomitatum 6种乳酸菌环境进行转录分析,发现乳酸发酵基因积极参与了表达[8]。随着乳酸菌全基因组测序的完成,可以通过DNA-DNA比较基因组杂交筛选收集的乳酸菌分析全DNA水平的多样性[9]。以前在一些其他微生物中也使用过这种分析方法,包括Campylobacter jejuni、Streptococcus agalactine、Escherichia coli(基因芯片)。全基因组Barcode图提供了一些可视这些数据的方式。另一种方式是将Barcode图与计算机基因组分析结合,包括局部GC含量、碱基偏差索引、密码子适应性索引、公布基因组数据。在很多情况下,高突变的区域与同区域碱基背离指数相关联,相对于全基因组暗示了其近水平的转移。

4压力反应及调节

乳酸菌发酵剂在生产、储藏、应用时压力不断改变。人们关于乳酸菌在工业加工中的反应知识大多是通过经验得到的。基因组学提供了将基因组序列信息与基因表达数据结合在一起的机会,可以鉴定不同乳酸菌的特殊发酵特性的基因及蛋白质(生长需求、风味形成、不同条件下生存)。通过比较基因组分析了30个乳酸菌的基因组、102个转录因子,包括47个未鉴定的调控因子,对S.thermophilus、Lactobacillaceae这2个不同的调控菌株也分析了一些转录水平。基因组知识可以帮助人们预测乳酸菌在不同pH值、不同温度下的发酵行为,并提供与他们宿主的对抗参数[10-11]。共生菌可以彼此提供所需要的营养,例如酸奶中的Lactobacillus bulgaricus、S. thermophilus。基因组序列数据能在全球基因组中揭示乳酸菌彼此之间、乳酸菌和其他微生物之间的相互作用机制。

5代谢重建

虽然乳酸菌最初的序列功能可以通过他们的全基因组序列推测,但是还有20%~40%的已鉴定部分还不知道其功能,因为没有相应功能的同源蛋白与之比较。尽管还不能确定,但是第1个自动代谢重建已经可以在途径数据库如KEGG、WIT等上完成。转录组数据可以添加到代谢网络中,分析调节子,调控路径。网络工具系统的开发是在稳定情况下大量代谢平衡基础之上的,这种基因组范围的代谢网络分析能预测最大产量、调控位点、优化流量分配。一些软件工具可以用于代谢网络分析,包括公共域、私人域。

6结论

乳酸菌基因组测序的完成有利于分析、比较乳酸菌种的全基因组细节,更有助于筛选具有特殊特性的菌种,有助于现有的菌种和新的衍生物种稳定基因组排列的维持、设计。

参考文献:

[1]Johnston B C,Ma S S,Goldenberg J Z,et al. Probiotics for the prevention of clostridium difficile-associated diarrhea:a systematic review and meta-analysis[J]. Annals of Internal Medicine,2012,157(12):878-888.

[2]West C E,Hammarstrm M L,Hernell O. Probiotics in primary prevention of allergic disease—follow-up at 8-9 years of age[J]. Allergy,2013,68(8):1015-1020.

[3]Escobar M C,van Tassell M L,Martínez-Bustos F,et al. Characterization of a panela cheese with added probiotics and fava bean starch[J]. Journal of Dairy Science,2012,95(6):2779-2787.

[4]Munoz-Quezada S,Chenoll E,Maria V J A,et al. Isolation,identification and characterisation of three novel probiotic strains (Lactobacillus paracasei CNCM I-4034,Bifidobacterium breve CNCM Ⅰ-4035 and Lactobacillus rhamnosus CNCM Ⅰ-4036) from the faeces of exclusively breast-fed infants[J]. British Journal of Nutrition,2013,109(2):S51-S62.

[5]王晓丽,王永山,诸玉梅,等. 5株乳酸菌的分离鉴定与生物学特性研究[J]. 江苏农业科学,2011(1):390-392.

[6]赵云焕,李迎晓,焦凤超,等. 黄芪多糖、益生菌对固始鸡生产性能和免疫效果的影响[J]. 江苏农业科学,2012,40(9):202-203.

[7]Fukao Masanori,Oshima K,Morita H,et al. Genomic analysis by deep sequencing of the probiotic Lactobacillus brevis KB290 harboring nine plasmids reveals genomic stability[J]. PLoS One,2013,8(3):e60521.

[8]Jung J Y,Lee S H,Jin H M,et al. Metatranscriptomic analysis of lactic acid bacterial gene expression during kimchi fermentation[J]. International Journal of Food Microbiology,2013,163(2/3):171-179.

[9]Rungrassamee W,Tosukhowong A,Klanchui A,et al. Development of bacteria identification array to detect lactobacilli in Thai fermented sausage[J]. Journal of Microbiological Methods,2012,91(3):341-353.

[10]Johanningsmeier S D,Franco W,Perez-Diaz I,et al. Fluence of sodium chloride,pH,and lactic acid bacteria on anaerobic lactic acid utilization during fermented cucumber spoilage[J]. Journal of Food Science,2012,77(7):M397-M404.

上一篇:外墙保温节能措施运用下一篇:品行培养