生物数据库

2024-05-12

生物数据库(精选十篇)

生物数据库 篇1

1 生物数据库挖掘技术简介

数据挖掘(Data Mining),被用于从数据库中提取、发现和预测数据等,经常用于发现搜寻、分类、分析、关联加工大量有用数据。Shapiro在1989年首次提出数据挖掘技术,随后,数据挖掘技术被广泛应用在各个领域,包括银行、保险、医疗、物流和生物等,并都取得了较好的效果。

近年来,随着数据挖掘技术在临床合理用药方面的应用,降低了我国住院人员药物不良反应的人数,使临床工作人员可以根据疾病种类、病人状况和药理学理论选择最佳用药及用量,同时给予患者最优治疗方案,如用灸法治疗、火针以及中医临床方面的应用[1],包括小儿肺炎、颈椎病、补益脾肾和老年病等的治疗[2]。此外,数据挖掘技术在对基因表达谱的分析中也发挥着显著的作用,这主要使由于基因表达谱具有大量的数据、分析需求多样性等需求。在目前已知的数据挖掘技术中,聚类法是应用最为广泛的一种挖掘技术,主要应用在肿瘤疾病数据库的创建方面[3]。

2 数据挖掘中存在的问题

大多数的数据库具有一定的关联性,因此如何能更有效的利用这些具有一定关联性的数据库成为一个迫在眉睫的问题。领域间的差异,以及系统、编码和结构的多样性,为通用的数据挖掘系统提供了更大的挑战。同时,为了应对数据库的动态更新特性,还必须提供一套实时检测算法,有效的应对这些大量更新的数据。

3 常用生物数据库挖掘技术及应用

目前,在市场上出现了大量的数据挖掘软件,而这些软件一般都是基于一个数据库的统计和分析工具,其结合了:计算机数据库、统计学、自分析、自适应、神经网络、遗传算法和信号处理等。并且,很多科研机构和技术开发公司都先后成立了独立的数据信息挖掘部门,其中,美国国家生物技术信息中心、欧洲生物信息研究所和日本信息生物中心。这些研究机构或学术组织致力于研究数据采集工具,同时将传统的统计方法结合先进的自适应算法,如自学习、神经网络、卡尔曼滤波、模糊逻辑和簇聚等。

将数据挖掘技术应用在基因表达图谱上可以为疾病的治疗、检测和预防提供了高效的理论依据。从基因表达图谱计划到蛋白质组学的研究都可以引入数据挖掘技术,特别是在蛋白质序列的表达及其结构预测方面。蛋白质组学在很大程度上依靠数据库技术,目前全球有大量的蛋白质组学数据库使用数据库挖掘技术。蛋白质组学的主要任务之一就是描述基因组中蛋白质编码所执行的功能,并确立蛋白质的相互作用和蛋白质之间的关联结构。从而将从中获得的蛋白质数据分析出来,并且可以在其中自动添加蛋白质注释。基因数据库也都应用了数据挖掘技术,包括Gen Bank是美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)建立的DNA序列数据库、序列文件,索引文件以及70 000多种生物的核苷酸序列;Ucsc(University of Calibornia Santa Cruz)数据库中包含人类、小鼠等多个物种的基因草图,并提供一系列分析工具,数据挖掘技术就是其中之一。用户可以通过数据库自带的挖掘技术高效和快速的浏览基因组的相关信息,并且可以获得关于这部分基因组的注释。例如已知基因、预测基因、表达序列标签、RNA、克隆组装间隙和重叠,染色体带型,小鼠同源性等,使用者可以根据自身情况添加或者修改相关注释内容;而Ensembl就是使用Ucsc的数据库中的人类基因序列草图为研究基础,兼顾真核生物基因组进行自动诠释并加以维护。相对于蛋白质数据库Uni Prot,它是整合了Swiss-Prot、Tr EMBL和PIR-PSD三大数据库的数据组成。数据挖掘技术主要用于基因组测序项目完成后,后续获得的蛋白质序列。它包含大量来自文献的蛋白质生物功能的信息。而在肿瘤数据库Tcga中数据挖掘技术也蕴藏着难以想象的功能,在肿瘤的特殊类别或发展的不同方面都伴随这基因组的特异变化,正是由于这些基因组的改变导致细胞分化、发育和生长通路的不正常,从而引发细胞不正常地失控增值和生长。而Tcga数据库采用的数据挖掘技术正试图通过应用基因组分析技术特别是采用大规模的基因组测序,将癌症的基因组变异图谱绘制出来。通过数据挖掘技术系统的分析,从而找到所有致癌或抑制癌症基因的微变化。了解癌细胞发生、发展的机制,在此基础上取得新的诊断和治疗方法,最后可以创立治疗癌症的最优词略。Tcga迄今为止已经成为世界上最大一项基因工程,其绘制的癌症基因图谱有助于把研究人员从目前逐个追踪基因的大量劳动中解放出来,可以快速开发和设计最优抗癌药物。目前已经将肺癌、神经酵母细胞瘤和卵巢癌三种头号癌症和肿瘤的基因组谱确立研究的重点。然后利用数据挖掘技术,在Tcga数据库中系统的找出并明确与癌症相关的基因变异以及其他变异。在数据库KEGG中为了了解高级功能和生物系统,尤其是大型分子型数据集成生成的基因组测序和其他高通量试验技术的使用程序数据库资源。在后基因时代一个重大的挑战就是如何利用细胞在计算机上完整的表达和预测,同时利用挖掘技术对较高层次和复杂细胞活动做出正确的计算预测。所给出的大量染色体信息中,蛋白质相互作用的网络预测提供高校的计算方法。

4 总结和展望

随着大数据和网络时代的到来,数据挖掘技术逐渐演变成大规模数据库中数据分析和提取的重要手段之一。将生物学与信息挖掘技术相结合已经逐渐成为生物数据库发展进程的关键技术之一。本文主要研究大型数据库技术和数据挖掘技术在基因数据库、肿瘤数据库和蛋白质数据库中的应用,总结了数据挖掘技术在生物数据处理方面的应用特点,发现数据挖掘技术以适应生物数据连续、大量及网络性等特点,在基因表达、蛋白质预测、医疗诊断等方面发挥着突出贡献。

摘要:近年来,数据挖掘技术不断发展,已经同生物信息技术完美的结合在一起,并取得突破性的进展,生物学的研究方法也发生着较大的变化。伴随着强有力的数据分析技术,数据挖掘技术已经逐步成为现代生物数据库发展的关键,在大规模数据处理方面具有卓越的能力。本文详细总结了数据挖掘技术在基因组图谱数据库、蛋白质数据库和肿瘤数据库中的大量应用,并讨论了数据挖掘技术在未来的发展潜力。

关键词:生物数据库,数据挖掘,蛋白质

参考文献

[1]吴嘉瑞,唐仕欢,郭位先,等.基于数据挖掘的名老中医经验传承研究述评[J].中国中医药杂志,2014,39(4):614-617.

[2]李男,邱田爽,刘惠,等.基于粗糙集的数据挖掘技术及其在临床医学诊断中的应用[J].上海生物医学工程,2002,23(2):3-7.

高中生物 常见的数据总结 篇2

8:人体内的必须氨基酸种类数20:组成蛋白质的氨基酸种类

2870 KJ:1mol葡萄糖在有氧呼吸下可释放的能量

1161 KJ:1mol葡萄糖可真正被人体利用的能量(有氧呼吸)30.54 KJ:1molATP水解释放的能量

14:植物所需元素的种类数

23:人体细胞一个染色体组所含染色体数目 80~120 mg/dl:人体血糖正常含量范围

ml/dl :临床上把空腹时候血糖含量超过的叫做高血糖,160~180 ml/dl:肾糖阙/糖尿

36.7~37.7,平均37.2:人口腔温度

36.0~36.8:腋窝温度

36.9~37.9平均37.5 : 直肠温度

7.4~7.6:微生物最适宜PH值

0.14mol/L,NaCl在此浓度下,DNA溶解度最小 2:n

3n:

用活生物数据,培养科学素养 篇3

【关键词】生物数据 教学法 科学素养 价值观培养

我国《普通高中生物课程标准》指出:“生物科学素养是公民科学素养构成中重要的组成部分。生物科学素养是指公民参加社会生活、经济活动、生产实践和个人决策所需的生物科学知识、探究能力以及相关的情感态度与价值观,它反映了一个人对生物科学领域中核心的基础内容的掌握和应用水平,以及在已有基础上不断提高自身科学素养的能力。提高每个高中学生的生物科学素养是本课程标准实施中的核心任务。”

生物科学素养反映了一个人对生物学领域中核心基础内容掌握的情况,根据高中生物课程的任务,这个基础也就应该成为高中生物课程的核心内容和基本要求。为了便于教师在高中生物课程中落实“提高学生科学素养”的理念,并将这一理念同日常教学活动和教学习惯相吻合,教师可以从“科学态度和科学的世界观、生物学基础知识、科学探究方法与技能、科学、技术与社会(STS)”四个维度来理解生物科学素养,并使学生通过生物课的学习在这四方面得到发展。

近年来,高考试题反复出现教材中有关数据应用的问题,并占有相当的比重,这些试题较好地考查了学生对基本要领和原理的理解。在平时生物教学中用妥用好数据,对创造学生乐于学习的氛围,对诱发学习动机、调动学习的积极性,开发学习的智能以及提高学习效率都具有重要的作用。

一、培养学生学习兴趣,引发学生积极思考

古今中外的教育家、科学家都十分重视兴趣的培养。孔子说:“知之者不如好之者,好只做不如乐知者”。爱因斯坦也说过:“热爱是最好的老师。”那么,生物教学中如何用数据培养学生的兴趣,调动学生积极思维的能力呢?如初一生物下在讲到第三章扁形动物猪肉绦虫的结构时应讲它的体长有几米长,体躯像火车,繁殖能力强,全身有700—1000个节片,每个成熟的节片有5万个卵。再加上讲述猪肉绦虫的结构,讲述它如何在人体身上寄生,如何跟随人的血液循环,学生这是精神大为紧张,此时教师就要适时地讲述如何避免感染,如何讲究卫生。这堂课下来学生不但对猪肉绦虫有形象生动的了解,且记忆深刻,同时也培养学生学习兴趣,调动其积极思维能力。又如讲到细菌分裂时,学生对裂殖不一定感兴趣。教师若经过这样一组数据讲述后,学生对裂殖就可能当场理解,且对整个微生物的学习也感兴趣了。如果环境条件适宜,细菌20多分钟就可以分裂一次。按这样速度来推算,一个细菌一昼夜可以繁殖72代,共繁殖出40多万亿亿个细菌,折合重量4000吨。若这时配合对学生进行讲究卫生,养成良好的卫生习惯。栽花种草,美化环境的教育就不再是空洞的说教了。

二、潜移默化,激发同学爱国主义情操

生物教学在传授基本知识的同时,也应及时、适当地渗透德育教育,增强德育效果。如绪论“探索生物的奥秘”的教学,为说明我国生物科学方面的成就,可择其重要且有代表意义的古今实例加以介绍:誉满中外的明代医药学家李时珍,阅读大量书籍,亲自到山林、田野采集药物标本,虚心向当地农民、猎人和药农请教,“搜罗百氏”、“访问四方”,整整花了27年时间编著《本草纲目》;被国际上誉为“杂交水稻之父”的袁隆平教授,从事杂交水稻的研究,十几年如一日地忘我工作,自1973年以来陆续培育出一系列优良品种,为国家增产稻谷102公斤每亩。这些典型的实例。不仅使学生认识到生物学知识的重要性。而且激发了他们民族自豪感和振兴中华的爱国主义热情,同时学生也得到了严谨治学的科学态度的教育。

三、培养学生生态意识,树立远大的理想

比如学习初一下两栖动物青蛙等时,在讲述1只青蛙每天吃掉60多只农业害虫。还有鸟类动物捕食大量林叶害虫的过程中,强调学生要很好地保护野生动物资源,同现代社会中存在的某些人滥捕吃野生动物作斗争就具有十分重要的意义。再如学习到腔肠动物的其它动物海蜇时,让学生了解学习海蜇不但营养价值高,每100克中含蛋白质12.3克,钙128毫克,碘13.2毫克,铁9.5毫克等,而且会利用其特殊结构——着生在伞边缘缺刻出感觉器中的钙质平衡石提前15天探测出风暴的来临,鼓励学生长大后立志学好生物,应用生物仿生学制造如“水母耳”类的仪器为人类服务。再比如讲到3万个病毒只相当一个细菌大时,教同学们别小看病毒,如我们可利用动物病毒来杀灭松毛虫、粘虫、棉绘虫等农林害虫,为下世纪广泛利用的生物防虫技术展示了广阔的前景,同时也激励同学们刻苦学习,长大后报效祖国。

总之,在生物教学中用活数据,会使本来有些枯燥无味、呆板无趣的内容变得妙趣横生、韵味无穷。学生会学得兴趣盎然,使课堂活跃起来,充满欢乐与生机,从而达到预定的教学目的,收到良好的教学效果,同时对全面提高学生科学素养也大有帮助。

生物数据库 篇4

各种创新的、快速发展的生物技术的大规模应用,带来了形式复杂多样的、大数据量的生物信息科学数据的高速增长和积累[1]。海量生物学数据的产出是基因组工作所带来的直接结果,随着生命科学研究进入测序后的基因组时代,也就是在以功能基因组和各种“组学”为基础的系统生物学时代,各类生物科学数据正在爆炸式地涌现,其数量之大和质量之复杂都是前所未见的。具有远见的科学家和国家机器都认识到,能否有效地管理和利用这些数据,从根本上决定了国家在生命科学和生物技术领域的创新能力。正是在收集、管理、分析、解释这些生物数据的基础上和过程中,产生了真正意义上的生物信息学。因此,可以说容纳管理各类生物数据的生物数据库是生物信息学的基础。

美国于1988年建立了国家生物技术信息中心NCBI(National Center for Biotechnology Information),其核心任务就是建立一个大型的综合生物数据库[2]。欧洲和日本也随即建立了承担相同任务的EBI(European Bioinformatics Institute)[3]和DDBJ(DNA Data Bank of Japan)[4]。长期以来,国际生物信息的主要数据库由NCBI、EBI和DDBJ控制,中国在生物信息科学数据和生物信息资源方面严重依赖国外。我国的生物信息科学数据绝大部分必须存放到这三个数据库里,才得到科学界的承认。美国、欧洲和日本对中国和第三世界国家已经形成了实际上的数据资源的垄断。这种垄断在一定程度上已经影响到了国内生物信息科学、医学科研及相关产业的发展。建设国内的大型生物数据库,对建设这种大型生物数据库中的关键技术难题展开研究,成为刻不容缓的重要任务。

上海生物信息技术研究中心在国家和上海市科委的支持下,已经开始了这方面的初步尝试,并建成了一个基础的综合生物数据库LSBI(http://lifecenter.sgst.cn)[1]。在建设该综合数据库期间,我们遇到了很多大型综合生物数据库所特有的技术问题,并相对应开发了解决方案。生物数据库的有效检索就是其中一个非常重要的问题,该问题的核心是开发有效的搜索引擎,能够根据用户输入的关键词,在可以容忍的时间段内,从数据库中查找到所有符合用户要求的数据。

1 大型综合生物数据库的搜索引擎

大型综合生物数据库具有以下的重要特点,使之对搜索引擎有着限制性的要求:

(1)容纳的数据量庞大以数据字节量而言,从2002年开始,全世界大型数据库中积累的生物信息科学数据,已经超过理论物理的数据积累而跃居数据量第一位。以DNA序列数据为例,一台454测序仪在一天之内就可以产生超过500MB的数据,而完成一个简单的微生物的基因组测序,就可以产生上百GB的数据。如此大量的数据,对于搜索引擎的数据检索速度提出了很高的要求。

(2)容纳的数据种类繁多NCBI、EBI等国际大型综合生物数据库容纳了包括核酸序列、蛋白质序列、各种序列变异、基因、生物途径、蛋白质相互作用、蛋白质结构、表达谱、蛋白质组学、物种及文献等各种类型的数据。每种数据的结构与内容千差万别。因此,这些综合数据库都是由多个针对不同数据类型的数据库组合而成。这要求搜索引擎能够有效地工作于多个不同结构的数据库之上。另外,由于总是存在添加新的数据类型/数据库的可能,因此也要求搜索引擎能够比较容易地扩展。

(3)数据之间有复杂的关联关系生命体是一个互相联系的有机体,核酸、蛋白质、基因以及它们的转录、表达等数据之间都是相互关联的。因此,大型综合生物数据库中的各子库之间,数据相互有着密切的联系。体现在数据检索的工作中,表现为查询一个子库中的数据,往往要其他子库中数据的配合。举个简单的例子,用户需要在核酸序列数据库中搜索到所有关于“Mus musculus”这个物种的DNA序列。但是用户输入的关键词也许是这个物种的英文俗名“mouse”或者“house mouse”,甚至可能是中文名称“小鼠”。核酸序列数据库中保存着每条序列所属物种的物种号,但是不可能保存该物种的所有名称。这就需要搜索引擎能够自动地根据关键词“mouse”或者“小鼠”,在物种数据库中找到其对应的物种号,再根据该物种号从核酸序列数据库中检索出所有对应的序列提供给用户。从这个简单例子中可以看出,针对大型综合生物数据库的搜索引擎,其智能化要求是比较高的。

为了适应大型综合数据库对于数据检索的要求,NCBI和EBI各自开发了功能强大的搜索引擎。NCBI的Entrez引擎[2,5]使用了异常复杂的自主构建的index文件系统,由生物领域的专家们组成维护小组,对这些index文件进行经常性的更新与维护。而EBI的EB-eye引擎,则是通过授权,采用Apache的开源Java搜索引擎框架包Lucene开发的检索工具[6]。这两个引擎都可以通过对"AND"、"OR"和"NOT"等布尔操作符及括号的支持使其具有灵活的检索组合方式,Entrez更是以限定词(Qualifier)的形式,支持用户更灵活精确地限定搜索范围。比如,在NCBI的生物文献数据库PubMed中,以“human”为关键字检索相关的文献,Entrez就会找到在文章标题、索引,摘要、正文等所有字段中出现“mouse”的文献,如果加上限定词“abstract”,即利用“mouse[ABSTRACT]”进行搜索,就可以只检索到在摘要中出现关键词“mouse”的文献。

SCBIT自己独立开发的LSBI综合生物数据库,也同样面临数据检索的问题。该数据库及其网站,采用了流行的ORACLE-APACHE-JAVA等产品或技术。为了给该数据库提供一个可用的搜索引擎,并为下一步研发更强大的生物数据库搜索引擎奠定基础,我们针对LSBI,利用Java技术开发了搜索引擎BioEngine。作为初步的尝试,BioEngine本质上是一个SQL生成器,通过内置的程序逻辑,在一定程度上能够理解数据库中生物数据的意义及各数据间的相互关系,通过解析用户输入的检索式并进行整理,生成合理的SQL语句提供给后台的ORCALE数据库管理系统对数据进行检索。

2 BioEngine的工作流程

本文将以几个在LSBI核酸数据库中典型的检索工作个案为例,说明BioEngine的工作流程。

BioEngine(如图1所示)首先对传入的检索式进行解析,将检索式分成三部分:(1)检索式中的关键词;(2)多关键词联合检索时,各关键词之间的布尔关系;(3)每个关键词的检索域。我们定义检索域为一个或多个数据库表中字段的集合,每个检索域由一个唯一的限定词标识,它指定关键词在数据库中的检索范围。例如,在检索核酸数据库时,如果用户需要根据文献编号为关键词进行检索,就可以指定输入关键词的检索域为[UID],该检索域包括数据表TB_NUC_REFERENCE中的两个字段,PMID和MEDLINE,分别记录文献在国际医学生物学文献数据库Pubmed和Medline中的编号。如果用户不在检索时输入限定词,则BioEngine默认限定词为[DEFAULT],[DE-FAULT]检索域为LSB I数据库开发及需求分析人员通过分析数据库用户的搜索习惯及通常用法,制定的多个字段的集合。一个检索域包含的多个字段,其数据类型可能不尽相同。BioEngine还能够自动区分检索式中关键词的数据类型,并直接针对数据类型匹配的字段进行检索。这样减少了检索的次数,生成的SQL语句检索数据库时的效率能够得到提高。

接着,BioEngine会按照布尔关系及检索域关系将解析好的检索式重新分组生成新的检索对象。例如,如果用户需要在核酸序列数据库中检索物种(qualifier:[ORGN])为小鼠的序列,要求序列长度(qualifier:[SLEN])为1200或1500,并且序列描述中(qualifier:[DESC])中含有关键词“LIVER”。则用户输入BioEngine的检索式如下:“1200[SLEN]OR 1500[SLEN]AND LIVER[DESC]AND MOUSE[ORGN]”。BioEngine将其解析并分组,生成两组新的检索对象{{1500[SLEN]AND LIVER[DE-SC]AND MOUSE[ORGN]},11200[SLEN]AND LIVER[DE-SC]AND MOUSE[ORGN]|}。

然后,BioEngine对解析后新生成的每组检索对象逐一进行操作。BioEngine能够理解检索域对应的字段集合,以及每个字段所属数据库表的表名和主表名。主表指在LSBI的每个子数据库中存放关键数据的一张表,无论以哪个表的字段作为检索条件检索该子数据库中的数据,最终都要通过JOIN的方法得到该表中的数据。比如在LSBI子数据库核酸序列库中,存放每条核酸序列的ID及其DNA序列的数据表“TB_NUCLEOTIDE”是主表。除主表外,该子数据库还有存放与核酸序列相关的文献信息的数据表“TB_NUC_REFERENCE”、序列注释信息的数据表“TB_NUC_FEATURE”等表。同一个字段,属于不同的检索域时,对应的主表也可能不同。当用户需要通过文献名称检索到核酸序列时,需要BioEngine通过检索TB_NUC_REFERENCE中的数据并JOIN到TB_NUCLEOTIDE表中得到最终检索结果。

BioEngine根据检索域包含字段的不同将其分成四种类型,在生成SQL语句时的处理也有不同:(1)检索域包含的所有字段都来自主表,在生成SQL语句时不需要考虑添加与其他表的连接条件;(2)检索域包含的所有字段都来自同一个从表,需要添加从表与主表的连接条件;(3)检索域包含的检索字段既有来自主表,也有来自从表的;(4)检索域包含的检索字段来自不同从表。后两种类型,BioEngine会根据各字段所属的表和各关键词之间的逻辑关系生成带连接条件的SQL语句。以上文所述生成的检索对象{1500[SLEN]AND LIVER[DESC]AND MOUSE[ORGN]}为例:检索域[SLEN]和[DESC]对应的字段TB_NUCLEOTIDE.LENGTH和TB_NUCLEOTIDE.DESCRIP-TION都在核酸数据库主表中,而检索域[ORGN]对应的字段TB_TAX_NAMES.NAME_TXT则属于另外一个子数据库物种数据库中的一张表,需要将该表中MOUSE对应的物种ID与核酸数据主表中的物种ID进行JOIN后检索出正确数据。

另外,对于某些特殊检索域,BioEngine还需要进行额外的处理。以物种数据库中的特殊检索域[LINEAGE]为例,当用户指定该检索域时,要求搜索引擎将关键词所对应的节点及其所有上层节点检索出来。如用户输入检索式“小鼠[LINEAGE]”时,BioEngine不但需要返回数据节点“小鼠”种的数据,还要返回“小鼠”属、“鼠形”科、“啮齿”目等一系列上层节点的数据。因此当BioEngine识别出[LINEAGE]检索域后,需要生成特殊的SQL语句,利用ORACLE特有的“START WITH…CONNECT BY NOCYCLE PRIOR…”功能完成查询[7]。

对每组检索对象完成以上所有处理后,BioEngine将生成的所有SQL语句用"UNION"连接起来传入ORACLE,完成数据检索。

3 BioEngine的可扩展性

BioEngine需要能够理解所检索数据库的数据结构及其基本属性,包括检索域对应的字段、各字段的数据类型、所属的主表、特殊检索域的处理方式等。而这些数据有随时变化的可能性。因为随着LSBI的不断发展,我们会对现有的子数据库进行不断完善,根据需要不断修改对子数据库的检索支持,另一方面,我们还将不断增加更多的子数据库以扩充LSBI支持的数据类型。如果每次数据检索需求的更改或扩充都需要对搜索引擎的代码进行变动,开发人员的工作将变得无比繁重。因此,BioEngine必须要有良好的可扩展性,能够在不修改其代码的情况下方便的对现有功能进行改动和更新,包括扩充原有子数据库的检索功能和增加对LSBI新开发的子数据库的检索支持。为了实现这种可扩展性,BioEngine通过XML格式的配置文件定义了每个子数据库的数据格式及其它相关信息。修改、扩充XML配置文件比修改代码更加简便可靠,而且在理解XML格式的基础上,具有生物背景的数据维护人员和需求分析人员就可以完成编辑XML配置文件的工作,不需要将数据检索需求的变动传递给系统开发人员并进行编码,有效减轻了双方的工作负担。

每个配置文件主要包括三部分内容(如图2所示):(1)部分,包括子数据库中主表和其它在检索该子数据库数据时可能用到的数据表的信息。指定该数据库检索时的主表,以下每个

描述一张与该数据库有关系的数据表,包括这些表与主表的连接条件,表中所有支持检索的字段,这些字段的数据类型等信息;(2)部分,包括该子数据库中定义的检索域和每个检索域包含的字段名。指定检索域,描述该检索域包含的字段。(3)部分,包括检索结果应该返回的字段名。

4 结论

BioEngine实现了从庞大复杂的大型综合生物数据库中快速找到符合检索条件的记录的功能。通过内置的逻辑和XML配置文件,能够在一定程度上理解生物数据之间的关联,支持较为复杂的跨库数据检索功能。BioEngine既支持单个关键字检索,也支持带有布尔操作符的含有多个关键词的组合检索,同时还支持用NCBI式的限定词对关键词进行修饰,形成更灵活精确的检索式。国内大多数使用生物数据库的生物科研人员都熟悉NCBI的搜索方式,因此,BioEngine在限定词的设定上基本与NCBI Entrez保持一致,方便用户快速熟悉LSBI网站。

BioEngine具有良好的可扩展性,可以通过XML配置文件理解LSBI生物数据库中各数据的关联。LSBI每次扩充可以容纳的数据类型,新增加一个子数据库,都需要搜索引擎能够理解该子数据库中数据的意义以及该种数据与所有其他已有数据之间的关联。利用XML配置文件的方法,在增加子数据库,或者原有数据检索需求有变动或扩充时,就不需要为其增加复杂的搜索引擎代码,只需根据需求生成或修改XML配置文件即可,大大减轻了开发人员以及数据维护人员的工作量,降低了工作成本并缩短了开发时间。

LSBI现在包括核酸序列数据库(Nucleotide)、引物序列数据库(Primer)、蛋白质数据库(Protein)、EST序列数据库、GSS序列数据库、STS序列数据库、基因数据库(GeneCenter)、普通测序数据库(Trace)、短片段测序数据库(SRA)、基因表达谱数据库(GEO)、物种分类数据库(Taxonomy)及文献补充数据库(Hotdata)等多个生物数据库(如图3所示)。所有这些数据库的检索功能都由BioEngine实现。BioEngine不但支持各单独数据库中的普通关键词检索和带限定词的高级检索,还部分支持跨数据库之间的数据关联检索,如利用taxanomy数据库中的物种数据,支持其他各数据库中针对特定物种的检索,利用基因数据库中的数据,支持基因表达谱数据库中针对特定基因的检索等等。

BioEngine的开发为进一步深入研究大型综合生物数据库的检索技术奠定了基础。我们将持续的对BioEngine进行扩充。为了监控BioEngine的工作状态,我们利用Apache Log4j工具在BioEngine内加入了完善的日志系统。将所有通过BioEngine进行检索的操作信息以及BioEngine生成的检索语句进行了备份。通过对这些数据进行分析,以及对生物数据库搜索引擎其它方面研发的深入,我们希望能够利用BioEngine提供更复杂、更高效的数据检索服务,为生物科研人员有效利用LSBI中的生物数据资源提供更好的支持。

摘要:针对开发大型综合生物数据库网站中,对数据检索性能方面的需求,开发了搜索引擎BioEngine。BioEngine目前被应用在上海生物信息技术研究中心开发的综合生物数据库库网站(http://lifecenter.sgst.cn)上,可以有效支持该综合生物数据库下十余个子数据库的跨库检索。该搜索引擎使用XML进行配置管理,具有良好的可扩展性,适合不断增加子库的综合生物数据库使用。BioEngine的研发成功不但为国内建设大型综合生物数据库提供了数据检索方面的技术支持,也为进一步深入研究生物数据库检索技术奠定了基础。

关键词:生物数据库,搜索引擎,数据检索,XML

参考文献

[1]许庆炜,曹顺良,李荣,等.上海生物信息技术研究中心的设计与实现[J].计算机应用与软件,2008,Vol.25 No.4 37-39.

[2]Wheeler D L,Barrett T,Benson DA,el al.Database resources of the National Center for Biotechnology Information[J].Nucleic Acids Research, 2007,Vol.35,Database issue D5-D12.

[3]Catherine Brooksbank,Graham Cameron,Janet Thornton.The European Bioinformatics Institute's data resources:towards systems biology [J].Nucleic Acids Research,2005,Vol.33,Database issue D46 -D53.

[4]Tateno Y,Imanishi T,Miyazaki S,et al.DNA Data Bank of Japan(DD-BJ) for genome scale research in life science[J].Nucleic Acids Research, 2002,30(1):27-30.

[5]Schuler G D,Epstein J A,Ohkawa H.et al.Entrez:molecular biology database and retrieval system[J].Methods Enzymol.1996,266:141 -162.

[6]European Bioinformatics Institute.EB-eye Search Help[EB/OL].http: //www.ebi.ac.uk/inc/help/search_help.html.

生物数据库 篇5

摘要:信息化是以现代通信、网络、数据库技术为基础,对所研究对象各要素汇总至数据库,供特定人群生活、工作、学习、辅助决策等和人类息息相关的各种行为相结合的一种技术。

生物心理社会医学是一种从生物学与心理学、社会学的统一来看人类健康和疾病的医学模式。它出现于二次世界大战之后,是对生物医学模式的辩证否定。

1948年世界卫生组织在其宪章中把健康定义为“一种在身体上、精神上和社会上的完善状态,而不仅仅是没有疾病和衰弱现象”,第一次表达了这种医学模式的基本思想。1977年美国医学家G.L.恩格尔在《需要新的医学模式:对生物医学的挑战》一文中,首次明确提出并系统阐述了生物心理社会医学模式的概念,在医学界引起广泛注意,我国于80年代初开始探讨从生物医学转向生物心理社会医学的理论与实践。这种新医学模式的特点是,沿着系统论思路,把人理解为生物的、心理的、社会的三种属性的统一体,人的健康和疾病不仅是生物学过程,而且有心理和社会的因素,要从生物、心理、社会相统一的整体水平来理解和防治疾病。它主张在已有生物医学的基础上,加强心理和社会因素的研究和调控,相应地发展了医学心理学和心身医学、医学社会学和社会医学。

大数据(Big data)又称巨量资料、海量资料,指的是所涉及的资料容量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。从另一个角度上来讲,大数据是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。(维基百科)1 大数据是网络时代的产物

近年来在物理、天文、生物、统计等学科领域和金融、气

象、军事、通讯行业中需要处理的数据已经形成了大数据现象,需要处理的数据容量发展如此之快,已经不能再用GB和TB为单位来衡量数据的存储容量,以P(1000个T),E(一百万个T)或Z(10亿个T)为计量单位的应用也将会十分常见。但是大数据真正被多数人认识和关注则是由它在互联网出现而开始的。首先是互联网的用户数量以及用户使用网络的时间的增长使用户行为数据激增,其次是随着网络应用的多媒体化,网络数据由纯文本演变为图片、音频、视频等多种格式,造成数据量大增。另外随着物联网和云计算、云存储的出现和发展,互联网节点由单一的PC机变为包括PC在内的各种智能终端,用户随时随地在线,使互联网成为一个充满海量信息流的立体网络。

Facebook创始人扎克伯格在Web2.0峰会上宣布,根据Facebook统计数据,社交分享信息量以倍数增长,今天分享信息总量比两年前增加了两倍,从现在开始后的一年,用户所产生的信息分享总量又将会翻番。互联网上不断增加的数据为互联网公司提供了进行数据挖掘和数据分析的物质基础,互联网公司可以通过对用户网络行为数据的分析来了解用户的网络行为习惯,改进服务推广模式和广告推送途径,从而获取更大的收益。目前我国大型的网络运营、电子商务企业都有专业的人员来进行大数据分析,对包括门户、搜索引擎、电子商务、SNS等业务产生的数据对用户的网上浏览、购物、娱乐习惯进行分析,为各种服务的精准投放提供决策依据,去适应或者影响用户的网络活动习惯,从而在互联网获得更大的发展空间。大数据时代已经在不知不觉中降临到我们的生活中,越来越多的数据应用在不断地改变我们的生活方式。大数据为生物医学研究和医疗信息化带来机遇

大数据在许多行业和学科领域的深入应用对生物医学研究的手段方法都带来了改变。生物医学研究领域,常使用统计学方法来处理和分析科学实验或者临床研究的数据,为了分析结果的准确性,实验分析抽取样本的数量越来越大,而网络和云计算、云存储等信息技术与医学的结合使生物研究获得大数据

更加方便和迅捷,生物医学的研究开始基于网络、云计算和大数据存储和大数据样本进行。例如2009年谷歌公司根据用户上网搜索内容对甲型H1N1流感的流行与暴发进行了预测,使公共卫生机构的官员获得了非常有价值的数据信息。我国深圳国家基因库中的样本量已达130万份,其中人类样本115万份,动植物、微生物等其他样本15万份。至2013年底,预计可有1000万份溯源生物样本,2015年底达到3000万份生物样本。而美国GenBank数据库中登录的DNA序列总量在2002年就已超过了280亿个碱基对。生物医学研究因为样本数据资源的极大丰富而更容易获取成果,基于大数据挖掘和分析方法的生物医学研究已经在促进人类健康方面取得了巨大成就,美国一个医疗小组对一名“腓骨肌萎缩症(CMT)”病人和他的10余名亲属进行全基因组测序,随后使用专用设备和先进的统计分析软件对获得的数百G的数据进行对比分析,很快就精确地获得了致病基因和发生突变的位点,为该疾病的预防提了可靠的遗传学依据。乔布斯在患胰腺癌以后也曾做过基因测序,希望能够通过找出DNA中有缺陷片断的方法来战胜癌症。目前我国深圳国家基因库以生物基因资源为依托,开始了大数据与医学和其他产业的整合与应用,如“全国出生缺陷样本联盟”,针对我国高发的出生缺陷、单基因遗传病、原因不明的妊娠异常在全国10个重点省市收集3万份临床样本及表型信息。为进一步研究影响出生缺陷的遗传机制和环境因素,提升我国生育健康研究的整体水平提供基础数据性支持,推动早期筛查、诊断、治疗、康复的防治技术研究。随着医疗机构信息化建设的不断发展,以及信息化管理和物联网的应用,医疗护理工作流程中产生的数据越来越多地被医院信息系统收集和存储。医院信息中心存储的不仅是医嘱、护理记录、药物使用等诊疗数据,而是所有医患角色、医疗设备、管理和服务人员在医疗系统中所产生的所有数据。在现代医院信息化管理的“电子化、信息化、数字化、智能化”要求之下,医院基础数据的存储量已经可以用TB甚至PB来计量。针对医院的大数据应用一般可以分为两种:一是用于医院管理,如对用药、流程等进行挖掘和分析;另一种是用于临床支持,如用于临床科学研究,或者用于实时的辅助临床支持。医院决策系统是基于前者的应用,它能够提供对医院各个单位和医疗活动各个环节的整体评价分析,从而为决策者进行医护质量和医疗安全的管理和改进提供参考。医院在接诊、治疗过程中收集到的各种第一手临床诊断、治疗数据则除了为医生临床诊断和治疗提供有用信息之外,还为医疗科研提供了最真实准确的样本数据。目前我国医疗卫生信息化建设取得了很大进展,国家在区域医疗卫生信息化、医院信息化管理系统和基层医疗卫生信息化等方面都加大了投入,并与多个学科领域的研究成果相结合,推动大数据在我国临床医疗和科研中的应用。3 大数据时代医学信息化面临的挑战

在大数据迅速发展的背景下,医学信息化的发展也面临着一些必须解决的问题。

1)数据共享的问题。美国国立生物技术信息中心(NCBI)存储了分子生物学、生物化学、遗传学领域的海量数据,其数据是对科学家无偿提供的。但是根据规定,美国科学家要想拿到政府经费,必须在申请课题时就承诺在课题完成后,将详细的研究数据提供给NCBI,这是NCBI获得大量数据的根本保证。而我国生物医学科研部门和医疗机构所积累的海量科研和临床数据目前多数仍然处于孤立使用的状态,机构之间的数据共享应用非常有限,数据孤岛现象限制了提高生物医学研究效率、建立社会医疗健康保障体系和减轻病人重复消费的经济负担。而这些机构因为利益的原因,对于拥有的医学科研数据和诊疗资料都持保护态度,不愿意向社会和同行提供数据服务。因此需要有相应的政策和措施,让医学研究机构和医疗机构的数据相互共享,真正形成生物医学研究、国民健康档案和医药信息大数据平台。

2)标准化的问题。美国劳伦斯伯克利国家实验室基因组科学部主任鲁宾(Rubin)表示,理想状态下的目标是建立统一的电子病历系统,这些信息应该有统一的标准,但现实并非如此,各个医院存储的数据标准不同,而且不同系统存储的信息也不一样。目前不同系统和科研机构之间的信息数据标准很难统一,这主要是由于设备生产厂商、软件供应商之间技术标准不统一和科研机构的研究方法各异造成的,例如不同的医院信息管理系统的电子病历数据格式和标准不同,信息中心的数据存储设备的架构也有可能不同,这造成医院间的数据信息无法流通和共享,这就为同一病人在不同医院进行治疗制造了障碍。因此大数据要在医疗信息领域得到应用,必须打破技术壁垒,解决信息标准化的问题。中国科学家更应该积极加入国际标准的讨论、设计和制定,更多参与国际上的生物医学信息共享。

3)医学大数据应用所需的复合型人才缺乏。医学信息学是生物医学与信息技术、统计、管理等学科相结合的交叉学科,在应用领域里真正掌握精通生物医学和信息科学知识的人才少而又少。为促进多学科研究和教育,美国2009年在特拉华大学创立生物信息学与计算生物学中心(CBCB),由来自5个学院的60多名教师组成,并创立或负责多个生物信息学教育项目。目前我国很少有高校设置生物医学与信息得学相交叉的学科专业,在生物医学研究领域里的复合型研究人才多数是自学或者由不同学科的导师共同培养的,这种情况造成了目前医疗大数据应用缺乏人才推动力的困境。根据相关文献分析显示,目前我国医学教育界已经认识到这个问题。4 结束语

目前我国医疗领域的大数据应用还属于起步阶段,如上所述所面临的共享壁垒、标准统一和人才短缺的问题制约着大数据在生物医学研究和医疗信息化发展等领域发挥更大的作用。相信在政策推动和信息科学技术不断发展的前提下,大数据在医学信息化中的应用将会不断深入,在生物医学研究的发展和社会医疗保障体系的完善过程中发挥作用。参考文献 [1]李新华.浅谈大数据时代的机遇与挑战[J].通讯世界:下半月,2013(6):60-61.[2]许德玮,桑梓勤.基于云计算的医疗卫生位置服务平台研究[J].医学信息学杂志,2013(6):8-13.[3]高汉松,肖凌.基于云计算的医疗大数据挖掘平台[J].医学信息学杂志,2013(5):7-12.[4]李华才.大数据挑战医院信息化服务模式[J].中国数字医学,2013(4):1.作者简介 李国栋(1972-),男,河南南阳人,馆员,硕士,南阳医学高等专科学校图书馆技术部主任,研究方向:图书馆信息化建设及情报学。4.1 应用实用化、智能化

自动化系统是一个集管理、监控、指挥、调度等于一体的多功能的复杂系统,目前,大多管理系统呈现复杂化的状态,这对于管理操作人员来说,加大了工作的难度。因此,未来的自动化系统必将朝着实用化、智能化方向发展,这不仅能避免人力资源浪费,且大大降低了管理人员的出错概率,保障了系统的稳定性和安全性。4.2 规模不断扩大

21世纪以来,随着人们对电的需求量越来越大,配电网规模呈现不断扩大趋势,具体表现在接入信息的种类、信息量、范围与以往相比,均有较大程度的改善。与此同时,电网调度自动化管理系统也应适应当前社会的发展需求,通过新技术、新设备的不断运用,达到提高安全性、稳定性和可扩展性的目的。4.3 系统间交叉面扩大

生物信息学中数据库的应用及整合 篇6

关键词:生物信息学,数据库应用,整合

0 引言

生物信息学(Bioinformatics)是研究生物基因组中信息的获取、加工、储存、分配、分析和解释的一门新兴交叉学科,其具体研究内容包括蛋白质结构、序列比对、序列分析、药物设计、功能基因组、基因表达数据分析等方面。所有这些研究中的一个核心问题就是数据库的开发,即如何收集、存储、管理和提供生物信息。从生物意义上生物数据库可分为核酸和蛋白质、基因组数据库等一级结构数据库、三维空间结构数据库和文献资料为基础构成的二级数据库。从数据存在形式上,生物数据库可分为面向对象数据库、关系数据库等;而从数据库的使用方面,生物数据库还可分为专门数据库和通用数据库。专门数据库是包含特定主题的生物数据库,一般由临床或者实验获得;通用数据库则包括生物体或者组织的基因序列信息、DNA序列信息和蛋白质序列信息。

1 生物信息学中数据库的应用

1.1 基因组数据库

基因组数据库源自基因组作图,而人类基因组数据库GDB(Genome Database)则是人类基因组计划处理和保存的疾病数据以及基因组图谱数据。该基因组数据库以编制人类基因组百科全书为目的,构建了基因组图谱,开发了描述基因组内容的方式,另外,还包括表型的描述、序列变异以及其它对功能。GDB保存了大量人类基因图谱,用户可通过基因符号、Gen Bank注册号或关键词进行搜索,并以图形方式观看基因组图谱。目前,已建成了多种基因组数据库,诸如,Ensembl Database包含蠕虫、昆虫、脊椎动物等多种类基因序列注释信息,OMIM Database收录了大量的人类致病相关基因以及正常基因数据,最大的c DNA数据库TIGR Database则包含非常多的测定中的基因组数据。

1.2 核酸序列数据库

核酸数据库是以了解生物体结构、功能、发育和进化为目的而进行构架和完成实施的。目前,国际上发挥权威作用的核酸序列数据库有三个,分别是位于英国剑桥的欧洲分子生物学实验室(European Moleeular Biology Laboratory,EMBL)、美国国家生物技术信息中心(National Center for Bioteehnology Information,NCBI)的Gen Bank[1]、日本遗传研究所的DDBJ数据库(DNA Databank of Japan,DDBJ)。E-MBL现由欧洲生物信息学研究所(EBI)负责运行,而该数据库则由Oracle数据库系统管理维护,查询检索即可通过因特网上的序列提取系统(SRS)服务完成,其中的数据可通过WEBIN和Sequin等软件来提交[2]。Gen Bank是一个涵盖了来自十多万种生物的核苷酸序列的数据库。每条记录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。另外,上面提到的三个大型数据库已经组成了合作联合体,互相交换信息,而且对DNA序列记录提供了统一标准,共同享有信息并向世界开放,故这三个数据库又被称为公共序列数据库。此外,还需提及的是Entrez。Entrez是综合生物信息检索数据库系统,用户可以很方便地检索Genbank的核酸数据,另外,还能够检索其它数据库的基因组图谱数据、蛋白质序列数据、种群序列数据集、Medline的文献数据、蛋白质三维结构数据等一系列数据。

1.3 蛋白质序列数据库

国际蛋白质序列数据库(PSD)是经过注释的、非冗余且品种齐全的蛋白质序列数据库,由慕尼黑蛋白质序列信息中心(MPIS)、蛋白质信息资源(PIR)以及日本国际蛋白质序列数据库(JIPDI)共同维护。Swiss Prot蛋白质数据库的每个条目都有详细的注释,包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、突变体等。慕尼黑蛋白质序列信息中心MIPS提供蛋白质功能注释信息,信息中包括了多物种蛋白质相互作用的数据DIP。DIP数据库中的信息则是由蛋白质相互作用实验而确定的,通过结合多种数据来源创建了一个同类的、同一的蛋白质相互作用集合,而后利用PPI网络的相关知识及理论,从最可信的DIP数据的核心子集中进行了提取处理,因而最终形成了数据库中的有效信息。

1.4 结构数据库

国际上最为详尽的蛋白质结构数据库(PDB)是通过核磁共振、电子衍射、X射线单晶衍射等实验方法确定的多糖、蛋白质、病毒、核酸等三维结构数据库,允许用户利用布尔逻辑组合和各种方式进行检索,检索的字段包括参考文献、PDB代码、功能类别、作者、名称、分子式、空间群、来源、分辨率、生物来源、入库时间等不同子项。用户即可以得到生物大分子的多种三维图形、坐标、VAML、注释等,而且还可以通过一系列指针连接到与PDB相关的多个数据库。结构分类数据库SCOP(Structural Classification of Proteins)包含了Protein Data Bank中所有已知结构的蛋白质,并提供了对这些蛋白质的相似性分析和进化上的同源性分析。SCOP对蛋白质结构域的划分和归类是通过该领域专家的人工比较,再辅之以一些视觉检验和结构比较方面的自动计算方法工具共同实现的。此外,CATH数据库能够在四个层次上对蛋白质和蛋白质结构域进行分类:Class(C)、Architecture(A)、Topologym(T)以及Homologous superfamily(H)。

1.5 其他数据库资源

公共的通用型综合代谢数据库主要是以统一数据格式记录了已知有关代谢的全部信息,因而可以作为有关非物种特异研究的代谢数据资源。比较常用的通用型综合数据库还有日本京都基因和基因组百科全书KEGG,代谢通路百科全书Meta Cyc、通路/基因组数据库Bio Cye以及整合了KEGG和Bio Cye的数据库系统Bio Silico等。

生物信息学在基因组学中发挥着重大的作用,而另一项崭新的技术—基因芯片也已经不可小觑,业已成为大规模探索和提取生物分子信息的强有力手段。较为有名的基因芯片数据库有美国生物技术信息国家中心(NCBI)的GEO(gene expression omnibus),Harvard的Express DB,欧洲生物信息研究所(EBI)的Array Express,MIT的Chip DB。此外,DBCat是根据生物的应用领域进行了分类的目录数据库,可以免费下载或在网络上检索查询。而另一个重要的数据库Pub Med则是由NCBI维护的文献引用数据库,用户可以方便地利用Entrez系统对Pub Med进行查询检索。

1.6 二级数据库

一级数据库的数据都直接来源于实验获得的原始数据,只是经过简单的归类、整理和注释。二次数据库也称专门数据库、专业数据库、专用数据库,这类数据库是研究人员根据不同的需要,在一级数据库、实验数据以及理论分析的基础上针对特定目标信息进行分析、整理、归纳、注释或者提取而得到的。这就如同一个连接点将世界各地分散的数据、服务资源有机地联结起来,形成信息流动的中间站,是数据库开发的有效途径。总地来说,一级数据库的数据规模大,更新速度快,用户面广,而二级数据库规模则相对较小,更新速度也不如一级数据库那样快。许多的二级数据库是基于Web开发,使用超文本语言HTML,并带有Java程序编写的图形界面;有的还内含有搜索程序,具有友好的图形界面和方便的访问方式,也可以不需要大型商业数据库软件的支持或支撑。

2 采用XML技术实现异构生物数据库的整合

数据库中的数据大多来自于全世界科学家的科研贡献,生物信息学数据库覆盖面广,且发展呈爆炸性增长,同时分布位置不集中、形式也不统一,加之当前的各个生物数据库的建立时间和创建目的也不尽相同,致使采用的描述格式达到了十几种之多,这些格式虽然都是标准ASCII码文件,但在显示各种信息或序列本身的某些字符时亦会有所不同,因而非常不利于数据的查询和信息的共享。

生物数据整合可为研究人员节省许多数据转换之间的工作,有利于数据共享,但目前生物数据库的整合面临着数据的异构和数据的无结构化两个主要的难题。生物数据库中,对生物数据的描述主要由原始序列数据和描述这些数据的生物信息的注释两部分组成,注释包括对序列数据来源、功能以及特性等进行描述。数据的异构包括语法的异构和语义的异构,而数据的无结构化就是指生物数据通常以文档形式描述。对于数据异构而言,数据描述格式的不同则将导致语法的异构,而数据描述标识和描述模式的不同会带来语义的异构。异构生物数据库的整合主要就是指屏蔽掉描述模式上的差异和冲突。

XML可以将毫无结构的文档数据用半结构化的形式描述,各系统都采用XML描述语言以解决数据的语法异构问题。在深入研究互连网上的各种公用生物信息数据库的有关性能之后,提出从生物学意义角度选择生物信息数据库,整合其数据及服务资源,利用XML技术将异构的生物信息数据进行格式转换,并将这些异构数据库的生物信息数据及服务资源整合到本地SQL Server 2008数据库中,为用户提供统一的使用平台[3],设计的系统体系结构如图1所示。

从图1中可以看到,该系统构建了一个一体化的、综合的集成环境,采用可视化的界面,将国际互连网络上分布、异构且格式不统一的生物信息数据库通过数据下载中心、数据库管理实现了数据资源的共享与整合,为生物科学的研究构建了一个新的数据信息平台。用户可以方便地通过用户端使用数据库的检索引擎对多种异构数据库的数据开展研究,如进行高效、准确的检索以及提供深层、有效的数据分析。

上述系统主要由下载中心数据库、数据库管理、用户端组成。

下载中心数据库模块给出数据源地址和具体的下载方式,引导数据库管理员将内容下载到本地指定的文件夹中;数据库管理模块采用可视化的界面,方便系统维护,主要功能是按照生物公共数据模型建立异构数据库之间的语义链接,在概念和联系层次上有效地解决了生物异构数据库的整合问题。建立的交换中心数据库进行XML格式转换并将其加载到本地SQL Server生物信息数据库中,管理员可以将从其他渠道或由实验中得到的核酸序列、蛋白质序列等数据通过界面直接输入到相应的数据库中,也可以通过界面修改、删除数据库中的数据以及备份数据。生物信息网络中的数据库服务广泛采用客户—服务器结构,SQL Server2008全文索引为在字符数据中进行复杂的词搜索提供了有效支持,通过在内部将搜索的条件发送给Microsoft搜索服务,Microsoft搜索服务即可查找得到全部符合检索条件的键,并将搜索结果返回给SQL Server。

用户端通过友好的图形界面接口使得研究人员可以非常方便地根据用户需要进行序列转换、核酸序列比对、蛋白质同源性分析和统计分析,也可以使用数据库的检索引擎对数据库进行检索和数据分析。另外,还可以输入多重关键词检索系统数据库中的核酸和蛋白质序列记录,对查询进行动态规划算法计算,实现智能化的多重、复合的数据检索。DOM包装器把来自SQL Server生物信息数据库的查询结果数据按照用户要求的格式进行合成处理,再将最终结果返回给用户。

3 结束语

生物信息数据库的研究结果不仅具有重要的理论价值,也可直接应用到工农业生产和医疗实践中。本文对基因组数据库、核酸序列数据库、蛋白质序列数据库、结构数据库、其他数据库资源、二级数据库的具体应用进行了探讨。目前各个生物数据库建立的时间和目的不尽相同,描述格式也各有不同,故而不利于数据的查询和共享。本文设计了一个基于XML的异构生物信息数据库整合系统,利用XML技术将异构的生物信息数据按照生物公共数据模型进行格式转换,并将多个分布且格式不统一的数据库整合到本地SQL Server 2008数据库中,构建形成了一个综合的、一体化的集成环境,为研究使用者进行相关的数据查询、数据处理和数据分析提供了一个智能的、实用化的服务平台,实现了异构生物数据库的共享与整合。

参考文献

[1]BENSON D A,KARSCH-MIZRACHI I,LIPMAN D J,et a1.GenBank:Update[J].Nucl.Acids Res,2004,32:23-26.

[2]EuroPean Bioinformaties Institute.Sequence Similarity&Analysis[EB/OL].http://www.ebi.ac.uk/Tools/similarity and analysis.html,2012.

生物信息数据挖掘应用研究 篇7

大量生物学实验积累了数以万计的生物信息数据。如何有效地进行数据的采集、整理、检索、分析, 从中提取规律, 上升为理论, 指导研究工作, 以便“读懂”基因组的遗传信息, 对生物信息学提出了很高的要求, 也对信息理论与技术提出了挑战。数据挖掘作为一种以数据库、统计学和人工智能学为基础的新兴技术, 给基因组学家们提供了前所未有的数据分析工具, 为基因和蛋白信息的分析和提取提供了强有力的手段。

一、数据挖掘技术

1. 数据挖掘的定义

数据挖掘 (Data Mining) 就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘汇聚了不同领域的研究者尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。因此有必要了解数据挖掘的技术、方法、过程和步骤, 并探索其对生物信息数据挖掘的应用。

数据挖掘与传统的数据分析 (如查询、报表、联机应用分析) 的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有未知性、有效性和实用性三个特征。

2. 数据挖掘系统

围绕某一数据挖掘任务的知识发现过程为数据挖掘系统。应该说所有的算法是为某一个挖掘系统服务的。数据挖掘系统的研究是为了建立科学的系统结构, 利于挖掘算法的重用、嵌入, 利于算法与系统其他模块有机结合[1]。

知识发现过程由以下步骤组成:

(1) 数据清理——消除噪声和不一致数据;

(2) 数据集成——可将多重数据源组合在一起;

(3) 数据选择——从各类数据库中提取与分析任务相关的数据;

(4) 数据变换——将数据变换或统一成适合挖掘的形式, 如通过汇总或聚集操作

(5) 数据挖掘——使用智能方法提取数据模式;

(6) 模式评估——根据某种兴趣度量, 识别表示知识的真正有趣的模式;

(7) 知识表示——使用可视化和知识表示技术, 向用户提供挖掘的知识。

数据挖掘可以看作是知识发现过程的一个步骤。典型的数据挖掘系统具有以下主要成分:

二、生物信息数据挖掘应用研究

蛋白质结构预测、序列分析、基因表达、药物发现及设计是生物学领域的关注焦点。已有许多有意义的挖掘模式、挖掘算法应用在这些方面并取得相应成果。研究证明数据挖掘是生物信息处理的强有力工具。目前生物信息数据挖掘的研究重点主要表现在以下几个方面:

1. 异构、分布式基因数据库的语义集成[2]

许多国家和研究组织都建立了生物序列数据库、蛋白质结构和功能数据库, 为人们提供了丰富的信息。但是这些数据存储分散, 而且存储介质多样, 造成数据冗余。因此对这种异构的和广泛分布的数据库的语义集成就成为一项重要任务。数据挖掘中的数据清理、数据集成方法有助于该问题的解决, 从而促进集成式数据库的开发。

2. 蛋白质结构预测[3]

蛋白质在生命活动中起着重要的作用, 其功能与空间结构密切相关。故掌握蛋白质的结构对研究蛋白质的功能具有重要意义。蛋白质结构预测主要包括二级结构预测和三级结构预测。蛋白质的二级结构是指组成蛋白质的肽链中局部肽段的空间构象, 它们是完整肽链构象的结构单元。蛋白质的二级结构一般可分为:α螺旋、β折叠和无规则卷曲三类。神经网络 (Neural Network) 是在蛋白质二级结构预测中应用较为成熟的一种数据挖掘技术。

蛋白质的天然构象对应自由能最低时的结构这一热力学假设是蛋白质三级结构预测的基本前提。遗传算法 (G e n e t i c Algorithm) 在蛋白质三级结构中应用较多。该方法使用三维笛卡儿坐标和二面角来表示蛋白质, 易于操作。缺点在于使用变异算子 (Mutation Operator) 往往会得到大量的无效蛋白质构象。如果目标蛋白与蛋白质结构数据库中的已知结构同源性较高, 则可用同源建模方法对目标蛋白质的结构进行预测。同源建模方法在蛋白质结构预测及药物设计中起着重要的作用[4]。

3. DNA序列相似搜索和比对

序列比对是生物信息学的基础。在基因分析中一个最为重要的搜索问题是DNA序列中的相似搜索和比较。首先构造由患病的基因序列和健康的基因序列所构成的对照组, 通过比较找出它们的主要差异或每一类中的频繁模式。通常在带病样本中出现频度超出健康样本的序列可认为是致病因素;另一方面, 在健康样本中出现频度超出带病样本的序列, 可认为是抗疾因素。由于生物数据中常常带有噪声, 因此抗噪性好的序列模式挖掘算法在这方面更有意义。

4. 多序列比对

多序列比对算法是生物信息学中的最基本算法, 是生物体的进化分析、蛋白质的分析和预测等生物体研究的基础, 具有重要的理论意义和使用价值。因为对于基因家族的成组序列来说, 必须阐明多个序列之间的关系, 才能揭示整个基因家族的特征。目前应用比较多的是关联规则、渐进比对和模拟退火遗传算法[5]。

5. 关联分析和路径分析

大部分疾病是由多个基因共同作用引起的, 关联分析方法有助于发现基因组和对基因间的交叉与联系, 帮助确定在目标样本中出现的基因种类。此外不同的基因可能在疾病的不同阶段起着作用。利用路径分析、演变分析等找到在不同阶段的致病遗传基因序列, 可开发不同阶段的治疗药物, 从而取得更有效的治疗效果。

6. 生物数据可视化

由于生物数据的复杂性和高维性, 既不能以数字公式表示, 也不能以逻辑公式表示, 可借助各种可视化工具以图、树、方体、链的形式展现其复杂结构和序列模式。常用的生物数据可视化工具有语义镜技术、信息壁技术、基因调控网格等。同时, 将经过数据挖掘工具得到的数据结果也以图形、图像的形式展现给用户, 便于用户寻找数据之间规律和关系。

7. 生物医学文本挖掘[6,7]

生物医学领域的研究正在飞速发展, 大量的生物医学知识以非结构化的形式存在于各种形式的文本文件中。如何才能有效地利用这些文本中所蕴含的生物医学知识无疑对分析海量的生物医学数据是非常重要的。文本挖掘技术在文本知识自动获取中起到了重要作用。文本挖掘通常包括信息检索、信息抽取、数据挖掘三个步骤。文本挖掘在生物医学领域中的应用, 可以提高生物医学信息建设和管理的效率。此外通过对文本分析研究可以帮助人们发现在文本中隐含的知识, 从而提高人们对生物医学现象的认识。

8. 基因芯片数据分析

基因芯片技术已经成功应用于许多领域, 如临床诊断、指导用药、药物筛选, 以及基础医学如表达谱研究、基因突变研究、基因组分型及测序等。大规模、高通量的信息获得也对数据的探索性分析及信息提取提出了新的挑战。数据挖掘可以用于基因芯片数据差异表达基因的不同聚类分析和聚类分析有效算法, 可以提高数据分析的质量[8]。

9. 基于隐私保护的数据挖掘

数据挖掘技术为生物工作者提供了有效工具的同时也引发了隐私保护问题。比如研究单位的保密实验数据, 个人的医疗诊断记录、病史记录都有可能被误用。通过在数据挖掘过程中使用限制数据访问, 模糊数据, 减少不必要分组, 有目的地增加噪声数据等方法来达到保护隐私的目的。目前在该领域的研究尚处于起步阶段。

三、生物信息数据挖掘工具

随着多年的研究与发展, 国内外已有很多数据挖掘、机器学习系统和软件包用于生物信息处理。

中科院计算所生物信息研究组、北京大学生物信息中心、上海生物信息中心、湖北省生物信息与分子成像重点实验室等国内著名研究机构, 开发出许多功能强大的生物信息处理软件, 大大方便了科研人员从事生物信息学研究。世界数据库巨头ORACLE和IBM纷纷将生物信息挖掘工具分别嵌入至ORACLE9i和DB2中, 大大提高了生物数据的安全性和分析的准确性。

四、结束语

生命科学近年来获得突破性进展, 随着基因组研究的进展与现代生物技术的发展, 积累了大量的各种生物数据, 提供了揭开生命奥秘的数据基础。强有力的数据处理分析工具成为现代生物科学研究发展的关键。如何将众多的数据挖掘技术应用于生物信息分析是当前的研究热点, 包括适合生物信息处理的数据挖掘体系架构、算法的开发、新的数据挖掘分析功能研究等。随着生物信息数据挖掘技术的不断深入, 人们可以更加清楚的认识生物数据所蕴涵的结构和功能信息, 认识病毒和细菌的真正面目, 从而帮助我们研制与开发新药物, 促进人类社会进步。

参考文献

[1]方艳.数据挖掘在生物信息学中的应用[J].微机发展.2004, 14 (4) :1-3

[2]张静.数据挖掘在生物信息中应用的现状及展望[J].电脑知识与技术.2008, (14) :816-817

[3]杨炳儒等.生物信息数据挖掘技术的典型应用[J].计算机工程与应用.2007, 43 (2) :18-19

[4]陈永对.生物信息学在基因组和蛋白质研究中的应用[J].中国临床康复.2006, 10 (41) :136-139

[5]向昌盛等.模拟退火遗传算法在生物多序列比对中的应用[J].湖南农业科学.2008, (4) :29-34

[6]胡德华.基于WWW的生物信息集成检索系统的研制[J].生物信息学.2006, (2) :79-80

[7]王浩畅等.生物医学文本挖掘技术的研究与进展[J].中文信息学报.2008, 22 (3) :89-96

生物数据库 篇8

计量性状的遗传变异通常是呈连续分布的, 表现为正态分布或者近似正态分布。在参数与统计量分析时, 通常采用标准正态分布对数据进行处理, 并以此为据指导选种, 确定性能优劣对比。

笔者在多年生产实践和科学试验中发现, 实践结果常常与应用正态分布分析的结果出现偏离, 有时偏离的程度出乎预料。因此实验数据经正态分布分析后, 难以确定结论和下一步的举措, 甚至让育种工作误入歧途。

在“早熟双高”品系的育种中, 我们将进行大量的数据采集和分析, 对数学模型进行探讨对我们准确把握遗传性状规律非常有益。本文仅以猪育种中产仔数这一重要繁殖性状应用统计原理, 进行较为严格的比较, 并提出一个新的比较办法, 以求应用正态分布分析更接近事物本质, 在更高置信度上准确反映该性能的真实分布。

这仅仅是一个初探, 我们将对生猪的重要数量性状逐一收集分析, 以求获得更完整的科学结论。

(1) 基本数据列表, 见附表。

(2) 由基本数据可得。

(3) 如果设为这是正态分布, 那么可得正态分布的产仔平均数 (均值) 为。

产仔数的方差为

(4) 根据以上求得的a与σ2画出正态分布曲线。

与其直方图, 见附图。

虽然实验数据和正态分布两者大体相近, 仍有较明显的偏离, 为此需用统计原理, 进行较为严格的比较。本文提出了一个新的比较办法。

(5) 实际上由 (3) 、 (4) 定出的a, σ2不应是确切要求的正态分布的均值和方差。从一次实际的统计数据得到的, 如果它是正态分布的话, 只是该分布在一定置信度下的均值及方差的置信区间。因此 (3) 、 (4) 得到的是

样本均值

以及σ2的无偏估计量

根据统计原理, 如果它确是正态分布的话, 那么在一定的置信度 (1-α) 下, 只能得到均值的置信之间为

其中tα是t分布的值为α的函数值 (取定)

方案的置信之间为

即由该组统计数据, 我们只能在一定置信度下得到它的均值及方差的可能取值范围。

(6) 为此取一个置信度较高的1-α=0.9及置信度适中的1-α=0.5,

(i) 查t (151) 表得

α=0.1时,

α=0.5时,

在相应的置信度下, 按 (1) 式均值的置信范围为

α=0.1 (8.4718, 8.8834)

α=0.6 (8.5933, 8.7619)

(ii) 按 (2) 式计算方差的置信区间, 查表

因此有

α=0.1σ2的置信区间 (1.9881, 2.9066)

α=0.5σ2的置信区间 (2.2127, 2.5851)

(iii) 为检验这组统计数据是否反映产仔数符合正态分布, 提示如下的检验方法。一方面如分布是正态分布, 则按它可算出四极矩的数值。由于由以上的分析, 在一定的置信度下, 只能算出四极矩的置信区间;另一方面根据算出的均值置信范围, 可以算出由统计数据算出的四极矩置信范围。将两者作一比较, 以判断正态分布成立的可能性。

由数据得到的四极矩的置信范围:取均值的置信范围的两端

由上面计算的结果知由数据算得的四极矩的可能取值范围为

α=0.1 (15.9497, 16.1788) 长度为16.1788-15.9497=0.2291

(iv) 另一方面, 如果我们认为它确实是正态分布的话, 那么由正态分布计算的四极矩是

由于在一定的置信度下, 方差有一定的置信范围, 按它的范围两端计算出的范围为

α=0.1σ2的置信区间 (1.9881, 2.9070)

α=0.5σ2的置信区间 (2.2131, 2.5850)

因此按 (3) 式算出四极矩的置信区间分别为

α=0.1四极矩的置信区间 (11.858, 25.345)

α=0.5四极矩的置信区间 (14.688, 20.048)

置信区间的长度分别为

α=0.1长度为25.345-11.858=13.487

(v) 比较 (3) 与 (5) 式看出 (3) 式与 (5) 式的变分范围的重复率为

生物数据库 篇9

试验设计与数据处理是一门应用领域相当宽广的现代技术课程, 主要介绍工程技术和科研试验中常用的试验设计与数据处理方法。通过对本课程的学习, 学生能够掌握试验设计和数据处理的基本原理和方法, 为后续教学环节如专业试验、毕业论文和今后在工作中开展产品工艺优化、质量管理等工作的顺利进行打下良好基础。该门课程教学内容主要包括2个方面:试验设计和数据处理。试验设计部分主要是让学生掌握设计试验的方法, 能做到在有限的试验条件下, 用最少的试验量获得尽可能多的信息;数据处理部分主要是让学生学会对实验结果采用合理、有效的分析方法, 从而发掘出潜在的、有用的信息[1]。

为了提高试验设计与数据处理的教学质量, 培养学生的学习兴趣, 增强学生应用的能力, 笔者对试验设计与数据处理的教学研究做了很多努力和尝试, 现将几点教学心得体会归纳如下。

1 讲好绪论, 强调课程的重要性

绪论就像是一部电影的开场, 直接影响着整门课程的教学效果, 好的开场才能吸引学生的注意力, 激发其学习兴趣。试验设计与数据处理是统计学在生物领域的应用, 是一门应用技术学科, 在绪论中不仅要介绍学科发展的历史, 还应该清晰展示课程的内容体系及本门课的任务和作用, 重点介绍要学习什么、知识点之间有什么联系、这些知识可以帮助解决什么问题、该如何学习等。在绪论中应多列举一些利用本门课程的知识解决实际问题的例子来强调本门课程的重要性, 如在毕业实践环节, 将试验设计和数据分析的知识用于毕业论文的设计和撰写中, 以求论文结构的系统性和试验结果的科学性。在走向科研工作岗位后, 利用试验设计和数据分析的知识合理设计科研方案、分析结果, 以求在低成本、短时间内完成任务。通过这些例子来明确学生的学习目的, 激发其学习兴趣。

2 重在培养应用能力

应用性本科培养的是运用科学理论从事高技术工作的应用型专门人才, 在培养规格上以行业需求为本位, 注重知识的复合性、现时性和应用性。培养出的人才应具备综合运用理论知识和方法解决实际问题的综合能力和实践能力, 并兼备技术创新能力[2]。因此, 在教学内容组织和知识侧重点的处理上应以结合专业特色、适应行业需要为主旨。试验设计与数据处理是以统计学原理为基础的学科, 其原理部分涉及到高等数学、概率论和线性代数的知识, 这部分内容在基础课程中已有详细讲述。因此, 教学重点放在各种试验设计方法和数据处理方法的具体应用上, 而方法的理论推导过程可以作为学生自学内容。如讲解方差分析时, 将重点放在方差分析的具体步骤上, 而偏差平方和分解过程的推导则作为自学内容;在正交试验设计及分析部分, 教学侧重点主要放在如何使用正交表及如何对正交试验结果作恰当的分析上, 而对于正交表的构成原理、特点仅作简要介绍。

3 选择合适的例题, 做到熟能生巧

试验设计与数据处理的应用领域非常广泛, 不仅用于生物, 还应用于化工、食品、机械加工制造等领域。为了让学生正确理解和掌握知识, 在举例说明时应选择试验设计与数据处理在本学科的应用实例。面向生物工程专业的学生时, 结合生物工程专业的特色, 主要从菌种选育条件、发酵工艺控制、目标产物分离等方面选择相应的例子, 最好是专业试验或科研中的真实问题, 如淀粉酶产生菌选育方案的设计、乳酸发酵条件的确定、茶多酚提取工艺的优化, 这有助于学生了解本门课的应用领域, 激发学生学习本课程的兴趣, 调动学生的积极性和主动性。

对于应用技术学科, 关键是能将书本上的知识应用自如。对于试验方案设计方法, 如正交试验设计、均匀试验设计、回归旋转试验设计、SN比试验设计等方法, 要求能够根据试验周期的长短、原料易得性、条件控制难易、待考察因素水平的数量等实际情况, 选择合理可行的试验方案设计方法。对于所得数据结果, 要求能够采用正确的分析方法, 发掘出有用的信息。数据分析方法部分有很多公式, 如偏差平方和的分解公式、回归系数的求解公式等, 若要做到灵活运用课程的知识, 就必须加强公式的记忆, 因此多做练习是必要的。虽然现在有很多软件能解决计算问题, 但是还要求学生掌握各种分析方法的分析过程, 这些都需要在教学中安排一定的练习量, 使学生熟能生巧。

4 把握前沿知识, 扩展学生视野

试验设计与数据分析的方法种类多样, 在本科教学阶段主要要求学生掌握单因素试验设计、正交试验设计和均匀试验设计等方案设计方法, 极差分析、方差分析和回归分析等数据分析方法。这些内容是本门课程的基本内容, 但并不是本学科的全部知识。为了让学生充分认识本学科的重要性, 可以在教学学时允许条件下, 补充知识点, 开拓学生的视野。如向学生介绍旋转试验设计及其分析方法, 指出它的作用和优势;对于解决多指标问题的试验设计和分析时引入主成分分析方法的知识[3];在对回归方程求解最优解时引入遗传算法的理论[4];对于试验问题建模分析时引入神经网络建模方法[5]。这些试验设计和分析方法很多都是近几年才应用到生物工程领域的, 在要求学生牢固掌握基本知识的前提下, 引入前沿知识有助于拓宽知识面, 在今后的学习和工作中能更好地发挥学生的能动性。

5 重视上机环节

试验数据的处理计算量很大, 完全依靠手算既浪费时间又容易出错。而现在有多种软件, 它们可以对数据作各种分析, 并能够在短时间内得到准确的结果。因此, 应重视上机环节, 要求学生至少掌握1种统计软件的使用方法, 学会用软件绘图、计算, 并能正确理解分析结果。例如SPSS是一个功能全面的统计分析软件, 操作界面友好, 易学易用, 广泛应用于自然科学、社会科学领域[6]。在教学过程中安排适当学时进行上机操作, 要求学生能够使用软件进行平均数假设检验、方差分析、多重比较、回归分析等操作, 不仅能增强知识的掌握程度, 还可以激发学生的学习兴趣, 获得良好的教学效果。

摘要:试验设计与数据处理是一门应用广泛的技术课程, 主要解决工艺控制、过程优化模拟等工程问题, 是生物工程专业课程之一, 具有实用性强、内容繁复、初学者难于记忆和灵活运用等特点。从课堂教学出发, 阐述了该课程在应用型工科院校生物工程专业中的教学对策。

关键词:生物工程专业,试验设计与数据处理,教学对策

参考文献

[1]薛刚, 郭书贤.优化试验设计及统计分析法[M].武汉:湖北人民出版社, 2004.

[2]徐理勤, 顾建民.应用型本科人才培养模式及其运行条件探讨[J].高教探索, 2007 (2) :57-60.

[3]曹定华.多元分析基础[M].北京:科学出版社, 2001.

[4]雷英杰, 张善文, 李续武, 等.MATLAB遗传算法工具箱及其应用[M].西安:西安电子科技大学出版社, 2005.

[5]葛哲学, 孙志强.神经网络理论与MATLABR2007实现[M].北京:电子工业出版社, 2008.

生物数据库 篇10

关键词:高山松林生物量,逐步回归分析,主成分分析,香格里拉地区

1 引言

森林是陆地生态系统的主体,森林生物量是反映森林生态系统功能的重要指标,约占陆地生态系统生物量的90%[1]。随着森林资源的不断消耗,生态环境的日益恶化,加之《京都议定书》国际协议的签订,促使人们加强对森林生物量的研究,并且更加深刻地认识森林生物量及其影响因子的重要性。

在森林生物量的研究中,利用遥感信息对较大尺度森林生物量进行估算是森林生物量研究的一种重要手段。高山松是横断山区高山地带的特有种,是中国松林中分布海拔最高的特有类型[2],但是基于遥感手段的高山松林生物量研究比较少,尤其是复杂地形和气候条件下有地学信息参与的高山松林生物量估测模型,所以文章拟利用TM遥感数据和相关地学信息建立高山松林生物量估测模型,以期找出研究区域内高山松林生物量估测最优模型,并为在这种环境下高山松林的研究、开发利用和管理提供参考。

2 森林生物量估算的遥感机理

森林生物量估算的遥感机理主要表现在:植被的遥感图像信息是由其反射的光谱特征决定的,植物的光合作用表现为对红光和蓝紫光的强烈吸收而使其反射光谱曲线在该部分呈现波谷形态,所以,植物的反射光谱特征反映了植物的叶绿素含量和生长状况,而叶绿素含量和叶生物量相关,叶生物量又与群落生物量相关,因此,可根据植物反射光谱特征,利用遥感信息来估算陆地植被生物量[3,4]。本文根据该机理利用样地植被的遥感光谱信息、植被指数和相关地学信息建立高山松林生物量估算模型。

3 基础数据

3.1 研究区概况

本文以香格里拉县为研究区域,其地理坐标为东经99°20′~100°19′和北纬26°52′~28°52′。主要研究区域位于云南省西北部迪庆州的东北部。该区地处有“世界第三极”之称的青藏高原南端,地势由西北向东南倾斜,山脉、河流南北纵贯,相向并列,高差大,山高谷深,地形复杂,其中高山松林样地分布在3000m左右的亚高山地区。区域内气候主要为立体气候和高原气候,而且由于地形影响形成地形小气候,并且受西南季风和南支西风急流的交替控制,气候条件复杂。这些因素决定了该研究区域的遥感图像更容易受外界环境的干扰。

3.2 样地实测生物量

2011年香格里拉地区的高山松林为本文研究对象,利用角规控制检尺的方法对研究区域内的高山松林进行调查。在每块林分中随机布设角规点,记录每个角规点的GPS坐标,利用该方法对入选木进行每木测量,并以相关生长方程先求出样地蓄积量,再利用生物量—蓄积量模型求出样地生物量。本文采用黄从德在《生态学报》上发表的高山松林生物量和蓄积量的函数转换模型即W=0.5272V1.0793来获得样地实测高山松林生物量,其中W为生物量,V为蓄积量,该模型是在林分平均碳含量系数为51%~53%时得到的。

3.3 遥感因子的提取

3.3.1 波段光谱值的提取

遥感数据采用2009年Landsat-5 TM影像,数据除去第6波段即热红外波段的几何分辨率为120m×120m外,其余波段的几何分辨率均为30m×30m。在对TM图像进行辐射校正和大气校正之后,利用1∶50000香格里拉地形图,选取50个明显的地物点对TM影像进行几何精校正,使得校正后的图像误差在一个像元以内。校正后的像元大小为30m×30m。利用ENVI和ArcGIS软件提取波段光谱值和每个样地对应的各个波段光谱值,作为生物量建模的因子。

3.3.2 植被指数的提取

不同的光谱通道所获得的植被信息有着各自的特点,仅用个别波段或多个单波段数据来提取植被信息是相当局限的,因而常常选用多光谱遥感数据经线性或非线性组合,产生对植被长势、生物量等有一定指示意义的植被指数加以分析[5,6]。在ENVI和ArcGIS软件的支持下,利用遥感图像提取植被的NDVIRVIEVIGVIBIWI6个植被指数作为生物量建模的相关因子。

归一化植被指数:NDVI=(TM4-TM3)/(TM4+TM3)

比值植被指数:RVI=TM4/TM3

增强植被指数:EVI=2.5×((TM4-TM3)/(TM4+6×TM3-7.5×TM1+1)),它通过加入蓝波段以增强植被信号,矫正土壤背景和气溶胶散射的影响。

TM图像在可见光~红外7个波段的数据中富含很丰富的植被信息,经过缨帽变换之后数据的前3个因子就反映了植被的土壤亮度BI、湿度WI和绿度GVI特征。

Bright=0.3037TM1+0.2793TM2+0.4743TM3+0.5585TM4+0.5082TM5+0.1863TM7

Green=-0.2848TM1-0.2435TM2-0.5436TM3+0.7243TM4+0.0840TM5-0.1800TM7

Wet=0.1509TM1+0.1973TM2+0.3279TM3+0.3406TM4-0.7112TM5-0.4572TM7

3.3.3 地学因子的提取

以经过几何精校正的TM图像为底图,矢量化等高线生成数字高程图DEM,并在ArcGIS中生成不规则三角形格网(TIN), 然后转化成规则格网(Grid),提取各样地包括海拔、坡度在内的地学因子参与生物量的估算。

4 高山松林生物量模型

4.1 基于逐步回归分析的生物量模型

在自变量很多时,其中很多因子可能对因变量的影响不是很大,而且自变量之间会存在各种相互关系,在这种情况下可以选用逐步回归分析方法对自变量进行筛选分析,并筛选出有显著影响的因子作为自变量,这样建立的多元回归模型的估测效果会比较好。

在SPSS软件的支持下,对参与生物量估算的14个因子进行筛选,得到6个生物量逐步回归估算模型。从模型汇总表格给出的6个模型的拟合结果可以看出,模型6的R值是6个模型中最大的,也就是说模型6的拟合程度最高,所以选择模型6作为生物量逐步回归分析的模型,其因子作为参与建立生物量模型的变量。

如表1所示,系数表格给出了模型6的回归系数估计值。根据模型6各个自变量的回归系数估计值建立生物量估算模型,即:

生物量Y=-3.363-4.737×WI+5.130×B5-0.446×坡度+0.073×海拔-8.895×B3+9.016×B2,其中Y为高山松林生物量(t·hm-2)。

4.2 基于主成分分析的生物量模型

在生物量的定量评价中,通常采用多元线性回归或逐步回归方法建立生物量与遥感及地学因子回归模型。这种方法简便易行,但回归模型中的变量可能存在多重相关性,从而影响模型的精度,甚至出现病态模型[7]。为了解决变量之间信息的高度重叠和高度相关性带来的障碍,削减变量个数、保持信息完整性并避免信息丢失的主成分分析方法应运而生。

采用主成分分析方法提取14个因子的主成分,再建立主成分与生物量的回归模型,由于主成分之间具有相互正交的特性,多个主成分之间相互独立,这样既可保留遥感及地学信息的主要特征,又可避免变量之间多重相关[8]。

4.2.1 生物量建模因子的相关性分析

从45个样地的14个因子的相关系数矩阵分析可知B1和B2、B2和B3、B2和BIB3和BIB5和B7、B5和WIB7和WI这些因子之间存在显著的相关性,其相关性都在0.95以上。若利用这14个因子直接建模,则存在着严重的多重相关问题。如果直接剃除显著相关的变量,可能会造成信息损失。因此,拟采用提取主成分的方法,建立基于主成分的森林生物量估测模型。

4.2.2 提取主成分

对原始数据进行主成分分析,当主成分满足以下条件之一:①累积方差贡献率到达85%~95%;②累计特征值乘积≥1[9],就可以认为这n个主成分代表了原来m个因子的主要信息,至此主成分分析结束。

从总方差解释表中得出前5个主成分的累积方差累积贡献率达到96.764%,并且涵盖了原始变量的主要信息,符合主成分提取要求,所以提取前5个主成分作为高山松林生物量建模的输入变量,并根据因子载荷矩阵建立主成分的特征向量矩阵,建立各个主成分分量模型。

4.2.3 建立主成分生物量模型

根据主成分特征向量矩阵建立以下5个主成分分量模型:

Y1=-0.076x1+0.07x2+0.304x3+0.32x4+0.333x5+0.255x6+0.324x7+0.322x8-0.274x9-0.262x10+0.082x11+0.321x12+0.244x13+0.311x14;

Y2=0.055x1+0.317x2+0.1x3+0.102x4+0.036x5+0.406x6+0.003x7-0.07x8+0.345x9+0.3x10+0.537x11+0.19x12-0.413x13-0.019x14;

Y3=0.823x1+0.402x2+0.168x3+0.095x4+0.065x5-0.006x6-0.098x7-0.08x8-0.022x9-0.005x10-0.266x11+0.016x12+0.139x13-0.112x14;

Y4=0.541x1-0.714x2-0.167x3-0.019x4+0.006x5+0.04x6+0.093x7+0.116x8-0.006x9+0.058x10+0.34x11+0.03x12-0.016x13+0.155x14;

Y5=0.099x1+0.447x2-0.442x3-0.33x4-0.152x5-0.226x6+0.291x7+0.245x8-0.012x9-0.015x10+0.223x11-0.108x12+0.091x13+0.445x14。

利用已建立的5个主成分分量方程,计算45个样本的5个主成分值。以主成分值作为自变量,样地生物量为因变量,建立森林生物量线性回归估测模型:

Y=-19.838+0.215Y1-0.455Y2+0.383Y3-0.214Y4-1.145Y5

该生物量估测模型中,Y为高山松林生物量(t·hm-2),Y1~Y5为5个主成分值。

5 模型结果及检验

对建立的基于逐步回归分析和主成分分析的高山松林生物量模型分别进行方差分析和线性回归关系的显著性检验,其结果见表2和表3。

如表2表3所示:从F分布统计表中可以查出在0.01 的显著性水平下,F检验达到显著水平,Sig<0.05,两个高山松林生物量模型和参与模型的因子之间具线性相关关系,相关系数R分别为0.519和0.581。根据建立的生物量估算模型计算生物量拟合值,结果见图1。

6 结果与讨论

(1)本文利用逐步回归分析和主成分分析两种方法分别建立高山松林生物量估测模型,从模型结果中可以看出,基于主成分分析的生物量估测模型消除了逐步回归模型变量的多重相关性,同时尽可能保留了变量信息的完整性,并提高了模型的估测精度。

(2)本文采用的两种建模方法得到的结果中,高山松林生物量模型的精度分别为0.519和0.581,估测精度较低,如何提高模型的估测精度有待进一步研究。

影响估测精度的原因有以下几点:①样地的坐标、高程定位采用手持式GPS,由于GPS定位精度的影响,像元会出现偏移;②样地生物量是利用生物量-蓄积量的转化模型计算得出的,该模型不完全适应研究区域,因而计算出的数据较之实际数据存在误差;③样地调查方法采用角规检尺的方法,样地大小不确定,与TM图像像元大小有较大出入,加之样地位于高山峡谷之间导致遥感图像的变形,使得地面实测数据和像元空间位置的平配性降低;④样地数量较少,不是均匀分布于研究区域,并且样地分布区域的环境有很大差别,例如小区域干热河谷和湿度相对较大的地区,或者海拔较高地区阴坡和阳坡,其森林生长程度及各种反映在TM图像上的光谱特征如湿度、绿度,甚至植被分布的高度都有差别;⑤在实际样地调查中,存在森林人工破坏和自然破坏的影响,这种情况下的样地生物量和其他样地有较大差别;⑥TM光学影像只能获取样地森林的表层光谱信息,缺少立体垂直信息,进而影响生物量的估测精度[10]。

(3)本研究以角规检尺为调查方法,在每木胸径调查的基础上进行基于光学遥感数据的生物量估算,能快速地对复杂的地形和气候条件下的高山松林生物量进行定量评价,并为以后香格里拉县高山松林的研究、开发利用和保护、管理,以及动态监测研究提供参考。

参考文献

[1]徐新良,曹明奎.森林生物量遥感估算与应用分析[J].地理信息科学,2006,8(4):122~128.

[2]吴兆录,党乘林,王崇云,等.滇西北高山松林生物量的初步研究[J].云南大学学报,1994,9(3):220~224.

[3]张佳华,符淙斌.生物量估测模型中遥感信息与植被光合参数的关系研究[J].测绘学报,1999,28(2):128~129.

[4]国庆喜,张锋.基于遥感信息估测森林的生物量[J].东北林业大学学报,2003,31(2):13~16.

[5]杨存建,刘纪远,张增祥.热带森林植被生物量遥感估算探讨[J].地理与地理信息科学,2004,20(6):22~25.

[6]赵英时.遥感应用分析原理与方法[M].北京:科学出版社,2003.

[7]徐文科,蔡体久,琚存勇.基于RS和GIS的毛乌素沙地荒漠化程度定量估测[J].林业科学,2007,43(5):48~53.

[8]徐天蜀,张王菲,岳彩荣.基于PCA的森林生物量遥感信息模型研究[J].生态环境,2007,16(6):1759~1762.

[9]吴晓丽.滇中地区云南松林生物量及碳储量遥感估测模型研究[D].昆明:西南林业大学,2009.

上一篇:带头人下一篇:饮水困难