生物信息学研究论文

2022-04-20

摘要目的:研究香青兰不同萃取部位对临床来源病原菌的体外抑制活性,并挖掘其可能抗菌机制。方法:香青兰药材经65%乙醇提取后,依次以石油醚、二氯甲烷、乙酸乙酯、正丁醇萃取,得不同极性萃取部位。今天小编为大家推荐《生物信息学研究论文(精选3篇)》,欢迎大家借鉴与参考,希望对大家有所帮助!

生物信息学研究论文 篇1:

计算机技术在生物信息学研究中的应用分析

[摘 要]计算机技术的发展在很大程度上促进了生物信息学的发展。本文基于生物信息学理论,对生物信息学中计算机技术的应用情况和存在问题等进行了深入的分析和探讨,同时还强调了在生物信息学研究中引入数据挖掘等计算机技术的必要性,为生物信息学的教学和科研工作提供支持。

[关键词]生物信息学;计算机科学;应用

doi:10.3969/j.issn.1673 - 0194.2017.20.092

随着人类基因计划的启动而兴起的学科就是生物信息学,它属于新兴的交叉学科。主要是以计算机为工具,研究DNA和其编码的大分子蛋白质,通过各种软件来分析、研究、整理、收集、储存蛋白质结构、序列和日益增长的DNA,可以更好地了解生命的遗传、起源和发育等问题。生物信息学在当前数据量呈几何级数增长的情况下,需要充分依赖计算机科学的发展。生物信息的获取、存储和处理需要应用大量的数据信息,这就对软件、算法和理论提出了新的挑战和要求。

1 生物信息学研究中计算机技术的应用现状分析

生物信息学和计算机科学及其应用间存在着很大的联系,分子生物学可以通过计算机系统获得高性能的计算平台。计算机系统可以为分子生物学提供可供操作的计算平台,同时还能够为其提供良好的网络应用环境和高带宽的分布式计算,分子生物学应用软件及工具的设计和开发与软件工程和算法研究有着直接的关系,生物学的检索和存储能通过数据库得到保证。此外,对DNA或者蛋白质分子可以通过图像处理技术和计算机图形学理论来进行三维建模,这也是很好的一个应用方向,因为如果仅仅是基因测序,测得的也就是基因中的核苷酸排列的一些线性的信息,还需要将其三维结构弄清楚,以便提供更多的功能信息给研究人员,因为不同的蛋白质分子,其功能也存在很大的差异。国外在这方面的研究发展较快,各种的生物信息部门也在日趋增多。当前,美国、欧洲和日本是蛋白质数据库和大多数核酸数据库的所在地,他们能共享数据库,进行数据交流和更新。其他的一些国家,比如法国、德国和澳大利亚等在资源共享的同时,也将自己的专业数据库建立起来,以便更好地进行开发和研究,这其中有很大一部分服务是面向全世界的。我国当前对生物信息学的研究已经取得了一定的成绩,甚至有的在国际上也占据了一席之地。但是,和国际水平相比,明显存在较大差距。

2 生物信息学研究面临的问题

2.1 专业人才匮乏

当前,对于专业人才的需求日益增加,但是全世界范围内的专业人才培训中心也只有几十个,同时这些培训中心自身还处于恶性循环中,很多经过培训的人才受到高薪诱惑加入了工业部门。因此,培训教育人员的数量日趋减少,甚至出现了断层的情况。对于生命科学工作者来说,分析蛋白质和核酸序列的常规策略是其必须掌握的一项基本技能,但是如果缺乏必要的计算机知识,生物信息学家就很难深入研究生物信息学。另外,随着计算机科学的不断发展,如何让其在生物信息学中更好地发挥出作用,成为了开发人员和计算机研究人员需要面临的难题。对于生物信息学来说,在其发展的过程中首先需要具备高素质的人才,一旦缺乏人才,它的发展势必会受到限制。

2.2 投资力度不足

生物信息学虽然已经得到了初步的发展,但是与之相配套的一些工具、设备和人才等不到位,出现这种情况的最主要原因就是没有充足的资金。很多科研机构虽然已经得到了部分资金投入,但是仍然抱怨投入的资金不到位,政府的资金投入力度不够大,纷纷要求政府加大资金投入。政府虽然加大了对生物信息学的资金投入,但是要想让生物信息学研究始终处于非常完备的状态,在短时间内是做不到的。

2.3 商业竞争激烈

生物信息学产生的社会效益和经济效益是非常巨大的,特别是将该项研究应用于农业食品、医疗卫生和生命科学中,所带来的影响将是非常深远的,因此具有不可估量的商业价值。国际上很多生物工程公司和药业公司都进军该领域,因此各个商业机构间存在着激烈的竞争,在之后的商业研发和应用方面还会出现更加激烈的市场竞争。

3 加强计算机技术在生物信息学研究中应用的对策

3.1 培养专业人才

对于生物信息学来说,它在发展中最需要的就是专业人才。因此,需要先将人才问题解决,这样才能将我国基因工程和人力资源的优势发挥出来,根据我国生物信息学当前的发展现状,制定出符合我国国情的长期战略规划。将和计算机科学发展相关的学科发展起来,可以联合各大院校将一些亟待解决的问题解决掉。在高校计算机专业中可以将生物信息学单独设立出来,或者直接设置和生物信息相关的专业,对相关课题进行研究,这样便于培养出专业的综合性人才。

3.2 加大资金的投入力度

国家可以将专门的行政组织机构设立起来,这样可以更好地研究生物信息学。根据当前的实际情况和我国的战略规划来提报和拨付相应的资金。将完整的激励措施制定出来,这样可以更好地将科研机构的积极性激发出来,确保能顺利实施研究。此外,政府相关部门还需要出台相关的政策,这样可以方便各方面的相互协调和配合。

3.3 提高企业的商业竞争力

在生物信息技术方面,我国企业的参与度还远远不够,因此对生物信息技术的发展造成了很大的影响,这也是生物信息技术缺乏动力的主要原因。我国要及时在这方面出台相應的政策和措施,让企业能积极参与其中并成为其中的重要组成部分。因为企业在这方面的成功做法和成功经验较多,人才也是非常专业的,可以将这些转化成发展的动力,以此来促进生物信息技术在实际生活中的应用。企业也可以据此在激烈的市场竞争中保持自身的优势地位。

4 结 语

在生物信息学的研究过程中,计算机是重要的手段和方法。对于生物信息学来说,它需要研究生命科学,所以,生物学是生物信息学的根本,计算机科学技术是其应用的基本工具。随着生物信息学的不断发展,生物学因为它而带来了巨大的思想和观念改变。这是一个由量变到质变的过程,生物信息学会因此得以不断地进步和发展。

主要参考文献

[1]何洪波,谭晓超,李斌,等.生物信息学对计算机科学发展的机遇与挑战[J].生物信息学,2005(1).

[2]郝柏林,张淑誉.生物信息学手册[M].上海:上海科学技术出版社,2002.

[3]张春霆.生物信息学的现状与展望[J].中国青年科技,2000(6).

[4]孙米.计算机科学与生物信息学教育的关系[J].陕西学前师范学院学报,2004(1).

[5]贺林.解码生命——人类基因组计划和后基因组计划[J].北京:科学出版社,2000.

作者:罗文奇

生物信息学研究论文 篇2:

香青兰提取物对临床来源病原菌的抑制活性及生物信息学研究

摘 要 目的:研究香青兰不同萃取部位对临床来源病原菌的体外抑制活性,并挖掘其可能抗菌机制。方法:香青兰药材经65%乙醇提取后,依次以石油醚、二氯甲烷、乙酸乙酯、正丁醇萃取,得不同极性萃取部位。以肺炎克雷伯菌、金黄色葡萄球菌等临床常见多重耐药病原菌为对象,采用纸片扩散法测定不同萃取部位的抑菌圈直径,筛选抑菌活性部位;采用琼脂倍比稀释法检测抑菌活性部位对上述病原菌的最小抑菌浓度(MIC),并采用比浊法绘制该部位作用下多重耐药金黄色葡萄球菌的生长曲线;利用PEAKS? Q 8.5软件筛选抑菌活性部位组与对照组的差异表达蛋白,借助Blast 2 GO、KOBAS 3.0在线软件对其进行基因本体(GO)分析和KEGG信号通路富集分析。结果:香青兰石油醚、二氯甲烷、乙酸乙酯、正丁醇部位对革兰氏阴性杆菌均无明显的抑制作用,乙酸乙酯部位对金黄色葡萄球菌、表皮葡萄球菌等多种革兰氏阳性球菌均具有不同程度的抑制活性(抑菌圈直径为10~16 mm),为抑菌活性部位。该部位对金黄色葡萄球菌、表皮葡萄球菌、人葡萄球菌的MIC均为0.781 3 mg/mL,对腐生葡萄球菌的MIC为0.390 7 mg/mL,对溶血葡萄球菌和金黄色葡萄球菌标准菌株的MIC均为1.562 5 mg/mL。1、2倍MIC的乙酸乙酯部位可抑制多重耐药金黄色葡萄球菌的生长,且抑制活性有随剂量增加而增强的趋势。共筛选出差异表达蛋白300个(P<0.01),其中表达上调239个、表达下调61个。差异表达蛋白主要集中于细胞、细胞部位等细胞组成以及代谢过程、细胞过程和催化活性、蛋白结合等生物过程和分子功能,且主要富集于不同环境中的微生物代谢和果糖与甘露糖代谢等两条信号通路上(P<0.05)。结论:香青兰乙酸乙酯部位为抑菌活性部位,其抑菌活性可能与影响微生物代谢和细菌糖代谢有关。

关键词 香青兰;乙酸乙酯部位;抑菌圈;最小抑菌浓度;差异表达蛋白;生物信息学分析

香青兰(Dracocephalum Moldavica Linn.)为唇形科青兰属1年生植物,分布于我国华北、西北和东北等地。作为民族药,民间常以其干燥地上部位入药。研究发现,香青兰富含黄酮类、挥发油类、糖类、氨基酸类、萜类和微量元素等多种成分,具有改善心肌缺血、降低血液黏度和血小板聚集率、抗脂质过氧化损伤等作用,可用于心脑血管疾病等的临床治疗[1-2]。

天然产物由于其来源广泛、不易耐药等优点成为近年来抗菌药物研究的热点之一。既往研究显示,香青兰挥发油具有抗菌、抗流感病毒的作用[3];同时有研究表明,植物中大多数抑菌活性物质均为次生代谢产物,其中黄酮类化合物受到国内外学者的普遍关注[4-6]。本课题组在前期研究的基础上,以临床来源的多重耐药病原菌为对象,对其乙醇提取物各萃取部位的抗菌活性进行筛选,并对差异表达蛋白进行基因本体(GO)功能富集和KEGG信号通路分析,以初步挖掘其潜在抗菌机制,为香青兰抑菌活性的研究提供物质基础和科学依据。

1 材料

1.1 仪器

MCO-18AC型CO2培养箱(日本Panasonic公司);PhoenixTM 100型全自动微生物鉴定及药敏系统(美国BD公司);iMarK型酶标仪(美国Bio-Rad公司);Easy-nLC 1000型纳升级高效液相色谱(HPLC)系统、Q-Exactive型质谱仪(美国Thermo Fisher Scientific公司);750型超声仪(美国Sonics公司);RE-2000A型旋转蒸发器(上海亚荣生化仪器厂);SHZ-Ⅲ型循环式真空水泵(上海知信实验仪器技术有限公司);DZKW-S-8型电热恒温水浴锅(上海科恒实业发展有限公司);BSC-1500ⅡB2-X型生物安全柜(济南鑫贝西生物技术有限公司);TG16-WS型台式高速离心机(湖南湘仪实验室仪器开发有限公司);HZ系列恒温振荡器(江苏省太仓市实验设备厂);MLS-3780型高压灭菌锅(日本Sanyo公司)。

1.2 药材与试剂

供试药材由内蒙古通辽市扎鲁特旗产野生香青兰种子经人工培育所得,并经包头医学院公共卫生学院靳敏副教授鉴定为唇形科植物香青兰(D. Moldavica Linn.)的地上部位。药材经粉碎后,取适量样品粉末保存于包头医学院公共卫生学院。

哥伦比亚血琼脂培养基(济南百博生物技术股份有限公司);MH琼脂培养基(温州市康泰生物科技有限公司);LB培养基(本实验室自制);药敏纸片(英国Oxoid公司);Protease inhibitor cocktail蛋白酶抑制剂(美国APExBIO Technology公司);pH 7.4的磷酸盐缓冲液(PBS,北京博迈德基因技术有限公司);0.9%氯化钠注射液(贵州科伦药业有限公司,作生理盐水用);十二烷基磺酸钠(SDS)、尿素、二甲基亚砜(DMSO)、无水乙醇、石油醚、二氯甲烷、乙酸乙酯、正丁醇等试剂均为分析纯,水为蒸馏水。

1.3 菌株

供试病原菌肺炎克雷伯菌(Klebsiella pneumonia)、大腸埃希菌(Escherichia coli)、鲍曼不动杆菌(Acinetobacter baumannii)、铜绿假单胞菌(Pseudomonas aeruginosa)、金黄色葡萄球菌(Staphylococcus aureus)、表皮葡萄球菌(S. epidermidis)、腐生葡萄球菌(S. saparophytics)、人葡萄球菌(S. hominis)、溶血葡萄球菌(S. haemolyticus)均为临床检出多重耐药菌,由包头医学院第二附属医院检验科提供;金黄色葡萄球菌标准菌株(ATCC 25923)由国家卫生健康委员会临床检验中心提供。

2 方法

2.1 不同溶剂萃取物供试溶液的制备

取香青兰药材,粉碎,称取粉末100 g,加入65%乙醇1 000 mL,于60 ℃水浴中加热提取2 h,滤过,残渣按上述方法再提取1次;合并滤液,减压浓缩至无醇味,得乙醇提取物。取上述提取物依次使用同体积石油醚、二氯甲烷、乙酸乙酯、正丁醇萃取2次,合并相同萃取部位,减压浓缩干燥,得石油醚部位0.766 1 g、二氯甲烷部位1.402 8 g、乙酸乙酯部位0.916 g、正丁醇部位0.913 5 g。取各部位样品适量,用DMSO稀释,制成质量浓度均为250 mg/mL(以提取部位质量计,下同)的溶液,即得不同溶剂萃取物供试溶液。

3.4 差异表达蛋白分析

共筛选出300个差异表达蛋白(P<0.01),其中239个表达上调、61个表达下调。

3.5 差异表达蛋白GO分析

GO分析提供了生物过程、细胞组成和分子功能等3层结构的生物学信息,分析结果见图2。在生物过程中,共富集到309条结果(P<0.05),以代谢过程、细胞过程为主(见图2A;图中,“蛋白质占比”指某生物功能富集的差异表达蛋白占差异表达蛋白总数的比例,下同);在细胞组成中,共富集到31条结果(P<0.05),以细胞、细胞部分为主(见图2B);在分子功能中,共富集到116条结果(P<0.05),以催化活性、蛋白结合等为主(见图2C)。

3.6 差异表达蛋白KEGG信号通路分析

差异表达蛋白共富集到39条信号通路上,其中显著富集的有2条(P<0.05),分别为不同环境中的微生物代谢和果糖与甘露糖代谢等两条信号通路,分别富集差异表达蛋白33、7个,详见图3(图中,*表示P<0.05)。

4 讨论

由于抗菌药物应用的不合理,使得病原菌耐药已成为严重的全球卫生问题之一,且多重耐药菌检出率的升高给医疗卫生事业带来了极大的挑战[9]。研究显示,天然抗菌产物具有广阔的发展前景[10-11]。为此,本研究以临床来源的多重耐药菌为对象,对内蒙古地区药用植物香青兰的抑菌活性进行了初步探讨。

香青兰经乙醇提取、溶剂萃取后,共获得石油醚、二氯甲烷、乙酸乙酯、正丁醇等4个萃取部位;以临床常见革兰氏阳性菌和革兰氏阴性菌为对象,采用纸片扩散法对上述萃取部位的抗菌活性进行了比较和筛选。结果发现,香青兰乙酸乙酯部位对金黄色葡萄球菌、表皮葡萄球菌、腐生葡萄球菌等多种革兰氏阳性球菌均具有不同程度的抑制活性,抑菌圈直径为10~16 mm;但该部位对肺炎克雷伯菌等4种革兰氏阴性杆菌均未见明显的抑制作用,可能与不同病原菌细胞壁结构差异有关[12-13]。此外,乙酸乙酯属于中等极性萃取溶剂,其萃取物中可能含有萜类、有机酸类、黄酮类、游离生物碱类等成分,其中萜类、黄酮类成分具有一定的杀菌、消炎等生物活性[14],故笔者推测香青兰乙酸乙酯部位的抑菌活性可能与其含有上述化合物有关,但尚有待相关研究予以证实。本研究进一步分析了香青兰乙酸乙酯部位对金黄色葡萄球菌、表皮葡萄球菌等6种革兰氏阳性球菌的抑制作用。结果显示,该部位对上述6种病原菌的MIC为0.390 7~1.562 5 mg/mL,与诸多天然植物(如野菊花、苍术、紫珠草等,MIC分别为12.5、3.12、0.78 mg/mL[10])相比,具有更强的抑菌活性(即MIC更低)。

为进一步探讨香青兰乙酸乙酯部位对细菌生长规律的影响,本研究以临床来源的多重耐药病原菌金黄色葡萄球菌为对象,对其生长曲线进行了分析。细菌生长曲线是基于菌悬液OD值来绘制的。有研究指出,菌悬液密度在一定范围内与其OD值存在线性关系[15]。本研究所绘生长曲线显示,在0~4 h内,多重耐药金黄色葡萄球菌的生长处于迟缓期;培养4 h后,空白对照组和0.5倍MIC组菌株均进入对数生长期,10 h后进入稳定期;而1倍MIC组和2倍MIC组菌株则增长缓慢,且未见明显的对数生长期。这提示香青兰乙酸乙酯部位具有抑菌活性,且活性有随剂量增加而增强的趋势,这与部分天然植物(如薄荷、黄连[16]等)对细菌生长规律的影响基本一致。

本研究比较了药物(乙酸乙酯部位)组与对照组的蛋白表达情況,并对差异表达蛋白进行了相关生物信息学分析。结果,共发现300个差异表达蛋白(P<0.01)。GO分析结果显示,差异表达蛋白主要集中于细胞、细胞部位等,主要通过代谢过程、细胞过程以及催化活性、蛋白结合等生物过程和分子功能来发挥抑菌作用。KEGG信号通路富集结果显示,差异表达蛋白主要富集于不同环境中的微生物代谢和果糖与甘露糖代谢等两条通路(P<0.05)。其中,不同环境中的微生物代谢共富集到33个差异表达蛋白,包括无氧代谢途径的关键酶(如丙酮酸甲酸裂解酶激活酶、丙酮酸甲酸裂解酶)以及有氧代谢途径的关键酶(如柠檬酸合成酶、琥珀酸脱氢酶);果糖与甘露糖代谢途径共富集到7个差异表达蛋白,且均与糖代谢密切相关。菌株会通过改变糖代谢相关蛋白表达等途径来调控自身代谢过程,从而抵御外界环境变化,一旦糖代谢受到抑制,就会阻碍微生物的生长繁殖,甚至导致其死亡[17]。由此可见,香青兰乙酸乙酯部位的抑菌活性可能与其干扰细菌糖代谢有关,但具体机制尚有待基础研究予以证实。

综上所述,香青兰乙酸乙酯部位具有一定的抑菌活性,对多种葡萄球菌均具有一定的抑制作用。该部位对耐药金黄色葡萄球菌的抑制作用可能与影响微生物代谢和细菌糖代谢有关。本课题组后续将对乙酸乙酯部分具体活性成分进行分析,并深入探讨其具体抗菌机制,为香青兰的科学、合理使用提供依据。

参考文献

[ 1 ] 冯长根,李琼.香青兰化学成分与药理活性研究综述[J].中成药,2003,25(2):154-156.

[ 2 ] 刘建英,刘玉梅.青兰属植物的化学成分及药理作用研究进展[J].食品科学,2012,33(13):314-319.

[ 3 ] SONBOLI A,GHOLIPOUR A,YOUSEFZADI M,et al. Antibacterialactivity and composition of the essential oil of Nepeta menthoides from Iran[J]. Nat Prod Commun,2009,4(2):283-286.

[ 4 ] 黄梦姣,卢添林,王瑶,等.粗壮女贞不同萃取部位抑菌活性成分研究[J].现代预防医学,2016,43(5):864-866、902.

[ 5 ] 王慧芳,苏淑云,邵圣娟,等.大孔树脂分离纯化陈皮黄酮工艺及其抑菌活性[J].中成药,2018,40(12):2667-2672.

[ 6 ] 焦岩,常影,余世锋,等.大果沙棘总黄酮体外抗氧化和抑菌作用研究[J].食品研究与开发,2015,36(19):12-15.

[ 7 ] Clinical and Laboratory Standards Institute. Performance standards for antimicrobial susceptibility testing[S]. 2017- 01.

[ 8 ] 管敏,张力文,徐致远,等.白毛夏枯草对金黄色葡萄球菌的作用规律及抗菌机理[J].中成药,2017,39(11):2393- 2396.

[ 9 ] 黄勋,邓子德,倪語星,等.多重耐药菌医院感染预防与控制中国专家共识[J].中国感染控制杂志,2015,14(1):   1-9.

[10] 张泽萍,胡欢,左国营. 23种中草药的体外抗菌活性筛选研究[J].广西植物,2019,39(4):499-510.

[11] KHAIRON R,ZIN NM,RAHMAN MA,et al. Comparative proteomic analysis of differential proteins in response to aqueous extract of quercus infectoria gall in methicillin-resistant Staphylococcus aureus[J]. Int J Proteomics,2016. DOI:10.1155/2016/4029172.

[12] 贺平,朱晓莉,泽它扎西,等. 15种藏药方剂抑菌作用的研究[J].黑龙江畜牧兽医,2017(17):216-219.

[13] 李绍军,曹建军,陈坤明,等.此“壁酸”非彼“壁酸”:关于“细胞生物学”教材中细菌细胞壁特征描述的商榷[J].中国细胞生物学学报,2014,36(10):1409-1412.

[14] 牟玉兰,闫浩,龚黎黎.萜类化合物的研究概况[J].化工管理,2018(11):12-13.

[15] 肖敏,杨峰,王旭荣,等.分光光度法测定金黄色葡萄球菌菌液浓度方法的建立[J].动物医学进展,2014,35(11):40-43.

[16] GERSTEL J,TURNER T,RUIZ G,et al. Identification of botanicals with potential therapeutic use against methicillin-resistant Staphylococcus aureus(MRSA)infections[J]. Phytotherapy Res,2018. DOI:10.1002/ptr.6198.

[17] 毛跟年,胡家欢,刘艺秀.野艾蒿提取物对金黄色葡萄球菌的抑菌机制研究[J].食品科技,2019,44(5):242-247.

(收稿日期:2019-06-26 修回日期:2019-12-09)

(编辑:张元媛)

作者: 刘云 刘敏 于慧 王占黎

生物信息学研究论文 篇3:

哈希方法在生物信息学研究中的应用探讨

[摘 要]哈希表由于能夠实现高效的数据存储和查找,操作时间可达到O(1)级,所以其被广泛应用于信息安全、操作系统、数据挖掘和生物信息等领域。本文对哈希方法在生物信息中的应用进行了探讨,同时介绍了其他特殊的哈希方法在生物信息相关问题中的解决策略。哈希方法的引入能更好地提高生物信息大数据的存储与检索性能。

[关键词]生物信息计算;哈希方法;最小哈希;相似哈希

doi:10.3969/j.issn.1673 - 0194.2018.12.064

1 哈希方法在组装技术中的应用

哈希函数可把任意长度的输入通过一定的算法转换成固定长度的哈希值,将某种类型的数据元素尽量均匀随机地映射到一个整数空间。哈希表根据设定的哈希函数和处理冲突方法将一组关键字映射到一个有限的地址区间上,在实际中不可避免地产生哈希冲突,一个良好的哈希函数应保证散列均匀、冲突少。在基因序列组装技术中,通常采用不同的哈希方法对k-mers实现快速存储与查找。如Meta-IDBA采用一次哈希方法实现宏基因组序列组装,将k-mers存储于一个数组中,按数组类型的位数对k-mer进行分段,再对每段进行异或运算。然而,一次哈希函数建立的哈希表策略可能产生较高的冲突率,因此考虑采用多次哈希和多级哈希方法保证装填因子在更合理的情况下减少冲突率。多次哈希方法先采用一种哈希函数对关键字进行散列,然后对发生冲突的关键字采用不同哈希函数再次散列。多级哈希方法根据关键字的哈希值对数据元素进行“分类”,如SOAPdenovo采用二级哈希方法实现组装,第一级哈希函数将k-mer进行循环冗余程序计算,按照所得哈希值查找已确定的循环冗余校验表,得到对应的桶号(0~255),然后对每个桶再次建立第二级哈希表。

以染色体chr19为参考序列,分别采用一次哈希、二次哈希和二级哈希方法,从装填因子、冲突率和平均查找长度几个性能指标对不同长度的k-mer进行分析,为基因组序列组装中哈希方法的选择提供参考依据。输入数据为双末端读段,插入距离服从正态分布N(500 bp,49 bp),读段长度为100 bp。一次哈希方法中哈希函数采用分段叠加法,每段长度取27 bp;二次哈希方法中第一次哈希函数采用分段异或法,第二次哈希函数采用分段叠加法;二级哈希方法中第一级哈希函数采用低八位与255进行按位与运算,产生256个桶,再用第二级哈希函数分段叠加法实现桶内的哈希存储。对于生物信息中涉及的大数据,用公共溢出区的方法按顺序查找空位,其效率相对较低,所以通常采用链地址法解决冲突。

(1)在无变异的情况下。k值分别取23 bp、45 bp和63 bp,覆盖度为100×。装填因子、冲突率和平均查找长度的比较如图1所示。

一次哈希方法和二次哈希方法中所用哈希表长度均为227,k值越大k-mer数目越少。装填因子与k值成正比,冲突率、平均查找长度与k值成反比,即k取值越大哈希效果越好。通过分析可见,二次哈希方法性能更优。

(2)对性能较优的二次哈希方法,覆盖度取值为30×,k-mer取值为63 bp,实现不同变异率下的比较分析,变异率分别为0、10-4和10-5。从图2可见,随着变异率的增大,装填因子、冲突率及平均查找长度均有所增加。

2 其他Hash方法

2.1 最小哈希(Minhash)

Minhash可以用来快速估算两个集合的相似度。Yang将Minhash用于DNA序列的聚类;VICUNA引入Minhash解决片段重叠群(Contig)中的读段聚类问题。Jaccard Index是距离的一种度量标准,用来计算集合的相似性。对于集合A和B,当A∪B中具有最小哈希值的元素也在A∩B中,则hmin(A)=hmin(B)。其中,hmin(S)表示集合S中的元素经过哈希函数后,具有最小哈希值的元素。集合A和B的相似度为集合A和B经过哈希函数运算后取得最小哈希值相等的概率,即J(A,B)=Pr[hmin(A)=hmin(B)]。根据Minhash思想计算两个集合的相似度时,可采用单哈希函数和多哈希函数的解决策略。使用多哈希函数时,如哈希函数个数为k,用k个哈希函数分别对集合A和B求哈希值。每种哈希函数都会得到一个相应的最小哈希值,min(A)={a1,…,ak},min(B)={b1,…,bk}那么A和B的相似度为:J(A,B)=(min(A)k∩min(B)k)/(min(A)k∪min(B)k)。

2.2 相似哈希(Similarity Hash)

相似哈希是一种局部敏感哈希函数,不仅能定性地判断同类型数据元素是否相同,还能进一步定量分析同类数据元素之间的相似度,即越相似的元素相似哈希值越相近,反之,哈希值相差越远。将相似哈希的思想引入比对技术中,将读段拆分为不覆盖的k段,每一段转换为一个特征集合,该集合是一个n维的向量V,给特征集合中的每个特征都赋予一个权重,由于读段中每个位点的地位是均等的,所以每个特征的权值都置为1。由于MD5函数产生的哈希值具有随机性强的特点,所以对读段中的k段可采用MD5作为哈希函数进行散列,得到一个n位的哈希值h;如果h的第i位为1,则向量V的第i位加上权值;如果h的第i位为0,则向量V的第i位减去权值;将读段的k段按位统计,进行累加,如果第i维的累加值大于0,则将相似哈希值中该位置为1,否则置为0,所得结果即为此序列的相似哈希值。

3 结 语

哈希函数可以实现快速索引功能,具有O(1)级的时间复杂度,使其得到了广泛应用。然而哈希表是基于数组创建的,很难再次拓展,而且装填因子的大小会影响哈希函数的性能。目前衍生出了许多哈希方法,但不同的应用对哈希函数有着不同的要求。

主要参考文献

[1]Peng Y,Leung H C M, Yiu S M.Meta-IDBA:a De Novo Assembler for Metagenomic Data[J].Bioinformatics,2011(13).

[2]Li R,Zhu H,Ruan J.De novo Assembly of Human Genomes with Massively Parallel Short Read Sequencing[J].Genome Research,2010(2).

[3]Yang X,Charlebois P,Gnerre S.De Novo Assembly of Highly Diverse Viral Populations[J].Bmc Genomics,2012(1).

作者:耿彧 白涛

上一篇:方剂学课堂教学论文下一篇:中学欣赏课美术论文