医学生物技术论文提纲

2022-11-15

论文题目:生物医学文本挖掘若干关键技术研究

摘要:生物医学文献作为学术研究成果的主要载体,现已成为重要的生物医学领域资源,为研究提供了丰富的知识来源。结合领域需求,采用有效的文本挖掘技术从海量生物医学文献中自动快速、准确地获取相关信息,将对生命科学领域的研究产生极大的推动作用。而基于传统机器学习的文本挖掘方法受浅层模型表示能力的限制,提升空间变得相对有限。近年,随着基于神经网络的深度学习研究的兴起,深度学习在语音、图像和文本处理上都取得了突破性进展,展示出了潜在的应用价值。为此,本文围绕基于深度学习方法的生物医学文本挖掘关键技术,从生物医学文本分类、命名实体识别和关系抽取三个任务展开了研究。对于生物医学文本分类任务,首先针对在小规模的生物医学领域训练数据上神经网络方法无法充分发挥其优势的问题,提出了一种神经网络集成的文本分类方法。该方法通过引入相关数据预训练模块来提升神经网络模型性能,并利用逻辑回归模型对多个神经网络模型结果进行集成。另一方面,针对目前大多数神经网络方法未考虑领域知识的问题,提出了一种知识增强的自注意力卷积神经网络方法,通过多通道网络结构来充分利用领域知识。实验表明,该方法能够有效利用生物医学实体和概念信息提升神经网络模型分类性能。对于生物医学实体识别任务,针对句子级别实体识别方法存在全文标注不一致的问题,提出了一种基于注意力机制的文档级化学药物实体识别方法。该方法通过引入注意力机制来捕获文档级别的全局信息。在化学药物实体识别数据集上实验表明,该方法能够有效缓解全文标注不一致的问题,其性能达到了国际先进水平。另一方面,针对现有中文实体识别工作常常直接沿用英文的处理方式,忽略了中文特殊性的问题,提出了汉字笔画ELMo模型。利用汉字笔画信息进行中文语言模型预训练,来学习上下文相关且包含汉字内部结构信息的中文字向量。在中文电子病例实体识别任务上实验表明,加入笔画ELMo向量能够明显提升模型性能。对于生物医学关系抽取任务,针对目前流水线方法存在错误传播和无法充分利用子任务间相关信息的问题,提出了一种生物医学实体和关系联合抽取方法。该方法通过提出新的标注策略和抽取规则考虑了生物医学领域存在大量重叠关系的特性,并利用神经网络模型进行端到端的联合学习,充分利用实体和关系之间的相互依赖信息。实验表明该方法获得了比目前先进的流水线方法更好的结果,并能有效抽取重叠关系。

关键词:生物医学文献;文本分类;实体识别;实体关系抽取;自然语言处理

学科专业:计算机应用技术

摘要

ABSTRACT

主要符号表

1 绪论

1.1 研究背景与意义

1.2 国内外相关工作研究进展

1.2.1 生物医学文本分类研究进展

1.2.2 生物医学命名实体识别研究进展

1.2.3 生物医学关系抽取研究进展

1.3 本文主要研究思路与内容

2 生物医学文本分类

2.1 引言

2.2 相关工作

2.3 基于神经网络集成的生物医学文本分类方法

2.3.1 文本预处理

2.3.2 特征表示

2.3.3 神经网络模型

2.3.4 模型集成

2.3.5 实验与分析

2.4 融合领域知识的生物医学文本分类方法

2.4.1 领域知识向量表示

2.4.2 知识增强的自注意力卷积神经网络模型

2.4.3 实验与分析

2.5 本章小结

3 生物医学命名实体识别

3.1 引言

3.2 相关工作

3.2.1 化学药物实体识别

3.2.2 注意力机制

3.2.3 中文命名实体识别

3.3 基于注意力机制的文档级化学药物实体识别方法

3.3.1 特征表示

3.3.2 BiLSTM-CRF模型

3.3.3 Att-BiLSTM-CRF模型

3.3.4 实验与分析

3.4 基于笔画ELMo的中文电子病历命名实体识别方法

3.4.1 基于笔画的中文ELMo模型

3.4.2 额外特征

3.4.3 神经网络模型

3.4.4 实验与分析

3.5 本章小结

4 生物医学实体和关系联合抽取

4.1 引言

4.2 相关工作

4.3 基于神经网络的生物医学实体和关系联合抽取方法

4.3.1 标注策略

4.3.2 抽取规则

4.3.3 特征表示

4.3.4 端对端实体关系抽取模型

4.4 实验与分析

4.4.1 实验设置

4.4.2 标注策略和抽取规则对模型性能的影响

4.4.3 ELMo向量对模型性能的影响

4.4.4 与其他方法性能对比

4.4.5 结果样例分析

4.5 本章小结

5 结论与展望

5.1 结论

5.2 创新点

5.3 展望

参考文献

致谢

上一篇:汉语言论文提纲下一篇:我国音乐理论教育分析论文提纲