生物医学论文提纲

2022-11-15

论文题目:面向生物医学领域的神经机器翻译领域适应方法研究

摘要:在拥有大规模平行语料库的通用领域,神经机器翻译往往表现出色。然而,一些特定领域如生物医学、军事外交等专业性强的平行语料库规模比较有限,直接使用这些低资源领域的平行语料库来训练神经机器翻译模型,翻译效果往往不够理想。随着智慧医疗的发展,为了更好地挖掘和利用国际生物医学文献及相关成果,研究生物医学领域的中英神经机器翻译的领域适应方法,利用通用领域的知识来改进生物医学领域神经机器翻译模型的训练效果,有效减少模型对生物医学领域数据的依赖,具有重要意义。目前主流的领域适应方法是在大规模域外平行数据集上训练预训练模型,然后再基于目标领域的域内小规模平行数据集进行模型的微调,但模型的预训练过程非常消耗训练资源和时间,域外数据集质量对预训练模型效果有很大影响,而且基于小规模平行数据集的微调容易导致模型的过拟合。针对这些问题,本文基于Transformer构建生物医学神经机器翻译模型,在预训练过程中引入逐步微调的训练方式来高效训练域外数据集,并提出了动态数据增强的训练方法来提升微调模型的训练效果。本文首先基于文本分类进行快速数据选择,形成域外大规模领域相关性排序数据集,基于该数据集通过逐步微调形式的预训练生成预训练模型,然后基于微调模型或预训练模型进行进一步的动态数据增强训练。在多个数据集上的实验结果表明,相比常规的领域适应训练方法,本文引入的逐步微调方式的预训练和所提出的动态数据增强训练方法有效缩短了训练时间,并且有效提升了翻译效果,其中预训练时长相比常规预训练时长可缩短28%到39%,相比常规的领域适应模型,在多个测试集上的BLEU分数可提升0.4到0.9分。由于生物医学领域专业术语较多,中文分词工具在处理专业文本时经常会产生分词歧义和分词错误,从而导致翻译模型的翻译歧义及错误。针对这个问题,本文提出了基于中文多分词组合的子词化数据预处理方法,对生物医学平行数据集的中文部分进行多种方式的分词,从多个分词结果中提取差异化的分词词汇表,构建高频生物医学词汇表并应用于基于生物医学子词模型的子词化过程中,同时对基于中文多分词组合的生物医学增强数据集进行基于字节对编码BPE(Byte Pair Encoding)的正则化。在多个数据集上的实验结果表明,本文提出的针对生物医学神经翻译模型的子词优化方法能够有效提高翻译模型的鲁棒性,并提高翻译模型的翻译效果,相比未经子词优化的动态数据增强模型,经过子词优化的模型在多个测试集上的BLEU分数可提升1.3到1.5分。本文也对影响生物医学领域适应机器翻译模型性能的关键因素进行了探索,通过适当增加BPE合并操作次数,域内外子词化过程采用生物医学BPE子词模型,预训练过程和微调过程以生物医学平行数据集为验证集,进一步提高了领域适应模型的翻译表现。

关键词:生物医学;领域适应;预训练模型;动态数据增强;子词优化

学科专业:计算机科学与技术

摘要

ABSTRACT

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文研究内容

1.4 论文的组织结构

第二章 相关理论和技术

2.1 统计机器翻译

2.1.1 基于词的统计机器翻译

2.1.2 基于短语的机器翻译

2.1.3 基于句法统计的机器翻译

2.2 神经机器翻译

2.2.1 传统翻译架构

2.2.2 注意力机制

2.2.3 Transformer架构

2.3 基于领域适应的神经机器翻译

2.3.1 基于数据的领域适应

2.3.2 基于模型的领域适应

2.4 神经机器翻译的数据预处理

2.4.1 中文分词

2.4.2 字节对编码方法

2.4.3 正则化字节对编码(BPE dropout)

2.5 本章小结

第三章 领域适应模型的动态训练方法

3.1 引言

3.2 领域数据选择

3.2.1 领域相关性评价函数

3.2.2 域外数据选择方法

3.3 基于领域适应的动态训练方法

3.3.1 领域适应的生物医学机器翻译模型

3.3.2 逐步微调方式的预训练

3.3.3 动态数据增强的训练方法

3.4 实验设置

3.4.1 域内外数据集

3.4.2 评估指标

3.4.3 实验环境及参数设置

3.5 实验结果及分析

3.5.1 模型总体效果对比

3.5.2 数据选择方法的有效性实验

3.5.3 逐步微调方式的预训练的有效性实验

3.5.4 动态数据增强训练的有效性实验

3.5.5 翻译结果示例

3.6 本章小结

第四章 基于领域适应的子词优化方法

4.1 引言

4.2 问题描述

4.2.1 域内外子词模型的差异性

4.2.2 中文分词方法的不足

4.3 领域适应的子词优化方法

4.3.1 基于中文多分词组合的数据增强

4.3.2 生物医学子词模型的学习

4.3.3 基于正则化字节对编码的子词化

4.3.4 子词优化下的训练流程

4.4 实验及结果分析

4.4.1 子词优化方法的总体效果

4.4.2 生物医学子词模型的有效性实验

4.4.3 中文多分词组合方法的有效性实验

4.4.4 正则化字节对编码方法的有效性实验

4.4.5 翻译结果示例

4.5 本章小结

总结和展望

参考文献

致谢

附件

上一篇:桥梁工程施工监理论文提纲下一篇:农村经济农业机械论文提纲