检查技术论文提纲

2022-11-15

论文题目:基于LSTM的藏文词拼写检查技术研究

摘要:文本的自动校对是自然语言处理的基础工作之一,旨在用计算机对文本中存在的错误进行分析和改正的工作,目的是让计算机能够自动的将有错误的文本恢复为正确文本。拼写检查是利用计算机快速的检测文本中的错误,能够提高文本校对的效率,是文本校对中采用的一种首选技术。英、汉文本的拼写检查技术已取得了丰硕的成果,并广泛地应用于各种字处理软件。与英、汉文本的拼写检查技术相比,藏文文本的拼写检查技术还处于起步阶段,其研究在藏语语料库建设、语音识别、文字识别等诸多方面具有广泛的应用价值。本文借鉴英、汉文本的拼写检查技术,通过分析藏文文本中的错误类型和藏文拼写检查研究现状,提出了基于TCLSTM(Tibetan Characters LSTM,TCLSTM)语言模型的藏文词拼写检查方法。主要内容包括:(1)建立了实验语料藏语目前没有统一的语言模型训练和测试实验语料,因此我们利用爬虫技术从藏文网站中获取了大小为186MB,包含15147315个音节的藏文文本语料,并对其进行了预处理,得到了较高质量的实验语料。(2)构建TCLSTM语言模型藏文是字的序列,字与字之间有明确的分割标记,但词与词之间没有显示分割标记,藏文文本分词还存在诸多问题,因此提出了以字为输入单位的TCLSTM语言模型,并实验验证了其有效性。实验表明TCLSTM语言模型在测试集上的困惑度比传统的Bigram和Trigram语言模型分别降低了74和18,其效果比Bigram和Trigram语言模型得到了显著的提升。(3)设计藏文词拼写检查算法提出了基于TCLSTM语言模型的藏文词拼写检查方法,设计了基于TCLSTM语言模型的藏文词拼写检查算法,并实验验证了算法的有效性。实验表明,基于TCLSTM的词拼写检查最高准确率、召回率和F值分别达到了97.20%、85.89%和79.09%,最高准确率、召回率和F值比Bigram分别提高了11.87%、3.46%和1.85%,基于TCLSTM语言模型的藏文词拼写检查方法的性能优于Bigram语言模型。

关键词:自然语言处理;TCLSTM;藏文词;拼写检查

学科专业:计算机应用技术

摘要

Abstract

第一章 绪论

1.1 研究背景及意义

1.2 国外研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 研究内容及论文组织结构

第二章 相关理论基础

2.1 藏文概述

2.2 循环神经网络

2.2.1 RNN

2.2.2 LSTM

2.3 本章小结

第三章 基于TC_LSTM的藏文词拼写检查

3.1 基于TC_LSTM的藏文词拼写检查结构

3.1.1 藏文文本错误分析

3.1.2 基于TC_LSTM的藏文词拼写检查结构

3.2 基于TC_LSTM的藏文词拼写检查方法

3.2.1 语言模型

3.2.2 TC_LSTM语言模型

3.2.3 基于TC_LSTM的藏文词拼写检查算法

3.3 本章小结

第四章 实验及数据分析

4.1 TC_LSTM模型测试

4.1.1 实验数据

4.1.2 超参数选择实验

4.1.3 实验结果及分析

4.2 基于TC_LSTM的词拼写检查测试

4.2.1 实验数据

4.2.2 实验结果及分析

4.3 本章小结

第五章 总结与展望

5.1 工作总结

5.2 研究展望

参考文献

致谢

上一篇:卫生资源论文提纲下一篇:网页设计教育改革论文提纲