论文题目:基于LSTM的藏文词拼写检查技术研究
摘要:文本的自动校对是自然语言处理的基础工作之一,旨在用计算机对文本中存在的错误进行分析和改正的工作,目的是让计算机能够自动的将有错误的文本恢复为正确文本。拼写检查是利用计算机快速的检测文本中的错误,能够提高文本校对的效率,是文本校对中采用的一种首选技术。英、汉文本的拼写检查技术已取得了丰硕的成果,并广泛地应用于各种字处理软件。与英、汉文本的拼写检查技术相比,藏文文本的拼写检查技术还处于起步阶段,其研究在藏语语料库建设、语音识别、文字识别等诸多方面具有广泛的应用价值。本文借鉴英、汉文本的拼写检查技术,通过分析藏文文本中的错误类型和藏文拼写检查研究现状,提出了基于TCLSTM(Tibetan Characters LSTM,TCLSTM)语言模型的藏文词拼写检查方法。主要内容包括:(1)建立了实验语料藏语目前没有统一的语言模型训练和测试实验语料,因此我们利用爬虫技术从藏文网站中获取了大小为186MB,包含15147315个音节的藏文文本语料,并对其进行了预处理,得到了较高质量的实验语料。(2)构建TCLSTM语言模型藏文是字的序列,字与字之间有明确的分割标记,但词与词之间没有显示分割标记,藏文文本分词还存在诸多问题,因此提出了以字为输入单位的TCLSTM语言模型,并实验验证了其有效性。实验表明TCLSTM语言模型在测试集上的困惑度比传统的Bigram和Trigram语言模型分别降低了74和18,其效果比Bigram和Trigram语言模型得到了显著的提升。(3)设计藏文词拼写检查算法提出了基于TCLSTM语言模型的藏文词拼写检查方法,设计了基于TCLSTM语言模型的藏文词拼写检查算法,并实验验证了算法的有效性。实验表明,基于TCLSTM的词拼写检查最高准确率、召回率和F值分别达到了97.20%、85.89%和79.09%,最高准确率、召回率和F值比Bigram分别提高了11.87%、3.46%和1.85%,基于TCLSTM语言模型的藏文词拼写检查方法的性能优于Bigram语言模型。
关键词:自然语言处理;TCLSTM;藏文词;拼写检查
学科专业:计算机应用技术
摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.2 国外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 研究内容及论文组织结构
第二章 相关理论基础
2.1 藏文概述
2.2 循环神经网络
2.2.1 RNN
2.2.2 LSTM
2.3 本章小结
第三章 基于TC_LSTM的藏文词拼写检查
3.1 基于TC_LSTM的藏文词拼写检查结构
3.1.1 藏文文本错误分析
3.1.2 基于TC_LSTM的藏文词拼写检查结构
3.2 基于TC_LSTM的藏文词拼写检查方法
3.2.1 语言模型
3.2.2 TC_LSTM语言模型
3.2.3 基于TC_LSTM的藏文词拼写检查算法
3.3 本章小结
第四章 实验及数据分析
4.1 TC_LSTM模型测试
4.1.1 实验数据
4.1.2 超参数选择实验
4.1.3 实验结果及分析
4.2 基于TC_LSTM的词拼写检查测试
4.2.1 实验数据
4.2.2 实验结果及分析
4.3 本章小结
第五章 总结与展望
5.1 工作总结
5.2 研究展望
参考文献
致谢
【检查技术论文提纲】相关文章:
用电检查技术论文提纲11-15
安全检查论文提纲11-15
执法检查论文提纲11-15
防火监督检查工作论文提纲11-15
学校安全检查法律论文提纲11-15
孕前健康检查风险评估论文提纲11-15
B超检查妇产科论文提纲11-15
春安检查提纲04-11
案件检查谈话提纲06-22
对照检查发言提纲06-28