检查技术论文提纲

2022-11-15

论文题目：基于LSTM的藏文词拼写检查技术研究

摘要：文本的自动校对是自然语言处理的基础工作之一,旨在用计算机对文本中存在的错误进行分析和改正的工作,目的是让计算机能够自动的将有错误的文本恢复为正确文本。拼写检查是利用计算机快速的检测文本中的错误,能够提高文本校对的效率,是文本校对中采用的一种首选技术。英、汉文本的拼写检查技术已取得了丰硕的成果,并广泛地应用于各种字处理软件。与英、汉文本的拼写检查技术相比,藏文文本的拼写检查技术还处于起步阶段,其研究在藏语语料库建设、语音识别、文字识别等诸多方面具有广泛的应用价值。本文借鉴英、汉文本的拼写检查技术,通过分析藏文文本中的错误类型和藏文拼写检查研究现状,提出了基于TCLSTM（Tibetan Characters LSTM,TCLSTM）语言模型的藏文词拼写检查方法。主要内容包括:（1）建立了实验语料藏语目前没有统一的语言模型训练和测试实验语料,因此我们利用爬虫技术从藏文网站中获取了大小为186MB,包含15147315个音节的藏文文本语料,并对其进行了预处理,得到了较高质量的实验语料。（2）构建TCLSTM语言模型藏文是字的序列,字与字之间有明确的分割标记,但词与词之间没有显示分割标记,藏文文本分词还存在诸多问题,因此提出了以字为输入单位的TCLSTM语言模型,并实验验证了其有效性。实验表明TCLSTM语言模型在测试集上的困惑度比传统的Bigram和Trigram语言模型分别降低了74和18,其效果比Bigram和Trigram语言模型得到了显著的提升。（3）设计藏文词拼写检查算法提出了基于TCLSTM语言模型的藏文词拼写检查方法,设计了基于TCLSTM语言模型的藏文词拼写检查算法,并实验验证了算法的有效性。实验表明,基于TCLSTM的词拼写检查最高准确率、召回率和F值分别达到了97.20%、85.89%和79.09%,最高准确率、召回率和F值比Bigram分别提高了11.87%、3.46%和1.85%,基于TCLSTM语言模型的藏文词拼写检查方法的性能优于Bigram语言模型。

关键词：自然语言处理;TC_LSTM;藏文词;拼写检查

学科专业：计算机应用技术

摘要

Abstract

第一章绪论

1.1 研究背景及意义

1.2 国外研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 研究内容及论文组织结构

第二章相关理论基础

2.1 藏文概述