商业银行操作风险预测论文提纲

2022-11-15

论文题目:基于依存句法分析和深度学习的中文领域事件抽取方法研究

摘要:中文领域事件抽取是一项具有挑战性的任务,它的目的是从大量非结构化文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现,供用户进行下一步的分析使用,是构建知识图谱、实现自动摘要等应用场景的基础环节。随着互联网大数据时代的到来,计算机技术与金融领域的关系越来越密切,自然语言处理就是金融科技领域的一项重要技术。银行业作为金融行业的支柱,面临各种风险,操作风险就是其中的一种。《巴赛尔协议Ⅲ》最终修订版中对操作风险资本计量方法进行了优化,对于操作风险数据质量提出了更高的要求。本文对中文领域事件抽取技术进行了研究,从最近十年的银行新闻文本数据中抽取出了操作风险事件,为建立外部银行操作风险事件数据库提供了技术上的支持。同时对于抽取出的操作风险事件从操作风险事件类型、银行机构类型、事件发生时间这三个维度归纳分析了近十年中国大中型商业银行的操作风险情况。在数据获取和预处理阶段,本文一共爬取了来自两个新闻网站的银行新闻文本数据十万余条,设计筛选算法得到银行操作风险主题的新闻,使用外部工具进行分词、词性标注等预处理工作。在事件抽取阶段,本文使用基于模式匹配的事件抽取方法,并在触发词抽取及事件类型识别环节分别使用了依存句法分析和深度学习两种方法,改善了事件抽取效果。首先,利用人工和程序结合的半自动化方法,构建了触发词种子词库并使用哈工大同义词词林对种子词库进行扩展形成触发词词库。利用新闻文本和网络信息构建领域词库。结合继承-归纳的思想和不同事件类型的特征,构建了适合抽取不同事件类型的模板库,为后续事件元素的抽取做准备。触发词抽取及事件类型识别环节是事件抽取的一项核心子任务,同时也是本文研究的重点,使用了以下两种方法,均取得了不错的效果。1)基于依存句法分析方法,利用Stanford Core NLP工具得到句子中各成分的依存关系,形成触发词-实体描述对。构造了包含词本身、词性以及依存句法分析得到的语义信息等多维特征向量,使用了SVM、随机森林和Adaboosting三种分类算法进行预测,其中SVM的效果最佳,F1值在两个环节均在86%以上。2)基于深度学习方法,以用Skip-gram模型训练得到的词向量和位置特征作为事件句的文本向量化表达,构建了CNN和Bi LSTM网络分别提取了词级别特征和句子级别特征,F1值在两个环节均在81%以上。事件元素抽取是事件抽取的另一项核心子任务,本文将基于框架的主题事件抽取方法的思想应用于事件发生时间和损失金额这两个事件元素的抽取,其中事件发生时间的抽取使用了共指消解的技术,提升了准确率。在进行基于模式匹配的事件抽取时,考虑到中文语言形式的灵活多样性,除了传统的完全匹配才能抽取的硬匹配外,本文还加入软匹配的方式,当待匹配文本模式与模板库中的模式具有高度相似度时,同样可以被抽取出,提高了抽取的召回率。最终事件元素抽取效果为银行机构名称的准确率为88%,事件的发生时间和损失金额的F1值均为84%以上。在应用研究阶段,本文对于抽取到的最近十年的所有中国大中型商业银行操作风险事件,首先进行定量分析,从操作风险事件类型、银行机构类型、事件发生时间多个维度统计了银行操作风险事件发生的频次和损失金额。其次定性地分析了上述现象产生的可能原因,并给出了一定的建议。本文设计出了效果较好的中文领域事件抽取方法,并在银行新闻文本上得到了验证,以先进的自然语言处理技术为商业银行操作风险管理助力。

关键词:中文事件抽取;依存句法分析;深度学习;模式匹配

学科专业:金融信息工程

摘要

abstract

第一章 绪论

第一节 研究背景

第二节 研究意义

第三节 研究思路与方法

一、研究思路

二、研究方法

第四节 论文结构安排

第二章 文献综述

第一节 国内外事件抽取方法研究现状

一、事件抽取技术方法综述

二、事件抽取学习方法综述

三、中文事件抽取方法综述

第二节 银行操作风险相关研究

一、巴赛尔协议Ⅲ中操作风险资本计量方法的相关理论

二、关于银行操作风险的研究现状

本章小结

第三章 研究设计

第一节 数据集的获取及预处理

一、数据集获取方法

二、数据集预处理

第二节 事件抽取方法的设计

一、词库的构建

二、触发词抽取及事件类型识别

三、基于模式匹配的事件元素抽取

四、事件抽取方法的评价体系

本章小结

第四章 实验与结果分析

第一节 数据集描述

第二节 事件抽取过程

一、文本语料的标注

二、触发词抽取和事件类型识别过程

三、触发词抽取和事件类型识别结果

四、事件元素抽取结果

五、事件抽取结果

第三节 应用研究

一、操作风险事件类型与事件发生频次、损失金额的关系

二、银行机构类型与事件发生频次、损失金额的关系

三、事件发生时间与事件发生频次、损失金额的关系

本章小结

第五章 总结与局限性

一、总结

二、局限性

参考文献

附录A 核心代码

1、新闻标题及正文内容的爬取

2、依存句法分析

3、深度学习

致谢

上一篇:安全监控论文提纲下一篇:国内教育行政论文提纲