多媒体新闻分析论文提纲

2022-11-15

论文题目:基于主题模型的多媒体问答研究

摘要:近年来,随着社交媒体的迅速发展,在我们的日常生活中出现了许多图片和视频共享网站,比如图片分享网站Flickr、视频网站YouTube等。同时,用户也已经习惯在Twitter、Sina Weibo、ABCNews、BBCNews等各大社交平台和新闻媒体网站上发表博文、获取当前的热点事件等新闻。互联网上急剧增长的文本、图片和视频数据,对用户来说容易产生“数据灾难”的问题。因此,如何有效的对这样海量的数据进行管理并从中挖掘有用的信息提供给用户是一个亟待解决的问题。另外,如何利用社交媒体的多媒体数据来给用户提供更加丰富的信息是当前的一个研究趋势。再者,鉴于当前问答系统的研究热点,如何给用户提供一个友好的问答结果呈现形式也是当前要考虑的一个问题。针对前面所述,本文的工作是基于主题模型的多媒体问答研究,通过利用主题模型从大规模的新闻媒体数据中挖掘出有价值的信息内容提供给用户,同时结合文本数据和多媒体数据共同给用户提供更加全面丰富的内容信息,最后将挖掘到的各方面信息呈现给用户。具体来说,本文的主要工作及创新如下:(1)对检索结果的多媒体新闻摘要方法针对当前新闻媒体上产生越来越多的新闻数据,用户面对如此庞大的新闻数据容易出现不知所措的情况。本文将当前比较流行的主题模型引入到新闻数据摘要中,提出了一种对检索返回的结果进行多媒体新闻摘要的流程框架,将当前应用广泛的层次隐含狄利克雷分配(hierarchical Latent Dirichlet Allocation,hLDA)用来进行新闻主题的挖掘,从而将检索返回的相关新闻数据集合划分为不同的主题类别,便于用户快速浏览相关新闻内容。在本文提出的框架中,开发实现了从文本清理、主题检测以及每个主题中的代表性文档和代表性图片的选择这一系列的分析流程。(2)基于双词组合和图片的主题模型针对类似新浪微博这样的社交媒体网站上大量增长的数据,从数据中推断主题是一个重要的研究问题。在本文中,我们对新浪微博数据进行主题模型的研究,以期获得更好的主题检测能力。由于新浪微博上的数据基本都是以短文本的形式出现的,这样每个文档中的词语出现频率都比较低,传统的主题模型进行模型学习时就容易出现文本频率稀疏的问题,因此为了避免这种短文本中文本稀疏问题,本文通过双词组合的形式来进行主题模型的学习。同时,由于新浪微博上不仅存在着文本数据形式,还存在用户上传的图片等数据,因此本文在双词组合的基础上提出了综合利用文本和图片信息的主题模型IBTM,通过两者相结合的方式提高主题模型的主题检测能力。(3)基于多源信息的多媒体问答实现当前的新闻媒体网站上存在着多种模态的数据,有文本、有图像和视频,如何有效的利用这些数据是一个非常值得研究的问题。本文中提出了一个基于多源信息的多媒体问答方法,并给出了多媒体问答的流程框架。在该流程中,首先分析用户提交的新闻查询问题,然后利用改进的权重BM25方法返回与查询相关的新闻数据,包含文本和图片信息。最后通过经典的隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)模型从返回的相关新闻数据中检测不同的主题类别,同时利用提出的选择规则从每个主题类别中选择一个图片作为该主题的主题图片,该主题图片亦作为文本内容的补充,从视觉角度呈现给用户。

关键词:主题模型;社交媒体;新闻摘要;多媒体问答

学科专业:计算机科学与技术

摘要

Abstract

1 绪论

1.1 研究背景和意义

1.2 研究问题

1.2.1 文本主题模型

1.2.2 多模态主题模型

1.2.3 多媒体问答

1.3 本文工作与贡献

1.4 论文组织

2 相关研究工作

2.1 社交媒体研究

2.2 预处理技术

2.2.1 网络爬虫技术

2.2.2 文档解析处理

2.2.3 图像处理技术

2.3 主题模型研究

2.3.1 无层次结构主题模型

2.3.2 层次结构主题模型

2.3.3 主题模型学习方法

2.4 问答系统研究

2.5 小结

3 检索相关的多媒体新闻摘要

3.1 引言

3.2 相关工作

3.3 层次主题结构

3.4 多媒体主题表示

3.5 代表性新闻选择

3.5.1 基于树的文档相似性

3.5.2 加权整合

3.6 代表性图片选择

3.7 时间偏差子主题链接

3.8 用户界面概览

3.9 实验

3.9.1 数据集合和实验设置

3.9.2 实验分析

3.10 小结

4 基于图片和双词组合的主题模型

4.1 引言

4.1.1 基于文本的主题模型

4.1.2 基于文本和图片的主题模型

4.2 IBTM主题模型

4.2.1 双词提取

4.2.2 模型框架

4.2.3 参数估计

4.3 实验

4.3.1 数据集合

4.3.2 实验分析

4.4 小结

5 基于多源信息的多媒体问答实现

5.1 引言

5.2 系统流程框架

5.3 实现过程

5.3.1 数据索引

5.3.2 查询扩展

5.3.3 新闻文档检索

5.4 主题分析和图片选择

5.4.1 主题分析

5.4.2 主题图片选择

5.5 实验

5.5.1 数据采集

5.5.2 用户调查分析

5.5.3 准确性分析

5.6 小结

6 总结与展望

6.1 本文工作总结

6.2 未来工作展望

致谢

参考文献

上一篇:语言石化外语教学论文提纲下一篇:通讯技术论文提纲