新闻时效研究论文提纲

2022-11-15

论文题目:基于数据挖掘的网络新闻数据的分析与研究

摘要:随着网络的迅速发展,网络新闻的数据规模也在不停增长。如今,移动设备已经大面积普及,新闻生产者采编新闻越来越轻松,新闻消费者阅读新闻时也越来越便利;在日常的新闻生产、新闻消费过程中,产生了大量的数据;研究网络新闻数据的数据挖掘策略具有重要的理论与应用价值。由于网络新闻数据数量巨大,新闻生产者对新闻生产系统的知识挖掘较为困难;而新闻消费者更难以在大量的网络新闻中快速寻找符合自己兴趣的高价值新闻。前者依赖于高效精准的网络新闻主题聚类算法,而后者则依赖于优秀的个性化推荐算法。为此,本文针对网络新闻系统中的生产系统与消费系统,提出了新的数据挖掘与推荐算法,具体包括:1)对于网络新闻文档主题聚类中常见的语义不清、聚类算法无法增量更新等问题,提出了基于LDA主题模型的Single-Pass聚类算法。通过合理利用新闻标题、新闻正文以及新闻线索文档语料库,使用改进的LDA主题聚类策略,结合Single-Pass聚类算法完成增量式更新,提高新闻主题聚类算法的效果。仿真实验表明,该算法可以提高聚类算法的准确率,同时适合增量式更新。2)针对网络新闻推荐系统中,新闻时效性差、个性化推荐计算时冗余旧新闻过多的问题,本文结合文献信息老化模型,在新闻主题聚类结果的基础上,提出了一种推荐算法。先计算新闻发布后的老化率,在协同过滤推荐过程中考虑新闻老化速度,优先推荐高时效性新闻。通过仿真验证,该算法能提高协同过滤推荐算法的效果。

关键词:时效性模型;协同过滤;LDA;Single Pass

学科专业:信息与通信工程

摘要

ABSTRACT

第一章 绪论

1.1 研究背景

1.1.1 网络新闻数据挖掘的概念、意义

1.2 网络新闻数据挖掘的研究现状

1.2.1 网络新闻主题聚类的研究现状

1.2.2 网络新闻个性化推荐算法的研究现状

1.3 本文的主要研究内容与创新点

1.4 本文的组织结构

第二章 相关技术与预备知识

2.1 数据挖掘

2.1.1 数据挖掘技术综述

2.1.2 数据挖掘的流程与用途

2.1.3 数据挖掘的常用技术

2.2 数据聚类分析技术

2.3 个性化推荐技术

2.4 网络新闻数据的表示与预处理技术

2.4.1 分词处理

2.4.2 文本表示模型

2.4.3 TF-IDF特征权重算法

2.4.4 本文文本特征选择及TF-IDF算法改进

2.5 本章小结

第三章 基于隐含狄利克雷分布的Single-Pass聚类算法

3.1 网络新闻主题聚类问题

3.2 隐含狄利克雷分布主题模型

3.2.1 隐含狄利克雷分布主题数学模型定义

3.2.2 吉布斯采样方法求解LDA模型

3.2.3 隐含狄利克雷分布主题模型的优缺点

3.3 Single-Pass聚类算法

3.3.1 Single-Pass聚类算法的定义

3.3.2 Single-Pass聚类算法的优缺点

3.4 基于隐含狄利克雷分布改进的Single-Pass聚类算法

3.4.1 算法设计

3.4.2 数据模型

3.4.3 算法步骤

3.4.4 实验与结果分析

3.5 本章小结

第四章 基于新闻时效性模型的协同过滤推荐算法

4.1 新闻时效性模型

4.1.1 文献老化过程

4.1.2 文献信息老化模型

4.1.3 新闻时效性模型

4.2 协同过滤推荐算法

4.2.1 基于项目的协同过滤推荐算法原理

4.2.2 基于用户的协同过滤推荐算法原理

4.2.3 两种协同过滤推荐算法的比较与不足

4.3 基于新闻时效性模型的协同过滤推荐算法

4.3.1 算法设计

4.3.2 数据模型

4.3.3 通过时效性参数改进推荐算法

4.3.4 实验与结果分析

4.4 本章小结

第五章 总结与展望

5.1 本文工作总结

5.2 存在问题与未来展望

参考文献

致谢

上一篇:统计学教育分析论文提纲下一篇:独立学院国际经济论文提纲