网络利弊论文提纲

2022-11-15

论文题目:深度学习中深度问题与大模型问题的研究

摘要:近些年来,特别是2006年之后,深度神经网络(又被称为深度学习)迅速发展,在各个应用领域都取得了巨大的成功。从根本上讲,神经网络其实并不是一个全新的技术,它的很多模型和训练方法在20世纪90年代已经成型。但是,在当时神经网络并没有像如今一样被广泛且成功地应用。究其本质原因,2006年之后的深度神经网络取得的巨大成功离不开越来越多的层数(即深度)和越来越大的参数规模(即大模型)。为了有效地增加层数,诸如自动编码、批归一化、残差网络等技术被提出;为了高效地训练大模型,诸如数据并行、模型并行等并行训练框架被引入。尽管关于深度学习的研究十分繁荣,但是下述关于深度和大模型并行训练的问题还需进一步探索。第一,在深度方面,尽管有多种技术可以有效地增加神经网络的层数,然而一个重要的问题是如何从理论层面理解深度对于深度神经网络的利弊。第二,在大模型的训练方面,大多数并行算法都是从凸模型继承而来的。然而,深度神经网络是一个高度非凸模型。如何解决并行训练时模型非凸性带来的问题是一个重要的挑战。第三,与浅层模型相比,深度神经网络中的冗余参数非常多,这会导致并行训练时的传输代价非常高。因此,如何解决并行训练时参数冗余性带来的问题也是一个重要的挑战。为了解决上述问题,本文进行了如下几个方面的探索。第一,给出了深度神经网络模型空间容量和表达能力的通用上界,并基于这两个上界分析了深度对于神经网络的利弊,进而提出最大化间隔的方法来进一步提升深度神经网络的性能。第二,指出了非凸性会影响并行训练时模型整合步骤的性能,并提出了使用模型集成作为新的模型整合方式,进而设计了基于模型集成的并行训练框架来提高并行训练的性能。第三,提出了将基于轻量级传输的并行训练定义为一个多智能体系统,并给出了对于行为、环境及效用的具体定义。基于这个多智能体系统,设计了仅传输非冗余参数(或梯度)的策略来减小交互代价,从而达到了加速并行训练的目的。

关键词:深度学习;泛化能力;并行机器学习;数据并行;

学科专业:计算机科学与技术

摘要

abstract

第一章 绪论

第一节 研究背景与挑战

第二节 研究内容与创新点

第三节 文章组织结构

第二章 背景知识

第一节 深度学习简介

2.1.1 深度神经网络模型

2.1.2 优化方法

第二节 深度学习的泛化理论

2.2.1 基本定义

2.2.2 研究方向简介

2.2.3 与深度学习其他理论性质的关系

第三节 深度学习的并行机制

2.3.1 数据并行

2.3.2 模型并行

第四节 本章小结

第三章 深度神经网络中深度问题的思辨

第一节 研究必要性与本章贡献

第二节 相关工作

3.2.1 模型空间容量的度量

3.2.2 经验误差的度量

3.2.3 与本章工作的关系

第三节 深度神经网络的数学表示

第四节 深度对于深度神经网络的意义

3.4.1 基于间隔的泛化误差上界

3.4.2 深度和模型空间容量的关系

3.4.3 深度和基于间隔的经验误差的关系

3.4.4 深度和泛化误差的关系

第五节 基于间隔最大化的深度神经网络训练

3.5.1 算法描述

3.5.2 实验设置

3.5.3 实验结果

第六节 本章小结

第四章 基于模型集成的大模型训练

第一节 研究必要性与本章贡献

第二节 相关工作

4.2.1 模型整合方法的改进

4.2.2 模型压缩方法

4.2.3 与本章工作的关系

第三节 模型整合

4.3.1 参数平均

4.3.2 模型集成

第四节 EC-DNN的基本算法

4.4.1 算法框架描述

4.4.2 与传统模型集成方法的关系

第五节 EC-DNN的具体实现

4.5.1 模型多样化驱动的局部模型训练

4.5.2 加速化的基于模仿机制的模型压缩

4.5.3 时间复杂度分析

第六节 实验设置

4.6.1 平台、数据、模型及超参数设置

4.6.2 待比较的相关方法

第七节 实验结果

4.7.1 模型整合的效果

4.7.2 模型压缩的效果

4.7.3 EC-DNN和MA-DNN的比较

4.7.4 EC-DNN和E-DNN的比较

4.7.5 在超大规模数据集上的结果

4.7.6 关于EC-DNN的更多讨论

第八节 本章小结

第五章 基于轻量级传输的大模型训练

第一节 研究必要性与本章贡献

第二节 相关工作

5.2.1 减少交互代价的方法

5.2.2 多智能体系统简介

5.2.3 与本章工作的关系

第三节 轻量级传输的并行机制与多智能体系统

5.3.1 行为、环境及效用的定义

5.3.2 最适反应策略

第四节 Slim-DP的基本算法

5.4.1 算法描述

5.4.2 交互效率

5.4.3 时间复杂度

5.4.4 关于Slim-DP的更多讨论

第五节 实验设置

5.5.1 平台、数据、模型及超参数设置

5.5.2 待比较的相关方法

第六节 实验结果

5.6.1 交互代价

5.6.2 速度

5.6.3 准确率

5.6.4 探索和开发的权衡

5.6.5 准确率和速度的权衡

第七节 本章小结

第六章 总结及展望

第一节 本文工作总结

第二节 未来工作展望

参考文献

致谢

上一篇:学生操作技能化学实验论文提纲下一篇:装饰图案艺术的古建筑论文提纲