以ChatGPT为代表的LLM大模型已经在诸多领域展示出了卓越的应用前景。2023年5月24日,处理器芯片全国重点实验室在中科院计算所组织了关于大模型技术的分享会,对大模型技术感兴趣的同学和老师进行了分享交流。
分享会上,徐睿远、陈奥、余秋初、张忠诚等同学分别从大模型参数微调技术,大模型并行训练技术,大模型轻量化技术以及关于Tensor IR的设计与思考等方面,分别介绍了他们关于大模型的研究探索以及对一些问题的思考。
徐睿远以大模型家族的演进历史与特点为引入,首先从Transformer典型架构开始介绍了大型语言模型的不同技术路线的基本原理,接着以BERT系列模型为例介绍了Encoder-only架构的语言模型的预训练与微调范式,以GPT系列模型为例介绍了Decoder-only架构的语言模型的预训练与微调方案。然后分别就专用模型的传统微调及各类Adapter方案,以及通用型模型的上下文学习等微调方案开展介绍。最后对大模型的若干核心概念进行总结阐述。
陈奥详细介绍了近十年来随着大模型规模不断增加,训练大模型所面临的困难,并对其在现有大模型训练框架中的应用进行了概述。为了应对单卡难以训练大模型的问题,目前大规模分布式训练框架使用了多种并行技术。随后,描述了数据并行、流水并行、张量并行和序列并行等并行技术的优缺点。他分析了这些并行技术的性能效果,并探讨了它们的组合运用对大模型训练所取得的成果。最后,对现有的大规模训练分布式技术进行了总结,分布式技术在解决大模型训练困难方面发挥着重要作用。
余秋初首先介绍了如何通过理论分析来评估大模型的参数量和计算访存行为。在大模型中,参数主要来自Transformer块和Embedding层,一个Transformer块内的运算主要包括线性运算(主要是矩阵乘法)和非线性运算(如GELU激活函数)。随着输入序列长度增加,线性运算中特征值之间的矩阵乘法计算开销明显增加,而非线性运算的访存开销也明显增加。优化这两类运算是大模型优化的重要方向之一。接着,他介绍了剪枝和量化两类模型压缩方法的基本原理。由于大模型训练和微调的成本较高,目前学术界主要关注一些训练后的模型压缩方法,如GPTQ等,针对大模型的计算行为和运行时特点,需要设计更有效的解决方案来实现大模型的轻量化。
张忠诚详细介绍了NVIDIA在ASPLOS2023会议上发表的一篇关于Tensor IR设计的文章,该IR能够优雅地表示Tensor的内存布局、Tensor的切分、线程组以及Tensor与线程之间的映射关系。这使得用户可以轻松地使用NVIDIA GPU提供的多维Tensor指令,而无需编写PTX汇编代码。根据实验结果显示,该IR在深度学习相关的内核上与当前成熟的手写库相比,仍然具有强大的竞争力。该设计的出现为深度学习任务中的Tensor操作带来了新的便利和效率。这一设计的出现将极大地提升深度学习任务中Tensor操作的便捷性和效率,为研究人员和开发者带来更多可能性和创新空间。