EN

面向大规模预训练语言模型的参数高效微调

“大规模预训练语言模型+微调”是实现 ChatGPT 等现代自然语言处理任务的主流范式。不同于全参数微调所需的高昂成本,“高效参数微调”仅用少于1%模型规模的参数,即可低门槛实现相媲美效果,成为大势所趋。

针对“高效参数微调”,该工作提出了“增量微调”(Delta Tuning)新视角,对于指导新的大模型架构和算法设计具有重大的实践意义和理论价值,有助于提升大模型的性能、泛化性、效率,有助于实现更好的大模型“快速训练与存储空间节省”“多任务学习”“中心化模型服务和并行计算”。

研究团队提出,参数高效微调方法的本质是在对“增量参数”(Delta Parameters)进行调整,因此将此类方法命名为“增量微调”(Delta Tuning),并基于统一的分析框架对增量微调现有方法进行梳理总结,将现有方法分为三类:添加式(Addition-based)、指定式(Specification-based)和重参数化(Reparameterization-based)方法。为了指导后续的模型架构和算法设计,团队还进一步从参数优化和最优控制两个角度,提出了增量微调的理论框架,为探索和解释增量微调的内在机理提供了可行方案。


文本正文
复制文本
媒体联络
media@baai.ac.cn