CPM系列模型旨在训练更好的中文大规模预训练语言模型,由北京智源人工智能研究院和清华大学共同研发,目前共有3个模型:CPM-1、CPM-2和CPM-3。CPM-1是第一个中文大规模预训练语言模型,使用100GB数据训练,共26亿参数。预训练任务采取经典的自回归语言模型,可以迁移到各种中文下游自然语言处理任务中。实验结果表明CPM-1在对话、文本生成等下游任务上取得了优异的少次学习或零次学习的性能。随着预训练模型参数规模急速增长,相应的计算开销极大程度限制了大规模预训练模型的使用。针对该问题,本团队设计了一套高效预训练框架,通过词表优化、知识继承、混合专家化等技术,显著降低了大规模预训练模型训练的开销。基于此框架进一步训练了CPM-2,该模型采用encoder-decoder框架,兼顾理解与生成,在文本理解和文本生成的任务上都优于谷歌发布的同等参数规模的大规模预训练模型mT5。CPM-3基于BMTrain高效训练框架实现,能取得显著优于Deepspeed的分布式加速效果,覆盖续写、填空、缩写、扩写、改写等所有类型的文本生成任务,并且具有原生的可控文本生成能力,能够根据给定的关键词、知识图谱、事件、长度、风格等控制信号生成连贯、流畅的文本。CPM-3在预训练阶段采用多样化的任务设计和提示模板预训练技术,在零样本和少样本场景中有十分优秀的文本生成效果。