EN

「悟道3.0」Emu模型开源,「多模态-to-多模态」全能高手

首个打通从多模态输入到多模态输出的「全能高手」,统一多模态预训练模型 Emu 开源,来自智源研究院「悟道·视界」研究团队。


超越了此前 DeepMind 的多模态大模型 Flamingo,Emu 刷新8项性能指标;并且模型能力覆盖图像与文本的生成及视频理解,更通用,能完成任意图生文以及文生图的多模态任务。

这一突破来自于 Emu 创造性地建立了多模态统一学习框架与视频数据的大量采用,最终得以实现对任意形式的多模态的上下文序列进行图文任意模态的补全,即对于任意模态进行下一步自回归预测。


文本正文
复制文本
媒体联络
media@baai.ac.cn