EN

Painter通用视觉模型:首创「上下文视觉学习」技术路径

图像理解图像、图像解释图像,图像输出图像。将NLP中的上下文学习概念引入视觉模型,是智源对通用智能的新探索。


通用视觉模型 Painter , 将“以视觉为中心”作为建模核心思想,将图像作为输入和输出,从而获得上下文视觉信息,完成不同的视觉任务。


通用视觉模型Painter的设计思路是将大多数视觉任务看成”图像修复问题“,即给定输入(“缺失”)图像,预测输出是“修复“过的图像。这保持了像素之间的空间关系,确保每个输出图像的像素仍然代表相关任务的输出。

文本正文
复制文本
媒体联络
media@baai.ac.cn