EN
2022年03月25日研究成果

面向具身智能的动态环境问答评测数据集

王瑞平团队


中科院计算所研究员、智源青年科学家王瑞平等面向具身智能的动态环境理解评测新问题,构建发布了一个包含2.3万段第一人称视频、8.5万个问题-答案对的视频问答数据集Env-QA,其中每段视频由一系列环境中的动态交互事件组成,从多个角度评测模型对视频所描绘环境的理解能力,包括环境的组成、布局和状态变化等。研究团队同时提出了一个基准视频问答模型来初步解决该任务,模型根据视频内容自适应进行事件片段划分,设计事件级注意力机制实现多步推理并回答问题。相关成果发表在国际计算机视觉大会IEEE ICCV 2021(2021年10月)。

 

王瑞平.jpg


Difei Gao, Ruiping Wang(通信作者), Ziyi Bai, Xilin Chen, “Env-QA: A Video Question Answering Benchmark for Comprehensive Understanding of Dynamic Environments,” 18th IEEE International Conference on Computer Vision (ICCV 2021), pp. 1675-1685, Oct. 11-17, 2021.


分享到: