“小朋友出生后接收的是视觉、图像、语言,综合的信号,现在市面上的多模态模型是先将语言学到非常高的水平,再把视觉信息做了桥接。更像是打补丁的方法”,将多模态模型比作小朋友,智源研究院院长王仲远在10月21日向记者等详细讲解了多模态大模型Emu3,他认为,“Emu3的训练过程更像人类”。6月18日,智源研究院在智源大会上首次预告Emu3,10月21日这款模型正式发布,Emu3具备原生多模态能力,实现了图像、视频、文字的统一输入和输出。“走通这条路线意味着,用一个大模型解决所有问题”,王仲远总结。

智源研究院

10月21日,智源研究院正式发布原生多模态世界模型Emu3。根据智源研究院提供的案例,在仅给出一张消防栓照片的情况下,向Emu3发问:“哪种类型的车辆使用这个物品?”Emu3的回答是:消防车。“Emu3需要理解这句提问,理解这个图片里的物品是什么,以及图片里并没有出现的该物品对应的交通工具,Emu3需要自行联想”,王仲远介绍了这一问一答背后的逻辑。

对比效果,在图像生成、视觉语言理解、视频生成任务中,Emu3的表现超过了SDXL、LLaVA-1.6、OpenSora等开源模型。

Emu3只基于下一个token预测,无需扩散模型或组合式方法,把图像、文本和视频编码为一个离散空间,在多模态混合序列上从头开始联合训练一个Transformer。可以简单理解为,智源研究院证明了可以用另一种思路解决问题,这个思路是用一个大一统的模型实现原来需要多个复杂的模型可以做到的能力。

来自研究人员的评价是:“Emu3意味着出现了一个新的机会,可以通过统一的架构探索多模态,无需将复杂的扩散模型与大语言模型相结合。”

“Emu3的训练过程更像人类的学习过程,人类不是先学习文字的,小朋友出生后不断接收视觉、语言信号,Emu3也是一样,一开始就是通过视觉、图像、文字类数据训练”,王仲远告诉记者,“现在的多模态模型某些效果是非常不错的,但它们是先把语言学到非常高的水平之后,把视觉的信息做桥接,再发挥语言处理能力。这更像是一种打补丁的方式,不是人类大脑延伸的方式”。

从2023年初开始判断这条技术路线,到智源研究院正式发布Emu3,是0到1的过程。“要解决的问题包括把不同模态的数据统一成token,用什么样的数据做统一训练等”,多模态大模型研究中心负责人王鑫龙告诉记者。

王仲远认为这条技术路线的意义在于,“把整个世界都装在了一个模型里面,这个模型能够解决所有的问题”,他还向记者强调,“Emu3可以极大地复用现有的AI基础设施”,在成本和技术演进方面,王仲远有信心。

记者 魏蔚