快知数码资讯网

一个快速了解最新数码资讯的网站。
  1. 首页
  2. 数码资讯
  3. 正文

智源发布原生多模态世界模型Emu3,宣称实现图像、文本、视频大一统

2024年11月5日 0条评论

智源研究院最新发布原生多模态世界模型 Emu3,该模型在文本、图像、视频理解与生成方面取得了突破性进展。据悉,Emu3基于下一个 token 预测,无需扩散模型或组合方法,即可实现在三种模态数据的理解和生成。

在图像生成任务中,Emu3优于SD-1.5与SDXL模型,在视觉语言理解任务中优于LlaVA-1.6,在视频生成任务中优于OpenSora 1.2。此外,Emu3还提供了强大的视觉tokenizer功能,能够将视频和图像转换为离散token,并且这些离散token可以与文本tokenizer输出的离散token一起送入模型进行处理。

研究表明,通过将复杂的多模态设计收敛到token本身,在大规模训练和推理中释放出巨大的潜力是可行的。因此,在大规模训练和推理时采用Emu3将会更加高效。值得一提的是,Emu3已经开源了关键技术和模型,并且其项目页面也已上线。

总之,智源研究院最新发布的Emu3原生多模态世界模型是一款值得关注的产品。它在三种模态数据的理解和生成方面取得了突破性进展,为研究人员提供了一个统一的研究范式。同时,Emu3已经开源了关键技术和模型,并且其项目页面也已上线。如果您对该产品感兴趣,不妨一试!

本文属于原创文章,如若转载,请注明来源:智源发布原生多模态世界模型Emu3,宣称实现图像、文本、视频大一统https://news.zol.com.cn/910/9106677.html

https://news.zol.com.cn/910/9106677.html news.zol.com.cn true 中关村在线 https://news.zol.com.cn/910/9106677.html report 913 智源研究院最新发布原生多模态世界模型 Emu3,该模型在文本、图像、视频理解与生成方面取得了突破性进展。据悉,Emu3基于下一个 token 预测,无需扩散模型或组合方法,即可实现在三种模态数据的理解和生成。在图像生成任务中,Emu3优于SD-1.5与SDXL模型,在视觉语言理解...

标签: 暂无
最后更新:2024年11月5日

数码资讯网主编

这个人很懒,什么都没留下

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

COPYRIGHT © 2024 快知数码资讯网. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

蜀ICP备2024099913号-1