WorldDreamer

11个月前发布 20 00

WorldDreamer是一个创新的视频生成模型,它通过预测遮蔽的视觉令牌来理解并模拟世界动态。它在图像到视频合成、文本到视频生成、视频修复、视频风格化以及动作到视频生成等多个方面表现出色。该模型借鉴了大型语言模型的成功经验,将世界建模视为一个无监督的视觉序列建模挑战,通过将视觉输入映射到离散的令牌并预测被遮蔽的令牌来实现。

收录时间:
2025-05-30
WorldDreamerWorldDreamer

WorldDreamer是一个创新的视频生成模型,它通过预测遮蔽的视觉令牌来理解并模拟世界动态。它在图像到视频合成、文本到视频生成、视频修复、视频风格化以及动作到视频生成等多个方面表现出色。该模型借鉴了大型语言模型的成功经验,将世界建模视为一个无监督的视觉序列建模挑战,通过将视觉输入映射到离散的令牌并预测被遮蔽的令牌来实现。

数据统计

相关导航

千面数字人

千面数字人

千面数字人是一款AI数字人视频生成工具,千面数字人Avatar系列的两款产品均依托先进 AI 技术,为用户带来创意内容生成新体验。音频转换产品能将静态图片与音频融合,让图片中的人物随声音动起来唱歌、说话,实现从静到动的趣味转化;模仿动作产品则可将 5 秒内的真人动作视频与动漫人物图片结合,使动漫角色精准复刻真人动作,赋予虚拟形象真实动态。两者操作简便,能满足二次元创作、游戏互动、社交娱乐等多元场景需求,助力用户轻松释放创意。
Vchitect 2.0

Vchitect 2.0

Vchitect 2.0(筑梦2.0)是一款由上海人工智能实验室开发的高级视频生成模型,旨在赋予视频创作新的动力。它支持20秒视频生成,灵活的宽高比,生成空间时间增强,以及长视频评估。Vchitect 2.0通过其先进的技术,能够将静态图像转换为5-10秒的视频,使用户能够轻松地将照片或设计转换为引人入胜的视觉体验。此外,Vchitect 2.0还支持长视频生成模型的评估,通过VBench平台,提供全面且持续更新的评估排行榜,支持多种长视频模型,如Gen-3、Kling、OpenSora等。
造点AI

造点AI

造点AI是夸克(Quark)推出的AI图像创作生成平台,集成AI生图与AI生视频两大核心能力,于2025年9月24日正式发布。造点AI依托通义万相Wan2.5模型,是首个支持音画同步视频生成的平台,可以生成和画面匹配的人声、音效和背景音乐。造点AI视频支持10S时长的视频生成,单次生成即可实现完整的剧情故事,画质能够满足电影级场景的需求。造点AI生图全面支持 Midjourney V7的多项核心能力,包括多图参考、风格代码、精细化参数控制等,可以满足专业创作者在构图、风格与细节上的高阶需求。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...