热门

EchoMimicV2

11个月前发布 17 00

EchoMimicV2是由支付宝蚂蚁集团终端技术部研发的半身人体动画技术，它通过参考图像、音频剪辑和一系列手势来生成高质量的动画视频，确保音频内容与半身动作的连贯性。这项技术简化了以往复杂的动画制作流程，通过Audio-Pose动态协调策略，包括姿态采样和音频扩散，增强了半身细节、面部和手势的表现力，同时减少了条件冗余。此外，它还利用头部...

收录时间：

2025-05-30

打开网站手机查看

音频处理 # 人体动作 # 动画 # 半身动画 # 音频驱动 # 高质量视频

EchoMimicV2

EchoMimicV2

EchoMimicV2是由支付宝蚂蚁集团终端技术部研发的半身人体动画技术，它通过参考图像、音频剪辑和一系列手势来生成高质量的动画视频，确保音频内容与半身动作的连贯性。这项技术简化了以往复杂的动画制作流程，通过Audio-Pose动态协调策略，包括姿态采样和音频扩散，增强了半身细节、面部和手势的表现力，同时减少了条件冗余。此外，它还利用头部部分注意力机制将头像数据无缝整合到训练框架中，这一机制在推理过程中可以省略，为动画制作提供了便利。EchoMimicV2还设计了特定阶段的去噪损失，以指导动画在特定阶段的运动、细节和低级质量。该技术在定量和定性评估中均超越了现有方法，展现了其在半身人体动画领域的领先地位。

数据统计

相关导航

Loopy model

Loopy是一个端到端的音频驱动视频扩散模型，专门设计了跨剪辑和内部剪辑的时间模块以及音频到潜在表示模块，使模型能够利用数据中的长期运动信息来学习自然运动模式，并提高音频与肖像运动的相关性。这种方法消除了现有方法中手动指定的空间运动模板的需求，实现了在各种场景下更逼真、高质量的结果。

FLOAT

FLOAT是一种音频驱动的人像视频生成方法，它基于流匹配生成模型，将生成建模从基于像素的潜在空间转移到学习到的运动潜在空间，实现了时间上一致的运动设计。该技术引入了基于变换器的向量场预测器，并具有简单而有效的逐帧条件机制。此外，FLOAT支持语音驱动的情感增强，能够自然地融入富有表现力的运动。广泛的实验表明，FLOAT在视觉质量、运动保真度和效率方面均优于现有的音频驱动说话人像方法。

MEMO

MEMO是一个先进的开放权重模型，用于音频驱动的说话视频生成。该模型通过记忆引导的时间模块和情感感知的音频模块，增强了长期身份一致性和运动平滑性，同时通过检测音频中的情感来细化面部表情，生成身份一致且富有表情的说话视频。MEMO的主要优点包括更真实的视频生成、更好的音频-唇形同步、身份一致性和表情情感对齐。该技术背景信息显示，MEMO在多种图像和音频类型中生成更真实的说话视频，超越了现有的最先进方法。

JoyVASA

JoyVASA是一种基于扩散模型的音频驱动人像动画技术，它通过分离动态面部表情和静态3D面部表示来生成面部动态和头部运动。这项技术不仅能够提高视频质量和唇形同步的准确性，还能扩展到动物面部动画，支持多语言，并在训练和推理效率上有所提升。JoyVASA的主要优点包括更长视频生成能力、独立于角色身份的运动序列生成以及高质量的动画渲染。

CyberHost

CyberHost是一个端到端音频驱动的人体动画框架，通过区域码本注意力机制，实现了手部完整性、身份一致性和自然运动的生成。该模型利用双U-Net架构作为基础结构，并通过运动帧策略进行时间延续，为音频驱动的人体动画建立了基线。CyberHost通过一系列以人为先导的训练策略，包括身体运动图、手部清晰度评分、姿势对齐的参考特征和局部增强监督，提高了合成结果的质量。CyberHost是首个能够在人体范围内实现零样本视频生成的音频驱动人体扩散模型。

暂无评论

您必须登录才能参与评论！

none

暂无评论...