音频驱动

共 10 篇网址

排序

发布更新浏览点赞

VividTalk

VividTalk是一种一次性音频驱动的头像生成技术，基于3D混合先验。它能够生成具有表情丰富、自然头部姿态和唇同步的逼真说唱视频。该技术采用了两阶段通用框架，支持生成具有上述所有特性的高视觉质量的说唱视频。具体来说，在第一阶段，通过学习两种运动（非刚性表情运动和刚性头部运动），将音频映射到网格。对于表情运动，采用混合形状和顶点作为中间表示，以最大化模型的表征能力。对于自然头部运动，提出了一种新颖的可学习头部姿势码本，并采用两阶段训练机制。在第二阶段，提出了一个双分支运动VAE和一个生成器，将网格转换为密集运动，并逐帧合成高质量视频。大量实验证明，VividTalk能够生成具有唇同步和逼真增强的高视觉质量说唱视频，且在客观和主观比较中优于以往的最先进作品。该技术的代码将在发表后公开发布。

0140

头像生成 # 图像动画 # 头像生成 # 视频合成

Loopy model

Loopy是一个端到端的音频驱动视频扩散模型，专门设计了跨剪辑和内部剪辑的时间模块以及音频到潜在表示模块，使模型能够利用数据中的长期运动信息来学习自然运动模式，并提高音频与肖像运动的相关性。这种方法消除了现有方法中手动指定的空间运动模板的需求，实现了在各种场景下更逼真、高质量的结果。

0110

音频处理 # 人工智能 # 动态模拟 # 肖像生成

JoyVASA

JoyVASA是一种基于扩散模型的音频驱动人像动画技术，它通过分离动态面部表情和静态3D面部表示来生成面部动态和头部运动。这项技术不仅能够提高视频质量和唇形同步的准确性，还能扩展到动物面部动画，支持多语言，并在训练和推理效率上有所提升。JoyVASA的主要优点包括更长视频生成能力、独立于角色身份的运动序列生成以及高质量的动画渲染。

0100

音频处理 # 人像动画 # 多语言支持 # 头部运动

LiteAvatar

LiteAvatar是一个音频驱动的实时2D头像生成模型，主要用于实时聊天场景。该模型通过高效的语音识别和嘴型参数预测技术，结合轻量级的2D人脸生成模型，能够在仅使用CPU的设备上实现30fps的实时推理。其主要优点包括高效的音频特征提取、轻量级的模型设计以及对移动设备的友好支持。该技术适用于需要实时交互的虚拟头像生成场景，如在线会议、虚拟直播等，背景基于对实时交互和低硬件要求的需求而开发，目前开源免费，定位为高效、低资源消耗的实时头像生成解决方案。

0100

头像生成 # 实时交互 # 开源 # 虚拟头像

EchoMimicV2

EchoMimicV2是由支付宝蚂蚁集团终端技术部研发的半身人体动画技术，它通过参考图像、音频剪辑和一系列手势来生成高质量的动画视频，确保音频内容与半身动作的连贯性。这项技术简化了以往复杂的动画制作流程，通过Audio-Pose动态协调策略，包括姿态采样和音频扩散，增强了半身细节、面部和手势的表现力，同时减少了条件冗余。此外，它还利用头部部分注意力机制将头像数据无缝整合到训练框架中，这一机制在推理过程中可以省略，为动画制作提供了便利。EchoMimicV2还设计了特定阶段的去噪损失，以指导动画在特定阶段的运动、细节和低级质量。该技术在定量和定性评估中均超越了现有方法，展现了其在半身人体动画领域的领先地位。

090

音频处理 # 人体动作 # 动画 # 半身动画

CyberHost

CyberHost是一个端到端音频驱动的人体动画框架，通过区域码本注意力机制，实现了手部完整性、身份一致性和自然运动的生成。该模型利用双U-Net架构作为基础结构，并通过运动帧策略进行时间延续，为音频驱动的人体动画建立了基线。CyberHost通过一系列以人为先导的训练策略，包括身体运动图、手部清晰度评分、姿势对齐的参考特征和局部增强监督，提高了合成结果的质量。CyberHost是首个能够在人体范围内实现零样本视频生成的音频驱动人体扩散模型。

090

音频处理 # 人体动画 # 人工智能 # 区域码本

MEMO

MEMO是一个先进的开放权重模型，用于音频驱动的说话视频生成。该模型通过记忆引导的时间模块和情感感知的音频模块，增强了长期身份一致性和运动平滑性，同时通过检测音频中的情感来细化面部表情，生成身份一致且富有表情的说话视频。MEMO的主要优点包括更真实的视频生成、更好的音频-唇形同步、身份一致性和表情情感对齐。该技术背景信息显示，MEMO在多种图像和音频类型中生成更真实的说话视频，超越了现有的最先进方法。

090

音频处理 # 情感检测 # 视频生成 # 身份一致性

SyncAnimation

SyncAnimation 是一种创新的音频驱动技术，能够实时生成高度逼真的说话头像和上半身动作。它通过结合音频与姿态、表情的同步技术，解决了传统方法在实时性和细节表现上的不足。该技术主要面向需要高质量实时动画生成的应用场景，如虚拟主播、在线教育、远程会议等，具有重要的应用价值。目前尚未明确其价格和具体市场定位。

070

头像生成 # NeRF # 上半身动作 # 实时动画

InfiniteTalk AI

InfiniteTalk AI是一种先进的音频驱动视频生成模型，能够实现唇部同步和全身动画，超越传统配音。其主要优点包括稀疏帧控制、长序列图像到视频转换以及保留身份和镜头运动等功能。

050

图像生成 # 全身视频配音 # 稀疏帧控制 # 逼真运动

FLOAT

FLOAT是一种音频驱动的人像视频生成方法，它基于流匹配生成模型，将生成建模从基于像素的潜在空间转移到学习到的运动潜在空间，实现了时间上一致的运动设计。该技术引入了基于变换器的向量场预测器，并具有简单而有效的逐帧条件机制。此外，FLOAT支持语音驱动的情感增强，能够自然地融入富有表现力的运动。广泛的实验表明，FLOAT在视觉质量、运动保真度和效率方面均优于现有的音频驱动说话人像方法。

050

音频处理 # 人像动画 # 人工智能 # 情感增强