VividTalk

8个月前发布 14 00

VividTalk是一种一次性音频驱动的头像生成技术,基于3D混合先验。它能够生成具有表情丰富、自然头部姿态和唇同步的逼真说唱视频。该技术采用了两阶段通用框架,支持生成具有上述所有特性的高视觉质量的说唱视频。具体来说,在第一阶段,通过学习两种运动(非刚性表情运动和刚性头部运动),将音频映射到网格。对于表情运动,采用混合形状和顶点作为中间表...

收录时间:
2025-05-30
VividTalkVividTalk

VividTalk是一种一次性音频驱动头像生成技术,基于3D混合先验。它能够生成具有表情丰富、自然头部姿态和唇同步的逼真说唱视频。该技术采用了两阶段通用框架,支持生成具有上述所有特性的高视觉质量的说唱视频。具体来说,在第一阶段,通过学习两种运动(非刚性表情运动和刚性头部运动),将音频映射到网格。对于表情运动,采用混合形状和顶点作为中间表示,以最大化模型的表征能力。对于自然头部运动,提出了一种新颖的可学习头部姿势码本,并采用两阶段训练机制。在第二阶段,提出了一个双分支运动VAE和一个生成器,将网格转换为密集运动,并逐帧合成高质量视频。大量实验证明,VividTalk能够生成具有唇同步和逼真增强的高视觉质量说唱视频,且在客观和主观比较中优于以往的最先进作品。该技术的代码将在发表后公开发布。

数据统计

相关导航

CORPORATEHEADSHOTS

CORPORATEHEADSHOTS

CORPORATEHEADSHOTS.AI 是一款利用人工智能技术,为用户提供高效便捷的企业头像生成服务的网站。通过上传自拍照片,用户可以在不费力、不花大价钱的情况下获得专业的企业头像。该产品由 Google 领先的人工智能工具提供支持,用户可以随时随地生成高质量的头像,而且价格实惠。用户可以选择不同的套餐,享受不同数量和风格的头像生成服务。同时,该产品也提供常见问题解答,保障数据隐私,以及用户条款等相关信息。
GAIA

GAIA

GAIA旨在从语音和单个肖像图像合成自然的对话视频。我们引入了GAIA(Avatar的生成AI),它消除了对话头像生成中的领域先验。GAIA分为两个阶段:1)将每帧分解为运动和外观表示;2)在语音和参考肖像图像的条件下生成运动序列。我们收集了大规模高质量的对话头像数据集,并在不同规模上对模型进行了训练。实验结果验证了GAIA的优越性、可扩展性和灵活性。方法包括变分自动编码器(VAE)和扩散模型。扩散模型被优化为在语音序列和视频片段中的随机帧的条件下生成运动序列。GAIA可用于不同的应用,如可控对话头像生成和文本指导的头像生成。
LiteAvatar

LiteAvatar

LiteAvatar是一个音频驱动的实时2D头像生成模型,主要用于实时聊天场景。该模型通过高效的语音识别和嘴型参数预测技术,结合轻量级的2D人脸生成模型,能够在仅使用CPU的设备上实现30fps的实时推理。其主要优点包括高效的音频特征提取、轻量级的模型设计以及对移动设备的友好支持。该技术适用于需要实时交互的虚拟头像生成场景,如在线会议、虚拟直播等,背景基于对实时交互和低硬件要求的需求而开发,目前开源免费,定位为高效、低资源消耗的实时头像生成解决方案。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...