CyberHost

12个月前发布 15 00

CyberHost是一个端到端音频驱动的人体动画框架,通过区域码本注意力机制,实现了手部完整性、身份一致性和自然运动的生成。该模型利用双U-Net架构作为基础结构,并通过运动帧策略进行时间延续,为音频驱动的人体动画建立了基线。CyberHost通过一系列以人为先导的训练策略,包括身体运动图、手部清晰度评分、姿势对齐的参考特征和局部增强监督...

收录时间:
2025-05-30
CyberHostCyberHost

CyberHost是一个端到端音频驱动人体动画框架,通过区域码本注意力机制,实现了手部完整性、身份一致性和自然运动的生成。该模型利用双U-Net架构作为基础结构,并通过运动帧策略进行时间延续,为音频驱动的人体动画建立了基线。CyberHost通过一系列以人为先导的训练策略,包括身体运动图、手部清晰度评分、姿势对齐的参考特征和局部增强监督,提高了合成结果的质量。CyberHost是首个能够在人体范围内实现零样本视频生成的音频驱动人体扩散模型。

数据统计

相关导航

ElevenLabs Studio

ElevenLabs Studio

ElevenLabs Studio 是一个专注于音频内容创作的平台,利用先进的人工智能技术,能够将文本内容转化为高质量的音频。其主要优点包括支持多种文件格式、提供丰富的语音库、能够根据情感和上下文调整语音表达等。该平台适用于有声读物制作、播客创作等场景,能够帮助创作者高效地生成音频内容,提升创作效率和质量。其定价策略可能因用户需求和使用场景而异,具体价格可参考官网的定价页面。
FLOAT

FLOAT

FLOAT是一种音频驱动的人像视频生成方法,它基于流匹配生成模型,将生成建模从基于像素的潜在空间转移到学习到的运动潜在空间,实现了时间上一致的运动设计。该技术引入了基于变换器的向量场预测器,并具有简单而有效的逐帧条件机制。此外,FLOAT支持语音驱动的情感增强,能够自然地融入富有表现力的运动。广泛的实验表明,FLOAT在视觉质量、运动保真度和效率方面均优于现有的音频驱动说话人像方法。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...