
EMO (Emote Portrait Alive) 是阿里巴巴集团智能计算研究院的研究团队开发的一个音频驱动型肖像视频生成框架。具体来说,EMO系统基于音频信号驱动来生成肖像视频。用户只需要提供一张参考图片和一段音频文件(例如说话、唱歌的声音),EMO就能够根据音频内容生成一个生动的视频,视频中的人物会展现出丰富的面部表情和多变的头部动作,仿佛照片中的人物正在唱你所制定的语言或歌曲。
EMO系统不仅精准地捕获了人类微妙的表情细节和面部特征的个性化风格,因此能够生成高度真实感和强烈表现力的动态图像。而且,它还能根据输入音频的长度生成任意长度的视频,保持角色身份的一致性。无论是处理不同语言的歌曲、使古代画像动起来,还是生成具有逼真动作和表情的三维或AI生成内容,EMO都能够轻松应对,注入生动的动态效果。此外,它还能够驾驭快速节奏,确保快速歌词与角色动画的同步。
EMO (Emote Portrait Alive) 效果演示demo:
https://img.pidoutv.com/wp-content/uploads/2024/03/1453312183-1-16.mp4
EMO (Emote Portrait Alive) 项目地址
官方项目主页:https://humanaigc.github.io/emote-portrait-alive/
@arXiv研究论文:https://arxivorg/abs/2402.17485
GitHub: https://github.com/HumanAIGC/EMO(模型和源码待开源)
EMO(Emote Portrait Alive)的功能特点
- 音频驱动的视频生成:EMO系统基于音频信号来驱动肖像视频的生成。用户只需要提供一张参考图片和一段音频,EMO便能根据音频内容,如语音的节奏、音调和音量等,来生成对应的人物面部表情和头部动作。
- 丰富的表情和动作:EMO能够精准地捕捉人类微妙的表情细节,并生成多样化的头部动作。这使得生成的视频具有高度的真实感和强烈的表现力,仿佛照片中的人物真的在唱歌、说话或者做其他动作。
- 保持人物身份一致性:不论音频的时长如何,EMO都能生成与参考图片中人物身份一致的动态视频。这使得生成的视频具有连续性和统一性,用户可以根据需要生成任意长度的视频。
- 跨语言和多场景应用:EMO不仅能处理不同语言的音频,如中文、英文等,还能应用于多种场景,如使古代画像动起来、生成具有逼真动作和表情的三维或AI生成内容等。这展示了其广泛的适用性和灵活性。
- 同步性和节奏感:EMO能够驾驭快速节奏的音频,确保生成的视频与音频保持同步。这使得生成的肖像视频在演唱快速歌曲或进行快速对话时,仍然能够保持流畅和连贯。
- 个性化风格保留:在生成动态视频的过程中,EMO能够保持面部特征的个性化风格,使得生成的视频不仅具有动态效果,还能保留原始图片中的人物特色。
EMO (Emote Portrait Alive) 的技术原理
- 输入准备:用户提供一个参考图像(通常是目标角色的静态肖像)和相应的音频输入(如说话或唱歌的声音)。这些输入将作为生成视频的基础。
- 特征提取:使用ReferenceNet从参考图像中提取特征。ReferenceNet是一个与主网络(Backbone Network)结构相似的网络,它专注于从输入图像中提取详细的特征。
- 音频处理:音频输入通过预训练的音频编码器处理,以提取音频特征。这些特征捕捉了语音的节奏、音调和发音等信息,这些信息将用来驱动视频中角色的面部表情和头部动作。
- 生成视频:EMO利用骨干网络获取多帧噪声潜在输入,并尝试在每个时间步将它们去噪到连续的视频帧。骨干网络采用类似于SD 1.5的UNet结构,其中包含了用于维持生成帧之间连续性的时间模块。
- 注意力机制:EMO利用两种形式的注意力机制——参考注意力(Reference-Attention)和音频注意力(Audio-Attention)。参考注意力用于保持角色身份的一致性,而音频注意力则用于调整角色的动作,使之与音频信号相匹配。
- 时间模块:这些模块用于操纵时间维度并调整动作速度,以生成流畅且连贯的视频序列。时间模块通过自注意力层跨帧捕获动态内容,有效地在不同的视频片段之间维持一致性。
- 训练策略:EMO的训练分为三个阶段:图像预训练、视频训练和速度层训练。速度层的训练专注于调整角色头部的移动速度和频率。
- 去噪过程:在生成过程中,Backbone Network尝试去除多帧噪声,生成连续的视频帧。参考特征和音频特征被结合使用,以生成高度真实和表情丰富的视频内容。
EMO模型通过这种结合使用参考图像、音频信号和时间信息的方法,能够生成与输入音频同步且在表情和头部姿势上富有表现力的肖像视频,超越了传统技术的限制,创造出更加自然和逼真的动画效果。
数据统计
相关导航

IMYAI智能助手是一款功能强大、简单易用的AI服务平台,集成了GPT4、Claude、Midjourney、Stable Diffusion等先进技术。无论您是需要写作灵感、绘画创意,还是寻求办公助理、生活规划,IMYAI都能提供专业、高效的解决方案。

Hyper-SD
Hyper-SD 是字节跳动推出的一种先进图像生成框架,结合了轨迹分段一致性蒸馏(TSCD)和人类反馈学习(RLHF),显著提升了扩散模型在少步骤推理下的图像生成性能。通过 Hyper-SD,用户可以在 1 到 8 步的推理过程中生成高质量的图像,极大地提高了生成速度和效率。

VISION XL
VISION XL 是一款专注于解决视频逆问题的超高清视频修复工具。利用潜在图像扩散模型,VISION XL 高效处理视频去模糊、超分辨率和修复等任务,显著提升视频清晰度。支持多种降质形式和高分辨率重建,保证时间一致性。适用于视频修复、去模糊和超分辨率增强,让用户轻松实现高清视频的清晰化处理。

星流图像大模型
星流图像大模型由 LiblibAI 发布的一款自研图像大模型,名为 Star-3 Alpha。该模型基于业界领先的 F.1 基础算法架构训练而成,辅以全球最大的 LORA 增强模型库及不断进化的 AI 图像控制能力。在图像精准度、色彩表现力、美学捕捉的细腻表达等方面实现了显著的飞跃,成为新的业界标杆。

Boximator
Boximator是字节跳动推出的一款利用深度学习技术进行视频合成的先进工具。它使用文本提示和额外的盒子约束来生成丰富且可控制的视频运动,从而为用户创造独特的视频场景提供了灵活的运动控制。具体来说,Boximator可以通过文本精准控制生成视频中人物或物体的动作,能生成包含多个角色以及特定类型运动的复杂场景,并能精确生成物体和背景的细节。

千影QianYing
千影 QianYing 是一款由巨人网络 AI Lab 推出的有声游戏生成大模型,包含游戏视频生成大模型 YingGame 和视频配音大模型 YingSound。通过先进的人工智能技术,千影 QianYing 能够自动生成高质量、有声的游戏视频。YingGame 通过自定义角色、动作控制和物理模拟,创造互动性强的游戏内容;YingSound 则为视频添加高保真音效,实现精确的跨模态对齐和时间同步。

Darwin
Darwin是一个开源项目,专注于自然科学领域的大型语言模型构建,主要涵盖物理、化学和材料科学。通过对科学文献和数据集进行预训练和微调,Darwin 在科学问答和多任务学习任务中表现优异。它结合了结构化和非结构化的科学知识,提升了语言模型在科学研究中的效能。

光语金帆
光语金帆 是由无限光年公司推出的金融大模型,结合了顶尖的人工智能技术和人才资源,旨在构建超越客户期望的人工智能生成内容(AIGC)产品组合,推动金融行业生产力和用户交互体验的全面提升,实现金融服务的智能化、公平化和普惠化。
暂无评论...