高保真

共 3 篇网址

排序

发布更新浏览点赞

CHANGER

CHANGER是一个创新的工业级头部混合技术，通过色键技术实现高保真度的头部混合效果，特别适用于视觉效果(VFX)、数字人物创建和虚拟头像等领域。该技术通过分离背景集成和前景混合，利用色键生成无瑕疵的背景，并引入头部形状和长发增强(H^2增强)以及前景预测性注意力转换器(FPAT)模块，以提高对各种真实世界情况的泛化能力。CHANGER的主要优点包括高保真度、工业级结果、以及对真实世界案例的广泛适用性。

0270

头像生成 # VFX # 头部混合 # 数字人物

mochi-1-preview

这是一个先进的视频生成模型，采用 AsymmDiT 架构，可免费试用。它能生成高保真视频，缩小了开源与闭源视频生成系统的差距。模型需要至少 4 个 H100 GPU 运行。

0230

视频创作 # 开源 # 视频生成 # 高保真

MelodyFlow

MelodyFlow是一个基于文本控制的高保真音乐生成和编辑模型，它使用连续潜在表示序列，避免了离散表示的信息丢失问题。该模型基于扩散变换器架构，经过流匹配目标训练，能够生成和编辑多样化的高质量立体声样本，且具有文本描述的简单性。MelodyFlow还探索了一种新的正则化潜在反转方法，用于零样本测试时的文本引导编辑，并展示了其在多种音乐编辑提示中的优越性能。该模型在客观和主观指标上进行了评估，证明了其在标准文本到音乐基准测试中的质量与效率上与评估基线相当，并且在音乐编辑方面超越了以往的最先进技术。

0150

文案写作 # 扩散变换器 # 文本引导 # 流匹配