热门

TCAN

12个月前发布 12 00

TCAN是一种基于扩散模型的新型人像动画框架，它能够保持时间一致性并很好地泛化到未见过的领域。该框架通过特有的模块，如外观-姿态自适应层(APPA层)、时间控制网络和姿态驱动的温度图，来确保生成的视频既保持源图像的外观，又遵循驱动视频的姿态，同时保持背景的一致性。

收录时间：

2025-05-29

打开网站手机查看

开发者工具 # 人像动画 # 开发编程 # 扩散模型 # 时间一致性

TCAN

TCAN

TCAN是一种基于扩散模型的新型人像动画框架，它能够保持时间一致性并很好地泛化到未见过的领域。该框架通过特有的模块，如外观-姿态自适应层(APPA层)、时间控制网络和姿态驱动的温度图，来确保生成的视频既保持源图像的外观，又遵循驱动视频的姿态，同时保持背景的一致性。

数据统计

相关导航

StreamVC

StreamVC是由Google研发的实时低延迟语音转换解决方案，能够在保持源语音内容和韵律的同时，匹配目标语音的音色。该技术特别适合实时通信场景，如电话和视频会议，并且可用于语音匿名化等用例。StreamVC利用SoundStream神经音频编解码器的架构和训练策略，实现轻量级高质量的语音合成。它还展示了学习软语音单元的因果性以及提供白化基频信息以提高音高稳定性而不泄露源音色信息的有效性。

ComfyUI-GGUF

ComfyUI-GGUF是一个为ComfyUI原生模型提供GGUF量化支持的项目。它允许模型文件以GGUF格式存储，这种格式由llama.cpp推广。尽管常规的UNET模型（conv2d）不适用于量化，但像flux这样的transformer/DiT模型似乎受量化影响较小。这使得它们可以在低端GPU上以更低的每权重变量比特率进行运行。

Tusk

Tusk是一个AI编码助手，专注于帮助软件工程师快速完成繁琐的代码任务。它通过自动化的方式生成代码，解决bug，进行UI/UX改进，从而提高开发效率，让工程师能够专注于更有创造性的工作。Tusk支持与GitHub、Jira、Linear、Notion等工具的集成，能够根据问题标签一键推送代码到仓库，并自动迭代代码以应对代码审查。此外，Tusk还提供定制化AI代理、VIP支持等高级功能，满足不同规模团队的需求。

H2O Danube3

H2O Danube3 是由 h2oai 公司开发的一系列文本生成模型，这些模型专注于提供高质量的文本生成服务，广泛应用于聊天机器人、内容创作等领域。它们具备强大的语言理解和生成能力，能够根据给定的上下文生成连贯、准确的文本。

Easy-RAG

Easy-RAG是一个检索增强生成(RAG)系统，它不仅适合学习者了解和掌握RAG技术，同时也便于开发者使用和进行自主扩展。该系统通过集成知识图谱提取解析工具、rerank重新排序机制以及faiss向量数据库等技术，提高了检索效率和生成质量。

MAVIS

MAVIS是一个针对多模态大型语言模型（MLLMs）的数学视觉指令调优模型，主要通过改进视觉编码数学图表、图表-语言对齐和数学推理技能来增强MLLMs在视觉数学问题解决方面的能力。该模型包括两个新策划的数据集、一个数学视觉编码器和数学MLLM，通过三阶段训练范式在MathVerse基准测试中取得领先性能。

暂无评论

您必须登录才能参与评论！

none

暂无评论...