MAVISMAVIS是一个针对多模态大型语言模型(MLLMs)的数学视觉指令调优模型,主要通过改进视觉编码数学图表、图表-语言对齐和数学推理技能来增强MLLMs在视觉数学问题解决方面的能力。该模型包括两个新策划的数据集、一个数学视觉编码器和数学MLLM,通过三阶段训练范式在MathVerse基准测试中取得领先性能。
Fine AI Coding WorkflowsFine AI Coding Workflows是一个AI驱动的软件开发自动化平台,它通过定制化的AI工作流程来加速开发周期。该平台基于Atlas知识图谱,整合了团队使用的工具,为AI代理提供丰富的上下文信息,以实现更精确的任务执行。它支持与多种开发工具集成,比如OpenAI、Anthropic、Sentry、GitHub等,旨在提高开发效率、代码质量和问题解决速度。
TCANTCAN是一种基于扩散模型的新型人像动画框架,它能够保持时间一致性并很好地泛化到未见过的领域。该框架通过特有的模块,如外观-姿态自适应层(APPA层)、时间控制网络和姿态驱动的温度图,来确保生成的视频既保持源图像的外观,又遵循驱动视频的姿态,同时保持背景的一致性。
StreamVCStreamVC是由Google研发的实时低延迟语音转换解决方案,能够在保持源语音内容和韵律的同时,匹配目标语音的音色。该技术特别适合实时通信场景,如电话和视频会议,并且可用于语音匿名化等用例。StreamVC利用SoundStream神经音频编解码器的架构和训练策略,实现轻量级高质量的语音合成。它还展示了学习软语音单元的因果性以及提供白化基频信息以提高音高稳定性而不泄露源音色信息的有效性。
ComfyUI-GGUFComfyUI-GGUF是一个为ComfyUI原生模型提供GGUF量化支持的项目。它允许模型文件以GGUF格式存储,这种格式由llama.cpp推广。尽管常规的UNET模型(conv2d)不适用于量化,但像flux这样的transformer/DiT模型似乎受量化影响较小。这使得它们可以在低端GPU上以更低的每权重变量比特率进行运行。
RagieRagie是一款面向开发者的RAG(Retrieval-Augmented Generation)即服务产品,它通过易于使用的API和SDK,帮助开发者快速启动并实现生成式AI应用。Ragie具备高级功能,如LLM重排、摘要索引、实体提取等,确保提供精确可靠的信息。它还支持与Google Drive、Notion等流行数据源的直接连接,并支持自动同步,保持数据最新。Ragie由Craft Ventures领导,提供简单明了的定价策略,无需设置费用或隐藏成本。
H2O Danube3H2O Danube3 是由 h2oai 公司开发的一系列文本生成模型,这些模型专注于提供高质量的文本生成服务,广泛应用于聊天机器人、内容创作等领域。它们具备强大的语言理解和生成能力,能够根据给定的上下文生成连贯、准确的文本。
TuskTusk是一个AI编码助手,专注于帮助软件工程师快速完成繁琐的代码任务。它通过自动化的方式生成代码,解决bug,进行UI/UX改进,从而提高开发效率,让工程师能够专注于更有创造性的工作。Tusk支持与GitHub、Jira、Linear、Notion等工具的集成,能够根据问题标签一键推送代码到仓库,并自动迭代代码以应对代码审查。此外,Tusk还提供定制化AI代理、VIP支持等高级功能,满足不同规模团队的需求。