热门

PowerInfer

12个月前发布 15 00

PowerInfer 是一个在个人电脑上利用消费级 GPU 进行高速大型语言模型推理的引擎。它利用 LLM 推理中的高局部性特点，通过预加载热激活的神经元到 GPU 上，从而显著降低了 GPU 内存需求和 CPU-GPU 数据传输。PowerInfer 还集成了自适应预测器和神经元感知的稀疏运算符，优化神经元激活和计算稀疏性的效率。它可以...

收录时间：

2025-05-30

打开网站手机查看

搜索引擎优化 # 推理引擎 # 消费级 GPU # 语言模型

PowerInfer

PowerInfer

PowerInfer 是一个在个人电脑上利用消费级 GPU 进行高速大型语言模型推理的引擎。它利用 LLM 推理中的高局部性特点，通过预加载热激活的神经元到 GPU 上，从而显著降低了 GPU 内存需求和 CPU-GPU 数据传输。PowerInfer 还集成了自适应预测器和神经元感知的稀疏运算符，优化神经元激活和计算稀疏性的效率。它可以在单个 NVIDIA RTX 4090 GPU 上以平均每秒 13.20 个标记的生成速率进行推理，比顶级服务器级 A100 GPU 仅低 18%。同时保持模型准确性。

数据统计

相关导航

RDFox

RDFox 是由牛津大学计算机科学系的三位教授基于数十年知识表示与推理（KRR）研究开发的规则驱动人工智能技术。其独特之处在于：1. 强大的AI推理能力：RDFox 能够像人类一样从数据中创建知识，基于事实进行推理，确保结果的准确性和可解释性。2. 高性能：作为唯一在内存中运行的知识图谱，RDFox 在基准测试中的表现远超其他图技术，能够处理数十亿三元组的复杂数据存储。3. 可扩展部署：RDFox 具有极高的效率和优化的占用空间，可以嵌入边缘和移动设备，作为 AI 应用的大脑独立运行。4. 企业级特性：包括高性能、高可用性、访问控制、可解释性、人类般的推理能力、数据导入和 API 支持等。5. 增量推理：RDFox 的推理功能在数据添加或删除时即时更新，不影响性能，无需重新加载。

Fal AI

fal.ai 是一款面向开发者的生成媒体平台，提供了业界最快的推理引擎，可以让您以更低的成本运行扩散模型，创造出全新的用户体验。它拥有实时、无缝的 WebSocket 推理基础设施，为开发者带来了卓越的使用体验。fal.ai 的定价方案根据实际使用情况灵活调整，确保您只为消耗的计算资源付费，实现了最佳的可扩展性和经济性。

暂无评论

您必须登录才能参与评论！

none

暂无评论...