GGUF

共 5 篇网址

排序

发布更新浏览点赞

ComfyUI-GGUF

ComfyUI-GGUF是一个为ComfyUI原生模型提供GGUF量化支持的项目。它允许模型文件以GGUF格式存储，这种格式由llama.cpp推广。尽管常规的UNET模型（conv2d）不适用于量化，但像flux这样的transformer/DiT模型似乎受量化影响较小。这使得它们可以在低端GPU上以更低的每权重变量比特率进行运行。

0280

开发者工具 # ComfyUI # GGUF # 开发编程

glider-gguf

PatronusAI/glider-gguf是一个基于Hugging Face平台的高性能量化语言模型，采用GGUF格式，支持多种量化版本，如BF16、Q8_0、Q5_K_M、Q4_K_M等。该模型基于phi3架构，拥有3.82B参数，主要优点包括高效的计算性能和较小的模型体积，适用于需要快速推理和低资源消耗的场景。产品背景信息显示，该模型由PatronusAI提供，适合需要进行自然语言处理和文本生成的开发者和企业使用。

0250

文案写作 # GGUF # Hugging Face # 文本生成

EXAONE-3.5-7.8B-Instruct-GGUF

EXAONE 3.5是LG AI Research开发的一系列双语（英语和韩语）指令调优的生成模型，参数从2.4B到32B不等。这些模型支持长达32K令牌的长上下文处理，在真实世界用例和长上下文理解方面展现出了最先进的性能，同时在与近期发布的类似大小模型相比，在通用领域保持竞争力。EXAONE 3.5模型包括：1) 2.4B模型，优化用于部署在小型或资源受限的设备上；2) 7.8B模型，与前代模型大小匹配但提供改进的性能；3) 32B模型，提供强大的性能。

0220

文案写作 # exaone # GGUF # lg-ai

Llama-3-Patronus-Lynx-8B-v1.1-Instruct-Q8-GGUF

PatronusAI/Llama-3-Patronus-Lynx-8B-v1.1-Instruct-Q8-GGUF是一个基于Llama模型的量化版本，专为对话和幻觉检测设计。该模型使用了GGUF格式，拥有8.03亿参数，属于大型语言模型。它的重要性在于能够提供高质量的对话生成和幻觉检测能力，同时保持模型的高效运行。该模型是基于Transformers库和GGUF技术构建的，适用于需要高性能对话系统和内容生成的应用场景。

0200

智能聊天机器人 # GGUF # LLaMA模型 # Transformers

kelindar/search

kelindar/search 是一个Go语言库，它提供了嵌入式向量搜索和语义嵌入的功能，基于llama.cpp构建。这个库特别适合于小到中型项目，需要强大的语义搜索能力，同时保持简单高效的实现。它支持GGUF BERT模型，允许用户利用复杂的嵌入技术，而不需要深陷传统搜索系统的复杂性。该库还提供了GPU加速功能，能够在支持的硬件上快速进行计算。如果你的数据集少于100,000条目，这个库可以轻松集成到你的Go应用中，实现语义搜索功能。

0170

搜索引擎优化 # BERT # GGUF # GPU