高性能计算

共 13 篇网址

排序

发布更新浏览点赞

EXAONE-3.5-32B-Instruct-AWQ

EXAONE-3.5-32B-Instruct-AWQ是LG AI Research开发的一系列指令调优的双语（英语和韩语）生成模型，参数从2.4B到32B不等。这些模型支持长达32K令牌的长上下文处理，在真实世界用例和长上下文理解方面展现出最先进的性能，同时在与最近发布的类似大小模型相比，在通用领域保持竞争力。该模型通过AWQ量化技术，实现了4位组级别的权重量化，优化了模型的部署效率。

0210

文案写作 # AWQ量化 # 多语言 # 文本生成

NVIDIA Project DIGITS

NVIDIA Project DIGITS 是一款基于 NVIDIA GB10 Grace Blackwell 超级芯片的桌面超级计算机，旨在为 AI 开发者提供强大的 AI 性能。它能够在功耗高效、紧凑的形态中提供每秒一千万亿次的 AI 性能。该产品预装了 NVIDIA AI 软件栈，并配备了 128GB 的内存，使开发者能够在本地原型设计、微调和推理高达 2000 亿参数的大型 AI 模型，并无缝部署到数据中心或云中。Project DIGITS 的推出标志着 NVIDIA 在推动 AI 开发和创新方面的又一重要里程碑，为开发者提供了一个强大的工具，以加速 AI 模型的开发和部署。

0140

开发者工具 # AI # Nvidia # 开发工具

FlashInfer

FlashInfer是一个专为大型语言模型（LLM）服务而设计的高性能GPU内核库。它通过提供高效的稀疏/密集注意力机制、负载平衡调度、内存效率优化等功能，显著提升了LLM在推理和部署时的性能。FlashInfer支持PyTorch、TVM和C++ API，易于集成到现有项目中。其主要优点包括高效的内核实现、灵活的自定义能力和广泛的兼容性。FlashInfer的开发背景是为了满足日益增长的LLM应用需求，提供更高效、更可靠的推理支持。

0100

代码辅助 # GPU # LLM # 注意力机制

CoreWeave GPU 云计算

CoreWeave GPU 云计算是一个专为人工智能工作负载打造的云平台，提供灵活且高效的 GPU 集群，能够满足企业在大规模计算和存储方面的需求。它的主要优势包括极高的性能、可靠性和可扩展性，适合各种 AI 应用场景。通过 CoreWeave，用户能够显著降低云成本，同时提升服务响应速度，是 AI 创新的理想选择。

0100

数据分析 # GPU 云计算 # 云服务 # 人工智能

国家超级计算天津中心

国家超级计算天津中心是2009年5月批准成立的首家国家级超级计算中心，部署有2010年11月世界超级计算机TOP500排名第一的“天河一号”超级计算机和“天河三号”原型机系统，构建有超算中心、云计算中心、电子政务中心、大数据和人工智能研发环境，是我国目前应用范围最广、研发能力最强的超级计算中心,为全国的科研院所、大学、重点企业提供了广泛的高性能计算、云计算、大数据、人工智能等高端信息技术服务。

090

超算中心超级计算 # tianjin # 云主机 # 云计算

Intel® Distribution For Python

Intel® Distribution for Python是一款针对高性能数值和科学计算进行优化的Python开发工具包，支持多核处理器和GPU加速，适用于AI、科学计算和高性能计算等各种场景。

090

商业AI 生产效率 # Python # 高性能计算

国家超级计算深圳中心

国家超级计算深圳中心（深圳云计算中心）系深圳市人民政府批准成立的企业化管理事业单位，属国家863计划、广东省和深圳市重大项目。主机系统2010年5月经世界超级计算机组织实测确认，运算速度达每秒1271万亿次，排名世界第二。

090

超算中心超级计算 # top500 # 云主机 # 云计算

Rain AI

Rain AI专注于开发高能效的人工智能硬件。在当前能源消耗日益增长的背景下，Rain AI的产品通过优化硬件设计，减少能源消耗，同时保持高性能，这对于数据中心和需要大量计算资源的企业来说至关重要。产品的主要优点包括高能效、高性能和环保。Rain AI的产品背景信息显示，公司致力于推动人工智能技术的可持续发展，通过技术创新减少对环境的影响。产品的价格和定位尚未明确，但可以推测其目标市场为需要高性能计算且对能源效率有高要求的企业。

080

数据分析 # 人工智能 # 数据中心 # 硬件

FlexHeadFA

FlexHeadFA 是一个基于 FlashAttention 的改进模型，专注于提供快速且内存高效的精确注意力机制。它支持灵活的头维度配置，能够显著提升大语言模型的性能和效率。该模型的主要优点包括高效利用 GPU 资源、支持多种头维度配置以及与 FlashAttention-2 和 FlashAttention-3 兼容。它适用于需要高效计算和内存优化的深度学习场景，尤其在处理长序列数据时表现出色。

060

生产力 # 内存优化 # 注意力机制 # 深度学习

NVIDIA TensorRT

NVIDIA TensorRT是一款高性能深度学习推理SDK，可优化推理性能、加速各种工作负载，并支持大型语言模型推理。

060

商业AI 生产效率 # 深度学习推理 # 高性能计算

Cognitora

Cognitora是下一代专为AI智能体设计的云平台。与传统容器平台不同，它利用Cloud Hypervisor和Firecracker等高性能微虚拟机，提供安全、轻量级且快速的AI原生计算环境。它能执行AI生成的代码，大规模自动化智能工作负载，填补了AI推理与现实世界执行之间的差距。其重要性在于为AI智能体提供了强大的计算和运行支持，让AI智能体能够更高效、安全地运行。主要优点包括高性能、安全隔离、闪电般快速的启动时间、支持多语言、先进的SDK和工具等。该平台面向AI开发者和企业，致力于为AI智能体提供全面的计算资源和工具。价格方面，用户注册可获得5000个免费积分用于测试。

040

视频生成 # AI平台 # 云平台 # 智能体计算

FastVideo

FastVideo是一个开源框架，旨在加速大型视频扩散模型。它提供了FastHunyuan和FastMochi两种一致性蒸馏视频扩散模型，实现了8倍推理速度提升。FastVideo基于PCM（Phased-Consistency-Model）提供了首个开放的视频DiT蒸馏配方，支持对最先进的开放视频DiT模型进行蒸馏、微调和推理，包括Mochi和Hunyuan。此外，FastVideo还支持使用FSDP、序列并行和选择性激活检查点进行可扩展训练，以及使用LoRA、预计算潜在和预计算文本嵌入进行内存高效微调。FastVideo的开发正在进行中，技术高度实验性，未来计划包括增加更多蒸馏方法、支持更多模型以及代码更新。

040

视频创作 # 开源框架 # 推理加速 # 蒸馏

WSE-3

Cerebras Systems宣布推出其第三代5纳米晶圆级引擎（WSE-3），这是一款专为训练业界最大AI模型而设计的芯片。WSE-3的性能是前代产品WSE-2的两倍，同时保持相同的功耗和价格。该芯片基于5纳米工艺，拥有4万亿晶体管，通过900,000个为AI优化的计算核心，提供125 petaflops的峰值AI性能。

040

搜索引擎优化 # AI芯片 # 晶圆级引擎 # 深度学习