AI芯片介绍(Grop 3 LPU)- SMT行业之家-优秀的源头厂家交易网

AI芯片介绍(Grop 3 LPU)

6 小时前浏览：28 来源：小萍子

什么是LPU？

LPU代表语言处理单元。LPU是由Groq公司开发的专有芯片架构，该公司由谷歌张量处理单元的前首席工程师乔纳森·罗斯于2016年创立。LPU是AI推理引擎的关键组成部分，这是一种新型的端到端处理单元系统，专为最常见的自然语言处理或AI语言应用及相关工作负载而开发与部署的芯片。

在架构上，LPU专为顺序型而非并行型的计算密集型应用而设计。Groq开发LPU的初衷，是使其在处理大语言模型时具备内在的高效性和强大性能。LPU可部署于任何架构，并支持几乎所有的训练模型。配合适当的存储解决方案，LPU能够处理海量数据，并以重塑行业预期的速度高效满足推理任务的计算需求。

LPU是一种芯片及处理系统，其特性包括：异常快速的顺序性能；依赖具有数百兆字节片上SRAM的单一大规模核心架构；为大规模部署提供同步网络支持；据称可自动编译参数超过500亿的大语言模型；以及具有近乎即时的内存访问和周期级确定性。与依赖外部高带宽内存的GPU不同，LPU的静态执行模型意味着编译器会预先规划整个程序路径，并保证可预测的延迟，没有缓存未命中或停顿。这些能力源于LPU是专门为促进广泛的自然语言处理应用而定制的，包括文本生成、情感分析、语言翻译等。

LPU与GPU的区别

GPU与LPU之间的关键区别在于并行与顺序处理以及它们的内存架构。GPU擅长将复杂任务分解为数千个可同时执行的微小计算，并利用外部高带宽内存。LPU是专门为使AI能够实时理解和生成人类语言的任务而设计的，利用片上SRAM消除了外部内存延迟。

在与训练和使用大语言模型相关的任务中，LPU优于GPU的最大之处在于单流工作负载的推理速度和能效。GPU在大批量处理时表现最佳，而LPU则针对单token推理进行了优化，这正是聊天机器人托管和实时智能体等实时AI应用所需的确切特性。在用于顺序性自然语言处理任务时，使用LPU的处理时间和能耗都显著降低，在关键的AI推理工作负载上，LPU相比基于GPU的解决方案可带来约2-3倍的速度提升。

Nvidia Groq 3 LPU

英伟达在2025年12月下旬与Groq达成了一项价值200亿美元的非独家许可协议，获得了LPU技术背后的知识产权、工程团队及硬件栈。在今天的GTC 2026大会上，黄教主正式发布Nvidia Groq 3 LPU。

每个Groq 3 LPU都集成了500MB的SRAM，这种内存也用于CPU和GPU的超高速缓存。这块SRAM可提供150TB/s的带宽，远高于HBM的22TB/s。对于带宽敏感型AI解码操作而言，Groq 3芯片带宽的大幅提升为推理应用带来了诱人的优势。英伟达将构建包含256个Groq 3 LPU的Groq 3 LPX机架。该机架提供128GB的SRAM和40PB/s的推理加速带宽，并通过每个机架640TB/s的专用扩展接口将这些芯片连接起来。

LPU + Vera Rubin

我们将推理过程完全重新架构，我们把适合Vera Rubin的工作放在Vera Rubin上，然后把解码生成、低延迟、带宽受限的部分卸载到LPU上。一个为高吞吐量，一个为低延迟，产生了令人震惊的效果：每兆瓦功耗的推理吞吐量最高可提升35倍，万亿参数模型的收益机会最高可提升10倍。

大规模部署时，LPU集群可作为一个巨型单处理器，实现快速、确定性的推理加速。与Vera Rubin NVL72集成，Rubin GPU和LPU通过联合计算每个输出标记的AI模型每一层，显著提升解码速度。LPX采用全液冷设计，基于MGX基础设施构建，可无缝集成到将于今年下半年推出的下一代Vera Rubin AI工厂中。