欢迎访问SMT设备行业平台!
行业资讯  >  行业动态  >  AI芯片介绍(Grop 3 LPU)
AI芯片介绍(Grop 3 LPU)
6 小时前   浏览:28   来源:小萍子

什么是LPU?

LPU代表语言处理单元。LPU是由Groq公司开发的专有芯片架构,该公司由谷歌张量处理单元的前首席工程师乔纳森·罗斯于2016年创立。LPU是AI推理引擎的关键组成部分,这是一种新型的端到端处理单元系统,专为最常见的自然语言处理或AI语言应用及相关工作负载而开发与部署的芯片。

在架构上,LPU专为顺序型而非并行型的计算密集型应用而设计。Groq开发LPU的初衷,是使其在处理大语言模型时具备内在的高效性和强大性能。LPU可部署于任何架构,并支持几乎所有的训练模型。配合适当的存储解决方案,LPU能够处理海量数据,并以重塑行业预期的速度高效满足推理任务的计算需求。

LPU是一种芯片及处理系统,其特性包括:异常快速的顺序性能;依赖具有数百兆字节片上SRAM的单一大规模核心架构;为大规模部署提供同步网络支持;据称可自动编译参数超过500亿的大语言模型;以及具有近乎即时的内存访问和周期级确定性。与依赖外部高带宽内存的GPU不同,LPU的静态执行模型意味着编译器会预先规划整个程序路径,并保证可预测的延迟,没有缓存未命中或停顿。这些能力源于LPU是专门为促进广泛的自然语言处理应用而定制的,包括文本生成、情感分析、语言翻译等。


LPU与GPU的区别

GPU与LPU之间的关键区别在于并行与顺序处理以及它们的内存架构。GPU擅长将复杂任务分解为数千个可同时执行的微小计算,并利用外部高带宽内存。LPU是专门为使AI能够实时理解和生成人类语言的任务而设计的,利用片上SRAM消除了外部内存延迟。

在与训练和使用大语言模型相关的任务中,LPU优于GPU的最大之处在于单流工作负载的推理速度和能效。GPU在大批量处理时表现最佳,而LPU则针对单token推理进行了优化,这正是聊天机器人托管和实时智能体等实时AI应用所需的确切特性。在用于顺序性自然语言处理任务时,使用LPU的处理时间和能耗都显著降低,在关键的AI推理工作负载上,LPU相比基于GPU的解决方案可带来约2-3倍的速度提升。

image.png


Nvidia Groq 3 LPU

英伟达在2025年12月下旬与Groq达成了一项价值200亿美元的非独家许可协议,获得了LPU技术背后的知识产权、工程团队及硬件栈。在今天的GTC 2026大会上,黄教主正式发布Nvidia Groq 3 LPU。

image.png

每个Groq 3 LPU都集成了500MB的SRAM,这种内存也用于CPU和GPU的超高速缓存。这块SRAM可提供150TB/s的带宽,远高于HBM的22TB/s。对于带宽敏感型AI解码操作而言,Groq 3芯片带宽的大幅提升为推理应用带来了诱人的优势。英伟达将构建包含256个Groq 3 LPU的Groq 3 LPX机架。该机架提供128GB的SRAM和40PB/s的推理加速带宽,并通过每个机架640TB/s的专用扩展接口将这些芯片连接起来。

image.pngimage.png
LPU + Vera Rubin
我们将推理过程完全重新架构,我们把适合Vera Rubin的工作放在Vera Rubin上,然后把解码生成、低延迟、带宽受限的部分卸载到LPU上。一个为高吞吐量,一个为低延迟,产生了令人震惊的效果:每兆瓦功耗的推理吞吐量最高可提升35倍,万亿参数模型的收益机会最高可提升10倍。
大规模部署时,LPU集群可作为一个巨型单处理器,实现快速、确定性的推理加速。与Vera Rubin NVL72集成,Rubin GPU和LPU通过联合计算每个输出标记的AI模型每一层,显著提升解码速度。LPX采用全液冷设计,基于MGX基础设施构建,可无缝集成到将于今年下半年推出的下一代Vera Rubin AI工厂中。


头条号
小萍子
介绍
推荐头条