随着大型超级计算机的规模越来越大,总部位于加州桑尼维尔的Cerebras采取了不同的方法。该公司没有将越来越多的 GPU 连接在一起,而是将尽可能多的处理器挤在一块巨型晶圆上。主要优势在于互连——通过将处理器在芯片上连接在一起,晶圆级芯片可以避免许多计算速度损失这些损失来自于许多 GPU 之间的相互通信,以及从内存中加载数据造成的损失。
现在,Cerebras 在两个独立但相关的成果中展示了其晶圆级芯片的优势。首先,该公司展示了其第二代晶圆级引擎 WSE-2,在分子动力学计算(蛋白质折叠、核反应堆辐射损伤建模和材料科学中的其他问题的基础)方面,Cerebras 的速度明显快于世界上最快的超级计算机Frontier 。其次,与机器学习模型优化公司Neural Magic合作,Cerebras证明稀疏大型语言模型可以以完整模型三分之一的能耗进行推理,而不会损失任何准确性。
尽管结果在截然不同的领域,但由于 Cerebras 硬件支持的互连和快速内存访问,它们都是可能的。
飞速穿越分子世界
“想象一下,有一位裁缝,他可以在一周内做出一套西装,”Cerebras 首席执行官兼联合创始人 Andrew Feldman 说道。“他买下了隔壁的裁缝,她也可以在一周内做出一套西装,但他们无法合作。现在,他们一周可以做出两套西装。但他们无法在三天半内做出一套西装。”
Feldman 认为,GPU 就像无法协同工作的裁缝,至少在分子动力学的一些问题上是如此。随着连接的 GPU 越来越多,它们可以同时模拟更多的原子,但却无法更快地模拟相同数量的原子。
然而, Cerebras 的晶圆级引擎以完全不同的方式扩展。由于芯片不受互连带宽的限制,它们可以快速通信,就像两个裁缝完美协作,在三天半内制作出一套西装一样。
为了证明这一优势,该团队模拟了 80 万个原子相互作用,每次计算的时间间隔为飞秒。在他们的硬件上,每一步仅需几微秒即可计算完成。虽然这仍然比实际相互作用慢 9 个数量级,但它的速度也是 Frontier 超级计算机的 179 倍。这一成就有效地将一年的计算时间缩短到两天。
这项工作是与桑迪亚国家实验室、劳伦斯利弗莫尔国家实验室和洛斯阿拉莫斯国家实验室合作完成的。劳伦斯利弗莫尔国家实验室的研究员托马斯·奥佩尔斯特鲁普表示,这一进展使得模拟以前无法实现的分子相互作用成为可能。
Oppelstrup 表示,这对于了解材料在极端条件下的长期稳定性特别有用。“当你建造在高温下运行的先进机器时,比如喷气发动机、核反应堆或用于发电的聚变反应堆,”他说,“你需要能够承受这些高温和恶劣环境的材料。制造具有合适特性、使用寿命长、强度高且不会破裂的材料非常困难。”Oppelstrup 表示,能够更长时间地模拟候选材料的行为对于材料设计和开发过程至关重要。
Cerebras 首席工程师Ilya Sharapov表示,公司期待将其晶圆级引擎的应用扩展到更大范围的问题,包括生物过程的分子动力学模拟以及汽车或飞机周围气流的模拟。
缩小大型语言模型
随着大型语言模型 (LLM) 越来越受欢迎,使用它们的能源成本开始超过训练成本——据估计,可能高达十倍。“推理是当今人工智能的主要工作量,因为每个人都在使用 ChatGPT,”Cerebras 产品营销总监 James Wang 表示,“而且运行成本非常高,尤其是在大规模情况下。”
降低推理能耗(和速度)的一种方法是通过稀疏性——本质上就是利用零的力量。LLM 由大量参数组成。例如,Cerebras 使用的开源Llama模型有 70 亿个参数。在推理过程中,每个参数都用于处理输入数据并输出输出。但是,如果这些参数中有相当一部分是零,则可以在计算过程中跳过它们,从而节省时间和能源。
问题在于,在 GPU 上跳过特定参数很难做到。从 GPU 的内存读取相对较慢,因为它们被设计为以块为单位读取内存,这意味着一次读取一组参数。这不允许 GPU 跳过参数集中随机散布的零。Cerebras 首席执行官 Feldman 提出了另一个类比:“这相当于托运人,只想移动托盘上的东西,因为他们不想检查每个箱子。内存带宽是检查每个箱子以确保它不是空的能力。如果它是空的,就把它放在一边,然后不要移动它。”
一些 GPU配备了一种特殊的稀疏性,称为 2:4,其中每四个连续存储的参数中恰好有两个是零。最先进的 GPU 具有每秒 TB的内存带宽。Cerebras 的 WSE-2 的内存带宽是其一千多倍,达到每秒 20 PB。这允许利用非结构化稀疏性,这意味着研究人员可以根据需要将参数清零,无论它们在模型中的哪个位置,并在计算过程中动态检查每个参数。“我们的硬件从第一天开始就支持非结构化稀疏性,”王说。
即使使用合适的硬件,将模型的许多参数归零也会导致模型更糟糕。但 Neural Magic 和 Cerebras 的联合团队找到了一种方法来恢复原始模型的全部准确性。在将 70% 的参数削减为零后,该团队进行了另外两个阶段的训练,让非零参数有机会补偿新的零值。
这种额外的训练使用了大约 7% 的原始训练能量,而且这些公司发现,通过这种训练,他们可以恢复完整的模型准确率。较小的模型在推理过程中所花费的时间和能量是原始完整模型的三分之一。Sharapov 说:“这些新奇的应用在我们的硬件上得以实现,是因为我们的硬件中有一百万个非常紧凑的内核,这意味着内核之间的延迟非常低,带宽很高。”