AI算力大战爆发：英特尔、谷歌推出最强芯片挑战英伟达｜钛媒体AGI- SMT行业之家-优秀的源头厂家交易网

作者｜林志佳

编辑｜胡润峰

本文首发钛媒体APP

北京时间4月10日凌晨，美国亚利桑那州Intel Vision 2024会议上，芯片巨头英特尔（Intel）发布性能最强的新一代Gaudi3 AI 加速芯片，以及全新的下一代英特尔至强6处理器等产品。

其中，英特尔Gaudi 3 AI芯片采用台积电5nm工艺，支持128GB HBMe2内存。相比上代产品，英特尔Gaudi 3带来4倍（400%）的BF16 AI计算能力提升，1.5 倍的内存带宽以及 2 倍的网络带宽提升。同时，在AI模型算力中，相比于英伟达H100 GPU，Gaudi3 AI芯片的模型训练速度、推理速度分别提升40%和50%，平均性能提高 50%，能效平均提高40%，而成本仅为H100的一小部分。

英特尔预计，Gaudi 3将于2024年第二季度起出货，戴尔、惠普、联想、超微电脑等企业将成为首批客户。

与此同时，今晨举行的谷歌云年度大会Cloud Next 2024上宣布推出一款基于ARM架构的服务器芯片Axion，其性能比通用ARM芯片高30%，比英特尔生产的x86最新芯片性能提高50%。谷歌旨在减少对英特尔和AMD x86芯片的依赖。

全球围绕 AI 算力战争已经拉开帷幕。

“现在的半导体竞争是一场产业战争，也是一场全面的国家战争。”韩国总统尹锡悦4月9日宣布该国全面押注 AI 半导体发展，投入9.4万亿韩元（约合500亿元人民币），以帮助韩国成为与中国、美国并驾齐驱的全球三大AI半导体国家之一。

英特尔突袭英伟达H100

新AI芯片训练快40%，推理快50%

就在深夜，英特尔CEO帕特·基辛格（Pat Gelsinger）手舞足蹈地亮出了最新AI芯片——Gaudi3。

新一代Gaudi 3 AI加速器专为高性能、高效率的生成式 AI 计算而构建，每个加速器都具有独特的异构计算引擎，由 64 个 AI 定制和可编程TPC和 8 个 MME 组成，每个Gaudi 3 MME 都能够执行 64000个并行运算，支持128 GB HBMe2 内存容量、3.7 TB 内存带宽和 96 MB 板载静态随机存取内存 (SRAM) 。

同时，每个Gaudi 3当中都集成24个200 Gb以太网端口，提供灵活且开放标准的网络。而Gaudi 3 的PCIe 功率为600w，带宽为每秒 3.7TB。

性能方面，模型训练层面，Gaudi3比英伟达H100快40%；推理层面Gaudi3比英伟达H100快50%。即便相比最新英伟达H200，Gaudi3 AI芯片的推理速度竟然也提升了高达30%。

英特尔CEO帕特·基辛格（Pat Gelsinger）

实际上，随着ChatGPT爆火，AI 模型、数据、算力基础设施成为生成式 AI 技术发展的三大要素。

据Gartner数据显示，2024年，企业在生成式 AI 方向上预期支出达400亿美元，到2027年这一数据增至1510亿美元。与此同时，到2026年，企业对生成式 AI 使用程度达80%，同时至少有50%的边缘计算部署将与AI、机器学习（ML）等方向有关。

然而，AI 技术的全部潜力并没有完全释放出来。仅10%的企业组织去年推出面向生产的生成式 AI 方案；同时，有46%的的专家指出，基础设施是将大模型产品化的最大挑战。

因此，英特尔希望能够利用长期的 AI 技术积累，通过开放生态系统的力量，乘上 AI 热潮。与英伟达部分类似，英特尔也将提供一整套 AI 算力基础设施方案，从而“解锁”企业 AI，推动生成式 AI 的广泛应用和快速商业化，有望帮助企业应对 AI 项目时所面临的挑战。

基辛格在会上表示，到2030年，半导体市场规模将达1万亿美元，而 AI 是其中的主要推动力。

从整体路线图来看，AI PC、Edge AI（边缘）、Data Center AI（数据中心）将成为英特尔三大重要的计算生态系统，比英伟达覆盖面积更广，加上其开放、可扩展的软件和算法特性，广泛适用于多个 AI 领域，从而推动英特尔持续为企业客户打造全新 AI 方案。

具体到技术产品层面，除了英特尔Gaudi3之外，此次开幕活动上还公布了其他四个方向的重要进展：

1、全新英特尔至强6处理器品牌，应用于数据中心、云和边缘场景。

其中，与第二代至强处理器相比，配备能效核（此前代号为Sierra Forest）的全新至强6处理器每瓦性能提高2.4倍，机架密度提高2.7倍，客户能以近3:1的比例替换旧系统，大幅降低能耗，预计将于2024年第二季度推出；而配备性能核的英特尔至强6处理器，可将下一个令牌（token）的延迟时间最多缩短6.5倍，能运行700亿参数的Llama2模型，预计不久后推出。

2、预览下一代英特尔酷睿Ultra处理器。英特尔宣布将推出下一代酷睿Ultra客户端处理器家族（代号Lunar Lake），将具备超过100 TOPS平台算力，以及在神经网络处理单元（NPU）上带来超过46 TOPS的算力，从而为下一代AI PC提供强大支持。据悉，英特尔预计将于2024年出货4000万台AI PC设备。

3、面向网络互连层面的新品部署。与NVLink一样重要，通过超以太网联盟（UEC），英特尔公布面向AI高速互联技术（AI Fabrics）开放技术的以太网解决方案，利用高速互联技术支持AI模型训练和推理，产品组合包括英特尔AI网络连接卡（AI NIC）、集成到XPU的AI连接芯粒（Chiplet）、基于Gaudi加速器的系统，以及一系列面向英特尔代工的AI互联软硬件参考设计。

4、全面更新的边缘计算和Tiber业务组合。英特尔还发布新的Edge芯片产品，包括酷睿TM Ultra、酷睿TM、凌动处理器以及面向Edge的英特尔ArcTM GPU，预计所有新品将于本季度上市，应用于包括零售、工业制造、医疗保健等关键领域，并将于今年获得英特尔Tiber边缘平台的支持。另外，英特尔还发布Tiber业务解决方案组合，以简化企业对生成式 AI 软件服务的部署工作，预计Tiber方案将于今年第三季度全面推出。

英特尔披露，截至目前，英特尔边缘计算处理器销量达2亿块，已边缘部署超过9万个解决方案。

另外，英特尔还宣布联合Hugging Face、RedHat、SAP、VMware等15家公司，将共同创建一个开放、多供应商的生成式AI系统平台，通过RAG（检索增强生成）技术，提供运行大量现存专有数据源得到增强版开放大模型。

英特尔强调，公司不仅将提供包括硬件、软件、框架和工具，而且希望设备制造商、数据库提供商、系统集成商、软件和服务提供商等参与其中，推动英特尔AI开放生态系统的构建，以及将生成式AI技术进行场景落地。

总体来说，基于英特尔5nm Gaudi3 AI芯片，以及至强6处理器和软件栈，该公司正逐步构建 AI 领域的算力基础设施生态，全面挑战英伟达以及现有 AI 芯片市场格局。

英特尔方面去年7月对钛媒体App表示，市场需要替代品。客户非常欢迎英特尔Gaudi方案在向大众部署 AI 方面发挥重要的领导作用。“几十年来，英特尔一直致力于把新的技术普及、普惠到各行各业。通过降低进入门槛，提高市场参与度，从而加快创新速度。”

基辛格在会上强调，“创新技术正在以前所未有的速度发展，每家公司都在加速成为AI公司，这一切都需要半导体技术提供支持。从PC到数据中心再到边缘，英特尔正在让AI走进千行百业。”

为减少对英伟达依赖

谷歌推出ARM服务器芯片

与微软、亚马逊一样，谷歌也推出了多款自研芯片，以减少对英伟达GPU芯片的依赖。

美东时间4月9日周二，谷歌在今年的年度云计算大会Cloud Next 2024上宣布推出一款基于Arm架构的数据中心芯片Google Axion，以及更新TPU v5p芯片。

谷歌表示表示，Google Axion处理器基于Arm Neoverse V2 CPU构建，以Titanium为基础，性能比通用ARM芯片高30%，而且比英特尔生产的当前一代 x86芯片高50%。预计Axion用于多种谷歌服务，并在“今年晚些时候”向公众开放。

谷歌云副总裁兼计算和机器学习基础设施总经理 Mark Lohmeyer 表示：“我们正在让客户轻松地将现有工作负载转移到 ARM。Axion 建立在开放基础之上，在任何地方使用ARM的客户都可以轻松采用 Axion，而无需重新架构或重新编写应用程序。”

“谷歌推出的新型 Axion CPU 标志着交付定制芯片的一个重要里程碑，该芯片针对谷歌的基础设施进行了优化，并构建在我们的高性能 Arm Neoverse V2 平台上。数十年的生态系统投资，再加上 Google 的持续创新和开源软件贡献，确保为在各地运行 Arm 的客户最重要的工作负载提供最佳体验。”Arm 首席执行官 Rene Haas表示。

事实上，Axion 只是众多定制发一份芯片中的最新产品。自2015年以来，谷歌已经发布了五代张量处理单元（TPU）；同时，2018年，谷歌发布了第一个视频编码单元 (VCU)，视频转码效率提高了33 倍；另外，2021年，谷歌通过投资“片上系统”(SoC) 设计，加大了定制计算的投入，并发布了用于移动设备的三代Tensor芯片中的第一款。

如今，谷歌推出新的芯片意味着，该公司正在追赶亚马逊和微软这些云领域竞争对手的步伐。亚马逊和微软2021年就已经推出Arm架构的CPU，作为提供差异化计算服务的一种方式。而谷歌之前为YouTube、AI及其智能手机推出过定制芯片，但还没有打造过CPU。

具体来说，Axion将适用于一系列任务，包括支持谷歌的搜索引擎和 AI 相关的工作。谷歌表示，该芯片可以通过帮助处理大量数据并为数十亿用户部署服务，在AI领域发挥重要的支持作用。同时，未来谷歌逐步转移到基于Arm云服务器用例上使用，Datadog、Elastic、OpenX 和 Snap都计划采用 Axion。

除了Axion之外，谷歌还宣布全面推出 TPU v5p，用于训练和推理的最强大、可扩展且灵活的 AI 加速器，其计算能力是上一代的 4 倍（400%）。

谷歌CEO桑达尔·皮查伊表示，生成式 AI的进步需要强大的底层基础设施。谷歌 AI 超级计算机结合了我们的 TPU、GPU、AI 软件等，为训练和服务模型提供性能和成本优势。如今，领先 AI 公司和 Google Cloud 客户（例如 Anthropic、AI21 Labs、Contextual AI、Essential AI 和 Mistral AI）正在使用其基础设施。

数据显示，虽然广告依然是谷歌最大收入源，但云计算的增长更快，在谷歌的收入中占比不断提高，已接近占公司总收入的11%。据Gartner估算，2022 年，谷歌占云基础设施市场 7.5% 的份额，而亚马逊和微软合计控制着 62% 左右的份额。

谷歌表示，现在已经有超过 90% 的 AI 独角兽企业在使用谷歌的计算资源、模型和开发环境。

如今，谷歌成为继微软和亚马逊之后，第三家用ARM架构推出数据中心CPU的科技巨头，这显示了新的趋势。而且，谷歌还利用TPU优势，全面提供服务器和数据中心闭环服务，降低英伟达、英特尔、AMD芯片的依赖。

有评论称，谷歌开发新芯片是在 AI 竞赛白热化之际减少对外部厂商的依赖。不过，谷歌的官员并没有将芯片新品视为一种竞争之举。谷歌负责自研芯片业务的副总Amin Vahdat说：“我觉得这是做大蛋糕的基础。”

从整体来说，Google Next 2024上展现了整个谷歌云构建的 AI 开放和垂直优化技术栈。

AI Hypercomputer （算力层）：TPU v5，Axion，2025年将上线的英伟达Blackwell GB200，以及新增 A3 Mega 计算单元。

Gemini Models（模型层）：今天谷歌正式开发 Gemini 1.5 Pro API，新增语音模态理解能力、文件访问 API、系统指令以及 JSON 模式等功能。

Vertex AI（容器环境层）：最方便的 AI 应用开发和运行环境，集成了除 OpenAI 之外的所有模型，方便调用、微调和各种开发测试。

应用层：谷歌提供Gemini for Cloud、Workspace & Agent等产品组合中，即Gemini AI 产品将全面集成到 Cloud 与 Workspace 两大产品线，而且还预开发了一堆 AI Agent（代理），支持客服、雇员、创意、代码、数据、安全代理等等。

英伟达真的危险了吗？

黄仁勋：依然很稳

那么，前有谷歌、微软、亚马逊“造芯”，后有英特尔“弯道超车”，英伟达真的危险了吗？

2023年12月初，AMD高调推出了MI300系列产品。据介绍，MI300X芯片拥有超过1500亿个晶体管，内存密度是目前英伟达H100的2.4倍，内存带宽是其1.6倍。AMD首席执行官苏姿丰称，这款新芯片在训练 AI 软件的能力方面与英伟达的H100相当，并且在推理方面表现得更好，不过这一说法也未得到独立验证。

今年3月底，英伟达正式发布了新一代人工智能计算芯片B200。英伟达CEO黄仁勋表示，B200 GPU的AI运算性能在FP8及新的FP6上都可达20 petaflops，是前一代H100运算性能的2.5倍。

如今，随着Gaudi 3的正式发布，当前AI芯片市场呈现出英伟达B200、AMD MI300系列和英特尔Gaudi 3"三巨头"竞争的格局。英伟达在AI芯片领域"一家独大"的局面面临来自另外两家厂商的挑战。

不过，从黄仁勋角度来看，英伟达的生态系统很稳定，在当前AI算力"军备竞赛"中，英伟达依旧暂时是市场的佼佼者。

黄仁勋前段时间这段话其实表达的非常明确：“数据中心需要你运营它。购买和销售芯片的人考虑的是芯片价格。运营数据中心的人考虑的是成本，我们总拥有成本（TCO）非常好。即使竞争对手芯片是免费的，他们也不如我们，客户也不会买。我们的目标是增加更多的价值。

但这背后需要很多努力，我们必须不断创新、我们不能把任何事情视为理所当然、我们有很多竞争对手。”

事实上，AI 芯片是一个不断向前“奔跑”的高技术行业。它没有垄断，只有不断创新提供更大价值，才有可能让企业持续保持领先地位。因此，无论是英伟达还是英特尔，他们都有非常强大的市场竞争力，也都有望成为 AI 加速计算市场的“领先者”。

如今，在服务器市场，AMD正在逐渐蚕食该公司的市场份额。据市场调研机构Mercury Research所公布的2023年第四季度AMD处理器市场份额统计数据，AMD EPYC已经拿下了23.1％服务器市场份额，份额占比再次扩大。尽管EPYC作为通用处理器，算力上不如GPU加速器，不过该产品可与GPU加速器、AI加速器等协同工作，实现效率的最大化。