欢迎访问SMT设备行业平台!
行业资讯  >  行业动态  >  一颗芯片卖十万,AMD到底凭什么?
一颗芯片卖十万,AMD到底凭什么?
2024年07月10日 09:41   浏览:198   来源:小萍子


当年王思聪花100万组的电脑,你知道用的什么CPU吗?答案就是,AMD EPYC 7763,每颗6.5万元,64核、基频2.45GHz,号称地表最强。


只不过,这颗芯片现在已经过时了。


现在最强的CPU,挑起来估计还要费一番心思,因为有的主频能到4.4GHz、有的集成了128个内核、有的缓存超过1GB、有的跑分默秒全。挑起来有点纠结,但这些芯片仍然全部来自AMD。


我们普通人玩玩游戏可能用不上服务器级别的高端CPU,但这块业务是真的挣钱,总结来说就是四高:高营收、高利润、高技术含量、高护城河。因此,数据中心也一直是芯片巨头们的必争之地。AMD最近两年股价蹭蹭起飞,你以为靠的是笔记本和台式机的CPU吗,其实背后的主要推动力还是来自于数据中心。



甚至可以这么说,苏妈上台之后最大的功绩,就是领导AMD在数据中心领域实现了对友商的完美逆袭。对了,咱1v1专访过苏妈,都熟人,一定记得去看这期视频:


但是,服务器CPU并不是越贵越好,有钱任性如王公子,选择AMD的EPYC而不是蓝厂的至强,说的也很明白,一个是性能秒杀、一个是至强贵……说白了,就是因为EPYC性价比好。


都说成年人不做选择,怎么选一个服务器CPU就这么难呢?


地表最强CPU,换代了?

AMD服务器CPU的名字叫EPYC,和史诗的英文epic谐音,这应该是苏妈给起的名字,说明她对于服务器和数据中心业务还是寄予了厚望,当然咱们现在看是赌对了。EPYC和普通消费级CPU Ryzen都是基于Zen架构,只不过EPYC的黑科技更多性能也更强,当然也贵得多了。


从AMD服务器CPU的路线图来看,就能直观的发现他们的战略就是下饺子+堆料,不管是芯片数量还是细分的种类都越来越多了,而且黑科技越堆越多,感觉苏妈也是暴力美学的忠实信徒。2017年三月,AMD宣布重新回归服务器芯片市场,并且基于Zen架构退出了第一代EPYC处理器,代号“那不勒斯”。



两年之后的2019年发布了第二代"罗马",基于Zen2架构,性能暴涨的同时也支持最高64核心,成为AMD EYPC处理器的第一个爆款。又过了两年,发布了第三代EPYC“米兰”系列,虽然最大仍是64核,但由于Zen3架构的加持,单核性能再次起飞,这也是王思聪选的那款。


不仅如此,第三代还首次产生了一个名叫“米兰-X”的支线系列,采用了名叫3DV-Cache的堆叠式内存黑科技,最高支持768MB总缓存,遥遥领先友商。而AMD的股价,也在2021年底创下新高,比EPYC芯片刚发布时涨了十倍多。



2022年底,第四代EPYC发布,这次不是只有一个、也不只两个,而是一口气发了四颗芯片。其中旗舰款“热那亚”EPYC9654包含96核,比蓝厂旗舰至强8380性能提升达4倍,也创下了当时的性能记录。不仅如此,还有支持云原生应用的、最高128核的“贝加莫”;再次用第二代3D V-Cache创下1152MB缓存记录的“热那亚-X”,还有一个新的低功耗系列“锡耶纳”。


都说大模型现在流行暴力美学,但我觉得AMD EYPC处理器的发展才更像是暴力美学。咱也不给你百分之几的挤牙膏,就是百分之几十甚至成倍的堆核、堆缓存容量、堆工艺、堆性能,走自己的路,让别人无路可走。



表面上看AMD在不断扩展数据中心处理器的产品线,这背后其实代表着AMD已经逐渐打通了支撑这些产品扩展的底层关键技术,比如更可靠的3D封装技术、内核架构的不断进化等等,之前的问里也讲了很多。


但千万不要天真的认为,技术做牛x就完事儿了。因为在服务器和数据中心领域,除了技术之外,成本也是各家云厂商关心的重要因素。和绿厂卖卡炒上天价不一样的是,AMD在数据中心里主打一个性价比,既要让性能高,又能保证成本低。即使你一颗芯片卖小十万块,但只要你带来的好处超过十万、二十万甚至更多,那这就是一笔合算的生意。


为了实现这个目标,就不得不提AMD用的大招:高核心密度,也就是让一颗芯片里包含的核心数量足够高、每颗核心的性能又足够强,同时采用最先进的制造工艺,让整颗芯片的功耗又足够低,再卖的便宜点 —— 这几个因素结合起来,就能带来成倍的成本降低。


数据中心的成本,怎么算?

光说概念大家听起来比较抽象,咱们通过几个例子来具体看看。我的偶像小Lin姐不是有个小Lin奶茶店吗,咱们也开个店,就叫老石数据中心,这投入得怎么着也得大几千万打底。之前看过一个评论,说数据中心不用担心功耗。我觉得留言的人应该说的是不用担心芯片的功耗释放,但数据中心恰恰最关心的就是功耗:因为功耗代表的是实打实的电费。甭管咱们数据中心有没有人用,只要机器开着,电费就得嘎嘎交。


除了电费,数据中心还有哪些成本呢?如果我列的话,应该还有采购服务器的的成本、租场地的成本、雇人、买软件等等这些管理成本等等。在数据中心领域,衡量成本关键指标叫TCO(Total Cost of Ownership),中文叫总拥有成本,它就是上面所有这些开支的总和


那么为什么采用AMD CPU之后TCO会更低呢?我来给你算算账。比如老石数据中心主要做云计算的应用,我的用户大都是为了跑个虚拟机搞点开发啥的。我们可以画个坐标轴,横轴是虚拟机数量,纵轴是算力。这里算力我们就按SPEC int跑分来看,每个CPU的跑分值在网上都能查到,都是透明的信息。那我们既可以看当算力一定时,用谁家的CPU能带来更多虚拟机数量;或者当虚拟机数量一定的时候,看谁的算力更大,同时也能计算每种情况带来的总成本TCO。



打个比方,如果我想要的总算力是1800分,那用搭载AMD第四代EPYC 9654的一台2P服务器就够了,一颗芯片有96个内核,整个服务器就是2x96=192个核,能跑192个虚机。相比之下,如果用蓝厂友商的第四代至强白金8490H,单颗芯片60个核,要达到跑分要求的话需要两台服务器,一共240核。看起来比AMD能跑的虚机数量要多。


再来看成本。AMD芯片的单价11800美元,单个虚拟机成本61.46美元,至强一颗建议零售价17000美元,两颗34000,单个虚机成本141.67美元,是AMD的两倍还多,这还不算多买一台服务器本身和配件带来的额外开销。


再看功耗,两家单颗芯片的功耗差不多,都是350W左右,但蓝厂需要两台机器,功耗直接翻番,电费也翻番。另外,由于需要两台机器,也需要更多的运维和场地成本等。这几个因素加起来,整体TCO谁高谁低就很清楚了。省下来的钱咱们多买点好吃的,多给大家抽抽奖,同意的点赞


同理我们也可以算下当需要的虚拟机数量相同的时候、比如都需要2000个虚拟机,带来的TCO开销。这里我就不再一一计算了,感兴趣的朋友可以按前面的数据自己算一下,答案可以写在下方评论区里。


前面说了,第四代EPYC新推出了一个“贝加莫”产品线,主打超多核心。比如EPYC 9754就包含了128个核心、256线程,就是为了支持更多用户跑虚机等等这些云原生应用而专门优化的。这里多提几句技术细节,为了在一颗芯片里放下这么多核心,贝加莫采用了Zen4c内核架构。和Zen4相比,Zen4c把3级缓存容量砍掉一半,其他不变,这样芯片的整体面积就缩减了35%。


这种砍缓存的方法其实也是业界常用的缩体积的方法,我们开发处理器的时候也常用。这种方法的好处是既能缩小单个核的面积,在芯片里塞进去更多的内核,又能和标准Zen4完全兼容,不用修改软件代码,并且可以根据需要进行无缝切换。当然代价就是性能肯定比标准Zen4有所下降,毕竟三缓小了一半。但即便如此,贝加莫也比前一代米兰的性能有2.5倍的提升。


从芯片架构上来看,贝加莫是一个很典型的基于芯粒的层次化设计。整颗芯片由8个CCD、也就是核心芯粒(Core Chip Die)组成。每个CCD上又包含了两个CCX、也就是核心复合体(Core Complex);每个CCX由包含了8个Zen4C内核,以及它们共享的16MB三级缓存。这种层次化设计的好处,一个是降低了流片制造的成本和风险,因为不需要做一个特别大的、包含几十个内核的芯片,这种制造起来良率会指数级降低,而造很多个CCD就会良率高很多;另一个就是很好扩展,这些单元就像不同大小的乐高,在一定程度上可以排列组合。如果我想要一个64核的CPU,主打一个低功耗高能效,那直接上下各去掉两个CCD就OK了,而这恰恰也是第四代EYPC的另外一个新款「锡耶纳」。


那如果我在老石数据中心里用前面说的这几芯片,上面两道题该怎么算TCO呢?如果这你都能算出来,去这些芯片大厂应聘销售应该问题就不大了。也欢迎在评论区说说你的答案。


我们再来看另外一个场景,也是我日常工作中特别需要的——跑EDA软件。和云计算不一样的是,EDA软件很多都对多核并行优化的不咋好,所以特别吃单核性能,怎么着也得3GHz打底,也特别需要大缓存。而且很多EDA软件是基于核心数收费的,所以更需要高主频的CPU,能少用一个核算一个。说到单核性能和高主频,AMD的9174F最高能跑到4.4GHz,基频也有4.15GHz,在服务器CPU领域已经默秒全了,关键是售价「仅有」3850美刀。不多说了,我去打个报告申请换服务器了……



其实,也并不是说EDA软件就不需要多核性能。比如仿真或者芯片前端设计的时候,还是会有很多需要大批量小任务高并行的场景。这个时候用前面说的96核EPYC9654也很OK,基频3.55GHz,最高可以跑到3.7GHz。


面对EDA软件大缓存的需求,AMD的第四代EPYC有一个名叫热那亚-X的产品线,它最大的特点就是采用了第二代3D V-Cache内存堆叠技术,把内存堆料进行到极致。这颗芯片上最多集成12个内存芯粒,每个芯粒集成64MB内存,再加上CPU上的原生123级缓存,这样整个处理器的缓存可以达到1152MB,这也是单个CPU芯片首次缓存容量突破1GB大关。


所以用了热那亚-X之后,仿真软件VCS的性能提升高达73%,相当于原来需要跑一个星期的仿真,现在只需要两天就搞定了,效率提升肉眼可见。不多说了,我再去打个报告申请换服务器了(梅开二度)……



成年人,如何做选择题?

不管是王思聪还是老石数据中心,买CPU还真的不是一个简单的选择题,不是有钱任性买最贵的就一定最好。每个人都在追求性价比,但在成年人的世界里,性价比并不是性能高+价格便宜这么简单,而是高性能低功耗、高核心密度低使用成本,各种因素不做选择题我全都要的过程。当然技术在这里是特别重要的推动力量,比如AMD之所以做出来这么多EPYC子产品系列,就是为了把一个不可能既要又要的大问题拆分成一些小问题,然后在各自的细分领域深入优化的结果。所以即使卖小十万,也仍然性价比拉满。不选最贵,只选最好。


对于普通消费者来说,装一台电脑打打游戏远远花不了几十上百万,有人说我们可能永远也用不到这些黑科技。但如果你想想现在PC电脑的CPU处理器里又是多核、又是AI引擎,果子还有所谓的统一内存架构,这不都是服务器CPU玩过的技术吗。所以这些现在看起来用不上的黑科技,说不定未来就会出现在普通人的电脑里,这也是种技术的传承吧。



头条号
小萍子
介绍
推荐头条