江南体育当初只是想在游戏图像计算上分一杯羹的英伟达,没想到在二十多年后成为AI计算的领军者,几乎垄断了整个AI服务器芯片市场JN SPORTS。
上一个摧枯拉朽般占领服务器市场的是英特尔,但它的CPU在高性能计算上败给了英伟达的GPU。同时,英特尔在芯片制程技术上也落后于台积电,其产品战略一直处于被动状态。相比之下,领先的英伟达已经一骑绝尘,而AMD也在后面紧追不舍,直抄英特尔的老窝。
随着英伟达的成功JN SPORTS,下一代芯片研发方向更聚焦在如何深度结合AI模型上来,选择不仅仅只有GPU,因为提高算力的高昂代价绝大部分要归功于AI芯片,所以英伟达在模型训练芯片端的领先地位无疑会遭受挑战,英特尔、AMD、高通等企业开始摩拳擦掌,做好准备。
按照部署位置,AI芯片可以分为云端、终端和边缘侧;按照任务划分又可以分为训练芯片和推理芯片。云端就是在数据中心进行模型训练,芯片需要支撑大量的数据运算,终端和边缘侧对算力要求稍弱一些,但要求快速响应的能力和低功耗,英伟达霸占了训练芯片这一领域,不过推理方面不乏比GPU更合适的芯片。
性能各异的专用AI芯片包括GPU、ASIC、FPGA、NPU等,可以简称为XPU,名称的不同反映了各自架构层面上的差异。专用AI芯片在所擅长的领域里有匹配GPU的能力,虽然少了可扩展性,但在效能和算力上领先更通用的GPU,尽管后者能做更多的事情。
这就回到了当初CPU在机器学习领域被弃用的逻辑,将来是否会有一款新的芯片可以对GPU发起冲击?
目前全球大厂们都尤爱造芯,不过通用芯片人家没必要自己做,只会切合自己重要的业务方向来布局。
比如谷歌的TPU采用了ASICJN SPORTS,只针对卷积神经网络的加速器,特斯拉的Dojo是专门用于FSD的机器视觉分析芯片,以及国内百度、阿里也花费大量精力在自研芯片上。
一直以来,专用处理器并未真正给GPU带来过威胁,这主要与市场容量,资金投入,摩尔定律形成的正向循环有关。
根据IDC数据,21年中国AI芯片市场里,GPU占据89%的份额;NPU处理速度比GPU快上10倍,占据9.6%的份额,ASIC和FPGA占比较小,市场份额分别1%和0.4%。
过去三十年,台积电、三星等晶圆代工厂的崛起塑造了分工专业化的趋势,设备和先进制程的技术进步允许像英伟达、高通等芯片设计企业一展身手,也让苹果、谷歌等科技大厂开始用芯片定义产品和服务,专用芯片设计的土壤是肥沃的,大家都是受益者。
在竞争对手看来,GPU并非专门为机器学习而设计的芯片,之所以能成功,主要在于结合框架软件层形成的复杂生态,提高了芯片的通用性。
实际上,自2012年以来,每年头部训练模型算力需求按10倍在增长,一直在逼近摩尔定律下的算力极限。
而从11年Tesla M2090开始,数据中心产品GPU一直在更新迭代,先后推出Volta、Ampere、Hopper等针对高性能训练计算和AI训练的架构,保持每两年推出一代新产品的速度,浮点算力也从7.8 TFLOPS增至30 TFLOPS,涨幅接近4倍。
基于英伟达在AI芯片领域的高份额,可以说,过去AI模型训练的算力增长主要由英伟达的GPU系列所支撑,这形成了一个正向反馈,随着芯片出货规模的增长,摊平了英伟达芯片的开发成本。
相比较未来的算力需求,一款通用芯片的技术迭代最终也会逐渐放缓,专用处理器只有跑通这个正向循环,才有可能在成本上与通用芯片们并驾齐驱。
不过难度在于,专用处理器仅仅着力在细分市场,市场规模根本比不上通用市场,相对于通用芯片的每单位性能提升,往往需要花上更长的时间,或者更大的出货量来摊薄成本,可是随着AI在应用场景中加速渗透,未来AI芯片的开支也会大幅增长,专用AI芯片、 CPU、GPU有望成为三条并行的线。
英伟达对算力的垄断地位在如今大模型战争下加速强化,矛盾日益加剧,GPU采购需求超出台积电和英伟达的预料,供应不足,价格便水涨船高,继续循环。
国内外科技大厂们在选择自研芯片上保持一致的态度,又或者,帮助其他芯片厂和英伟达竞争,刺激新的供给同时降低芯片成本。
上月初AMD盘中大涨12%,原因来自一则消息指出,微软正在与AMD合作,资助后者向AI芯片扩张,并与这家芯片制造商合作一款代号为Athena(雅典娜)的芯片,但之后微软官方否认了这一消息。
这让人联想到上世纪九十年代的“WINTEL”联盟,互相成就了微软在PC操作系统,以及英特尔在CPU的地位。此时的AMD,已经成为了英特尔市场份额最强有力的威胁。
去年计算机市场经受重创,企业服务器和消费电子两端的疲弱对CPU出货量造成不小拖累,英特尔与AMD两家公司均出现了30多年来最大的下滑,分别降低21%和19%。
据Passmark数据监测,在数据中心市场,去年AMD的份额猛增至20%,抢走了英特尔(2022年,70.77%)接近1成的份额,而截止今年1月2日,AMD重新逼近40%,回到了2004年的水平。
AMD之所以得以穷追不舍,一方面是借助台积电的力量,让其产品组合不断优化,用于数据中心的EPYC Milan处理器采用率提高,去年这项业务营收增长64%。
另一方面则与竞争对手糟糕的战略决策有关。过去十年,一直保持领先地位的英特尔在CPU上的创新乏善可陈,产品力相对竞争对手一路下滑。
当初苹果想要英特尔为初代iPhone开发手机CPU,CEO保罗欧德宁因为报价太低回绝,这位x86领头羊错估了移动端的机会。
除了战略眼光不足,还有不断跳票的产品推新计划,英特尔是旧IDM时代的老头,如今台积电、三星领导着先进制程的迭代,是CPU这类通用芯片继续升级的基座,英特尔本身工艺技术的掉队反噬着产品的更新节奏,更多的是“挤牙膏”式的添头。从2021年高点至今,其市值削去了一半不止。
反观AMD,则一路拓宽产品品类,追逐高性价比的策略,先后收购了ATI,Xilinx,成为第一家同时拿下CPU+GPU+FPGA的芯片厂商。2018年AMD在PC端的CPU制程首次弯道超车,市场份额开始加速提升,2019年联手台积电率先跃入7nm,在服务器端也实现制程超越,去年市值超过了英特尔。
前不久,AMD推出结合CPU+GPU双架构的Instinct MI 300正式进军AI训练端,这款芯片在规格和性能直接对标了英伟达的Grace Hopper。
这是AMD管理层强调AI作为战略重点后的重棋,与英伟达同时出租自家算力不同,AMD着力于构建具有竞争力的芯片矩阵,与其正面交锋,或将从云厂商的数据中心开始突破,预计今年四季度开始放量。
英特尔从2015年开始花巨资收购了一大批人工智能公司,如Altera、Mobileye、Nervana等,结果并没有给业务带来多少帮助,更像是养着这些公司等着刮彩票。
2021年,英特尔曾宣布一款代号为“Ponte Vecchio”的旗舰GPU,用于数据中心,结果却在交付上不断拖延。作为继任者,Falcon Shores GPU结合了x86 CPU和Xe GPU,也跳票到了2025年。
诚然,英伟达的成功并不只是硬件做得好,有别于英特尔过去硬件第一的路径,英伟达GPU架构保持了两年一代的速度演进,凭借着通用的计算框架构筑起了软件生态壁垒。
芯片发展历程中,定义标准的赢家往往强者恒强,要与英伟达分庭抗礼,性价比是必需砝码,生态圈同样关键。算力发展推动AI进步,还要倚仗这些厂商的竞争和互相超越。
在这些方面,无论是AMD、英特尔,还是其他的后来者大厂,都还有很长的路要走。