江南全球初创企业正试图证明它们可以在某些应用领域提供比行业巨头英伟达更好的芯片解决方案。虽然英伟达的GPU继续主导人工智能(AI)领域,但AI初创企业认为,GPU的高能耗和庞大的设计留下了市场空隙,供新兴企业填补,希望分享AI技术繁荣带来的利益。
AI芯片主要有两种基本类型:一种是“推理”芯片,用于运行现有的AI模型;另一种是“训练”芯片,用于开发新的AI模型的高性能数据处理组件。例如,OpenAI需要成千上万的训练芯片来开发新的ChatGPT模型,而ChatGPT回答问题时会使用推理芯片。
随着聊天机器人和其他生成式AI应用程序变得越来越流行,人们对AI推理的需求将呈指数级增长,该市场规模最终将达到数百亿美元。
英伟达的成功主要受益于训练芯片市场的繁荣,因为其GPU能够处理开发AI模型所需的大量并行计算。但GPU价格昂贵且体积庞大,无法成为轻薄笔记本电脑和可穿戴设备的可行选择。英伟达用于数据中心的AI芯片每片售价为2.5万~4万美元,是传统产品的7~8倍。
即使是英伟达的供应商也提到了价格问题。韩国SK集团董事长崔泰源(Chey Tae-won)在7月份表示,“很多公司希望使用他们自己的芯片,而不是更昂贵的英伟达芯片。”崔泰源表示,如果像微软和谷歌这样的新兴企业能够制造更便宜的AI芯片,“我认为英伟达主导的商业模式可能会被打破。”
价格并不是唯一的问题。据报道,英伟达的下一代Blackwell芯片消耗高达1200W的电力。美国芯片初创公司Esperanto最近表示,“几年前,消耗超过100W的芯片被认为是相当极端的。”有专家估计,训练一个像ChatGPT-3这样的模型所消耗的电力比1000个家庭一年的用电量还多。
研究公司Omdia咨询总监Kazuhiro Sugiyama表示,“英伟达的GPU主要适用于训练,但我们看到越来越多的新兴企业开发既可用于训练又可用于推理的芯片。2025年至2026年期间,我们将看到更多企业进入由英伟达主导的市场,因为大型科技公司开始供应用于自身服务的专用AI芯片。”他补充道,英伟达产品价格高昂,“这对想投资AI的公司来说是一个负担。”
这些新兴企业包括由软银愿景基金支持的美国公司SambaNova Systems,由前英特尔工程师创立的Tenstorrent,以及最近被软银收购的英国公司Graphcore。大科技公司如谷歌、Meta和亚马逊AWS也纷纷加入竞争,更不用说英伟达的竞争对手AMD了。全球各地的AI创企和科技巨头们都在试图证明自己在图形芯片领域的价值。
Preferred Networks成立于2014年,目前已成为估值约3470亿日元(21亿美元)的日本最大AI独角兽,将首次寻求海外投资者,以加速芯片开发江南。该公司主要通过与客户公司共同开发AI服务来获得收入。
与许多专注于AI软件的日本初创公司不同,Preferred Networks采用的是垂直整合业务模式江南,为其AI服务开发自己的超级计算机和芯片,但采用“无晶圆厂”模式,即依赖于台积电等代工厂来制造芯片。这种做法的一个原因是能够为欠发达国家/地区提供负担得起的AI服务。这意味着未来AI服务的成本很大程度上可能由运行这些服务所需芯片的成本决定。
Preferred Networks及其合作伙伴,包括一家国家研究机构,计划在2027年3月前开发下一代AI加速器芯片。
Preferred Networks芯片设计负责人、神户大学教授Junichiro Makino表示,公司旨在使新芯片“比英伟达的B200芯片更强大且能耗更低”,后者采用了Blackwell芯片。
简而言之,Preferred Networks希望通过软件使AI芯片更高效。软件将决定如何有效地处理特定任务,并将数据和计算分配给芯片内部的各个核心——即芯片内的小型“处理器”。这使得每个核心能够专注于与其任务相关的数据,而不像传统GPU那样,核心之间更为交织。反过来,这意味着需要的核心数量更少,从而在保持相同计算能力的情况下降低能耗。
虽然这是一个训练芯片,但Preferred Networks相信这项技术最终可以被改进用于更具成本效益的推理解决方案。
Preferred Networks还在开发一种新的大型语言模型Plamo,专为数据量较少的语言(如日语或其他亚洲语言)定制。Toru Nishikawa表示,开发准确的AI模型需要大量数据,因此开发基于“次要”语言的大语言模型比开发英语、日语等模型更具挑战性。
GPU从未被设计成为针对AI的最高效解决方案。它们的最初目的是确定游戏中数百万个像素的颜色。每次计算都相对简单,但要处理快速移动的高分辨率图像,需要成千上万个核心同时运行。研究人员在21世纪初注意到它们的潜力,并开始修改英伟达的GPU以运行复杂的计算。从2000年代末期开始,英伟达逐渐适应了这种新兴需求。
不过,对于那些追求更优雅的AI芯片设计的初创企业来说,英伟达通过增加更多核心和内存来提高AI芯片性能的方式就像是“用蛮力解决问题,制造更大更贵的芯片”,但效率太低。
英伟达也在制造专用的AI芯片,甚至包括一些推理芯片,但据Omdia咨询总监Kazuhiro Sugiyama说,其架构策略并未发生太大变化,仍然是调整其软件平台以适应特定应用,例如AI或自动驾驶汽车。英伟达还采用了一种更为多用途的设计方法,优先考虑能够运行多种前沿AI的芯片。
据一位行业人士透露,初创企业可以通过专注于特定应用来竞争。这是日本AI芯片初创企业Edgecortix采取的部分战略,该公司成立于2019年,由前微软和美国IBM公司工程师Sakyasingha Dasgupta所领导,正试图解决“内存墙”问题。
GPU擅长计算巨大的矩阵集,但记忆时间不够长。每次进行计算时,它们都会访问内存芯片来记录结果或召回下一任务。“访问内存的次数越多,在功耗和延迟方面的成本就越高,”Sakyasingha Dasgupta表示。芯片还需要额外的功率来弥补访问内存导致的延迟,从而导致设计更加庞大且能效更低。
Edgecortix的芯片设计使其能够以更流线型的方式处理数据,从而减少芯片访问内存的次数。这种方法使该公司避免使用强大但昂贵的HBM芯片。
Edgecortix表示,其芯片专为“受限环境”中的AI应用设计,例如设备或工业机器,其运行所需的功率仅为GPU的十分之一,却能提供相同的性能。
Cerebras Systems成立于2015年,是一家希望在AI计算领域挑战英伟达的初创公司,该公司推出了一款新款巨型芯片CS-3,称其将在运行AI模型和生成式响应方面击败竞争对手。Cerebras还为AI开发人员推出了一款工具,允许他们访问超大芯片来运行应用程序。
Cerebras的方法依赖于由单个硅片制成的巨型芯片,其每个芯片大小与餐盘相当,被称为晶圆级芯片,从而避免了AI数据处理的一个问题:为AI应用提供支持的大型模型处理的数据通常无法放在单个芯片上,可能需要数百或数千个芯片串联在一起。
Cerebras表示,这种新技术使芯片比传统芯片更强大。但该公司必须提供专门设计用于容纳超大芯片的计算机,因为传统硬件无法容纳它们。另外该芯片还采用内置内存的方式加快信息传递速度。
Cerebras声称,其解决方案在AI推理方面比英伟达当前一代Hopper芯片快20倍,而价格仅为后者的一小部分。
Cerebras正在建立自己的数据中心,以提供AI计算服务。它还试图将其芯片出售给云提供商。当被问及Cerebras能从英伟达手中夺走多少市场份额时,Andrew Feldman表示:“足以让他们感到愤怒。”
d-Matrix由Sid Sheth于2019年创立,此前在新加坡国有基金淡马锡领投B轮融资中筹集1.1亿美元。Sid Sheth表示,该公司计划在今年晚些时候或明年初筹集2亿美元或更多资金。
d-Matrix设计的芯片经过优化,可帮助为生成式AI应用提供支持。该公司芯片具有数字“内存计算”功能,使AI计算机代码能够更有效地运行。公司芯片技术使用更少的资源来处理生成式AI响应所需的数据,并且针对此类任务进行了优化。
d-Matrix计划在今年底全面推出自己的芯片平台Corsair。Sid Sheth表示,该公司正在将其产品与Triton等开放软件配对,Triton与英伟达CUDA竞争。CUDA是一个广泛使用的软件平台,为开发人员提供构建AI应用程序的工具并优化其芯片的性能。
AI初创公司Groq成立于2016年,在今年8月初表示,在由思科投资、三星催化基金和贝莱德私募股权合伙人等领投的D轮融资中筹集6.4亿美元,其估值已达到28亿美元。
这家硅谷公司由Alphabet前工程师创立,专门生产AI推理芯片,这是一种优化速度并执行预训练模型命令的半导体。
去年,Groq适配了Meta的大型语言模型LLaMA,使其能够在自己的芯片上运行,而无需英伟达的芯片。Meta研究人员使用英伟达的芯片构建了LLaMA。
今年8月18日,SK电信的AI芯片部门Sapeon Korea与半导体初创公司Rebellions正式签署合并协议。此次合并预计将形成一个价值超过7.4亿美元的新实体。
AI初创公司Rebellions成立于2020年,曾于2023年推出其首款NPU芯片Atom,也是韩国本土开发的首款用于数据中心大语言模型(LLM)的NPU,并于今年投入量产。而Sapeon公司成立于2022年,于2023年11月发布了新一代X330 AI芯片,同样面向数据中心,采用台积电7nm制程工艺制造。X330芯片有两种型号:X330 Compact拥有367TFLOPs的计算能力、集成16GB内存;X330 Prime拥有734TFLOPs算力,集成32GB内存。
据悉,Rebellions将于今年底前开始量产AI芯片“Rebel Quad”,该产品配备4个三星12层HBM3E芯片,内存达144GB。Rebel芯片是继上一代Atom之后开发的新一代AI数据中心芯片。
合并后的公司将寻求通过NPU获得强势地位,Rebellions将负责管理合并后的实体。手握三星与SK两大韩国财团,新公司的目标也非常明确:挑战全球AI芯片领导者英伟达,在全球AI芯片市场占据一席之地。
曾为英特尔、AMD和特斯拉工作的芯片设计师Jim Keller正试图通过设计比英伟达更高效的芯片来降低AI应用的价格,以期夺取英伟达GPU的部分市场份额。Jim Keller现在是美国设计AI芯片初创公司Tenstorrent CEO。
Tenstorrent成立于2016年,正准备在2024年底出售其第二代多用途AI芯片。该公司表示,在某些领域,它拥有比英伟达的AI GPU更好的能效和处理效率。据称,其Galaxy系统比英伟达的DGX(AI服务器)效率高出三倍,价格便宜33%,原因是该公司不打算使用HBM。
Tentorrent芯片主要特点是其100多个内核中的每个内核都有小型CPU,即“大脑中的大脑”,内核将能够自行“思考”,决定先处理哪些数据,或者是否放弃某些被认为不必要的任务,从而提高整体效率。
人工智能(AI)初创公司Etched由Gavin Uberti和Chris Zhu于2022年创立,公司已招募曾在Cypress半导体和博通等公司工作过的人员进行研发。公司旨在制造一种专用芯片,用于运行广泛使用的AI模型。该公司宣称其芯片将与英伟达的产品相媲美。
Etched工程师正在设计第一款AI芯片Sohu,为生成内容和响应的AI计算部分(称为推理)提供支持,将经过优化以运行特定形式的“transformer”AI模型。
除了AI芯片创企外,一些老牌科技和半导体巨头也在开疆扩土,以期在英伟达主导的GPU市场打开一扇大门,抢占一席之地。
为了全面追击英伟达,AMD的并购之路“再下一城”。继7月收购欧洲最大的私人AI实验室Silo AI后,AMD近日再以49亿美元并购全球最大的超大规模计算公司AI基础设施提供商ZT Systems。这次AMD有史以来的第二大交易,不仅标志其AI投资全面完成,也标志着其构建起全机架系统软硬件设计和销售的综合生态,即基于跨芯片、软件和系统的创新提供领先的AI训练和推理解决方案。
同时,通过此次交易,AMD将能够更好地与主要对手英伟达竞争,尤其是在HPC(高性能计算)和AI训练集群的设计和定制方面,进一步巩固其在数据中心市场的地位。
英国芯片设计巨头Arm正在以色列开发一款GPU,将与英伟达展开竞争。据估计,Arm在其位于拉阿纳纳开发中心的全球图形处理小组中雇用大约100名芯片和软件开发工程师。
报道称,Arm新款GPU开发主要侧重于游戏市场。不过,如果其研究成果转化为实际产品,也不排除这种开发将应用于AI处理。
Arm位于以色列的硬件团队负责这些GPU的许多组件开发,包括旗舰产品Immortalis GPU,而以色列软件团队则为大型公司和新创公司的游戏开发商开发外部图形引擎开发商的软件接口,包括Vulkan和OpenGL。Arm以色列办公室也负责软件开发和开发工具江南、保护芯片活动的网络安全元件,以及与Arm合作的以色列芯片公司的销售和服务团队。
亚马逊在位于得克萨斯州奥斯汀的一家芯片实验室里,对一款受到严密保护的新型服务器设计进行了测试。该服务器配备亚马逊AI芯片,与市场领导者英伟达的芯片竞争。
亚马逊正在开发自己的处理器,以限制对英伟达昂贵芯片的依赖,该芯片为其亚马逊AWS的部分AI云业务提供支持。
亚马逊希望通过自主研发的芯片帮助客户以更低的成本进行复杂的计算并处理大量数据。亚马逊AWS表示:“在某些情况下,性能可提高40%甚至50%,因此成本应该是使用英伟达芯片的一半。”
随着随着AI技术的发展与普及,行业对高性能、低功耗的AI芯片的需求不断增加,全球半导体企业将继续在该领域展开激烈角逐。
风险投资公司Lux Capital联合创始人兼执行合伙人Peter Hébert表示:“公众投资者一直渴望找到并支持下一个‘英伟达’。这不仅仅是追逐最新趋势。这种势头也使几家风投资助的芯片初创公司受益,这些公司已经努力了近十年。”
Omdia咨询总监Kazuhiro Sugiyama估计,英伟达将在AI芯片总市场中继续占据30%~40%的份额,这主要得益于其在训练领域的主导地位,留给初创企业的则是更为利基的市场。如果行业对AI计算的方法发生根本性变化,“GPU的统治地位可能会终结”。