江南体育AI芯片领域玩家众多,作品也在不断更新迭代。然而,到目前为止,完全符合描述和基准测试的AI芯片寥寥无几。即便是谷歌的TPU,也不足以支撑起AI更为长远的发展。
人工智能的崛起有三个基本要素:算法、数据和算力。当云计算广泛应用,深度学习成为当下AI研究和运用的主流方式时,AI对算力的要求正快速提升。对AI芯片的持续深耕,就是对算力的不懈追求。
目前,在摩尔定律的驱动下,CPU可以在合理的算力、价格、功耗和时间内为人工智能提供所需的计算性能。但AI的许多数据处理涉及矩阵乘法和加法,而CPU的设计与优化是针对成百上千种工作任务进行的,所以用CPU来执行AI算法,其内部大量的其他逻辑对目前的AI算法来说是完全浪费的JN SPORTS,无法让CPU达到最佳的性价比。而面对爆发式的计算需求,通用芯片将更加无以为继。
因此,具有海量并行计算能力、能够加速AI计算的AI芯片应运而生。面对不断增多的B端应用场景,越来越多的AI芯片公司加入角逐。
实际上,AI芯片的研发有两个不同的方向:第一,在现有的计算架构上添加专用加速器,即“AI加速芯片”,它是确定性地加速某类特定的算法或任务,从而达到目标应用领域对速度、功耗、内存占用和部署成本等方面的要求。
第二,完全重新开发,创造模拟人脑神经网络的全新架构,即“智能芯片”。它让芯片像人一样能使用不同的AI算法进行学习和推导,处理包含感知、理解、分析、决策和行动的一系列任务,并且具有适应场景变化的能力。目前,这类芯片的设计方法有两种:一种是基于类脑计算的“神经拟态芯片”;另一种是基于可重构计算的“软件定义芯片”。
“智能芯片”仍处于初期开发阶段,不适合商业应用。因此,企业们目前主要采用的方法是在现有的计算架构上添加人工智能加速器。AI加速芯片的研发也分为两种主要的方式:一种是利用已有的GPU、众核处理器、DSP、FPGA芯片来做软硬件优化;另一种则是设计专用的芯片,也就是ASIC。
GPU、FPGA以及ASIC已成为当前AI芯片行业的主流。其中GPU算是目前市场上AI计算最成熟、应用最广泛的通用型芯片了,这是一种由大量核心组成的大规模并行计算架构,专为同时处理多重任务而设计的芯片。GPU桌面和服务器市场主要由英伟达、AMD瓜分,移动市场以高通、苹果、联发科等众多公司为主。
ASIC是一种为特定目的、面向特定用户需求设计的定制芯片,性能强、体积小、功耗低、可靠性高。在大规模量产的情况下,还具备成本低的特点。近年来,越来越多的公司开始采用ASIC芯片进行深度学习算法加速,其中表现最为突出的就是TPUJN SPORTS。这是谷歌为提升AI计算能力同时大幅降低功耗,专为机器学习全定制的人工智能加速器专用芯片,性能非常出众。
此外,国内企业寒武纪开发的Cambricon系列处理器也广泛受到了关注。ASIC的全球市场规模从2012年的163亿美元增长到2017年257亿美元,预计未来5年将保持18.4%年复合增长,到2022年达到597亿美元。目前,市场格局还比较碎片化。
FPGA集成了大量的基本门电路以及存储器,其灵活性介于CPU、GPU等通用处理器和专用集成电路ASIC之间。我国在这方面刚刚起步,与FPGA四大巨头赛灵思、英特尔、莱迪思、美高森美存在着巨大的差距。从市场份额来看,赛灵思和英特尔合计占到市场的90%左右,其中赛灵思超过50%。2017年,FPGA的全球市场规模为59.6亿美元,预计到2023年将达到98.0亿美元。
根据Gartner的预测数据,全球人工智能芯片市场规模将在未来五年内呈现飙升, 从2018年的42.7亿美元成长至343亿美元,增长超过7倍,可以说,未来AI芯片市场将有一个很大的增长空间。
不过,对于很多初创企业而言,研发芯片将要面临时间和资金上的巨大挑战。在时间上,芯片研发从立项到上市通常需要两年左右的时间。相较之下,更重要的一点是芯片成本很高。
在人工智能应用领域,依据芯片的部署位置和任务需求,会采用不同的制程。在一般情况下,终端设备的芯片经常会采用65nm和28nm制程;边缘端和部分移动端设备的芯片,制程基本为16nm或10nm;而云端芯片通常是7nm。
芯片制程决定开发成本。根据IBS的估算数据,按照不同制程,65nm芯片开发费用为2850万美元,5nm芯片开发费用则达到了54220万美元。因此,在芯片的研发上,对错误的容忍度几乎是零。目前JN SPORTS,较为成熟的是40nm和55nm工艺,而对于当下先进的7nm工艺,很多企业的技术还不够成熟。
高昂的开发费用,加上以年计算的开发周期,AI芯片企业在融资的早期阶段就需要大量资金浥注,这样才能撑过没有产品销售的阶段。而政府的补助和投资者的资金,往往会倾向于那些销售业绩好的公司。且资本市场希望能有一个较短的投资周期。因此,融资也成为一道门槛。
此外,由于芯片开发周期通常需要1-3年的时间,在正常的时间里软件会有一个非常快速的发展,但算法在这个期间内也将会快速更新,芯片如何支持这些更新也是难点。
目前主流的AI芯片采用的是冯诺依曼架构。在冯诺伊曼体系结构中,芯片在计算上是采取1进1出的方式,数据从处理单元外的存储器提取,处理完之后再写回存储器,如此依序读取完成任务。由于运算部件和存储部件存在速度差异,当运算能力达到一定程度,访问存储器的速度无法跟上运算部件消耗数据的速度,再增加运算部件也无法得到充分利用,这不仅是AI芯片在实现中的瓶颈,也是长期困扰计算机体系结构的难题。?
另外,要满足人工智能发展所需的运算能力,就需要在CMOS工艺上缩小集成尺寸,不断提高芯片的系统性能。如今,7nm已经开始量产,5nm节点的技术定义已经完成。但由此也产生了CMOS 工艺和器件方面的瓶颈。首先,由于纳米级晶体管所消耗的能量非常高,这使得芯片密集封装的实现难度很大。其次,一个几纳米的CMOS器件,其层厚度只有几个原子层,这样的厚度极易导致电流泄漏,而工艺尺寸缩小所带来的效果也会因此受到影响。
尽管AI芯片市场的增长空间很大,但未必能够容得下足够多的企业。行业本身的特性以及当下AI所处的发展阶段,都决定了AI芯片企业会有一个相对较长的挫折期,而在此过程中,被资本炒出的泡沫也会随之压缩。