江南AI芯片一般泛指所有用来加速AI应用,尤其是用在基于神经网络的深度学习中的硬件。
➢ GPGPU——优势:1)生态完善;2)可进行通用计算,应用范围广;3)目前算力最强。缺点:1)无法针对特定场景优化;2)成本高。
➢ ASIC——优势:1)相同价格下算力强大;2)单算力功耗小;3)可以针对特定场景进行优化。缺点:1)没有完整生态,开发、使用成本高;2)通用性差,只能支持特定运算,如矩阵运算等。
➢ 据IDC数据, 2022年中国AI加速卡出货量约为109万张, 其中英伟达在中国AI加速卡市场份额为85%。
➢ 英伟达GPU产品凭借其性能优势在全球主要云平台中得到了广泛运用,如亚马逊AWS、 Google Compute Engine、阿里云等厂商云平台的主要AI芯片均采购自英伟达。
➢ 据IDC数据, 2022年中国仍以GPU为主实现数据中心计算加速, GPU在人工智能芯片市场中出货量占比达86%。NPU占比达12%,较以往具有明显增长。NPU芯片设计逻辑更为简单,在处理推理工作负载时具有显著的能耗节约优势
➢算力:单位是FLOPS或者TOPS江南,表示GPU在单位时间内的峰值运算次数,是GPU的核心性能指标。
➢显存:显存的大小在几个GB到几十GB之间,用于存储运算中间过程的临时数据,在GPU算力足够的情况下,显存越大,读取次数越小,延时越低。
➢功耗:GPU的功耗和算力江南、制程、硬件架构等因素有关,相同算力情况下,功耗越大,意味着数据中心的运营成本越高,同时对服务器的电源、制冷都会有更高的要求。
➢片间互联:大型AI训练需要使用多个GPU服务器,在服务器外部互联通常使用光纤或高速电缆,而服务器内部GPU之间(通常为8个),则使用NVLink等片间互联技术进行数据交互,如果片间互联传输速率低于服务器外部传输速率,则可能会成为瓶颈。
➢显存带宽:GPU与系统内存之间的数据传输速率,单位GB/s;如果显存带宽不足,则系统会出现瓶颈, GPU运算核心可能处于空闲状态,但通常影响不大
➢ 以Open AI的GPT-3模型为例,拥有1750亿个参数,租用Azure云服务器进行运算的成本约为200万美金,而实际由于训练通常不止一次,且训练过程中还包括参数的调整等, 参考Alchemy API创始人Elliot Turner估计,训练GPT-3的成本可能接近1200万美金。
➢ 近期:假如谷歌所有文字搜索场景全部接入chatgpt,按照gpt3的参数数量(1750亿)计算,所需服务器数量仍然超过10万台量级。
➢ 远期:考虑到未来模型参数呈指数级增长,且除文字交互外,未来图像江南、视频等多种形态对算力资源的消耗量或将成数倍级增长,远期推理侧所需服务器数量需求或将成数倍级提升。