网站首页

产品中心

智能终端处理器 智能云服务器 软件开发环境

新闻中心

关于江南体育

公司概况 核心优势 核心团队 发展历程

联系江南体育

官方微信

官方微博

主页 > 新闻中心

江南AI 芯片前言解读

发布时间：2024-04-22 01:56浏览次数：来源于：网络

　　JN SPORTS进入公司AI产业快有3个年头，AI芯片和传统芯片，甚至AI芯片和GPU，还有AI芯片的发展历史，面向未来场景的挑战都有很多话题，下面我们一起来聊聊AI芯片和传统芯片的区别哈。
　　芯片是半导体元件产品的统称，而集成电路，缩写是IC，就是将电路小型化，通过电子学和光学，将电路制造在半导体晶圆上面。
　　我们会分为4个小点进行介绍AI芯片前言解读。首先是AI芯片从CPU、GPU、到XPU的发展情况总体介绍，接着是AI芯片都有哪些系统架构，基于不同的系统架构，又引申出不同的AI芯片。第三部分来整体看看，AI芯片的产业链情况，了解AI芯片从设计到应用的一个分部。最后自然是了解AI芯片未来的发展趋势，展望未来。
　　首先我们说下到底什么是AI芯片，广义上讲，只要能够运行人工智能算法的芯片都叫作AI芯片。但是通常意义上的AI芯片，指的是针对AI算法做了特殊加速设计的芯片，当前阶段的AI算法一般以深度学习算法为主，也可以包括其它机器学习算法。
　　下面我们主要回顾下近20年以来AI芯片发展。在90年代和20世纪初，受制于算法、数据量等因素制约，这个阶段AI芯片并没有太多市场需求，通用CPU即可满足AI算法和应用的需要。
　　从2006年开始，Hinton在Science杂志上发表了使用神经网络降低数据维度的文章，为深度学习在大规模数据中可学习带来研究理论基础。同年，英伟达推出了CUDA，使开发者可以在GPU上面方便地进行编程。
　　在这之后的5年，人们发现GPU并行计算能力，恰好适应AI算法和数据并行计算的需求，开始逐渐地尝试使用GPU来运行AI算法和进行验证。
　　进入2012年后，云计算和移动设备广泛地发展起来，大量图像数据和用户数据积累，同年Google使用1.6万个GPU核组成的并行计算平台Google Brain训练AI模型，在语音和图像识别等领域获得了巨大成功。同年Alex利用2块GPU的并行能力，实现的AlexNet，将图像分类错误率从26％降低到15％，碾压第二名的分类性能，一举夺得ImageNet比赛冠军。
　　产业和学术对算力的需求是永无止尽的，随着AI对计算的需求不断增长和AI产业的爆发，2014年英伟达发布了首个为深度学习设计的GPU架构Pascal开始。到了2016年，Google公布了第一代ASIC芯片TPU，到2021年发展到了第四代。2017年,华为第一个将NPU集成到手机上，使用AI算法增强手机拍照能力。在2018年，华为昇腾910芯片ASIC架构细节公布，实现了7nm EUV工艺、32核达芬奇架构，FP16算力达到256 Tera-FLOPS。
　　传统CPU结构中，除了数据运算，还需要执行数据的存储与读取、指令分析、分支跳转等命令。AI算法通常需要对海量数据进行处理，使用CPU执行算法，将会花费大量的时间，在数据指令的读取分析上，因此计算效率非常低。
　　随着AI产业的发展，业界出现了4种AI芯片架构。以冯·诺依曼传统计算架构为基础，用于加速硬件计算能力为主，有GPU、FPGA、ASIC 3种类型为代表，另外是颠覆冯·诺依曼架构，采用类脑神经结构独立设计，来提升计算能力。下面我们详细展开4种不同类型的架构。
　　第一种是GPU，通用的图像处理单元。GPU采用SIMD单指令多数据流的方式，也就是一条指令操作多个数据，拥有数量众多的计算单元和超长的图形图像处理流水线，刚发明的时候主要处理图像领域的并行加速运算，由于GPU内部，大部分的晶体管可以组成各类专用电路、多条流水线，使得GPU的计算速度远高于CPU，并拥有了更加强大的浮点运算能力，从而可以缓解深度学习算法的训练难题，释放AI潜能，因此广泛使用在深度学习算法领域。值得注意的一点是，GPU缺乏复杂的运算逻辑单元，必须由CPU进行调度。
　　英伟达作为GPU巨头，占据了七成的GPU和AI市场份额。在近几年的GTC大会上，CEO黄仁勋满嘴都是AI，可见AI对GPU发展的重要性不言而喻。
　　第二种是FPGA，通俗地理解就是，可以把硬件设计重复烧写在它的可编程存储器里面，使FPGA芯片可以执行不同的硬件设计和功能，所以被叫做「现场可编程逻辑阵列」。FPGA将指令锁定在硬件架构上，然后使用硬件指令流运行数据，简单理解就是将AI的计算架构用硬件电路实现出来，然后持续的将数据流输入系统，并完成计算。与GPU不同的是，FPGA可以同时拥有硬件流水线并行和数据并行处理能力，适用于以硬件流水线方式处理数据流，因此非常适用于AI推理阶段，相对于CPU与GPU有明显的性能或者能耗优势。
　　目前使用FPGA用于设计AI芯片国内有深鉴科技、微软Catapult项目。其中深鉴科技在2018年，以3亿美元的价格卖给FPGA巨头赛灵思。
　　由于FPGA编程难度大，对开发者要求高，于是出现了ASIC，专用集成电路，主要是实现AI特定算法，要求定制的芯片。所谓定制，那就是专门为AI算法，设计出来的架构，可以有助于提高芯片性能和功耗比，缺点是电路设计定制，导致相对开发周期长，不能扩展以外，好处就是在功耗、可靠性、芯片体积、性能等方面都有巨大的优势。
　　自从2016年Google发布基于ASIC架构的第一代TPU后，华为的昇腾系列芯片、寒武纪、比特大陆、地平线等厂商纷纷入局，即使AI算法发展迅猛，但是基于ASIC的AI芯片仍然是今天的主流。
　　有人说，真正的人工智能芯片，未来发展的方向，会不会是类脑芯片呢？最后来谈一下，类脑芯片展，类脑芯片直接基于神经形态架构设计，用于模拟人脑功能进行感知方式、行为方式和思维方式的计算。但是研发难度巨大。
　　2014年，IBM推出第二代TrueNorth芯片，采用28nm工艺技术，里面包括了54亿个晶体管和 4096个处理核，相当于100万个可编程神经元，以及2.56亿个可编程突触，芯片的工作方式类似于人脑的神经元和突触之间的协同。
　　现在聊到AI芯片，肯定离不开AI芯片在产业链中的位置。那从芯片的整体产业环节来看，最上游的是芯片设计江南，中游是制造和封测，最后是下游的系统集成及应用。但是具体是怎么分工的吗？(聪)
　　感谢聪聪，我们来看一下这个图，AI芯片产业链环节中，我们这里以华为昇腾AI产业为例。首先是上游，昇腾910芯片采用的是ASIC专用集成电路，基于达芬奇架构来实现的，而达芬奇架构这款IP呢，则是通过华为海思设计的，所以海思是达芬奇这款IP的设计商。
　　设计完之后，就到中游，分别是AI芯片的晶圆制造和封装测试，但晶圆不仅是在封装时测试，制造后会有一次测试，封装后再进行一次。而现在大部分芯片的制造都依赖于台湾的TSMC，就是大名鼎鼎的台积电，还有中芯国际SIMC等芯片制造商。
　　最后是AI产业的下游，下游主要为系统集成及应用为主，华为昇腾AI产业作为AI系统集的主要集成商提供昇腾Atlas服务器，然后联合开发商，也就是俗称的ISV，来提供上层的AI解决方案。
　　最后就是AI芯片的发展趋势啦，无论是华为昇腾产品的达芬奇架构、英伟达的Tensor Core、还是Google，深度学习需要海量数据进行计算，内存带宽的制约，已经成为整个系统的性能瓶颈。第二个就是海量内存和计算单元，访问频繁切换，导致整体功耗很难降下去。最后便是随着AI产业的快速变化，硬件如何适配算法是个难题。
　　未来10年是加速计算架构变革的新十年。在计算存储一体化方面，也就是把计算单元和存储单元放在一起，使得AI系统的计算和数据吞吐量增大，还能显著地降低功耗江南。会不会出现一种新型非易失性存储器件，就是在存储阵列里面加上AI计算功能，从而节省数据搬移操作呢？现在硬件计算能力大于数据读取和访问性能，当计算单元不在是瓶颈，如何减少存储器的访问延时，将会成为下一个研究方向。
　　通常，离计算越近的存储器速度越快，每字节的成本也越高，同时容量也越受限，因此新型的存储结构也将应运而生。
　　第二个趋势就是江南，稀疏化计算。随着千亿、到万亿网络模型提出，模型越来越大，但实际不是每个神经元，都能有效激活，这个时候稀疏计算，可以高效减少无用能效。特别是在推荐场景和图神经网络的应用，稀疏已经成为常态。
　　例如，哈佛大学就该问题提出了优化的五级流水线结构，在最后一级输出了触发信号。在Activation层后对下一次计算的必要性进行预先判断，如果发现这是一个稀疏节点，则触发 SKIP信号，避免乘法运算的功耗，以达到减少无用功耗的目的。
　　第三个趋势是支持更加复杂的AI算子。在标准的SIMD基础上，CNN的特殊结构复用，可以减少总线的数据通讯，Transformer结构对大数据在计算和存储之间切换，或者是在NLP和语音领域经常需要支持的动态shape，都需要合理地分解、映射这些不同复杂结构的算子，到有效的硬件上成为了一个值得研究的方向。
　　最后就是更快的推理时延和存储位宽。随着苹果、高通、华为都在手机芯片SoC上面推出AI推理硬件IP，近年来在手机SoC上，又引入可学习功能。未来如何在手机SoC上执行更快是业界很关注的一个点，包括经常看视频的抖音、bilibili，都需要对视频进行AI编解码，基于ISP进行AI影像处理。另外在理论计算领域，神经网络计算的位宽从32bit到16bit，出现了混合精度到目前8bit，甚至更低的比特数，都开始慢慢进入实践领域。
　　AI芯片，最后决定成败的因素会什么呢？我们应该选择，英伟达的GPU的硬件架构、华为达芬奇架构、Google TPU的脉动阵列架构呢？
　　总的来说，在ZOMI的观点来看，芯片架构的选择应该服务于整个芯片项目的成功，是很多因素博弈的结果。英伟达今天能在AI领域占据着头部市场，是归功于它的底层硬件架构，还是它完善的软硬件生态呢？这个问题呀，我觉得大家应该看得比我清楚。

下一篇：技术服务商江南体育官网和战略合作伙伴
上一篇：全球和国产十大AI芯江南体育片

咨询我们

输入您的疑问及需求发送邮箱给我们

相关新闻推荐

技术服务商江南体育官网和战略合作伙伴 2024-04-22

江南AI 芯片前言解读 2024-04-22

全球和国产十大AI芯江南体育片 2024-04-22

江南体育官网解读AI芯片发展现状及前景 2024-04-22

人工江南体育智能算力第二回：芯片篇 2024-04-21

江南体育百度AI芯片 2024-04-21

简历投递

admin@yochibike.com

商务合作

admin@yochibike.com

媒体垂询

admin@yochibike.com

产品中心: 智能终端处理器智能云服务器软件开发环境

新闻中心

关于江南体育: 公司概况核心优势核心团队发展历程

关注腾讯

微信二维码

微博二维码

Copyright © 2002-2022 江南人工智能科技有限公司版权所有备案号：浙ICP备2022029655号-1