网站首页

产品中心

智能终端处理器 智能云服务器 软件开发环境

新闻中心

关于江南体育

公司概况 核心优势 核心团队 发展历程

联系江南体育

官方微信

官方微博

主页 > 新闻中心

AI芯片和传统芯片江南的差异在哪里

发布时间：2024-08-22 21:47浏览次数：来源于：网络

　　江南体育官网收购了，在业界引起不小的震动。目前国内做的公司可谓不少了，AI芯片已然成为了当下芯片行业最热领域。但是大部分人对AI芯片的架构应该都不是太了解。
　　那么AI 芯片和传统芯片有何区别？AI芯片的架构到底是怎么样的？带着这个疑问小编搜集到了来自知乎上的一些业内行家的观点，现在整理转发给大家。先回答问题：
　　性能与传统芯片，比如CPUGPU有很大的区别。在执行AI算法时，更快、更节能。
　　所谓的AI芯片，一般是指针对AI算法的ASIC（专用芯片）。传统的CPU、GPU都可以拿来执行AI算法，但是速度慢，性能低，无法实际商用。
　　比如，自动驾驶需要识别道路行人红绿灯等状况，但是如果是当前的CPU去算，那么估计车翻到河里了还没发现前方是河，这是速度慢，时间就是生命。如果用GPU，的确速度要快得多，但是，功耗大江南，汽车的电池估计无法长时间支撑正常使用，而且，老黄家的GPU巨贵，经常单块上万，普通消费者也用不起，还经常缺货。另外，GPU因为不是专门针对AI算法开发的ASIC，所以，说到底，速度还没到极限，还有提升空间。而类似智能驾驶这样的领域，必须快！在手机终端，可以自行人脸识别、语音识别等AI应用，这个必须功耗低，所以GPU OUT！开发ASIC就成了必然。
　　说说，为什么需要AI芯片。AI算法，在图像识别等领域，常用的是CNN卷积网络，语音识别、自然语言处理等领域，主要是RNN，这是两类有区别的算法。但是，他们本质上，都是矩阵或vector的乘法、加法，然后配合一些除法、指数等算法。
　　一个成熟的AI算法，比如YOLO-V3，就是大量的卷积、残差网络、全连接等类型的计算，本质是乘法和加法。对于YOLO-V3来说，如果确定了具体的输入图形尺寸，那么总的乘法加法计算次数是确定的。比如一万亿次。（真实的情况比这个大得多的多）
　　这个时候就来看了，比如IBM的POWER8，最先进的服务器用超标量CPU之一，4GHz，SIMD，128bit，假设是处理16bit的数据，那就是8个数，那么一个周期，最多执行8个乘加计算。一次最多执行16个操作。这还是理论上，其实是不大可能的。
　　那么CPU一秒钟的巅峰计算次数=16* 4Gops =64Gops。这样，可以算算CPU计算一次的时间了。同样的，换成GPU算算，也能知道执行时间。因为对GPU内部结构不熟，所以不做具体分析。
　　再来说说AI芯片。比如大名鼎鼎的谷歌的TPU1。TPU1，大约700M Hz江南，有256X256尺寸的脉动阵列，如下图所示。一共256X256=64K个乘加单元，每个单元一次可执行一个乘法和一个加法。那就是128K个操作。（乘法算一个，加法再算一个）。
　　另外，除了脉动阵列，还有其他模块，比如激活等，这些里面也有乘法、加法等。
　　对比一下CPU与TPU1，会发现计算能力有几个数量级的差距，这就是为啥说CPU慢。
　　当然，以上的数据都是完全最理想的理论值，实际情况，能够达到5%吧。因为，芯片上的存储不够大，所以数据会存储在DRAM中，从DRAM取数据很慢的，所以，乘法逻辑往往要等待。另外，AI算法有许多层网络组成，必须一层一层的算，所以，在切换层的时候，乘法逻辑又是休息的，所以，诸多因素造成了实际的芯片并不能达到利润的计算峰值，而且差距还极大。
　　可能有人要说，搞研究慢一点也能将就用。目前来看，神经网络的尺寸是越来越大，参数越来越多，遇到大型NN模型江南，训练需要花几周甚至一两个月的时候，你会耐心等待么？突然断电，一切重来？曾经动手训练一个写小说的AI，然后，一次训练（50轮）需要大约一天一夜还多，记得如果第一天早上开始训练，需要到第二天下午才可能完成，这还是模型比较简单，数据只有几万条的小模型呀。
　　修改了模型，需要几个星期才能知道对错，确定等得起？突然有了TPU，然后你发现，吃个午饭回来就好了，参数优化一下，继续跑，多么爽！
　　GPU的内核结构不清楚，所以就不比较了。肯定的是，GPU还是比较快的，至少比CPU快得多，所以目前大多数都用GPU，这玩意随便一个都能价格轻松上万，太贵，而且，功耗高，经常缺货。不适合数据中心大量使用。
　　总的来说，CPU与GPU并不是AI专用芯片，为了实现其他功能，内部有大量其他逻辑，而这些逻辑对于目前的AI算法来说是完全用不上的，所以，自然造成CPU与GPU并不能达到最优的性价比。
　　谷歌花钱研发TPU，而且目前已经出了TPU3，用得还挺欢，都开始支持谷歌云计算服务了，貌似6点几美元每小时吧，不记得单位了，懒得查。可见，谷歌觉得很有必要自己研发TPU。
　　目前在图像识别、语音识别、自然语言处理等领域，精度最高的算法就是基于深度学习的，传统的机器学习的计算精度已经被超越，目前应用最广的算法，估计非深度学习莫属，而且，传统机器学习的计算量与深度学习比起来少很多，所以，我讨论AI芯片时就针对计算量特别大的深度学习而言。毕竟，计算量小的算法，说实话，CPU已经很快了。而且，CPU适合执行调度复杂的算法，这一点是GPU与AI芯片都做不到的，所以他们三者只是针对不同的应用场景而已，都有各自的主场。
　　而没有具体说GPU。是因为，我说了，我目前没有系统查看过GPU的论文，不了解GPU的情况，故不做分析。因为积累的缘故，比较熟悉超标量CPU，所以就用熟悉的CPU做详细比较。而且，小型的网络，完全可以用CPU去训练，没啥大问题，最多慢一点。只要不是太大的网络模型。
　　那些AI算法公司，比如旷世、商汤等，他们的模型很大，自然也不是一块GPU就能搞定的。GPU的算力也是很有限的。
　　没错，但是不全面。只说说CPU串行。这位网友估计对CPU没有非常深入的理解。我的回答中举的CPU是IBM的POWER8，就知道，这是超标量的服务器用CPU，目前来看，性能已经是非常顶级的了，主频4GHZ。不知是否注意到我说了这是SIMD？
　　这个SIMD，就代表他可以同时执行多条同样的指令，这就是并行，而不是串行。单个数据是128bit的，如果是16bit的精度，那么一周期理论上最多可以计算八组数据的乘法或加法，或者乘加。这还不叫并行？只是并行的程度没有GPU那么厉害而已，但是，这也是并行。
　　有评论很推崇GPU。说用CPU来做比较，不合适。GPU本来是从CPU中分离出来专门处理图像计算的，也就是说，GPU是专门处理图像计算的。包括各种特效的显示。这也是GPU的天生的缺陷，GPU更加针对图像的渲染等计算算法。但是，这些算法，与深度学习的算法还是有比较大的区别，而我的回答里提到的AI芯片，比如TPU，这个是专门针对CNN等典型深度学习算法而开发的。另外，寒武纪的NPU，也是专门针对神经网络的，与TPU类似。
　　谷歌的TPU，寒武纪的DianNao，这些AI芯片刚出道的时候，就是用CPU/GPU来对比的。
　　看看，谷歌TPU论文的摘要直接对比了TPU1与CPU/GPU的性能比较结果，见红色框：
　　这就是摘要中介绍的TPU1与CPU/GPU的性能对比。再来看看寒武纪DianNao的paper，摘要中直接就是DianNao与CPU的性能的比较，见红色框：
　　比特币刚出来，那也是用CPU在挖。目前已经进化成ASIC矿机了。比特大陆了解一下。
　　从2006年开始开启的深度学习热潮，CPU与GPU都能计算，发现GPU速度更快，但是贵啊，更多用的是CPU，而且，那时候GPU的CUDA可还不怎么样，后来，随着NN模型越来越大，GPU的优势越来越明显，CUDA也越来越6，目前就成了GPU的专场。
　　寒武纪2014年的DianNao（NPU）比CPU快，而且更加节能。ASIC的优势很明显啊。这也是为啥要开发ASIC的理由。
　　至于说很多公司的方案是可编程的，也就是大多数与FPGA配合。你说的是商汤、深鉴么？的确，他们发表的论文，就是基于FPGA的。
　　这些创业公司，他们更多研究的是算法，至于芯片，还不是重点，另外，他们暂时还没有那个精力与实力。FPGA非常灵活，成本不高，可以很快实现架构设计原型，所以他们自然会选择基于FPGA的方案。不过，最近他们都大力融资，官网也在招聘芯片设计岗位，所以，应该也在涉足ASIC研发了。
　　如果以FPGA为代表的可编程方案真的有巨大的商业价值，那他们何必砸钱去做ASIC？
　　说了这么多，我也是半路出家的，因为工作需要而学习的。按照我目前的理解，看TPU1的专利及论文，一步一步推导出内部的设计方法，理解了TPU1，大概就知道了所谓的AI处理器的大部分。
　　然后研究研究寒武纪的一系列论文，有好几种不同的架构用于不同的情况，有兴趣可以研究一下。然后就是另外几个独角兽，比如商汤、深鉴科技等，他们每年都会有论文发表，没事去看看。这些论文，大概就代表了当前最先进的AI芯片的架构设计了。
　　当然，最先进，别人肯定不会公开，比如谷歌就不曾公开关于TPU2和TPU3的相关专利，反正我没查到。不过，没事，目前的文献已经代表了最近几年最先进的进展了。
　　声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉
　　的当然载体，清华大学魏少军教授指出，人工智能崛起的三个基本要素为算法、数据和算力。
　　的三大问题：第一、算法本身还在不断演进，我们只能将现有的算法作为储备。第二，没有统计的算法；第三、
　　程序跑着跑着就异常了，这个时候又不能仿真，因为一旦仿真程序就会重新download，异常现象就消失了。现在就来教大家如何使用Jlink仿线
　　？目前面临的挑战是什么？各IP厂商都有哪些应对之策？电子发烧友为此对安谋科技、Imagination以及芯原股份做
　　市场规模约24亿美元，预计到2025年这一市场规模将达到约378亿美元，复合年增长率（CAGR）为40.8％。高速增长且短期内规模将达百亿美元的
　　产业链中的产业价值和战略地位远远大于应用层创新。腾讯发布的《中美两国人工智能产业发展全面解读》报告显示，基础层的处理器/
　　企业数量来看，中国有14家，美国33家。本文将对这一领域产业生态做一个简单梳理。
　　巨头占据了绝大部分市场份额，不论是在人才聚集还是公司合并等方面，都具有绝对的领先优势。而国内
　　以与传感器一一对应的电子控制单元(ECU)为主，主要分布与发动机等核心部件上。...
　　是人工智能发展的基石，是数据、算法和算力在各类场景应用落地的基础依托。“无
　　领域生存环境恶劣，能活下来的企业将是凤毛麟角。谷歌在I／O大会发布了其第三代TPU，并
　　数据传回云端。”他表示，到 2025 年，所有人们要交互的设备都将植入
　　我下载了最新的 STM32Flash 加载程序以使用 UART 引导加载程序但它没有选择和看到 STM32H743Zi Nucleo 板我搜索并发现我使用的 2.8 版本没有 H7 系列的 MAP 文件闪存加载器确实支持 STM32 H7，我
　　您好，我在调AM5718的开发板，发现硬件上有一个CODEC_PWR_EN引脚是给音频
　　wm8960供电的。可是我看了设备树文件和相关的驱动，没有发现对此引脚的操作。请问
　　你好几天前我问了一个问题并得到了答复回复说 i.MX Linux 用户指南上的 i.MX6SoloX SABRE-
　　作为参考我搜索了 nxp 网页，但只找到了 i.MX6SoloX SABRE-SD 我
　　文包永刚来自***网（leiphone-sz）2018年，中兴事件引发中国“缺芯“的大讨论，恰逢第三次
　　领域，英特尔显得总是犹豫不决。而技术优势，在于全世界独一无二的14纳米制作工艺，这在性能和功耗上都会为英特尔带来巨大的优势。
　　性能强劲，一直在独树一帜已经圆梦，曾靠着X30等屡次叫板高通的联发科技的高端梦
　　企业、互联网巨头谷歌、新能源汽车科技公司特斯拉、社交网络鼻祖Facebook也纷纷开始涉足
　　？不同市场的不同客户应用领域都很多，毕竟性能强大，合众思壮还发布了Phantom与Vega两个系列的高精度板卡。
　　的概念首次被提出，至今已有 60 多年的发展史。如今，随着相关理论和技术的不断革新，
　　作为现代电子产品的核心部件，一直充当着“大脑”的位置，其技术含量和资金极度密集，生产线动辄数十亿上百亿美金。
　　先学好数字信号处理的知识，才能慢慢的理解雷达信号处理！先来看看雷达信号有什么特点？和通信信号的
　　？资料下载的电子资料下载，更有其他相关的电路图、源代码、课件教程、中文资料、英文资料、参考设计、用户指南、解决方案等资料，希望可以帮助到广大的电子工程师们。
　　广泛用于电脑、手机、家电、汽车、高铁、电网、医疗仪器、机器人、工业控制等各种电子产品和系统，
　　？一切的电子设备都有电源，但不同的体系对电源的要求不同。因而，这样一来，电子体系对电源电压的要求发生了改变，即需求不同的降压电源。为了保持降压的高效率
　　在2022年北美技术论坛上，台积电公布了未来现金制成的路线NM的相关信息，那么台积电的2nm
　　热潮缘由的时候，李丰以一个例子来说明其背后产生的驱动力之一。他指出，在深度学习早期的端侧加速方案中，有很多SIMD DSP的案例，比如来自多家公司集成CEVA XM4/XM6的多款
　　从结构角度来看，屏蔽层是最直观区别屏蔽网线和非屏蔽网线的一个外观，那除了屏蔽层这一个不同之处，还有什么不同你清楚吗?下面就跟着科兰小编一起来了解一下网线有无屏蔽层的
　　为了满足大家对高清画质的要求，如今，HDMI线已经成为传输高清音视频的必备设备，与普通HDMI线相比，光纤HDMI线有很多优势，所以光纤HDMI线贵也有一些原因。光纤HDMI线比
　　的区别随着人工智能的发展和应用的普及，越来越多的企业和科研机构开始研发人工智能
　　的真正原因吗？扣电和软包电芯是两种常见的电池类型。扣电电芯是由金属壳体和液态电解质组成的，而软包电芯具有柔性的塑料包装和固态电解质。尽管
　　公司客户以及厂商的探讨交流、实践与协作，摩尔精英IT/CAD业务不断升级迭代，突破了之前一个封闭的
　　公司内部IT管理视角的局限性，而是能从行业发展的视角来看待IT/CAD这个支持性职能的发展路径。
　　大模型爆火之后，存算一体获得了更多的关注与机会，其原因之一是因为存算一体
　　的设备目前主要包括新款MacBook Air、13英寸MacBook Pro和24英寸iMac。据预测，苹果未来还计划将M3系列

下一篇：软银打造AI芯片找台积电助阵江南体育
上一篇：JN SPORTS光通讯芯片_可见光通信芯片_信厂商 - OFweek讯网

咨询我们

输入您的疑问及需求发送邮箱给我们

相关新闻推荐

软银打造AI芯片找台积电助阵江南体育 2024-08-22

AI芯片和传统芯片江南的差异在哪里 2024-08-22

JN SPORTS光通讯芯片_可见光通信 2024-08-22

AI芯片需求跃江南体育官网升产业园区机遇 2024-08-22

江南体育被低估的AI芯片强国 2024-08-22

AI芯片战火升级！AMD祭出49亿并购案 2024-08-22

简历投递

admin@yochibike.com

商务合作

admin@yochibike.com

媒体垂询

admin@yochibike.com

产品中心: 智能终端处理器智能云服务器软件开发环境

新闻中心

关于江南体育: 公司概况核心优势核心团队发展历程

关注腾讯

微信二维码

微博二维码

Copyright © 2002-2022 江南人工智能科技有限公司版权所有备案号：浙ICP备2022029655号-1