江西联智集成电路有限公司

以GPU为代表的图形处理器确实推动了第一波的深度学习的浪潮，现在专用AI芯片正推动第二波浪潮。包括苹果、华为、Intel、NVIDIA、Google和一些初创公司都相继推出了基于神经网络算法的专用ASIC芯片……

上接2018年AI芯片爆发倒计时（上）：各玩家如何布局？

谈完了应用布局，我们回到具体硬件上来。如此多的玩家同时闯入终端AI芯片领域，针对大量不同的细分市场和应用需求，下一代AI芯片的技术发展到底往哪个方向走呢？，是采用FPGA还是专用ASIC呢？

以GPU为代表的图形处理器确实推动了第一波的深度学习的浪潮，现在专用AI芯片正推动第二波浪潮。包括苹果、华为、Intel、NVIDIA、Google和一些初创公司都相继推出了基于神经网络算法的专用ASIC芯片。

如果你认为苹果和华为在手机芯片中搭载“AI”单元模块仅仅是为了寻找新的卖点那就错了。云端到终端确实能带来真正的好处，比如功耗和成本的降低，效率的提升等。华为麒麟芯片市场总监周晨认为，在云端进行AI运算的方式，如增加模型的大小和层数并不是真正的方向。AI开始从云端往终端迁移会把运算量和网络大小减少100倍，也会减少对网络带宽的需求。“随着算力的提升和算法的优化，最后会形成一个很好的甜蜜点。”周晨表示。“终端的性能现在是瓶颈，大批公司虽然水平参差不齐，但是都在往芯片端走，如何解决兼容性问题，如何让算法更流畅，成为大家关注的焦点。”周晨表示，从2017年的数据来看，AI的算力中云端占了95%，终端只占5%，这两点的巨大差距会带来很大的成长空间。对于华为麒麟，因为是一家硬件平台公司，自然更偏向用硬件的方式来做，提供通用性的加速器，从而满足大部分的算法需求。目前跑算法大概有两种方式：一种是用CPU跑纯软件，另一种是通过硬件加速器来固定算法。此外，从AI运算的需求本身来看，大部分是计算密度要求很高的行为，也需要用非常高效的硬件方式去做。周晨认为，从芯片的发展历史来看，很多算法一旦稳定成熟下来就会固定用硬件来做。

对于华为的下一代AI芯片，周晨没有透露太具体的规格或参数。但他表示，后面两代的产品定义经明确，基本上有几个方向不会变：第一是算力会持续上涨。第二是专注在通用的AI运算平台上，持续将AI运算能力开放给更多开发者。第三是AI芯片的工艺会越来越先进，更新速度可能会比摩尔定律还要快。 “当我们把算力释放出去以后，可能会有一大票应用能力提升。这会产生正向循环，会有越来越多的开发者做一些新的好的体验。”周晨表示，AI本身是一种技术，但是未来的价值会体现在有多少开发者来开发出相关的应用。

周海天认为，虽然目前有很多的芯片架构都针对AI，但在AI发展初期的一些应用上，在还没找到最优的算法和性能的时候，绝对是FPGA更合适。“尤其是未来两、三年，当然不是说我们现有的产品拿出去就可以了，我们也在不断的专注这一块。”

周海天表示，赛灵思目前也在不断的做一些接口、通用协议的固化，再引入SoC，固化内存驱动，随着AI的发展和成熟，一些关键的模块也可以在FPGA产品里固化，可以推出相应的FPGA base。他认为，其实不同的芯片架构都有一定的优势。现在的处理器产品可以很容易开发处理器平台，处理器也有它的瓶颈。所以现在GPU过去几年是非常成功的，但是也碰到一些功耗和挑战。但是GPU的优势也是很好的产品开发的工具和库。但是在FPGA上，除了可编程的优势，随着算法的演进，将一些硬件架构做一些优化和改变，而不用等硬件变化。“再加上过去我们开发的时候，要从源代码去起步，这是我们这两年的改变，我们不断提到硬件平台还有库和高端的设计语言，也就是跟GPU一样的开发流程。”

周海天指出，针对一些TPU和ASIC，这些专门的AI芯片好处是更加的集中，但也有个缺点，就是它需要非常成熟的算法，因此，AI芯片往往是固化了两年前的算法。而随着AI的演进，尤其是算法的发展和变化是非常快的。

周海天表示，随着AI应用的发展，最近几年AI算法正在不断的演进，硬件架构也在随之不断的变化。“两三年前我们认为要用浮点运算，在神经网络中达到一定比例。随着算法的成熟，我们发现不一定要用浮点运算，用定点运算也可以。”他认为，这种改变可能就一年的时间，而FPGA非常容易快速的响应算法的改变。

深鉴科技CEO姚颂认为，从AI芯片所处的发展阶段来看， CPU、GPU和FPGA等通用芯片是目前AI领域的主要芯片，而针对神经网络算法的专用芯片ASIC也正在被众多AI公司陆续推出，并且由于专用芯片能够更好的根据场景及行业进行定向优化，所以目前有种趋势：专用芯片有望在今后数年内取代通用芯片所不能完全覆盖到的领域，而成为AI芯片的主力。同时随着大数据、算法和算力的不断迭代演进，市场对智能硬件(芯片)的要求也会越来越高，对应的研发成本会面临新的挑战。

Intel CEO 科再奇认为，当前的AI革命实际上是一种计算的革新。自从集成电路问世以来，Intel一直是突破计算限制的核心力量。“我们的产品路线图让我们正在超越去年设定的目标：即到2020年，深度学习训练的性能可以提高100倍。”金勇斌认为，针对终端的芯片设计有几个特点：一是功耗不能大，二是硬件的效率要非常高，三是运算模型要针对终端特点来定制。在以往GPU在AI计算领域取得了非常好的成绩，目前各大厂商都在做各种架构的专用加速器，有的基于DSP、有的基于GPU。金勇斌认为，GPU的功耗比较高，因此他不认为GPU能够解决终端的效能和成本平衡问题。包括DSP、FPGA都有各自的优点和缺点。从灵活性和效能的平衡来看，在AI应用场景中，比较通用的神经网络以及卷积运算，特定的硬件加速器优势会比DSP和GPU效能更高。 “我们认为未来一个相对通用算法的硬件加速器加上CPU的架构会越来越流行。” 金勇斌表示，CPU比较灵活但效率不高，加速器效率高但不够灵活。因此可以针对不同的特点采用不同的硬件，比如深度学习的卷积运算需求相对固定，就可以采用硬件加速器；而很多针对终端的应用算法需要高度的可灵活编程性，就可以采用CPU。CEVA公司视觉产品市场主管Liran Bar也认为，CPU或GPU这样的通用技术相比专用AI处理器来说性能更低却功耗更高，因此不再是能有效地满足AI要求的可行技术。

林宗瑶表示，如果说AI的发展前期主要集中在云端(Cloud)，那么接下来的发展趋势将会往终端(Edge)转移。这个转移有四大好处：第一是终端的回应速度大大提升，比如针对一些车载系统的智能应用，如ADAS应用，如果通过云端计算处理，再把资料从云端传回来的速度会比较慢。第二是如果把资料放到云端，隐私也非常容易暴露。第三是目前的上传流量资费成本也很高。第四是相对服务器端，终端的功耗会更低。实际上目前云端服务器的用电量已经达到全球电力的5%。从环保节能的角度来看，AI从云端往终端的迁移也会是一个潮流。NeuroPilot采用的就是APU(Artificial intelligence Processing Unit)的方式，把目前已知的比较固定的80~90种算法固定到APU中，剩下一些一直演进的10个算法会放到CPU中，从而兼顾弹性和效率。“独立的DSP会有一个好处，功耗效能会比较好，比如谷歌的TPU效率比较好，但是弹性比较低。” 林宗瑶表示，APU将会包含已获得IP授权的DSP，未来也可能采用其它厂商的。

比特大陆产品战略总监汤炜伟认为，到2020年AI专用芯片的数量将超过GPU，这符合行业的发展趋势。汤炜伟认为，无论是运算需求还是能耗成本来看，目前的云端算力都难以满足未来庞大的运算需求。“在云端，深度学习的架构更加困难，在终端CPU参与许多的搬运和调度，但是受限于功耗，在手机里不能超过2瓦，在摄像头里可能最多10瓦的一个功耗，非常受限于前段功耗的限制。我们面临着巨大的深度学习计算规模，也面临芯片技术的挑战，怎么应对？” 汤炜伟表示，当初比特币挖矿也走过从CPU到GPU再到专用芯片的路，因此比特大陆认为深度学习也会走类似的路，会从CPU过渡到最新的ASIC，也就是TPU。

启英泰伦科技总经理高君效表示，AI芯片和传统芯片不一样，其基于特定的差异化架构，通过异构计算能提供非常高性能的并行计算能力。当前AI芯片已经从集成多核CPU或DSP，用软件方式支持各种神经网络算法的方式，转变为设计专用的NPU处理器来完成神经网络的并行计算，最大化地发挥硬件的计算能力。同时，随着技术的进一步发展和AI碎片化应用需求的进一步提升，AI芯片也会从通用的NPU处理器核，向应用场景进行覆盖。图2：启英泰伦科技总经理高君效 启英泰伦科技总经理高君效

中科创达副总裁杨宇欣则认为，应针对不同的应用场景区别对待。比如手机这种单一市场做AI肯定是SoC为主，但是对于一些安防、工业应用等量不大的市场，这种单独做SoC不值，用FPGA来做可以比较灵活。“面向比较碎片化的市场，就可以采用单独的协处理器配合主芯片去满足客户需求。” 杨宇欣表示，中科创达不会倾向于某一个芯片架构，而是根据不同的应用场景和功耗综合考虑。

未完待续，请期待2018年AI芯片爆发倒计时（下）：AI生态成熟，IC工程师失业？（本文转载自EET中国）

2018年AI芯片爆发倒计时（中）：用FPGA还是专用ASIC？

江西联智集成电路有限公司发布于：2018-02-28 11:06:31 点击：

2018年AI芯片爆发倒计时（中）：用FPGA还是专用ASIC？

2018年AI芯片爆发倒计时（中）：用FPGA还是专用ASIC？

江西联智集成电路有限公司 发布于：2018-02-28 11:06:31 点击：

2018年AI芯片爆发倒计时（中）：用FPGA还是专用ASIC？

江西联智集成电路有限公司发布于：2018-02-28 11:06:31 点击：