npu 软件,npu架构

2022-07-20 08:53:10 B股动态

　　10月23日，在北京举行的2019 Arm技术峰会上，Arm正式发布了全新的Ethos——N77/N57/N37系列NPU IP，进一步加入了人工智能(AI)计算。同时，Arm还推出了面向主流手游市场的高效节能Mali G57 GPU，以及面向主流和入门级市场的单位面积效率最高的Mali-D37 DPU。　　

　　ARMv8及后续架构将不受限制的继续支持中国合作伙伴！ 　　

　　今年9月25日，Arm中国在深圳召开媒体沟通会。针对“Arm断供华为”的传闻，Arm表示，与华为仍然是合作伙伴，ARMv8及其后续指令集可以继续授权！　　

　　10月23日，在2019 Arm技术峰会北京站上，Arm公司董事长兼CEO吴雄昂在开幕致辞中重申，通过严格的法律调查和相关调整，ARMv8及后续架构均为英国技术，将继续无限制支持中国合作伙伴！　　

　　此外，吴雄昂还指出，Arm在中国的合作伙伴超过200家，中国合作伙伴基于Arm架构的芯片出货量超过160亿片，国产SoC芯片95%基于Arm架构。　　

　　吴雄昂强调，Arm是唯一不源于美国的主流计算架构。中国承接Arm在中国的业务和技术，在Arm标准下自主创新赋能产能，调动中国工程师创造知识产权的能力。这些知识产权不仅会提供给中国产业，还会通过统一的标准面向世界。　　

　　加码AI计算，Arm发布Ethos系列NPU IP 　　

　　根据Arm和研究机构的预测，到2028年，移动设备数量将从17亿增加到22亿，智能IP摄像头数量将从1.6亿增加到13亿。终端侧具有人工智能的设备数量将从目前的3亿台增加到32亿台。说明人工智能市场增长很快。　　

　　随着AI技术的兴起和广泛应用，AI也对芯片的运算能力提出了更高的要求。作为全球最大的处理器IP供应商，Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了巨大的市场份额。然而，在AI计算领域，Arm一直依靠其Cortex CPU、Mali GPU和相关软件开发工具来提高其AI计算能力。　　

　　然而，传统的CPU和GPU核心并不是AI计算的最佳载体。因此，越来越多的芯片厂商开始推出AI专用芯片，或者在SoC中加入专门用于AI计算的NPU内核。比如华为在2017年率先推出集成NPU核的麒麟970处理器，苹果推出的A11处理器也首次集成了NPU核。此后，高通、联发科、三星、展锐等手机芯片厂商也开始将其NPU核心集成到SoC中。　　

　　在这种趋势下，为了满足市场对AI内核的需求，Arm也在2018年初宣布了面向AI的Project Trillium项目，该项目包括新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过近两年的时间，现在Project Trillium项目的成果已经开始正式商业化。　　

　　营销副总裁伊恩斯迈思Arm 　　

　　今天，Arm营销副总裁Ian Smythe在Arm技术峰会上正式发布了全新的Ethos系列NPU IP，包括面向高端市场的Ethos-N77、面向主流市场的Ethos-N57和面向低端市场的Ethos-N37。　　

　　Ethos-N77其实就是Arm去年公布的Project Trillium项目中的机器学习处理器IP。它集成了可配置的1-4MB SRAM，可在1GHz和7nm工艺下提供高达4 TOP的AI计算能力，性能高达5 TOP。另外，之前Project Trillium project公布的数据显示Ethos-N77的单位面积计算能力为4.6 TOPs/mm(最新的可能会进一步提高)。那么Ethos-N77的这个性能在市场上是什么水平呢？　　

　　资料显示，华为麒麟970 NPU基于寒武纪1A IP，计算能力为1.92TOPS，苹果A11的NPU计算能力仅为0.6 TOPS，而A12的NPU性能为5TOPS。根据高通骁龙855之前发布的数据，其整体(包括CPU、GPU、DSP等。)艾　　

算力（超过7 TOPS）是华为麒麟980的两倍，照此估算的话，麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解，华为麒麟980的NPU是基于寒武纪IH8，是针对低功耗场景视觉领域的NPU内核IP，而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz，麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据，不过其采用了全新的达芬奇架构以及两个大核＋一个小核的配置，性能应该更强。

在单位面积的算力方面，根据芯智讯此前的估算，麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm，而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解，苹果A12的NPU内核的面积为5.79mm，也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm。

在每瓦算力方面，华为公布的资料显示，麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。

从上面的数据对比来看，Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当，相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面，远高于苹果A12和麒麟970的NPU。在每瓦算力方面，也是远高于苹果A12的NPU，略低于麒麟810。综合来看，Arm Ethos-N77各方面都还是比较出色的，达到了目前旗舰级NPU的水准。

需要指出的是，4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能，如果配置双核的话，那么性能无疑将进一步提升，当然功耗和面积会进一步提升。

Arm此前就表示，Ethos系列IP是具有高可扩展性、兼容性和可编程的，可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。

另外，Arm还推出了针对主流市场的Ethos-N57，内置了512KB SRAM，在1GHz主频下，算力最高可达2TOPS；而针对低端市场的Ethos-N37，是为了提供面积最小的ML推论处理器(小于1mm)而设计，其同样也内置了512KB SRAM，在1GHz主频下，算力可达1TOPS。

Arm表示，Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化，通过如创新的Winograd技术的落地，使性能比同类NPU提升超过200%，并且配备了先进的数据管理技术，以减少数据的移动与相关的耗电，在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。

据芯智讯了解，除了移动市场之外，Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。

开源的AI开发框架Arm NN

我们都知道，此前高通骁龙845/855系列都并未内置专门的NPU内核，但是其仍然提供了较高的AI能力，而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构，在通用平台内做内核优化，使得AI计算合理的分布在CPU、GPU、DSP等每个单元上，从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。

而Arm此次在发布Ethos系列NPU IP的同时，也推出了开源AI开发框架Arm NN，强化异构的AI计算，进一步提升整体的AI性能。

据介绍，Arm NN是属于偏底层的架构，而且在其基础之上，可以支持其他的更高层级第三方的NN框架，并提供完整工具链，可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用，实现更高效的异构的AI计算。

Arm表示，由于不同的SoC对于AI的加速方法是不一样的，因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出，将降低开发者调用Arm内核的难度，进一步提升开发人员的体验。

此外，为了推进基于Arm NN的内容创建和开发，Arm还与Unity（Unity最目前主要的3D引擎，50%的3D游戏，75%的VR内容都是基于Unity引擎开发）达成合作，进一步优化Unity引擎，使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核，在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发，即可获得Arm全系列的内核的支持（即可支持众多基于Arm不同类型的内核的SoC），无需再重新编译。

Mali G57 GPU：为主流市场带来智能与沉浸式体验

今年6月，Arm针对高端市场推出了首款基于全新Valhall架构的GPU――Mali-G77。今天，Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核――Mali-G57。（Vahall架构进一步提升了并行执行的能力，同时在代码上也做了尽量的简化，从编译角度来讲也更加友好。）

据介绍，Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%，性能密度提升了30%，机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持，再加上机器学习性能的提升，可以支持更复杂的XR实境应用。而且，Mali-G57还支持1-6个核心的配置，可以满足不同市场定位的智能手机的需求。

Arm表示，Mali-G57可以将优质的智能与沉浸式体验带到主流市场，包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口，以及更为复杂的虚拟现实和增强现实的负荷。

Mali-D37：Arm单位面积效率最高的DPU

在今天的技术论坛上，Arm还推出了目前单位面积最高效的显示处理器Mali-D37。

据介绍，Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU，拥有极高的单位面积效率，在支持全高清（Full HD）与2K分辨率的组态下，16nm制程的面积将小于1mm。

在性能方面，Mali-D37保留了高阶的Mali-D71关键的显示功能，包括与Assertive Display 5结合使用后，可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外，Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作，以减少GPU的工作以及对于内存的访问，使得系统的功耗可以降低30%。

Arm表示，Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备，获得2K级别的视觉效果与性能支持。

Arm的通用型NPU能否获得成功？

从目前的市场趋势来看，AI芯片正越来越向专用化的方向发展，越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样，正如前面我们所提到的，目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗？

对此，Arm市场营销副总裁Ian Smythe表示，Arm的Ethos NPU IP并不是孤立存在的，其主要的优势在于，在其本身提供出色的AI性能的同时，可以更好与Arm的CPU、GPU进行协同，以实现异构的AI计算，从而进一步提升整个系统层级的AI性能、降低功耗。而且，目前AI市场还是在初期，很多的AI算法仍在快速迭代，选择“通用型”的NPU是比较安全的做法。

在采访当中，Ian Smythe向芯智讯确认，Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中，但是Ian Smythe也强调，这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。

另外，Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖，但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU，而随着AI计算向边缘侧部署的趋势，未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出，将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。

另一方面，目前的Android应用生态基本都是基于Arm架构的处理器，因此，如果采用Arm的Ethos NPU IP，结合开源的Arm NN框架，应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核，可以为用户带来更为出色的AI体验。而且，可以实现一次开发，即可获得Arm全系列的内核的支持（这也意味着，可支持众多基于Arm不同类型的内核的SoC），无需再重新编译。而对于其他的芯片厂商的NPU来说，开发者要想实现灵活高效的调用NPU，充分发挥其AI性能，则需要针对性的进行优化，而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用，同样的应用要想实现对于B厂商NPU的调用，可能需要重新进行编译。显然，对于应用开发者来说，Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。

最后，Ian Smythe强调，Arm对于AI性能的提升是多维度的，一方面会持续推出更高性能的NPU IP，同时也在不断提升Arm CPU/GPU的AI性能。