Linuxeden Open Source Community: 除了 CPUGPU 这些 PU 原来也这么厉害

Linuxeden 开源社区 -- 除了CPUGPU 这些PU原来也这么厉害

月 19 日，有消息称，阿里巴巴达摩院正在研发一款神经网络芯片——Ali-NPU，主要运用于图像视频分析、机器学习等 AI 推理计算。按照设计，这款芯片性能将是目前市面上主流 CPU、GPU 架构 AI 芯片的 10 倍，而制造成本和功耗仅为一半，其性价比超过 40 倍。

应用上，通过此款芯片的研发将会更好的落地在图像、视频识别、云计算等商业场景中。

据阿里达摩院研究员骄旸介绍说：“CPU、GPU 作为通用计算芯片，为处理线程逻辑和图形而设计，处理 AI 计算问题时功耗高，性价比低，在 AI 计算领域急需专用架构芯片解决上述问题。阿里巴巴此款 Ali-NPU 在 AI 领域积累了大量算法模型优势，以最小成本实现最大量的 AI 模型算法运算。”

事实上，随着人工智能产业的发展，CPU、GPU、TPU、DPU、NPU、BPU……各种 PU 也开始爆发式出现。那么，究竟这些 PU 在性能和使用上有何异同，又有哪些优劣呢？OFweek 日前撰文对此进行了介绍，一起来看一下。

CPU：计算力占据部分很小擅长逻辑控制

CPU 是最为普遍，最为常见的中央处理器。主要包括运算器（ALU）和控制单元（CU），除此之外还包括若干寄存器、高速缓存器和它们之间通讯的数据、控制及状态的总线。依循冯诺依曼架构，CPU 需要大量空间放置存储单元和控制逻辑，计算能力只占据很小的部分，更擅长逻辑控制。

除了CPUGPU 这些PU原来也这么厉害
CPU 结构简化图

GPU：计算单元数量众多但无法单独使用

GPU 的诞生可以解决 CPU 在计算能力上的天然缺陷。采用数量众多的计算单元和超长的流水线，善于处理图像领域的运算加速。但 GPU 的缺陷也很明显，即无法单独工作，必须由 CPU 进行控制调用才能工作。

除了CPUGPU 这些PU原来也这么厉害
CPU、GPU 微架构对比图

TPU：高性能低功耗然则开发周期长、转换成本高

谷歌专门为 TensorFlow 深度学习框架定制的 TPU，是一款专用于机器学习的芯片。TPU 可以提供高吞吐量的低精度计算，用于模型的前向运算而不是模型训练，且能效更高。但它的缺陷主要是开发周期长、可配置性能有限，缺乏灵活性且转换成本高。

除了CPUGPU 这些PU原来也这么厉害

DPU：可实现快速开发与产品迭代

国际上，Wave Computing 最早提出 DPU。在国内，DPU 最早是由深鉴科技提出，是基于 Xilinx 可重构特性的 FPGA 芯片，设计专用深度学习处理单元，且可以抽象出定制化的指令集和编译器，从而实现快速的开发与产品迭代。

除了CPUGPU 这些PU原来也这么厉害
深鉴“雨燕”DPU 平台

NPU：运行效率提升不支持大样本训练

NPU 是神经网络处理器，在电路层模拟人类神经元和突触，并且用深度学习指令集直接处理大规模的神经元和突触，一条指令完成一组神经元的处理。相比于 CPU 和 GPU 的冯诺伊曼结构，NPU 通过突触权重实现存储和计算一体化，从而提高运行效率。但 NPU 也有自身的缺陷，比如不支持对大量样本的训练。

除了CPUGPU 这些PU原来也这么厉害

BPU：比在 CPU 上用软件实现更为高效不可再编程

BPU 是由地平线主导的嵌入式处理器架构。第一代是高斯架构，第二代是伯努利架构，第三代是贝叶斯架构。BPU 主要是用来支撑深度神经网络, 比在 CPU 上用软件实现更为高效。然而，BPU 一旦生产，不可再编程，且必须在 CPU 控制下使用。

除了CPUGPU 这些PU原来也这么厉害

从 CPU、GPU 的市场来看，已经基本被英特尔、英伟达和 AMD 三分天下。而在 ASIC 框架下的 TPU，只有谷歌的体量和实力才有开发专用加速的动力。

推出 DPU 的深鉴科技有清华和斯坦福双重学术背景，公司目前的两条发展路线是：以芯片技术为主的纯技术路线，以及基于技术的产品路线。其处理器做深度学习应用端，不做训练端。目前，其深度压缩技术可以将神经网络压缩数十倍而不影响精度，还可以使用芯片存储深度学习算法模型，减少内存读取次数，降低运行功耗。

去年 10 月，深鉴科技推出了六款 AI 产品，分别是人脸检测识别模组、人脸分析解决方案、视频结构化解决方案、ARISTOTLE 架构平台，深度学习 SDK DNNDK，以及双目深度视觉套件。

寒武纪最初是中科院从 2008 年开始的一研究项目，负责人为陈氏兄弟陈云霁和陈天石，也是寒武纪科技的创始人，与他们合作研究 Diannao 系列的 Olivier Temam 是 Google TPU 的主架构师。2016 年 11 月，寒武纪科技正式成立，同时推出世界首款商用深度学习专用处理器 Cambricon-AI，是一款神经网络处理器，面向手机、无人机等类手机的终端设备。

去年，一时火爆的华为麒麟 970 一大卖点就是集成了独立 NPU，被宣传为世界首款手机 AI 芯片。 确实属实。但据了解，这块 NPU 也并非华为的研究成果，而是来自寒武纪。对于华为来说，之所以如此重视 NPU，或许和阿里爆出新闻的心态一样，认为集成 NPU 代表了人工智能未来的发展趋势。

去年底，地平线在创办两年后终于发布首款芯片——“征程”与“旭日”。目前，这两款处理器都属于嵌入式人工智能视觉芯片，分别面向智能驾驶和智能摄像头。2018 年 CES 上，英特尔和地平线还发布了基于伯努利架构的新一代征程处理器，其发展路径图为：2018 年，感知；2019 年，建模；2020 年，决策。

而因为与英特尔的合作，地平线不禁让市场联想到英特尔早前重金收购的 Mobileye。在嵌入式人工智能领域，Mobileye 是业界领头羊。地平线在英特尔的定位版图是否是中国版 Mobileye？但其创始人余凯的抱负是，地平线是要做中国的英特尔。

最后，谈到人工智能芯片，还是不得不提 BAT。在国际四大科技巨头都造芯片，且 ARM、英特尔、英伟达等传统芯片厂商仍然统治芯片天下的情况下，中国芯能不能发展起来，还需要看国内科技巨头们的表现。

相较而言，阿里在三家中最为热衷芯片布局，上述包括寒武纪、深鉴科技均有阿里参投。

转自 https://ift.tt/2Hj58cZ

The post 除了 CPUGPU 这些 PU 原来也这么厉害 appeared first on Linuxeden开源社区.

https://ift.tt/2HGTMTw

Linuxeden Open Source Community

2018年4月21日星期六

除了 CPUGPU 这些 PU 原来也这么厉害

没有评论:

发表评论