GPU/FPGA/ASIC，谁才是AI芯片的核心架构？

芙蓉王 · 发表于 2017-8-16 09:56:45

随着人们对人工智能(AI)的发展及应用期待升高，科技公司也都卯足全力开发客制化的芯片以及支援这些芯片的运算节点。市场情报公司ABI Research将AI硬件分为云端服务、装置本身(on-device)以及混合平台三大领域，其中云端是将AI任务交给超大规模数据中心进行线上处理，但基于连线及延迟等因素考量，有些数据必须直接在装置上执行运算。至于混合型则是结合云端与装置平台完成AI运算，例如使用手机识别用户问题，然后交由云端找出答案。

根据The Register报导，类神经网络共有2个层面，一是训练，利用网络分析大量数据产生统计模型，这属于学习阶段；其次则是推论，透过类神经网络转译新数据，并产生精确的结果。训练类神经网络需要非常庞大的运算量，由于训练负载可以切割成许多同时执行的工作任务，因此GPU的双精度浮点运算及庞大的运算核心占有很大优势。

GPU以外的选择部分云端业者亦投入开发不同于GPU架构的自有芯片，例如Google的张量处理器(Tensor Processing Unit；TPU)，除可支援推论工作负载，新一代更加入了可用于训练的浮点精确度运算。TPU属于特殊应用积体电路(Application-Specific Integrated Circuit；ASIC)，专为特定目的而设计，无法重新编程，效能高功耗低，但价格昂贵。Google因规模够大，相关的一次性工程费用可以透过省下的功耗成本加以补贴。

FPGA及其他硬件至于微软(Microsoft)则是在数据中心部署现场可编程逻辑闸阵列(FPGA)，负责网络及机器翻译等AI工作负载。英特尔也将在2017年推出代号Knight’s Mill的新一代Xeon Phi高效能CPU，着重机器学习与人工智能应用。除了以Xeon搭配FPGA芯片Altera Arria 10之外，英特尔也将以Xeon搭配源自Nervana Systems技术的Lake Crest芯片，采用比DDR4快12倍的HBM2随机存取存储器，加快数据传输效能。

除了依据GPU、FPGA、ASIC建立的系统外，其他公司也试图从基本面改写AI架构，例如NASA前署长Dan Goldin的Knuedge新创公司正在开发针对云端运算的256核芯片，英国Graphcore的IPU (Intelligence Processing Unit)是不同于GPU向量或CPU标量处理的图形处理库，可以缓解数据从存储器传送到处理单元的问题。

边缘运算手机、无人机及汽车等客户端装置的考量重点为节能与低延迟运算，尤其自驾车需要在瞬间做出决定，对于连线延迟的容忍度更低。包括安谋(ARM)、高通(Qualcomm)及苹果(Apple)在内都将推出支援机器学习任务的处理器。

而麻省理工学院(MIT)的Eyeriss计划则正在开发内建 168个核心、专门用来部署神经网络的芯片。该校电机工程教授Vivienne Sze表示深度神经网络最耗能量的部分不在于推论运算，而是数据在存储器及乘积累加运算之间交换时，因此Eyeriss芯片可在将数据传送到每一个核心之前，先进行数据压缩。