弯道超车？看IPU如何重塑AI芯片格局

首页 > 资讯教程 > 智能科技 > AR增强现实 > 弯道超车？看IPU如何重塑AI芯片格局

弯道超车？看IPU如何重塑AI芯片格局

作者：来源： 2021-03-03 13:18:04

　　Zeng, Oscar

　　在过去的一年里，许多行业受疫情冲击发展陷入停滞，人工智能应用却实现了逆势突破。在世界人工智能大会WAIC2020上，李兰娟院士表示，AI在疫情防控中，发挥了重要作用。

　　此外，AI在无人驾驶汽车等前沿领域也持续发力;在AI顶层设计方面，国家也不遗余力积极制定相关标准，出台了《国家新一代人工智能标准体系建设指南》，为人工智能的规范发展扫平障碍。

　　AI高速发展的背后，离不开“燃料”算力的助推。算力作为AI 2.0的四大要素之一，为人工智能提供计算能力的支撑。

　　需求倒逼创新

　　AI芯片行业将迎变革

　　在过去的几十年里，基于摩尔定律，芯片行业的发展一直推动着芯片制程和性能的稳步提升，算力需求的增长也促进了人工智能工作负载中大量采用专用的AI加速器(GPU、FPGA、ASIC、xPU等)。

　　与传统的CPU架构相比，这些加速器能够执行更快的AI作业和并行计算。它们为有效执行控制ML/DL工作负载提供了专门的支持。

　　现在市场上已经有各类 AI加速器：GPU、FPGA、ASIC等等，各种各样的计算平台被运用到AI计算中。之所以会出现这么多各种形式的 AI 芯片，正是因为算法的多元化，例如机器学习算法有 LR、GBDT，深度学习中的 CNN、DNN 等，这些算法都非常复杂，如果机器要很快地让这些算法“跑”起来，一定需要算法的逻辑跟芯片计算的逻辑相互匹配。

　　据OpenAI组织发布的一份分析报告显示，自2012年以来，在人工智能训练中所使用的计算量呈指数级增长，3.5个月的时间计算量就翻了一倍(相比之下，摩尔定律有18个月的倍增周期)。自2012年以来，该指标增长了30多万倍。按照这个趋势，想要满足未来AI发展的需求，芯片行业势必要有所变革。

　　Graphcore IPU：专为人工智能而生

　　一种全新的完全可编程处理器

　　Graphcore是一家创办于2016年的人工智能芯片设计初创公司，总部位于英国，以“专注于新型 AI 处理器架构，专门适用于算力密集型的机器学习任务”，入选2020年度《麻省理工科技评论》“50家聪明公司”榜单。该公司开发了一款被称为IPU智能处理单元(intelligence processing unit)的新型AI加速器。

　　Graphcore IPU是专门为AI/Machine Learning设计的处理器，拥有完全不同于前面几类处理器类型的全新架构，能够提供强大的并行处理能力。Graphcore IPU区别于其他处理器的一个重要因素还在于，它实现了快速训练模型和实时操控，这使得它能够在自然语言处理以及理解自动驾驶方面取得重大进展。

　　Graphcore 的IPU特点可概括为：

　　同时支持 Training 和 Inference;

　　采用同构多核(many-core)架构，超过1000个独立的处理器;

　　支持 all-to-all的核间通信，采用Bulk Synchronous Parallel的同步计算模型;

　　采用大量片上SRAM，不需要外部DRAM。

　　据介绍，IPU处理器是迄今为止最复杂的处理器芯片，它在一个16纳米芯片上有几乎240亿个晶体管，每个芯片提供125 teraFLOPS运算能力。一个标准4U机箱中可以插入8张卡，卡间通过IPU-Link互连。8张卡上的IPU可以看做一个处理器工作，提供 1.6PetaFLOPS的运算能力。

　　与GPU争锋？

　　IPU：没在怕的

　　英伟达公司率先于1999年提出GPU的概念，GPU使显卡减少了对CPU的依赖，然而随着模型越来越大，参数越来越多，面对高精度高吞吐量的需求，算力优势显著的IPU也许更能代表AI芯片的发展方向。

　　Graphcore IPU在现有以及下一代模型上的性能均优于GPU，在自然语言处理方面的速度能比GPU快25%到50%;在图像分类方面，吞吐量7倍于GPU，而且时延更低。

　　Natural Language Processing-BERT

　　BERT (Bidirectional Encoder Representations from Transformers)是目前使用的最著名的NLP模型之一。IPU加速了BERT的训练和推理，在极低延迟的情况下，IPU能够进行实现2倍于目前解决方案的吞吐量，同时延迟性能比当前的解决方案提升1.3倍。