中国ACCEL模拟研究论文声称比NVIDIAA100和A800GPU加速3000倍

2023-11-07 17:03:46
导读 在全球制裁的影响下,中国似乎正在迅速改进其本土解决方案,以维持现有的行业增长速度。中国清华大学发表的一篇论文透露,该研究所设计了一...

在全球制裁的影响下,中国似乎正在迅速改进其“本土”解决方案,以维持现有的行业增长速度。中国清华大学发表的一篇论文透露,该研究所设计了一种人工智能计算性能新技术,并开发了一款名为ACCEL(结合电子和光计算的全模拟芯片)的芯片,该芯片基本上利用光子学和模拟技术的力量来提供了卓越的性能,所揭示的数字相当令人震惊。

根据《自然》杂志的报道,ACCEL能够每秒提供4.6peta运算,这确实远远领先于当前行业解决方案所提供的能力,但这还不是全部。该芯片的设计目的是保持功率效率,因为如果不这样做,它就不适用于该行业。ACCEL采用“系统能效”架构,每瓦每秒能够提供74.8peta操作。因此,正如数字所揭示的那样,该芯片偏离了行业趋势,即高计算能力与更多功耗成正比。

在没有任何实时基准的情况下,给芯片贴上“业界最快”的标签是正义的,然而,ACCEL被实验性地针对Fashion-MNIST、3类ImageNet分类和延时视频识别场景进行测试,以测试其极限芯片的“深度学习”性能。准确率分别达到85.5%、82.0%和92.6%,这说明该芯片具有广泛的行业应用,而不仅仅局限于特定领域。这使得ACCEL的事情变得更加令人兴奋,我们迫不及待地想看看该芯片给未来带来什么。

现在我们来谈谈ACCEL的实际工作原理。该芯片结合了衍射光学模拟计算(OAC)和电子模拟计算(EAC)的功能,并具有可扩展性、非线性和灵活性。为了实现这样的效率数字,该芯片采用全模拟方式的光电混合架构,以减少大规模工作负载中的大量ADC(模数转换),从而大幅提高性能。发表的研究论文相当广泛地涵盖了芯片的机制,因此您可以在这里查看它,以了解ACCEL的工作原理。

对于最先进的GPU,我们使用NVIDIAA100,其声称的float32计算速度达到156TFLOPS(参考文献 33)。具有两层OAC(每个OAC层400×400个神经元)和一层EAC(1,024×3神经元)的ACCEL在实验上实现了82.0%的测试精度(图6d,e中的水平虚线)。由于OAC以被动方式计算,因此具有两层OAC的ACCEL比具有一层OAC的ACCEL提高了精度,而几乎没有增加延迟和能耗(图6d,e,紫色点)。然而,在道路自动驾驶等实时视觉任务中,我们无法提前捕获多个连续图像,以便GPU通过同时处理多个流来充分利用其计算速度48(示例如图1中的虚线所示)。6d,e)。为了以相同的精度串行处理连续图像,ACCEL实验性地实现了每帧72ns的计算延迟和每帧4.38nJ的能耗,而NVIDIAA100实现了每帧0.26ms的延迟和18.5mJ的能耗每帧。

ACCEL和类似的模拟开发将如何重塑行业?嗯,考虑到采用基于模拟的人工智能加速器仍然是未来的事情,现在回答这个问题并不容易。虽然业绩数字和统计数据相当乐观,但值得注意的一个重要事实是,它们在行业中的“部署”并不像看起来那么容易,因为它需要更多的时间、更多的财力和深入的研究工作。然而,没有人会说计算的未来是光明的,我们在主流行业看到这样的表现只是时间问题。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。