中国ACCEL模拟研究论文声称比NVIDIAA100和A800GPU加速3000倍

2023-11-07 17:03:46

导读在全球制裁的影响下，中国似乎正在迅速改进其本土解决方案，以维持现有的行业增长速度。中国清华大学发表的一篇论文透露，该研究所设计了一...

在全球制裁的影响下，中国似乎正在迅速改进其“本土”解决方案，以维持现有的行业增长速度。中国清华大学发表的一篇论文透露，该研究所设计了一种人工智能计算性能新技术，并开发了一款名为ACCEL(结合电子和光计算的全模拟芯片)的芯片，该芯片基本上利用光子学和模拟技术的力量来提供了卓越的性能，所揭示的数字相当令人震惊。

根据《自然》杂志的报道，ACCEL能够每秒提供4.6peta运算，这确实远远领先于当前行业解决方案所提供的能力，但这还不是全部。该芯片的设计目的是保持功率效率，因为如果不这样做，它就不适用于该行业。ACCEL采用“系统能效”架构，每瓦每秒能够提供74.8peta操作。因此，正如数字所揭示的那样，该芯片偏离了行业趋势，即高计算能力与更多功耗成正比。

在没有任何实时基准的情况下，给芯片贴上“业界最快”的标签是正义的，然而，ACCEL被实验性地针对Fashion-MNIST、3类ImageNet分类和延时视频识别场景进行测试，以测试其极限芯片的“深度学习”性能。准确率分别达到85.5%、82.0%和92.6%，这说明该芯片具有广泛的行业应用，而不仅仅局限于特定领域。这使得ACCEL的事情变得更加令人兴奋，我们迫不及待地想看看该芯片给未来带来什么。

现在我们来谈谈ACCEL的实际工作原理。该芯片结合了衍射光学模拟计算(OAC)和电子模拟计算(EAC)的功能，并具有可扩展性、非线性和灵活性。为了实现这样的效率数字，该芯片采用全模拟方式的光电混合架构，以减少大规模工作负载中的大量ADC(模数转换)，从而大幅提高性能。发表的研究论文相当广泛地涵盖了芯片的机制，因此您可以在这里查看它，以了解ACCEL的工作原理。

对于最先进的GPU，我们使用NVIDIAA100，其声称的float32计算速度达到156TFLOPS(参考文献 33)。具有两层OAC(每个OAC层400×400个神经元)和一层EAC(1,024×3神经元)的ACCEL在实验上实现了82.0%的测试精度(图6d，e中的水平虚线)。由于OAC以被动方式计算，因此具有两层OAC的ACCEL比具有一层OAC的ACCEL提高了精度，而几乎没有增加延迟和能耗(图6d，e，紫色点)。然而，在道路自动驾驶等实时视觉任务中，我们无法提前捕获多个连续图像，以便GPU通过同时处理多个流来充分利用其计算速度48(示例如图1中的虚线所示)。6d,e)。为了以相同的精度串行处理连续图像，ACCEL实验性地实现了每帧72ns的计算延迟和每帧4.38nJ的能耗，而NVIDIAA100实现了每帧0.26ms的延迟和18.5mJ的能耗每帧。

ACCEL和类似的模拟开发将如何重塑行业?嗯，考虑到采用基于模拟的人工智能加速器仍然是未来的事情，现在回答这个问题并不容易。虽然业绩数字和统计数据相当乐观，但值得注意的一个重要事实是，它们在行业中的“部署”并不像看起来那么容易，因为它需要更多的时间、更多的财力和深入的研究工作。然而，没有人会说计算的未来是光明的，我们在主流行业看到这样的表现只是时间问题。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

标签：

上一篇:苹果将在明年更新其整个iPad产品线因为改进后的型号尚未准备就绪

下一篇:最后一页