英特尔® FPGA可编程加速卡 (PAC) D5005是目前英特尔® FPGA的高端FPGA加速卡。自发布以来,经过英特尔® FPGA及众多合作伙伴的努力,PAC D5005加速卡已经可以实现对较多工作负载的加速,如视频编解码、AI领域的语音到文本转换、图像处理、网络安全等。
在 Myrtle 的可扩展推理引擎上运行的语音到本文 (STT) 转录应用(基于该公司的 MAU 加速器内核)是最近发表的一篇博文中讨论的四个加速工作负载之一。这篇博文指出,HPC 在其 ProLiant DL380 Gen10 服务器中添加了英特尔® FPGA 可编程加速卡 (PAC) D5005选件。通过集成到英特尔® FPGA PAC 卡 D5005 的一个英特尔® FPGA 加速时,这种 STT 工作负载即可实时处理超过 4000 个语音通道。
英特尔® FPGA 可编程加速卡 D5005
借助在 FPGA 中实例化的 MAU 加速器内核网格,Myrtle 的可扩展推理引擎能够高效处理高性能 STT 工作负载。MAU 加速器内核针对英特尔 FPGA PAC D5005 进行了优化。Myrtle 发布了一篇长达 9 页的论文,题为“利用下一代数据中心硬件的非结构化稀疏性”,文中讨论了 MAU 加速器的细节信息。您还可以在英特尔FPGA 加速中心网页的 AI 选项卡下找到一篇题为“加速数据中心的语音工作负载”的英特尔解决方案文章,这篇文章将为您提供更多详细信息。
在这里我们就不重复 Myrtle STT 解决方案的诸多技术细节了,直接跳到这篇解决方案简介文章的结论:
PART
ONE
在英特尔® Stratix® 10 FPGA 上运行的 MozillaDeepSpeech 工作负载(使用 Myrtle STT,针对稀疏性和量化进行了优化)达到了 54 TOPS,略高于 NVIDIA Tesla V100 GPU (针对吞吐量进行了代码优化)的性能。同时,基于 FPGA 的 MAU 加速器的每瓦 TOPS 比 GPU 高 6 倍。Myrtle STT 的每秒语音输入延迟为 0.343 毫秒,而相比之下, GPU 的延迟则高达 126 毫秒,相差多达 365 倍。性能提升的代价是精度下降了约0.23%(由于 Myrtle STT 针对稀疏性和量化进行了优化)。
PART
TWO