新聞中心

如何突破Decoder性能瓶頸？英偉達專家揭秘

自從 “Attention is All You Need” 在2017年提出以來，Transformer已成為 NLP 領域中非常熱門的深度學習網(wǎng)絡架構。但是在推理部署階段，其計算性能往往難以滿足在線業(yè)務對于低延遲和高吞吐的要求。

在英偉達開源的FasterTransformer 1.0版本中，針對BERT中的 Transformer Encoder進行了優(yōu)化和加速，經(jīng)過高度優(yōu)化之后，降低了用戶使用transformer編碼的時延。

在解決了Encoder性能問題之后，英偉達將重點放到了同樣重要的Transformer Decoder推理上。

因此，英偉達推出了FasterTransformer 2.0版本，提供針對解碼器進行高度優(yōu)化的transformer layer。同時，還提供了優(yōu)化過后的整個翻譯流程，滿足想要在翻譯場景中大幅降低時延的用戶們。

<tbody id="8gsce"></tbody>