MIT韩松等人提出新型Lite Transformer

发布时间：2021-02-22 14:43:20 所属栏目：外闻来源：互联网

导读：虽然推出还不到 3 年，Transformer 已成为自然语言处理（NLP）领域里不可或缺的一环。然而这样流行的算法却需要极高的算力才能实现足够的性能，这对于受到算力和电池严格限制的移动端来说有些力不从心。在 MIT 最近的研究《Lite Transformer with Long-Shor

虽然推出还不到 3 年，Transformer 已成为自然语言处理（NLP）领域里不可或缺的一环。然而这样流行的算法却需要极高的算力才能实现足够的性能，这对于受到算力和电池严格限制的移动端来说有些力不从心。

在 MIT 最近的研究《Lite Transformer with Long-Short Range Attention》中，MIT 与上海交大的研究人员提出了一种高效的移动端 NLP 架构 Lite Transformer，向在边缘设备上部署移动级 NLP 应用迈进了一大步。该论文已被人工智能顶会 ICLR 2020 收录。

该研究是由 MIT 电气工程和计算机科学系助理教授韩松领导的。韩松的研究广泛涉足深度学习和计算机体系结构，他提出的 Deep Compression 模型压缩技术曾获得 ICLR2016 最佳论文，论文 ESE 稀疏神经网络推理引擎 2017 年曾获得芯片领域顶级会议——FPGA 最佳论文奖，引领了世界深度学习加速研究，对业界影响深远。

ransformer 在自然语言处理任务（如机器翻译、问答）中应用广泛，但它需要大量计算去实现高性能，而这不适合受限于硬件资源和电池严格限制的移动应用。

这项研究提出了一种高效的移动端 NLP 架构——Lite Transformer，它有助于在边缘设备上部署移动 NLP 应用。其核心是长短距离注意力（Long-Short Range Attention，LSRA），其中一组注意力头（通过卷积）负责局部上下文建模，而另一组则（依靠注意力）执行长距离关系建模。

这样的专门化配置使得模型在三个语言任务上都比原版 transformer 有所提升，这三个任务分别是机器翻译、文本摘要和语言建模。

在资源有限的情况下（500M/100M MACs），Lite Transformer 在 WMT’14 英法数据集上的 BLEU 值比分别比 transformer 高 1.2/1.7。Lite Transformer 比 transformer base 模型的计算量减少了 60%，而 BLEU 分数却只降低了 0.3。结合剪枝和量化技术，研究者进一步将 Lite Transformer 模型的大小压缩到原来的 5%。

对于语言建模任务，在大约 500M MACs 上，Lite Transformer 比 transformer 的困惑度低 1.8。

（编辑：怀化站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

天文学家推测太阳系未	巴西新建南极科考船拟
居然挖马斯克的墙角！	美国在清洁技术上玩脱