CE_OBSERVE Telegram 33156
微软打破 Decoder-Only 架构:大幅降低 GPU 内存需求

https://www.ithome.com/0/767/340.htm

https://arxiv.org/abs/2405.05254 (英文)

微软 & 清华最新研究,打破 GPT 系列开创的 Decoder-Only 架构 —— 提出 Decoder-Decoder 新型架构,名为 YOCO(You Only Cache Once)。

YOCO 仅缓存一次键值对,可大幅降低 GPU 内存需求,且保留全局注意力能力。一张图来看 YOCO 和标准 Transformer 的比较。

在处理 512K 上下文长度时,标准 Transformer 内存使用是 YOCO 的 6.4 倍,预填充延迟是 YOCO 的 30.3 倍,而 YOCO 的吞吐量提升到标准 Transformer 的 9.6 倍。



tgoop.com/CE_Observe/33156
Create:
Last Update:

微软打破 Decoder-Only 架构:大幅降低 GPU 内存需求

https://www.ithome.com/0/767/340.htm

https://arxiv.org/abs/2405.05254 (英文)

微软 & 清华最新研究,打破 GPT 系列开创的 Decoder-Only 架构 —— 提出 Decoder-Decoder 新型架构,名为 YOCO(You Only Cache Once)。

YOCO 仅缓存一次键值对,可大幅降低 GPU 内存需求,且保留全局注意力能力。一张图来看 YOCO 和标准 Transformer 的比较。

在处理 512K 上下文长度时,标准 Transformer 内存使用是 YOCO 的 6.4 倍,预填充延迟是 YOCO 的 30.3 倍,而 YOCO 的吞吐量提升到标准 Transformer 的 9.6 倍。

BY 每日消费电子观察


Share with your friend now:
tgoop.com/CE_Observe/33156

View MORE
Open in Telegram


Telegram News

Date: |

1What is Telegram Channels? How to build a private or public channel on Telegram? While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. Clear
from us


Telegram 每日消费电子观察
FROM American