Love. Death. Transformers.@lovedeathtransformers P.9028

Love. Death. Transformers.

Better & Faster Large Language Models via Multi-token Prediction

Вероятно самая недооценная работа последнего года.

В чем идея: у нас самая замедляющая инференс часть это decoding. Есть спекулятивный когда мы можем предсказывать вероятности маленькой моделью и подключать большую только если маленькая не уверена. Работает это средне и очень не стабильно.

Авторы предлагают следущее: давайте сделаем многоголовый трансформер, который будет предсказывать N токенов за раз!
Авторы предлагают учить такие головы последовательно на одних и тех же данных(в целях экономии памяти) и заводят это как большой post training(200b токенов поверх llama2)

Cобственно благодаря тому что трансформер предсказывает сразу x3 токенов мы получаем скорость инференса x3 бесплатно, да еще и прирост на бенчмарках!

paper
offical model

www.tgoop.com/lovedeathtransformers/9028

25.6K viewsFeb 9 at 12:32

tgoop.com/lovedeathtransformers/9028

Create: 2025-02-09
Last Update: 2025-05-19 20:06:15

BY Love. Death. Transformers.

Share with your friend now:
tgoop.com/lovedeathtransformers/9028

Telegram News

Better & Faster Large Language Models via Multi-token Prediction