tgoop.com/lovedeathtransformers/9028
Last Update:
Better & Faster Large Language Models via Multi-token Prediction
Вероятно самая недооценная работа последнего года.
В чем идея: у нас самая замедляющая инференс часть это decoding. Есть спекулятивный когда мы можем предсказывать вероятности маленькой моделью и подключать большую только если маленькая не уверена. Работает это средне и очень не стабильно.
Авторы предлагают следущее: давайте сделаем многоголовый трансформер, который будет предсказывать N токенов за раз!
Авторы предлагают учить такие головы последовательно на одних и тех же данных(в целях экономии памяти) и заводят это как большой post training(200b токенов поверх llama2)
Cобственно благодаря тому что трансформер предсказывает сразу x3 токенов мы получаем скорость инференса x3 бесплатно, да еще и прирост на бенчмарках!
paper
offical model
BY Love. Death. Transformers.

Share with your friend now:
tgoop.com/lovedeathtransformers/9028