Старший Авгур@senior

Старший Авгур

Недавно я обратил внимание на один гениальный ход DeepSeek.

Про то, что при обучении модель училась предсказывать сразу несколько токенов, знают примерно все.

Про то, что для этого использовались не просто независимые головы (как в Медузе), а целые трансформерные слои, на вход которых подавались в том числе проекции с предыдущих шагов, знают все, кто читал статью. Там же написано, что они переиспользуют эти мини-трансформеры (MTP-модули) для инференса.

А вы знаете, сколько MTP модулей было выложено вместе с моделью?
- ОДИН.
Источник.

Таким образом, для себя они, вероятно, оставили 4-5 MTP-модулей, а наружу выложили только 1. То есть, они могут инферить модель в 2-3 раза быстрее, чем любые другие провайдеры. Вы конечно можете дообучить больше MTP модулей или вообще перейти на Медузу, но это потребует нетривиальных усилий. В итоге модель-то открытая, но конкуренты всё равно в дураках.

www.tgoop.com/senior_augur/380

5.9K viewsedited Feb 2 at 18:51

tgoop.com/senior_augur/380

Create: 2025-02-02
Last Update: 2025-04-02 07:15:27

BY Старший Авгур

❌Photos not found?❌Click here to update cache.

Share with your friend now:
tgoop.com/senior_augur/380

Telegram News

Недавно я обратил внимание на один гениальный ход DeepSeek.