NLP Wanderer@nlpwanderer P.95

NLP Wanderer

О неочевидном поведении DPO и улучшениях SMPO в новой SLM от VIkhrModels Недавно вышедшая QVikhr-2.5-1.5B-Instruct-SMPO, отличается не только лучшим качеством среди наших небольших тюнов, сопоставимым местами с 7B моделями, но и улучшениями в нашем методе…

Вспомнил, что такое поведение, как в посте сверху, это одна из форм того что в репорте phi-4 назвали pivotal tokens (картинка 1), а в cDPO - critical tokens (картинка 2). И там и там используют это еще чтобы собирать более хитрые preference пары и рассуждают о таких токенах как о том, что направляет генерацию модели в сторону ошибки или правильного ответа.

Конечно врятли это все супер интересно в контексте существования пайплайнов онлайн RL с проверяемыми ревордами (GRPO из DeepSeek), да и впринципе врятли ктото именно таким заниматься станет специально, но как минимум дает больше понимания о том как именно LLM приходят к определенному результату и что на него можно довольно сильно влиять подобрав нужные токены.

www.tgoop.com/nlpwanderer/95

1.4K viewsFeb 4 at 16:12

tgoop.com/nlpwanderer/95

Create: 2025-02-04
Last Update: 2025-02-28 17:11:03

BY NLP Wanderer

Share with your friend now:
tgoop.com/nlpwanderer/95

Telegram News

Вспомнил