NLP Wanderer
О неочевидном поведении DPO и улучшениях SMPO в новой SLM от VIkhrModels Недавно вышедшая QVikhr-2.5-1.5B-Instruct-SMPO, отличается не только лучшим качеством среди наших небольших тюнов, сопоставимым местами с 7B моделями, но и улучшениями в нашем методе…
Вспомнил, что такое поведение, как в посте сверху, это одна из форм того что в репорте phi-4 назвали pivotal tokens (картинка 1), а в cDPO - critical tokens (картинка 2). И там и там используют это еще чтобы собирать более хитрые preference пары и рассуждают о таких токенах как о том, что направляет генерацию модели в сторону ошибки или правильного ответа.
Конечно врятли это все супер интересно в контексте существования пайплайнов онлайн RL с проверяемыми ревордами (GRPO из DeepSeek), да и впринципе врятли ктото именно таким заниматься станет специально, но как минимум дает больше понимания о том как именно LLM приходят к определенному результату и что на него можно довольно сильно влиять подобрав нужные токены.
Конечно врятли это все супер интересно в контексте существования пайплайнов онлайн RL с проверяемыми ревордами (GRPO из DeepSeek), да и впринципе врятли ктото именно таким заниматься станет специально, но как минимум дает больше понимания о том как именно LLM приходят к определенному результату и что на него можно довольно сильно влиять подобрав нужные токены.
tgoop.com/nlpwanderer/95
Create:
Last Update:
Last Update:
Вспомнил, что такое поведение, как в посте сверху, это одна из форм того что в репорте phi-4 назвали pivotal tokens (картинка 1), а в cDPO - critical tokens (картинка 2). И там и там используют это еще чтобы собирать более хитрые preference пары и рассуждают о таких токенах как о том, что направляет генерацию модели в сторону ошибки или правильного ответа.
Конечно врятли это все супер интересно в контексте существования пайплайнов онлайн RL с проверяемыми ревордами (GRPO из DeepSeek), да и впринципе врятли ктото именно таким заниматься станет специально, но как минимум дает больше понимания о том как именно LLM приходят к определенному результату и что на него можно довольно сильно влиять подобрав нужные токены.
Конечно врятли это все супер интересно в контексте существования пайплайнов онлайн RL с проверяемыми ревордами (GRPO из DeepSeek), да и впринципе врятли ктото именно таким заниматься станет специально, но как минимум дает больше понимания о том как именно LLM приходят к определенному результату и что на него можно довольно сильно влиять подобрав нужные токены.
BY NLP Wanderer



Share with your friend now:
tgoop.com/nlpwanderer/95