NLPWANDERER Telegram 96
NLP Wanderer
О неочевидном поведении DPO и улучшениях SMPO в новой SLM от VIkhrModels Недавно вышедшая QVikhr-2.5-1.5B-Instruct-SMPO, отличается не только лучшим качеством среди наших небольших тюнов, сопоставимым местами с 7B моделями, но и улучшениями в нашем методе…
Вспомнил, что такое поведение, как в посте сверху, это одна из форм того что в репорте phi-4 назвали pivotal tokens (картинка 1), а в cDPO - critical tokens (картинка 2). И там и там используют это еще чтобы собирать более хитрые preference пары и рассуждают о таких токенах как о том, что направляет генерацию модели в сторону ошибки или правильного ответа.

Конечно врятли это все супер интересно в контексте существования пайплайнов онлайн RL с проверяемыми ревордами (GRPO из DeepSeek), да и впринципе врятли ктото именно таким заниматься станет специально, но как минимум дает больше понимания о том как именно LLM приходят к определенному результату и что на него можно довольно сильно влиять подобрав нужные токены.
👍9



tgoop.com/nlpwanderer/96
Create:
Last Update:

Вспомнил, что такое поведение, как в посте сверху, это одна из форм того что в репорте phi-4 назвали pivotal tokens (картинка 1), а в cDPO - critical tokens (картинка 2). И там и там используют это еще чтобы собирать более хитрые preference пары и рассуждают о таких токенах как о том, что направляет генерацию модели в сторону ошибки или правильного ответа.

Конечно врятли это все супер интересно в контексте существования пайплайнов онлайн RL с проверяемыми ревордами (GRPO из DeepSeek), да и впринципе врятли ктото именно таким заниматься станет специально, но как минимум дает больше понимания о том как именно LLM приходят к определенному результату и что на него можно довольно сильно влиять подобрав нужные токены.

BY NLP Wanderer






Share with your friend now:
tgoop.com/nlpwanderer/96

View MORE
Open in Telegram


Telegram News

Date: |

Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. With the “Bear Market Screaming Therapy Group,” we’ve now transcended language. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.”
from us


Telegram NLP Wanderer
FROM American