QUANT_PRUNE_DISTILL Telegram 526
Your Efficient RL Framework Secretly Brings You Off-Policy RL Training
[Блогпост]

Для ускорения обучения RL-методов с роллаутами, некоторые фреймворки (VeRL) генерируют траектории с помощью оптимизированных движков инференса, например, vLLM.

Однако, расхождение между разными фреймворками инференса (transformers 🤗 / vLLM) может быть довольно значительным (из-за деталей реализации кернелов). Причем настолько, что при тех же самых весах модели, предсказания могут существенно разняться (другой выбор следующего токена).

Авторы блогпоста замечают, что данная проблема делает on-policy RL по сути off-policy, что негативно сказывается на сходимости.

В качестве решения проблемы предлагается делать своего рода importance sampling с отношением вероятностей модели в фреймворке обучения и инференса. И это хорошо помогает PPO, причем можно даже генерировать роллауты int8 квантизованной моделью без нарушения сходимости. DAPO поверх DeepSeek-R1-Distill-Qwen-1.5B, где отношение вероятностей невелико, работает хорошо и без importance sampling.

Выводы

Мораль басни такова, что численные неточности в DL не всегда совсем безобидны, и временами их стоит иметь в виду. На замерах бенчей результат тоже может существенно разниться между hf и vLLM.
👍14



tgoop.com/quant_prune_distill/526
Create:
Last Update:

Your Efficient RL Framework Secretly Brings You Off-Policy RL Training
[Блогпост]

Для ускорения обучения RL-методов с роллаутами, некоторые фреймворки (VeRL) генерируют траектории с помощью оптимизированных движков инференса, например, vLLM.

Однако, расхождение между разными фреймворками инференса (transformers 🤗 / vLLM) может быть довольно значительным (из-за деталей реализации кернелов). Причем настолько, что при тех же самых весах модели, предсказания могут существенно разняться (другой выбор следующего токена).

Авторы блогпоста замечают, что данная проблема делает on-policy RL по сути off-policy, что негативно сказывается на сходимости.

В качестве решения проблемы предлагается делать своего рода importance sampling с отношением вероятностей модели в фреймворке обучения и инференса. И это хорошо помогает PPO, причем можно даже генерировать роллауты int8 квантизованной моделью без нарушения сходимости. DAPO поверх DeepSeek-R1-Distill-Qwen-1.5B, где отношение вероятностей невелико, работает хорошо и без importance sampling.

Выводы

Мораль басни такова, что численные неточности в DL не всегда совсем безобидны, и временами их стоит иметь в виду. На замерах бенчей результат тоже может существенно разниться между hf и vLLM.

BY КПД




Share with your friend now:
tgoop.com/quant_prune_distill/526

View MORE
Open in Telegram


Telegram News

Date: |

Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail. Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019.
from us


Telegram КПД
FROM American